Maquinaria de Google

Cómo funcionan las búsquedas de Google

Estoy seguro que habrás utilizado Google miles de veces para buscar algo en Internet. Con tu ordenador, tu portátil, tu smartphone o tu tablet has buscado información tantas veces que ya se ha convertido en un hábito y una costumbre común en tu vida. Bueno, en la vida de casi todos.

Entrar en Google y buscar cualquier información en un clic es cuestión de segundos. Ahora, hasta es posible hacerlo con la voz sin la necesidad de teclear. Pero, ¿te has preguntado alguna vez qué hay detrás de todo ese proceso de búsqueda que realiza Google? ¿Qué hace Google desde que escribes lo que quieres buscar hasta que te muestra los resultados?

Aquí voy a intentar darte un poco de luz a todo ese misterioso proceso que, aunque aparentemente dura menos de un segundo, en realidad hay muchas horas de trabajo detrás por parte de los técnicos de Google.

Rastreo e Indexación

Toda búsqueda que se realiza en Google comienza con «la web», con Internet, la red de redes. A día de hoy, en Internet existen 60 trillones de páginas web agrupadas en otros tantos sitios web. Y la cifra sigue creciendo a diario.

Pues bien, Google navega por Internet mediante el rastreo. Utiliza su famoso robot rastreador, bautizado como Googlebot, para descubrir todas las páginas web que encuentra en Internet, lo que significa que va siguiendo todos los enlaces página a página.

Es en este punto donde se tiene en cuenta el contenido que los administradores o webmasters de las páginas web permiten que sea encontrado por el robot de Google. A veces, puede resultar interesante que cierta información no sea rastreada, encontrada o indexada.

Todas las páginas que Google va encontrado las va almacenando e indexando en su enorme base de datos, clasificándolas según su contenido y otros factores. Pero no sólo eso.

Google también almacena otros datos, como, por ejemplo, texto sacado de millones de libros procedentes de importantes librerías y otros proveedores, o, incluso, datos del mundo físico procedentes de su herramienta Street View.

Además, Google utiliza su propio gráfico de conocimiento, el cual le permite organizar toda esa información para entender mejor los datos sobre las personas en el mundo real, así como los lugares y las cosas que te interesan, con el fin de proporcionarte mejores respuestas a las búsquedas planteadas.

Así es como se crea el famoso «índice de Google», el cual mantiene en constate seguimiento y actualización. A día de hoy, el índice de Google tiene un tamaño aproximado de 100 millones de GB.

«El perfecto motor de búsqueda debería entender exactamente qué necesitas y devolverte exactamente lo que quieres»

Larry Page. Co-fundador y CEO de Google.

El Algoritmo de Google

Al igual que la fórmula de la Coca-Cola o el misterio del triángulo de las Bermudas, el algoritmo de Google es otro gran secreto. Bueno, en realidad son varios secretos, porque Google no utiliza un sólo algoritmo, sino muchos para poder realizar todo el proceso de las búsquedas.

Los ingenieros de Google escriben miles y miles de líneas de código para crear programas y fórmulas que se unen para formar los algoritmos, con el objetivo de entregar los mejores resultados posibles ante un búsqueda planteada.

Algoritmo de Google
Muchos creen que el algoritmo de Google es como el código de la película «Matrix». Pero no es así ni mucho menos.

Los algoritmos se encargan de buscar pistas para comprender mejor a lo que te refieres cuando haces una búsqueda. La mayoría pasan desapercibidos, pero, en realidad, están ahí. Algunos ejemplos son:

  • Google Instant. Muestra de modo inmediato los resultados según lo que has tecleado en el buscador.
  • Métodos de búsqueda. Creaciones de nuevas formas de búsqueda, como la búsqueda por imágenes o la búsqueda por voz.
  • Comprensión de la consulta. Se consigue un entendimiento más detallado de las palabras que escribes en el buscador.
  • Sinónimos. Reconocimiento de palabras con significado similar.
  • Autocompletar. Predice lo que debes estar buscando, incluyendo el entendimiento de términos con más de un significado.
  • Ortografía. Identificación y corrección de posibles errores ortográficos, ofreciendo alternativas.

Finalmente, teniendo en cuenta todas las pistas obtenidas mediante la ejecución de uno o varios algoritmos, Google obtiene todos los documentos relacionados procedentes de su índice y los clasifica en el famoso RANKING de Google.

Pero antes de entrar de lleno en conocer cómo funciona el Ranking de Google, veamos dónde se realizan todos estos procesos y, lo que es más importante, cómo se continua con la investigación, evolución y mejora de estos algoritmos.

No olvides que Google se va actualizando frecuentemente, y eso es porque está en continua evolución y aprendizaje. Todo esto tiene lugar en el laboratorio de búsquedas de Google.

El Laboratorio de Búsquedas

Los algoritmos de Google viven en un continuo cambio. Cambian constantemente. Esos cambios comienzan siendo ideas, a veces disparatadas, en las mentes de los ingenieros de Google, pero que poco a poco van tomando forma.

Cada idea que supera la primera criba pasa a ser un algoritmo potencial. Se realizan experimentos, se analizan resultados, se realizan ajustes y se vuelven a realizar más experimentos. Así, una y otra vez.

Pero, ¿qué se hace realmente en el laboratorio de Google? Pues, entre otras muchas cosas, todo esto:

  • Evaluación de precisión. Es una tarea que realizan unos técnicos de Google capacitados para determinar la calidad de las búsquedas que se realizan (denominados por el propio Google como «evaluadores de búsquedas»), califican la utilidad de los resultados individuales para una concreta búsqueda. En un año normal, los evaluadores de búsquedas pueden realizar hasta 40.000 evaluaciones de precisión, unas 110 evaluaciones al día.
  • Experimentos «lado a lado». En un experimento «lado a lado», los evaluadores realizan una revisión de dos conjuntos diferentes de los resultados que ofrece una búsqueda determinada: uno mediante el algoritmo antiguo y otro mediante el algoritmo experimental. Después, se analizan los resultados y documentan la información obtenida sobre las diferencias conseguidas. En un año normal, los evaluadores pueden realizar hasta 9.000 experimentos «lado a lado», unos 25 experimentos al día.
  • Experimento de tráfico en tiempo real. En los experimentos de tráfico en tiempo real, se cambian las búsquedas para un pequeño porcentaje de usuarios reales de Google y se observa cómo afectan dichos cambios a su experiencia. Después, se analizan cuidadosamente los resultados para conocer si los cambios son realmente una mejora de las búsquedas o no. En un año normal, se pueden realizar hasta 7.000 experimentos de tráfico en tiempo real, unos 20 experimentos al día.
  • Lanzamiento. Los ingenieros jefe de Google revisan todos los datos de los experimentos y toman la decisión de si los cambios deben lanzarse y aplicarse para todos los usuarios de Google. Basándose en todos los experimentos realizados todos estos años atrás, Google prevé lanzar más de 500 mejoras de búsquedas en un año normal.

Te dejo un pequeño vídeo publicado en el propio canal de YouTube de Google donde se da una idea del trabajo que se realiza en el laboratorio de Google con el fin de mejorar las búsquedas. Aunque está en inglés, puedes poner los subtítulos en español para poder entender todo lo que dicen los ingenieros de Google.

Y ahora sí, veamos en detalle como funciona el Ranking de Google a la hora de clasificar los resultados encontrados para una búsqueda determinada.

El Ranking de Google

El Ranking de Google no es otra cosa que la clasificación de los resultados obtenidos cuando se realiza una búsqueda. Como hemos visto, Google tiene almacenadas millones y millones de páginas web y otros documentos en su base de datos, y es necesario mostrar todo siguiendo un orden y una clasificación cuando un usuario busca sobre un tema en concreto.

Pero, ¿qué criterios sigue Google para ordenar dichos resultados y mostrar una web antes que otra? Esta es la eterna pregunta que todo el mundo se pregunta. Su respuesta sigue siendo una incógnita, pero es cierto que Google nos da ciertas pistas sobre ello.

Y estas pistas son los cimientos sobre los que se sostiene el trabajo de quienes nos dedicamos al posicionamiento web en Google. Google tiene en cuenta alrededor de 200 factores para crear su Ranking. Alguno de los más importantes son estos:

  • La calidad del sitio y de la página. Mediante un conjunto de señales Google determina cuánta confianza genera una página y una web y cuánta reputación buena posee en Internet, y, a la vez, qué fuentes de autoridad tiene. Una de estas señales es el famoso PageRank, uno de los primeros algoritmos de Google que consistía en otorgar una nota del 1 al 10 a una web en función de los enlaces externos relevantes, aunque ya hace tiempo que Google no actualiza este valor.
  • Frescura y actualidad. El contenido reciente y actualizado es muy importante. Google tiene en cuenta con qué frecuencia se actualiza una web para tener indexado las últimas noticias e información. Esto también incluye la recopilación de resultados oportunos cuando se realizan búsquedas utilizando fechas específicas.
  • Búsquedas seguras. Google reduce considerablemente la cantidad de contenido sensible procedente de webs para adultos, como imágenes o vídeos, en los resultados de búsqueda. En este aspecto, nos percatamos de que cualquier enlace externo procedente de este tipo de webs no es beneficioso para el posicionamiento.
  • Contexto de los usuarios. Google también tiene en cuenta los datos del usuario que busca para mostrarle mejor unos resultados u otros según la búsqueda realizada. Factores como la ubicación geográfica, el historial web o, incluso, haber iniciado sesión en GMail influye en los resultados que Google te mostrará cuando hagas cualquier búsqueda.
  • Traducción. Los resultados que Google muestra según las búsquedas tienen en cuenta el idioma y el país del usuario, mostrando así sólo aquellos resultados relevantes para que el usuario pueda entenderlos y comprenderlos.
  • Búsquedas universales. Cuando Google muestra los resultados que ha encontrado, no sólo muestra contenido en forma de texto, sino que mezcla el contenido relevante encontrado también en forma de imágenes, noticias, mapas, vídeos, y otro contenido personal. Y todo en una sola página de resultados.

Pues bien, todos estos análisis, procesos y demás acciones ocurren solamente en una octava parte de segundo. ¡Impresionante! Imagina lo potente e inmensa que son los servidores e instalaciones de Google para llevar a cabo tantas operaciones en tan poco tiempo.

Haciendo clic en la siguiente imagen, donde puedes apreciar una de las naves donde se almacenan varios de los servidores de Google, podrás hacer una visita virtual a uno de los centros de datos de Google. Te lo recomiendo. ¡No tiene desperdicio!

Centro de datos de Google. Servidores

Una vez obtenidos los resultados ordenados y posicionados según los criterios propios de Google en su famoso Ranking, el modo de mostrarlos a los usuarios puede tomar diversas formas.

La Presentación de los Resultados

Como ya hemos visto, el motor de búsqueda de Google no sólo se encarga de realizar todo el proceso de recopilar la información relacionada con la búsqueda solicitada, sino que también se encarga de clasificar dicha información y presentársela al usuario.

Pero como existen diversas formas de buscar algo en Google (mediante texto, por voz, por imágenes…) y existen diversos dispositivos desde los que buscar (PC, portátil, smartphone, tablet…), Google presenta la información encontrada también de diversas formas:

  • Gráfico de conocimiento. Proporciona resultados obtenidos en una base de datos de las personas en el mundo real, de lugares, de cosas y de las conexiones entre ellos.
  • Snippets o fragmentos. Muestra las vistas previas de información, como el título de una página y un breve texto descriptivo, para cada resultado de búsqueda.
  • Noticias. Incluye los resultados de los periódicos digitales y blogs de todo el mundo, de todo Internet.
  • Respuestas. Muestra las respuestas inmediatas y concreta información para cosas tales como el clima, los resultados deportivos y otros datos rápidos.
  • Vídeos. Muestra los resultados obtenidos en forma de vídeo con imágenes en miniatura para que el usuario pueda decidir rápidamente qué vídeo desea ver.
  • Imágenes. Muestra los resultados obtenidos en forma de imágenes con imágenes en miniatura para que el usuario pueda decidir qué página visitar con solo vistazo a dicha miniatura.
  • Refinamientos. Proporciona funciones como «Búsqueda avanzada» búsquedas relacionadas, y otros métodos alternativos de búsqueda. Todos ellos ayudan a afinar la búsqueda realizada.
  • Búsqueda por voz. Con la aplicación de Búsqueda de Google de un smartphone o tablet, el usuario sólo tiene que hablar lo que desea buscar para obtener respuestas de forma inmediata, sin la necesidad de teclear. También existen otro tipo de mejoras específicamente diseñadas para las búsquedas que se realizan a través de dispositivos móviles.

Google siempre se centra en ofrecer la mejor experiencia de usuario y ofrecer a cada usuario que realiza una búsqueda la información exacta que busca. Para conseguirlo, Google combate sin descanso el temido SPAM.

La Lucha de Google contra el Spam

Google lo tiene claro. La calidad de las búsquedas pasan por eliminar el contenido no deseado, por eliminar el temido spam. Por eso lucha las 24 horas del día, los 7 días de la semana, para mantener los resultados relevantes en las búsquedas que se realizan en su motor.

La mayor parte de la eliminación de spam que realiza Google es automática (otro algoritmo por aquí). Pero, en ocasiones, los técnicos de Google examinan otros documentos sospechosos de contener spam de forma manual, de tal forma, que si realmente encuentran el spam, lo eliminan de forma manual. Sin duda, una laboriosa tarea.

Pero, ¿que tipo de contenido considera Google como spam? Pues más del que te podías imaginar. Este es el tipo de contenido que Google considera como spam y, por consiguiente, nunca mostrará en los resultados de búsquedas:

  • Puro spam. Sitios web sospechosos de utilizar técnicas de spam agresivo, como un galimatías generado automáticamente, encubrimiento, recortes de contenidos de otros sitios web, así como también repetidas o graves violaciones de las directrices para webmasters de Google.
  • Texto oculto y/o relleno de palabras clave. Sitios web que contienen texto oculto en sus páginas y/o relleno masivo de palabras clave sin sentido.
  • Spam generado por el usuario. Sitios web sospechosos de albergar contenido spam generado por los usuarios, como, por ejemplo, páginas de foros, páginas con libro de visitas, o, simplemente, perfiles de usuario.
  • Dominios «aparcamiento». Sitios web de marcadores de posición con poco contenido único, por lo que Google no los incluye en los resultados de búsqueda. Son los típicos sitios de marcadores de enlaces (bookmarks) o directorios de enlaces.
  • Poco contenido o contenido sin valor añadido. Sitios web con páginas de baja calidad o con contenido poco profundo o detallado y que no proporcionan a los usuarios un gran valor añadido, como, por ejemplo, páginas de afiliados, páginas «puerta», sitios de cookies, contenido generado automáticamente o contenido copiado de otros sitios.
  • Enlaces no naturales hacia sitios webs. Google es capaz de detectar patrones de enlaces no naturales o artificiales, engañosos o manipulados apuntando a sitios webs. Estos pueden ser resultado de una compra de enlaces que pasan PageRank o que participan en esquemas de enlaces.
  • Servidores gratuitos fraudulentos y proveedores de DNS dinámicas fraudulentos. Sitios webs alojados en un servicio de alojamiento gratuito o  en un proveedor de DNS dinámicas que poseen una fracción significativa de contenido fraudulento.
  • Camuflaje o redireccionamiento engañoso. Sitios web que parecen estar encubriendo contenido (visualización de contenido que a los usuarios humanos se muestra diferente que a los motores de búsqueda) o que redirigien a los usuarios a una página diferente a la que Google vio e indexó.
  • Sitios pirateados. Algunas páginas del sitios web que pueden haber sido hackeadas por un tercero para mostrar contenido spam o enlaces interesados. En estos casos, los propietarios de dichos sitios web deben tomar medidas inmediatas para limpiar sus sitios y solucionar las posibles vulnerabilidades de seguridad.
  • Enlaces no naturales procedentes de otros sitios webs. Google es capaz de detectar patrones de enlaces no naturales o artificiales, engañosos o manipulados que llegan desde otros sitios webs. Estos pueden ser resultado de una compra de enlaces que pasan PageRank o que participan en esquemas de enlaces.
Stop spam
El spam es uno de los ataques más molestos e interminables de Internet. Y es muy complicado erradicarlo por completo. Google sigue luchando cada día para libranos del spam.

Cada vez que Google detecta algún tipo de spam en un sitio web y realiza una acción, siempre intenta notificar al propietario del sitio web afectado para que tome las medidas necesarias. Y hasta que no se resuelva el caso en cuestión, el sitio web comprometido no aparecerá en los resultados de búsqueda de Google.

Una vez corregidos los problemas, los mismos propietarios deben informar a Google de que su sitio web ya está arreglado y limpio de spam, Google vuelve a comprobar el sitio web y si ya no detecta spam en él lo vuelve a incluir en sus resultados de búsqueda. Como ves, el spam no es ninguna tontería.

Y así es como funcionan por dentro las búsquedas de Google. Impresionante, ¿verdad? Detrás de la sencilla página de resultados que aparece tras realizar una búsqueda hay detrás un complejo sistema cuidadosamente elaborado y testado capaz de soportar más de cien mil millones de búsquedas al mes.

Y todo a sólo un clic.

Fuente original: http://www.google.com/insidesearch/howsearchworks/thestory/index.html

¡VOTA ESTE ARTÍCULO!

5 comentarios en “Cómo funcionan las búsquedas de Google”

  1. Fantástico artículo. ¿En serio hay todo eso detrás de una simple búsqueda en Google? Si es así, lo tenía infravalorado. En realidad, si te pones a pensar es lógico que haya todo eso para que en décimas de segundo muestre unos resultados según la búsqueda introducida.

    Apasionante este artículo que se lo recomiendo leer a todos. Felicidades Oscar.

    Un saludo.

    1. Hola Luis. Gracias por tus elogios.

      Pues sí, todo eso hay detrás de una simple búsqueda de Google. Y esto sólo para las búsquedas. Imagina todo lo que hay detrás para otras herramientas de Google como Maps, GMail, AdWords, AdSense, etc.

      Gracias por seguirme y leerme. Saludos cordiales.

  2. Vaya, no tenía ni idea de todo lo que hay detrás de Google. Sin duda un grandísimo trabajo. Gracias por toda esta información. Excepcional artículo y muy interesante.

    1. Gracias Alicia. La verdad es que sí. Muchas veces no pensamos en todo el trabajo que hay detrás de una web, como para pensar todo lo que hay detrás de un buscador como Google, que aparentemente parece simple. Todo un trabajo de ingeniería donde intervienen miles de personas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.