Datos interesantes y curiosos de Google

por Victor 27-febrero-2009

Os dejo con unos cuantos datos curiosos sobre Google que han aparecido recientemente.

En el periodo 1999-2009 han cambiado:
– el número de consultas en el buscador, que se ha multiplicado por 10.000
– el tiempo entre actualizaciones de un documento web, que se ha reducido 10.000 veces. Antes transcurrían meses hasta que se actualizaba en el índice un sitio web que había sido modificado, y ahora son solamente unos pocos minutos.
– la potencia de procesamiento, que se ha multiplicado por 1.000
– el tiempo de procesamiento de una consulta, que se ha reducido 5 veces. El tiempo medio hace 10 años era de 1 segundo, y ahora tarda unos 200 milisegundos.

Cosas que había a finales de los 90:
– existía un proceso batch que rastreaba las páginas web, y que se detenía cuando había «˜demasiadas»™ páginas
– existía un proceso de indexado de estas páginas hecho con herramientas Unix, que era bastante propenso a fallar y a ser contradictorio
– el formato del índice original (año 1997) era un simple sistema «˜byte-aligned»™ que codificaba información del campo «˜ocurrencias de una palabra»™, lo que suponía un montón de accesos a disco.

Al de unos pocos años:
– se redujo un 30% el tamaño del índice, gracias a que se construyo otro de longitud variable basado en bloques que utilizaba tablas para palabras con un gran número de ocurrencias. Además de la reducción del tamaño, el índice era más fácil de decodificar.
– se añadieron servidores de cacheo tanto para los resultados como para los «™snippets»™ de los documentos que aparecen en estos resultados.
– a principios de 2001 comenzaron a utilizar un índice construido en memoria donde los servidores de indexado (junto a los servidores de documentos, servidores de cacheo, etc.) hablaban directamente con los servidores web donde los usuarios realizan las peticiones.
– el índice fue particionado por documentos en lugar de por términos.

Cosas que se han hecho últimamente:
– se utiliza tecnología contruida dentro de Google. Tanto la física (el diseño de los racks, las placas madre) como la lógica (modifica el kernel de Linux, sistema «˜Google File System»˜, sistema «˜BigTable»˜)
– se utiliza el entorno de desarrollo MapReduce para indexar
– en 2004 se comenzó a utilizar a un sistema jerárquico para servir los índices, y que estaba basado en índices constuidos sobre «˜Google File System»™
– actualizaciones del índice mucho más rápidas
– en 2007 se añadió el servidor «™super root»™ que comunica con todos los servidores de índices (Google News, buscador de imágenes, buscador de vídeos) para permitir «˜Google Universal Search»˜

Pasos que Google sigue para experimentar con cambios en los algoritmos del buscador:
– se gesta una idea de nuevo ránking
– se generan datos para ejecutar pruebas rápidamente utilizando MapReduce, BigTable, etc.
– se realizan pruebas de los resultados tanto con humanos como con consultas aleatorias para comprobar los cambios en el ránking.
– se experimenta este cambio con un pequeño porcentaje de las búsquedas reales (por eso a veces los usuarios vemos experimentos)
– se realizan ajustes sobre la implementación para pre-procesar los datos y hacerlos factibles a plena carga, incorporando a su vez la información necesaria al índice

Futuros retos:
– manejo de información en diferentes idiomas. Actualmente hay una funcionalidad parecida, pero se pretende mejorarlo en muchos aspectos
– desarrollo de sistema capaz de mostrar en los resultados documentos tanto públicos (rastreados de la WWW), como privados (por ejemplo, archivos de «˜Google Docs»˜) o semi-privados (compartidos).
– construcción automática de sistemas de tratamiento de la información para diferentes necesidades.

por Victor

Me llamo Víctor López y nací en Zaragoza el 16 de Diciembre de 1984. Esta web la monté exactamente el 23 de Mayo del 2005 con la idea de publicar mis experiencias personales, cosas curiosas que veía a mi alrededor (tanto en Internet como en mi vida) y el poder tener mi propio espacio web en la red. Si quieres puedes ver las estadísticas del año 2010. Ingeniero Superior en informática (terminé la carrera en 2006), desde pequeño ya estaba totalmente convencido a lo que me iba a dedicar en mi vida, la informática. Quizás porque mi padre tenía un Spectrum y me pegaba horas trasteándolo o quizás porque desde pequeño siempre me han gustado “los chismes”. El caso es que empezó a gustarme este mundo de la informática. Profesionalmente soy Analista-Programador Senior en PHP y me dedico al análisis, desarrollo y programación de páginas web y al desarrollo de aplicaciones (principalmente web en PHP, empecé a programar en el año 2002 en PHP), creación, alojamiento, optimización (diseño, SEO, publicidad), puesta en marcha de webs y potenciándolas. Actualmente soy Lead Integration Engineer en EnGrande.com – BudGetPlaces.com, además de formar parte de Homein.com (anteriormente he trabajado en Atrapalo.com, Camyna.com y Sync.es). Socio fundador de Coompy.es Alquilar habitación – Compartir piso. Partidario del software libre y usuario asiduo de Ubuntu y CentOS. Fui usuario de Mac pero ahora ya he vuelto al buen camino con Linux (Ubuntu distro). Sobre mi filosofía de vida, te invito a que leas este artículo: “Tu eres el resultado de ti mismo“. Si lo lees, entenderás mi punto de vista de la vida. Intento estar lo más lejos posible de la monotonía y considero mi trabajo como un hobby, me gusta aprender cosas nuevas cada día y afrontar nuevas metas y proyectos. En mi tiempo libre me gusta practicar cualquier deporte (el fútbol especialmente), me gusta competir (sea el ámbito que sea), los coches, las buenas películas/series y viajar. Personalmente considero que lo primero en esta vida es la salud y las personas, dejando atrás otras cosas, como puede ser el dinero, la fama y todas esas chorradas, que cuanto más las tienen las personas, más las quieren y menos les importan los demás. Y creo que el respeto y educación es fundamental. Pues eso es todo, un breve resumen de mi persona. Si te quieres anunciar en mi blog, contactar conmigo ya sea para la contratación de mis servicios, ofertas, agradecimientos, quejas, insultos, amenazas y/o similares, puedes mandarme un correo cuando quieras. Mi correo personal de contacto es: http://helektron.com/contacto-personal/ Puedes seguir este blog por Google Plus, Facebook, Twitter, RSS y por mail.

Cosas curiosas

Un comentario en «Datos interesantes y curiosos de Google»

Aprender Inglés Online dice:

28-febrero-2009 a las 5:59 pm

Otros futuros retos:

1. Intentar que Gmail no se caiga durante 2 o más horas de nuevo.
2. No cometer fallos tontos y añadir «/» en el fichero con las webs dañinas ya que hará que todas las páginas aparezcan como dañinas en google (fallo o hack en google?)

Datos interesantes y curiosos de Google

por Victor

Entradas relacionadas

Un comentario en «Datos interesantes y curiosos de Google»

Deja una respuesta

Te has perdido

Cómo no celebrar la parada de un penalty

El Mercado de la Marihuana Medicinal ¿Una Bendición en Disfraz?

Reacción de un profesor ante la broma de sus estudiantes

Policía cantando canción de Taylor Swift