Hiperzona

Las tecnologías detrás del ordenamiento de Google
31 de Julio del 2008 : eviza   - LEIDO (40)

Amit Singhal, Google Fellow

En mi publicación anterior, introduje las filosofías detrás de los ordenamientos de Google. Como parte de nuestro esfuerzo para dialogar acerca de la calidad de las búsquedas, quisiera compartir contigo un poco más sobre nuestras tecnologías detrás de los ordenamientos. La tecnología principal en nuestro sistema de ordenamiento viene del campo académico de la Recuperación de Información (Information Retrieval –IR por sus siglas en inglés). La comunidad de IR ha estudiado las búsquedas por casi 50 años. La misma utiliza señales estadísticas de palabras notables, tales como frecuencia de palabras, para ordenar páginas. La IR nos proporcionó una base sólida, y hemos construido un tremendo sistema sobre ella utilizando vínculos, estructura de páginas y muchas otras innovaciones semejantes.

En la última década las búsquedas han ido de dame lo que dije a dame lo que quiero. Las expectativas de los usuarios para las búsquedas se han incrementado por derecho. Trabajamos duro para cumplir con las expectativas de todos y cada uno de los usuarios, y para poder hacerlo necesitamos entender mejor las páginas, las preguntas y a nuestros usuarios. En la última década hemos empujado tecnologías que hacen posible entender estos tres componentes (del proceso de búsqueda) hasta dimensiones completamente nuevas.

Cuando hablamos de preguntas en Google, utilizamos corchetes [ ] para marcar el principio y fin de las preguntas (ve "Cómo escribir preguntas” o “How to write queries" por Matt Cutts), una acotación que usaré a lo largo de esta publicación. (Las páginas y los resultados de las búsquedas cambian con frecuencia, por lo que, con el tiempo, algunos de los ejemplos que se usan aquí pueden no comportarse de la manera como se explican.)

  • Entendiendo las páginas: A través de los años hemos invertido fuertemente en nuestro sistema de trepado y de indexación. Como resultado de esto, tenemos un índice muy actualizado y muy grande. En adición al tamaño y a la actualización, hemos mejorado nuestro índice de otras formas. Una de las tecnologías clave que hemos desarrollado es entender las páginas que asocian conceptos importantes con una página, aún cuando no son obvios en la página. Encontramos así la página principal oficial para la galería Sprovieri en Londres para la pregunta por la galería italiana [galleria sprovieri londra], aún cuando la página oficial no tiene ni Londres ni Londra en ella. En Estados Unidos, un usuario que está buscando [cool tech pc vancouver, wa] encuentra la página principal www.cooltechpc.com a pesar de que la página no menciona en ningún lugar que están en Vancouver, Washington. Otras tecnologías que hemos desarrollado incluyen distinciones entre palabras que son más y menos importantes en la página y la actualización de la información en esa página.
  • Entendiendo las preguntas: Es crítico que entendamos lo que nuestros usuarios están buscando (más allá de simplemente unas palabras en su búsqueda). Hemos hecho ciertos avances trascendentales en esta área, incluyendo un sistema de sugerencias de ortografía que es el mejor de su clase, un sistema avanzado de sinónimos y un sistema de análisis de conceptos muy poderoso.

 

La mayoría de los usuarios han utilizado nuestro sistema de sugerencias de ortografía en un momento u otro. El mismo sabe que si alguien está buscando a [kofee annan] en realidad está buscando es al señor Kofi Annan, y se le pregunta: Quizás quiso decir: kofi annan; Mientras que alguien que está buscando [“kofee beans”- es decir, granos de café en español] está es en realidad buscando “coffee beans”. Hacer esto en forma internacional con un alto grado de precisión es difícil, y lo hacemos bien.

Los sinónimos son la base de nuestro trabajo para comprender las preguntas. Este es uno de los problemas más difíciles que estamos resolviendo en Google. Aunque a veces es obvio para los humanos, es un problema que no ha sido resuelto en procesamiento automático de lenguaje. Como usuario, no quiero tener que pensar demasiado en las palabras que necesito usar en mis preguntas. A menudo ni siquiera sé cuales son las palabras adecuadas. Es entonces cuando nuestro sistema de sinónimos entra en acción. Nuestro sistema de sinónimos puede hacer modificaciones sofisticadas de las preguntas, como por ejemplo, entiende que la palabra 'Dr' en una pregunta [Dr Zhivago] significa Doctor mientras que en [Rodeo Dr] significa Drive (que quiere decir calle en inglés). Un usuario que está buscando [reparación de guardabarros de atrás] obtiene resultados para reparación de guardabarros trasero. Para [Ramstein ab], automáticamente buscamos Ramstein Air Base (Base Aérea Ramstein); Para la pregunta [b&b ab] buscamos por Bed and Breakfasts (hoteles llamados en inglés “Cama y Desayuno”) en Alberta, Canadá. Hemos desarrollado este nivel de entendimiento de las preguntas para cerca de cien diferentes lenguajes, y es algo de lo cual me siento realmente orgulloso.

Otra tecnología que usamos en nuestro sistema de ordenamiento es el de identificación de conceptos. Identificar conceptos críticos en una pregunta nos permite ofrecer resultados mucho más relevantes. Por ejemplo, nuestros algoritmos entienden que en la pregunta [iglesia de new york times square] el usuario está buscando la muy conocida iglesia de Times Square y no los artículos del New York Times. No nos detenemos simplemente en identificar conceptos: mejoramos la pregunta con los conceptos adecuados cuando, por ejemplo, alguien que está buscando [PCs y su impacto en las personas] está en realidad buscando el impacto de las computadoras en la sociedad, o cuando alguien que busca [actividades instructivas de la selva tropical para vocabulario] está realmente buscando es unos planos para lecciones escolares sobre la selva tropical. Nuestros algoritmos de análisis de preguntas tienen muchas técnicas de vanguardia de este tipo incorporadas en ellos, y una vez más, hacemos esto de forma internacional en casi todos los lenguajes que ofrecemos.

  • Entendiendo a los usuarios: Nuestro trabajo de interpretar la intención del usuario está dirigida hacia ofrecer los resultados que la gente realmente quiere, no simplemente lo que dijeron en su pregunta. Este trabajo comienza con un sistema de adaptación de clase mundial, y se agrega a nuestra tecnología de personalización avanzada, y otros varios grandes avances que hemos hecho para interpretar la intención del usuario, como por ejemplo las Búsquedas Universales (Universal Search).

Nuestro claro enfoque en "los resultados locales más relevantes ofrecidos a nivel global" se refleja en nuestro trabajo de adaptación o de “transformar en local”. La misma pregunta escrita en múltiples países puede obtener resultados totalmente diferentes. Un usuario que está buscando un [banco] en los Estados Unidos debe obtener bancos norteamericanos, mientras que un usuario en el Reino Unido estará buscando bien sea la línea de moda de Bank Fashion o las instituciones financieras británicas. Los resultados de esta pregunta deberán dar como resultado instituciones financieras locales en otros países angloparlantes como Australia, Canadá, Nueva Zelanda y Sudáfrica. La diversión comienza en verdad cuando esta pregunta es hecha en los países que no son angloparlantes tales como Egipto, Israel, Japón, Rusia, Arabia Saudita, y Suiza. Asimismo, la pregunta [fútbol - escrito football en inglés] hace referencia a deportes totalmente diferentes en Australia, el Reino Unido y los Estados Unidos. Estos ejemplos lo que muestran es cómo obtenemos la versión local del mismo concepto en forma correcta (institución financiera, deporte, etc.). No obstante, la misma pregunta puede significar cosas completamente distintas en diferentes países. Por ejemplo, [Côte d'Or] es una región geográfica de Francia – pero es también un gran fabricante de chocolates en Bélgica, la región francoparlante vecina. Y sí, este resultado también lo tenemos bien :-).

La personalización es otra característica fuerte en nuestro sistema de búsqueda que ofrece resultados a la medida de los usuarios individuales. Los usuarios que están registrados (logged-in) mientras realizan búsquedas y que se han registrado para tener una Historia de Web (Web History) obtienen resultados que son mucho más relevantes para ellos que los resultados generales de Google. Por ejemplo, cuando alguien hace muchas búsquedas relacionadas con fútbol americano puede obtener más resultados relacionados para los [Giants] - el equipo de Nueva York, mientras que otro usuario puede obtener resultados relacionados con el equipo de béisbol de San Francisco. De forma similar, si tiendes a preferir resultados de un sitio de compras en particular, es posible que obtengas más resultados de ese sitio cuando busques productos. Nuestra evaluación muestra que los usuarios que obtienen resultados personalizados los encuentran de mayor relevancia que los resultados que no son personalizados.

Otro caso de intención de usuario puede ser visto con la pregunta [chevrolet magnum]. Magnum es actualmente hecho por Dodge y no por Chevrolet. Entonces presentamos los resultados para Dodge Magnum con la pregunta Ver resultados para: dodge magnum en nuestro juego de resultados.

Nuestro trabajo en Búsqueda Universal (Universal Search) es otro ejemplo de cómo interpretamos la intención del usuario para darle lo que (en ocasiones) realmente quiere. Alguien que esté buscando [Bangalore] no sólo obtiene las páginas web importantes, sino que también obtiene un mapa, un video que muestra la vida en la calle, el tráfico, etc. en Bangalore. Viendo este video casi me siento como si estuviera ahí :-) , y en el momento en que escribo esto hay noticias relevantes y blogs relevantes sobre Bangalore.

Finalmente permíteme mencionar brevemente el más reciente avance que hemos hecho en nuestras búsquedas: Recuperación de Información de Lenguaje Cruzado (Cross Language Information Retrieval- CLIR por sus siglas en inglés). CLIR le permite a los usuarios descubrir por primera vez información que no está en su lenguaje, y luego, utilizando la tecnología de traducción de Google, ponemos esta información a su disposición. Yo le llamo a esto un avance: denme lo que quiero en cualquier lenguaje. A un usuario que esté buscando una biografía de Tony Blair en Rusia que escriba la pregunta en ruso [Тони Блэр биография] se le pregunta al final de los resultados si quiere buscar en la web en inglés con:

De igual manera, a un usuario que busque las canciones de las películas de Disney en Egipto con la pregunta [أغاني أفلام ديزني] se le pregunta si quiere buscar en la Web en inglés. Estamos muy emocionados con CLIR ya que nos acerca a un más a nuestra misión de organizar la información del mundo y ponerla a disposición de forma útil y universal.

Podría extenderme mostrando ejemplos de tecnología de punta que hemos desarrollado para hacer que nuestro sistema de ordenamiento sea tan bueno como es, pero el hecho es que las búsquedas no están ni cerca de ser un tema resuelto. Muchas preguntas aún no obtienen resultados satisfactorios de Google, y cada pregunta de estas es una oportunidad para mejorar nuestro sistema de ordenamiento. Estoy seguro de que con las numerosas técnicas que están en desarrollo actualmente en nuestro grupo, haremos grandes mejoras en nuestros algoritmos de ordenamiento en el futuro próximo.

Espero que mis dos blogposts sobre el ordenamiento de Google hayan dejado claro que vivimos y respiramos las búsquedas, y que nos sentimos más apasionados con el tema que nunca antes. Nuestro fervor por servir a todos los usuarios a nivel mundial no tiene precedentes. Nos sentimos orgullosos de tener corriendo un sistema de ordenamiento muy bueno, y estamos trabajando diariamente de forma increíblemente fuerte para hacer que sea cada vez mejor.

Articulo Original:Permalink 

Regresar a pagina Principal...[+]

COMENTARIOS

Tienes que registrarte y Entrar como usuario para dejar algun comentario!!!


Newsletter



 

Menu General

Anuncios



Login Form






Recordar contraseña?
No tienes tu cuenta? Registrate


Suscríbete

 
Add to Google Reader or Homepage
Suscribirse a NewsGator Online
Add to My AOL
Suscribirse a Bloglines
Add to netvibes
Add to Pageflakes
Add to Excite MIX
Add to Plusmo

Enlaces

Add to Technorati Favorites
site statistics