Para promover la investigación de cómo el aprendizaje de las computadoras puede aplicarse a los problemas de lenguaje natural, Google Knowledge está publicando un toolkit de código abierto llamado Word2Vec, cuya intención es aprender el significado detrás de las palabras.
Google está haciendo mucho ruido con su investigación en redes neurales y, habiendo aplicado el aprendizaje profundo a la búsqueda de fotografías y reconocimiento del habla, el equipo de Google Knowledge ha decidido investigar al respecto en el lenguaje natural.
En un artículo del blog titulado “Learning the meaning behind words”, Tomas Mikolov, Ilya Sutskever y Quoc Lee introducen Word2Vec, un toolkit de código abierto que puede aprender conceptos leyendo muchos artículos de noticias y sin necesidad de supervisión humana. El blog explica que Word2Vec usa representaciones distribuidas de texto ara capturar similitudes entre conceptos y da ejemplos que demuestran el éxito del aprendizaje con conceptos como el de las capitales de los países.
La gráfica demuestra que Word2Vec entiende que París y Francia están relacionadas de la misma manera que Berlín y Alemania (capital y país), y no de la misma manera en como Madrid se relaciona con Italia.
Como explican los investigadores: “El modelo no solamente coloca países similares unos junto de otros, sino que acomoda sus capitales en forma paralela. La parte más interesante es que no le dimos ninguna información antes o durante el entrenamiento. Muchos más patrones como estos salieron a la luz cuando se entrenó al sistema”.
Esto sugiere (los investigadfores de hecho lo sugieren), que hay un amplio rango de aplicaciones potenciales para este tipo de herramientas de representación de textos, incluyendo la representación y extracción del conocimiento; sistemas conversacionales; sistemas de preguntas y respuestas; traducción automática; entre otros y por esta razón han puesto en código abierto el código que permitirá a los investigadores en aprendizaje de las máquinas, inteligencia artificial y de lenguaje natural, a crear aplicaciones en el mundo real.
Los detalles de la metodología encapsulada en Word2Vec están disponibles en un artículo técnico: “Efficient Estimation of Word Representations in Vector Space” por los “googleros” Tomas Mikolov, Kai Chen, Greg Corrado y Jeff Dean en donde se describen los progresos recientes que se están haciendo en las redes neuronales para entender el lenguaje natural.
De acuerdo a un artículo en “Research at Google”: “Representando las palabras como vectores de muchas dimensiones, se pueden diseñar y entrenar modelos para el aprendizaje de los significados de las palabras de una manera no supervisada a partir de un largo cuerpo de textos. Con ello, encuentran que palabras similares se acomodan unas al lado de las otras en un espacio vectorial altamente dimensional, permitiendo hallar resultados interesantes que viednen de operaciones matemáticas en la representación de las palabras. Por ejemplo, este método nos permite resolver analogías simples haciendo aritmética en los vectores de las palabras y examinando las palabras más cercanas en el espacio vectorial.
El artículo teórico incluye estadísticas sorprendentes que usan una nueva arquitectura en donde dice haberles tomado menos de un día para aprender vectores de palabras de alta calidad a partir de 1.6 millardos de palabras.
Referencias: