Investigadores de Darmouth han creado un programa con técnicas de inteligencia artificial que usa fotos para localizar documentos en Internet. El sistema obtiene una precisión en los resultados nunca antes vista. El nuevo sistema, el cual se ha probado con fotografías ahora se está aplicando a videos, mostrando por primera vez que el algoritmo de aprendizaje automatizado para el reconocimiento de imágenes es preciso y eficiente, al menos lo suficiente para mejorar las búsquedas de documentos en línea.
El sistema usa los datos de los pixeles en imágenes y potencialmente video -en lugar de sólo texto- para localizar documentos. Aprende a reconocer los pixeles asociados con la búsqueda de frases y estudiando los resultados de la búsqueda de imágenes basadas en texto. El conocimiento de estos resultados puede aplicarse a otras fotos que no tengan ninguna marca (o tag) que las identifique, logrando así -dicen los investigadores- a mejores resultados en las búsquedas.
Los hallazgos se reportan en la publicación técnica PAMI (IEEE Transactions on Pattern Analysis and Machine Intelligence). «Las imágenes en internet y nuestro enfoque significa que no se puede ignorar esta posibilidad en el obtener documentos asociados a búsquedas de esta naturaleza», dice el Profesor Lorenzo Torresani, uno de los coautores del estudio. «En los últimos 3 años la web ha evolucionado como una pequeña colección de textos, en su mayoría, a un conjunto de datos inmenso, que crece contínuamente y con un formato multimedia, donde casi cada página incluye muchas imágenes o videos.
Cuando una persona ve una página web, inmediatamente obtiene una aproximación de lo que trata la misma con sólo ver las imágenes que se presentan en ella. Sin embargo, aunque nos sorprenda, Google o Bing no toman en cuenta la información contenida en las fotos y se usan exclusivamente los textos de las páginas web para ejecutar un listado de los documentos encontrados. Nuestro estudio es el primero que muestra que los sistemas modernos de visión por computadora son precisos y lo suficientemente eficientes para hacer uso efectivo de la información contenida en los pixeles de las imágenes para mejorar las búsquedas en documentos».
Los investigadores han diseñado y probado un sistema de visión por computadora -un tipo de inteligencia artificial que permite a las computadoras aprender sin ser explícitamente programadas- que extraen la información semántica de los pixeles en las fotos de las páginas web. Esta información es usada para enriquecer la descripción de la página HTML usada por los esquemas de búsquedas para entregar los resultados de las mismas.
Los investigadores probaron su enfoque usando más de 600 consultas en una base de datos de unas 50 millones de páginas web. Seleccionaron los datos textuales de los motores de búsqueda y los han modificado para hacer uso de esta información semántica extraídas con sus propios métodos de imágenes en las páginas web. Sus cálculos estiman un 30% de mejoras en la precisión sobre el motor de búsqueda original basado sólo en texto.
El sistema fue desarrollado por investigadores de Darthmouth College (donde se inventó el lenguaje BASIC), Tecnalia Research & Innovation y Microsoft Research Cambridge.
Referencias: