Los avances en la Inteligencia Artificial (IA) son en muchos casos asombrosos, aunque hay que reconocer que siempre están limitados por el dominio en el que actúan, es decir, son por ejemplo programas estupendos para jugar ajedrez o el juego oriental Go, o bien, son extraordinarios para reconocer objetos que aparecen en fotografías. La pregunta que ahora se hacen los científicos es si se puede dar un nuevo brinco tecnológico enseñándoles a las máquinas que se den cuenta de su entorno.
Una nueva base de datos llamada Visual Genome podría llevar a las computadoras a este gran salto tecnológico y ayudar así a las máquinas a entender el mundo real de mejor manera. Enseñarle a las computadoras a comprender escenas visuales es muy importante en el campo de la IA. Y no es solamente un problema de algoritmos de visión por computadora, sino el buscar cómo hacer para entrenar a las computadoras para comunicarse más efectivamente pues es claro que el lenguaje parece estar íntimamente ligado con el mundo físico.
Visual Genome fue desarrollado por Fei-Fei Li, un profesor especializado en visión por computadora y quien dirige actualmente el laboratorio de IA de Stanford. El proyecto, en el que trabajan muchos de sus colegas, intenta enfocarse en las preguntas más difíciles de la visión por computadora, las cuales tienen que ver con la percepción y la cognición del entorno. Dice Li:
“No se trata de tomar los datos de los pixeles e intentar entender de qué color son, si tienen sombra, etcétera, sino el entender el mundo 3D como un mundo semántico visual”.
Li y sus colegas habían creado antes imageNet, una base de datos que contiene más de un millón de imágenes que están etiquetadas por su contenido. Cada año hay un reto llamado ImageNet Large Scale Visual Recognition Challenge, que prueba la capacidad de los programas para reconocer automáticamente el contenido de las imágenes.
En el 2012 un equipo lidereado por Geofrey Hinton, de la Universidad de Toronto, construyó una poderosa red neuronal que podía categorizar las imágenes de forma mucho más precisa que cualquier programa antes escrito. La técnica usada, conocida ahora como “aprendizaje profundo”, involucra alimentar con miles de millones de ejemplos en muchas redes neuronales de varias capas, de forma que gradualmente entrenen cada una de estas capas de neuronas virtuales para responder a las características abstractas que a todo esto, son muchas y variadas, desde la textura de la piel de un perro, hasta la forma del mismo.
El equipo de Toronto logró que se iniciara literalmente un boom en lo que es el aprendizaje profundo y así la IA cobró un renacimiento. El aprendizaje profundo se ha aplicado n muchas otras áreas, como el procesar audio y texto, inclusive.
Pero regresando a Visual Genome, sus imágenes están mucho mejor etiquetadas que en ImageNet, pues se incluyen los nombres y detalles de varios objetos que se ven en las imágenes; las relaciones de estos objetos; y la información sobre las acciones que les ocurren a los mismos. Esto se logró gracias a un enfoque comunitario de los colegas de Li en Stanford, en particular el de Michael Bernstein. El plan es lanzar un reto similar al que se hace con ImageNet, usando el conjunto de datos que se tienen en este 2017.
Los algoritmos para entrenar los ejemplos de Visual Genome podrían hacer mucho más que reconocer objetos y podrían eventualmente tener la capacidad de analizar escenas visuales más complejas. Por ejemplo, “estás sentado en tu oficina pero… ¿cómo están las cosas ordenadas en la misma, qué personas están, qué hacen, qué objetos hay alrededor, qué eventos están pasando?”, comenta Li. “Estamos tratando de entender el lenguaje porque es la forma de comunicarnos no solamente asignarnos números a los pixeles. Se necesita conectar la percepción y la cognición al lenguaje”, indica el investigador.
Li piensa que el aprendizaje profundo jugará un rol clave en permitir a la computadora analizar escenas más complejas, pero hay otras técnicas que ayudarán a avanzar en lo que es “el estado del arte” en esta materia.
Es claro que nuevos algoritmos en la IA podrían organizar la clasificación de imágenes y se podrían tener robots que manejaran mejor los automóviles, que se dieran cuenta de las escenas que van ocurriendo a su alrededor, etcétera. Vamos, quizás se podría enseñar a las computadoras a tener sentido común, apreciando los conceptos que son físicamente posibles o bien, poco factibles.
Richard Socher, un experto en aprendizaje de computadoras y fundador de MetaMind, dice que esto podría ser el aspecto más importante del proyecto. “Una gran parte del lenguaje trata de describir el mundo visual”, indica. “Este nuevo conjunto de datos es una nueva manera escalable de combinar ambas modalidades y probar nuevos modelos”, afirma.
Hay que señalar que Visual Genome no es la primera base de imágenes complejas accesibles a los investigadores para experimentar. Microsoft tiene su propia base de imágenes llamada Common Objects in Context, la cual muestra los nombres y posiciones de muchos objetos que pueden aparecer en las imágenes. Google, Facebook y otras empresas están aportando con nuevos algoritmos para poder procesar escenas visuales complejas. En una publicación científica del 2014, Google mostró un algoritmo que puede dar las etiquetas básicas para las imágenes, con niveles variados de precisión. Más recientemente Facebook mostró un sistema de preguntas y respuestas que puede responder a preguntas muy simples en las imágenes.
Por su parte, Aude Oliva, una profesora del MIT ha estudiado la visión humana y de computadoras y ha desarrollado una base de imágenes llamada Places2, la que contiene más de 10 millones de imágenes de diferentes escenas. Este proyecto busca inspirar el desarrollo de algoritmos capaces de describir la misma escena de diversas maneras, como lo hacen los seres humanos. Oliva dice que Visual Genome y otras bases similares podrán ayudar en la visión por computadora, pero cree que los investigadores de la IA necesitarán buscar su inspiración en la biología si quieren que las máquinas tengan capacidades similares a las de los humanos.
“Los humanos deciden e intuyen a partir de conocimiento, sentido común, experiencias sensoriales, memoria y ‘pensamientos’ que no son traducidos directamente en lenguaje escrito, hablado o texto”, indica Oliva. “Sin saber cómo el ser humano crea pensamientos, será difícil enseñar el sentido común y el entendimiento visual a un sistema artificial. Las neurociencias y las ciencias de las computadoras son dos lados de la misma moneda en la IA”, concluye.
Referencias: Technology Review MIT