En un esfuerzo conjunto entre las universidades de Nueva York, Toronto y el MIT, se ha logrado un avance que se considera extraordinario: un sistema de inteligencia artificial capaz de aprender conceptos visuales después de una primera vista y que pueda manipularlos como hacemos los seres humanos.
Este avance podría llevar a tener teléfonos más inteligentes, mejor reconocimiento de voz y más computadoras que pudiesen entender mejor el entorno real en el que están ubicadas.
Se sabe de las capacidades humanas para aprender cosas casi “al vuelo”, por ejemplo, basta con enseñarle a un niño un objeto como un perro o un autobús escolar, para que el niño pueda casi de inmediato identificar otras instancias del mismo.
Una de las razones para esta habilidad, piensan los investigadores, es que frecuentemente entendemos nuevos conceptos de cómo las partes familiares trabajan juntas como un todo. Por ejemplo, cuando vemos un Segway (ese transporte de dos ruedas que parece se auto-equilibra), reconocemos llantas y quizás algo que se asemeja a un volante. Concluimos entonces que se trata de un transporte personal.
La misma funcionalidad ocurre en los idiomas. Cuando vemos caracteres escritos en un pedazo de papel, incluso aunque no nos sean familiares, no solamente vemos manchas de tinta, sino que observamos que son trazos hechos con una pluma y somos capaces de reproducirlos.
Pero el traducir estas habilidades al dominio de la IA no es algo que pueda considerarse sencillo. Al contrario, es una tarea tremendamente difícil. Los algoritmos de “aprendizaje profundo” se preocupan en general de reconocimiento de patrones, en donde los resultados se obtienen después de haber analizado cientos o miles de ejemplos. Inclusive en este caso, el software entiende objetos de una manera pasiva, como patrones de pixeles en la pantalla en lugar de usar el concepto de crear algo nuevo.
Estamos entonces ante un problema de inducción, en el que el cerebro humano es capaz de generalizar abstracciones de forma efectiva, incluso conceptos a partir de un limitadísimo número de ejemplos.
Los investigadores Joshua Tenenbaum, Brendan Lake y Rusian Salakhutdinov, han hecho un avance notable en replicar este tipo de aprendizaje inmediato, todo esto en un algoritmo.
El sistema es probabilístico y le han llamado Bayesan Program Learning (BPL), que promete ser un paso importante en reconocimiento de voz y síntesis, reconocimiento de imágenes y procesamiento del lenguaje natural.
Pero más general aún, podría llevar sus avances a computadoras que entendieran mejor el mundo a su alrededor construir lo que aprendieran con la idea de ejecutar tareas siempre más complejas.
El software está construido en tres principios: la composicionalidad, la idea que abstrae las representaciones que se construyen a partir de partes más primitivas; la causalidad, que usa las partes primitivas para construir estructuras complejas; y aprendiendo a aprender, el principio que hace que lo que ya sabemos nos sirva para aprender nuevos conceptos más fácilmente.
En el nivel práctico, la técnica probabilística de la inferencia Bayesiana es el corazón del algoritmo, y se usa para llegar a conclusiones basadas en datos limitados en donde partes simples hacen la construcción de objetos visualmente más complejos.
“Nuestro trabajo se basa en capturar los modelos mentales de los humanos con programas simples que pensamos usan nuestras mentes para construir y manipular”, detalló Lake.
“Por vez primera, pensamos que tenemos un sistema que puede aprender una enorme clase de clases visuales de objetos de la forma en que es difícil distinguirlos de los que aprenden los humanos”.
El equipo ha producido un programa que ha sido probado con una lista de unos mil 600 caracteres poco familiares de idiomas de todo el mundo, reales e imaginarios. Después de alimentar con una versión escrita a mano de un caracter como punto de entrada, el algoritmo fue capaz de reconocerlo con éxito de entre todos los otros, lo cual consiguió al dividir los trazos de la pluma para dibujarlo e incluso redibujarlo con pequeñas variaciones mientras se mantenía el caracter aún reconocible para los ojos humanos.
Este enfoque único de romper en pequeñas partes una imagen compleja y tratar de entender cómo las partes trabajan juntas permite al software a desempeñar tareas creativas, que están fuera de las preguntas que los algoritmos de reconocimiento de patrones hacen. Cuando se presenta un alfabeto que no le es familiar al sistema, el software extrae las propiedades generales de los trazos que hacen cada caracter y es capaz de producir un nuevo caracter basándose en estas propiedades halladas.
El software lo ha hecho tan bien que su desempeño es indistinguible del de los seres humanos, partiendo de la prueba de Turing. En dicha prueba, a 147 jueces se les presentaron 49 pruebas en donde una serie de símbolos de un alfabeto eran seguidos de dos caracteres inspirados en dichos alfabetos, uno inventado por un ser humano y otro por el software. Colectivamente, los jueces solamente fueron capaces de identificar los caracteres generados por la computadora en el 52% de las veces, lo cual no es significativamente mejor que el elegir al azar un valor entre dos posibilidades, es decir, entre un 50% para uno u otro lado.
“El algoritmo por el momento trabaja con caracteres escritos a mano, pero creemos que este enfoque de inducción probabilístico puede llevar a progresos en el reconocimiento de la voz y el del reconocer objetos”, dice Lake.
Los avances se detallan en la publicación Science, pero claramente sería una primera oportunidad para empezar a trabajar sobre nuevos algoritmos y no seguir caminos que parecen no llevar a ningún lado o en donde los avances son microscópicos, debido a las problemáticas enormes que se encuentran.
Referencias: New York University, New Atlas