La UCLA junto con la Universidad de Stanford han demostrado un sistema de computadora que puede descubrir e identificar objetos del mundo real, pues «ve» con el mismo método de aprendizaje visual que usan los seres humanos.
El sistema es un avance en la tecnología de visión por computadora, la que permite a las máquinas leer e identificar imágenes visuales. Podría ser un paso importante para generar sistemas inteligentes por ejemplo, computadoras que aprenden por sí mismas, que son intuitivas, que toman decisiones basadas en razonamiento e interactúan con los seres humanos de una manera mucho más realista. Y aunque ya ser tienen sistemas de visión por computadora muy poderosos, están limitados en las tareas que pueden ejecutar, es decir, están entrenados por los programadores para ver cierto tipo de objetos.
Incluso los sistemas de visión por computadora actuales no pueden crear una imagen completa de un objeto después de ver partes del mismo y además, en ciertos contextos no familiares para el sistema, pueden ser engañados. Los ingenieros entonces se han dado a la tarea de hacer sistemas que compitan con estas habilidades de los humanos. Por ejemplo, si ven un perro, aunque el animal se encuentre detrás de una silla y apenas se le vea la cola y las patas, los humanos pueden intuir dónde está la cabeza del perro y el resto del cuerpo. Esta capacidad elude a la mayoría de los sistemas inteligentes.
Por otra parte, los sistemas de visión con máquinas no están diseñados para aprender por sí mismos. Deben ser entrenados sobre lo que se quiere aprendan exactamente. Parte de la dificultad es que los programas de IA que hacen esto no construyen una imagen interna de un modelo de lo que han aprendido, como en realidad parece ser que hacen los humanos.
En los Proceedings of the National Academy of Sciences, los investigadores de UCLA y Stanford mostraron cómo lidiar con estas dificultades. Su sistema entiende partes del cuerpo humano viendo miles de imágenes con personas en las que se ignoró el fondo. El enfoque se basa en tres grandes pasos: Primero, el sistema divide una imagen en pequeños pedazos, los cuales los investigadores han denominado «viewlets». Segundo, la computadora aprende cómo estos viewlets se juntan unos con otros para formar el objeto en cuestión. Finalmente, en un tercer paso, el sistema ve si hay otros objetos en el derredor para ver si esa información es relevante o no para identificar el objeto primario.
Para ayudar al nuevo sistema a aprender como hacemos los humanos, los científicos decidieron sumergirse en una réplica de Internet de cómo los humanos viven. «Afortunadamente Internet provee dos cosas que ayudan al sistema desarrollado de la misma forma en como hacen los humanos», dijo Vwani Roychowdhury, uno de los investigadores de UCLA, agregando que «una es la enorme cantidad de imágenes y videos que muestran los mismos objetos. Lo segundo es que esos objetos se muestran desde múltiples perspectivas, con tonos más o menos oscuros, y se colocan en diferentes tipos de entornos»
Para el desarrollo, los investigadores empezaron con lo que se sabe de psicología cognitiva y neurociencia: «Empezamos como niños, en donde aprendemos algo porque hay muchos ejemplos de ellos en muchos contextos». Roychowdhury dice: «este aprendizaje contextual es la clave de nuestros cerebros y ayuda a construir modelos de robots que son parte de una visión más global en donde todo está conectado funcionalmente».
Los investigadores probaron el sistema con 9000 imágenes, mostrando personas y objetos. La plataforma fue capaz de construir un modelo detallado del cuerpo humano sin guías externas y sin etiquetar a las imágenes. En pruebas similares, se usaron imágenes de motocicletas, coches y aviones. En todos los casos, el sistema se desempeño mejor -o igual que sistemas anteriores- que requirieron años de entrenamiento.