Científicos de la Universidad de Texas en Austin han enseñado a un agente de Inteligencia Artificial (IA) a hacer algo que solamente los humanos solían hacer: echar un vistazo o dos e inferir todo el entorno, una habilidad muy importante cuando se trata de misiones peligrosas, las cuales podrían eventualmente hacerse con robots y así no exponer a los seres humanos.

El equipo, cuyo líder es el profesor Kristen Grauman, el candidato a doctor, Santosh Ramakrishnan y el ex-candidato a doctor, Dinseh Jayaraman (ahora en la Universidad de California, Berkeley), publicaron sus resultados en Science Robotics.

La mayoría de los agentes IA, sistemas de cómputo que podrían hacer que robots y otras máquinas tuviesen comportamientos inteligentes, se entrenan generalmente para tareas muy específicas -tales como reconocer un objeto o estimar un volumen- en un entorno en el que ya se ha experimentado antes.

Foto de Alexander Koerner/Getty Images

Pero el agente desarrollado por Grauman y Ramakrishnan es de propósito general, obteniendo información visual que puede ser usada para una gran variedad de tareas.

«Queremos un agente que esté generalmente equipado para entrar a medios ambientes y que sea capaz de nuevas tareas de percepción en la medida que se encuentra dentro de dicho entorno», dice Grauman.

«Se comporta de manera que sea versátil y capaz de tener éxito en diversas tareas porque ha aprendido patrones útiles sobre el mundo visual», destacó el investigador.

¿Cómo lo lograron?

Los científicos usaron aprendizaje profundo, un tipo de aprendizaje inspirado por las redes neuronales del cerebro, para entrenar a sus agentes con miles de imágenes en 360 grados de diversos entornos y medios ambientes.

Cuando se presenta una escena que nunca se ha visto antes, el agente usa su experiencias para elegir un par de vistas, por ejemplo, un turista parado a mitad de la catedral tomando un par de fotos en diferentes direcciones, que juntas añaden menos del 20% de la escena completa.

Foto: TEXAS ADVANCED COMPUTING CENTER

Lo que hace a este sistema muy efectivo es que no se están tomando fotos en direcciones al azar, sino que después de cada vistazo, se elige el siguiente que es precedido y que se añadirá a la nueva información de toda la escena.

Esto es como ir a una tienda que nunca has visitado y ves un puesto de manzanas, por lo que esperarías ver naranjas cercanas, pero para localizar la leche hay que buscar en otra dirección.

Basándonos en estos destellos, el agente infiere que es lo que debería ver y reconstruye la imagen de 360 grados y sus alrededores.

De acuerdo a Grauman, «el agente aprende a hacer predicciones inteligentes (educadas), sobre dónde encontrar la información visual para completar su tarea de percepción».

Uno de los principales retos es hacer esto en tiempo real, es decir, cuando hay que hacer estas observaciones y tomar decisiones inmediatamente.

Esto puede ser crítico en aplicaciones de búsqueda y rescate. Por ejemplo, en escenarios donde hay fuego y un robot entra para localizar personas, llamas y material peligroso, de forma que pueda dar la información en el momento y no cuando ya sea demasiado tarde.

Por ahora el agente opera como una persona que está parada en un punto específico, con la capacidad de apuntar con su cámara en cualquier dirección pero sin poderse cambiar de posición. Un equivalente a esto sería tener un agente que tomara un objeto y lo viese desde diferentes ángulos y lados.

Los investigadores ya están desarrollando un sistema que pueda funcionar con un agente móvil, lo cual es un requisito para un robot real.

Mediante el uso de súper computadoras en el Centro de Cómputo Avanzado de la Universidad de Texas, Austin, tomó un día entrenar a su agente usando el esquema de aprendizaje reforzado.

El equipo, liderado por Ramakrishnan, desarrolló un método para acelerar el entrenamiento construyendo un segundo agente que asista al primero.

«El segundo agente usa la información que se le presenta de manera pura durante el entrenamiento y ayuda al agente primario a aprender más rápido”, concluye Ramakrishnan.