Los juegos de video, aparte de ser un buen negocio en el cómputo moderno, puede ser una interesante cama de pruebas para la Inteligencia Artificial (IA). Los investigadores pueden así probar sus propias teorías y de pronto hallar comportamientos que los seres humanos muchas veces pasamos por alto.
En un artículo publicado esta semana por tres investigadores del aprendizaje de máquinas, de la Universidad de Freiburg en Alemania, se encontró que al explorar un método particular de enseñar a agentes de IA a navegar entre los videojuegos más populares del pasado (en la Atari, en títulos de los años 80s del siglo pasado), el programa de IA descubrió un error el el programa del juego Q*Bert que permite el hacerse de una infinidad de puntos.
Los investigadores describen en su artículo, publicado en el sitio arXiv, que el agente estaba aprendiendo a jugar QBert cuando descubrió una «solución interesante». Normalmente, en QBert, los jugadores brincan de cubo en cubo y con esta acción cambian los colores de la plataforma. En el cambio de colores (y en deshacerse de algunos enemigos), se dan puntos y se pasa al siguiente nivel. Pero el software de IA encontró una mejor manera:
Primero completa el primer nivel y empieza a brincar de plataforma en plataforma de forma que parece que lo hace al azar. Por razones desconocidas, el juego no alcanza a la segunda ronda pero la plataforma empieza a cambiar de colores intermitentemente y el agente gana una enorme cantidad de puntos (cercana a 1 millón para el tiempo limite de este episodio).
Este «bug» que se menciona en el artículo se compartió en Twitter por el investigador de la IA Miles Brundage. El tema fue del conocimiento del diseñador de Q*Bert, Warren Davis, para ver si tenía información o sabía de este error en el software. David dijo que no había trabajado en esa versión particular del juego, pero comentó: «Esto no se ve ciertamente bien, peor no creo que este mismo comportamiento se vea en la versión arcade».
Se puede observar el error cuando los cubos empiezan a cambiar de color de forma intermitente
Probablemente, aunque este no sea el comportamiento habitual del Q*Bert, nadie antes había notado esto que el agente de IA descubrió. Sin embargo, es importante hacer notar que el agente no se enfoca en el problema como lo hacen los seres humanos. Utiliza en realidad algoritmos evolucionarios en donde para completar una tarea, se dan algunas pequeñas mutaciones a los sobrevivientes para ver si lo pueden hacer mejor. De esta forma los algoritmos empiezan a mejorar poco a poco y se hacen mejores con el tiempo.
Sin duda esta noticia no es espectacular por sí misma, pero da a entender que los algoritmos pueden quizás ir aprendiendo de sus propios errores y esto bien podría ser una interesante etapa en el fenómeno de programar, ayudándose de herramientas automáticas que bien podrían detectar errores que salen de la percepción humana.