El mes pasado en Montreal, un grupo de investigadores de Maluuba, una empresa recientemente adquirida por Microsoft, estuvo frente a un monitor para contestar un misterio menor de la ciencia de la computación: ¿qué es lo que pasa cuando llegas a un millón de puntos en el juego clásico de Atari, Ms. Pac-Man?
Y sí, es una pregunta poco relevante para el futuro de la humanidad, pero desde que salió el juego, en 1982, nadie había llegado a esta puntuación, la máxima posible. ¿Qué habría al arribar al millón de puntos? ¿Aparecería una pantalla de felicitaciones, algo especial o particular?
Para ello, los investigadores crearon un programa que aprendió a jugar Ms. Pac-Man y poco a poco terminó por dominar el juego. Su inteligencia artificial lo hacía jugar prácticamente sin errores, entendiendo cómo es que los fantasmas se movían acechando al personaje para que nunca lo atraparan.
Lo gracioso de todo esto es que cuando el programa llegó al millón de puntos, simplemente el contador regresó a ceros. «Fue un poco decepcionante», dijo Rahul Mehrotra, un gerente en Maluuba. Sin embargo no todo está perdido. Los investigadores dijeron entonces que su robot jugador de Ms. Pac-Man podría ayudar en sus técnicas algorítmicas a tareas mucho más complejas que bien podrían ser manejadas por la computadora.
No es la primera vez que se ataca el problema de resolver el juego de Ms. Pac-Man usando inteligencia artificial, pero ningún jugador, humano o mecánico, hasta ahora, había podido llegar a estas puntuaciones millonarias. Mehrotra dice que el software aprende a balancear entre las píldoras que debe comer y su huida de los fantasmas que quieren atrapar a Ms. Pac-Man. Esto podría ayudar a los trabajadores e trazar una trayectoria en su propio laberinto de objetivos competitivos.
Maluuba se enfoca a la IA de largo plazo y opera más o menos de forma independiente dentro de Microsoft. Mehrotra imagina ideas en el trabajo en donde por ejemplo, el robot de Ms. Pac-Man ayuda a los usuarios en Microsoft en las ventas y en el uso de herramientas de negocios. Quizás sea menos pretencioso que decir que se resolvió finalmente Ms. Pac-Man, pero sin duda podría ser mucho más lucrativo.
Los juegos de Atari se han convertido en una cama de pruebas popular para los investigadores que tratan de hacer máquinas que puedan lidiar con el mundo real. Google por ejemplo, ha trabajado en sus propios sistemas inteligentes, parte de ello a través de la empresa que compraron en el 2014, DeepMind, que fue adquirida después de que se le mostró a Google el software que aprendía a jugar juegos de Atari mejor que los expertos humanos, simplemente jugando el juego una y otra vez para descubrir las tendencias, algo que es lo que hoy se llama aprendizaje reforzado a través de redes neuronales. Con este mismo sistema DeepMind logró hacer un programa que venciera -AlphaGo- al mejor jugador de Go del mundo.
Maluuba se ha encargado de tratar de resolver Ms. Pac-Man porque es uno de los juegos que con las técnicas de DeepMind no ha podido ser resuelto. El juego de 1982 tiene sus propios trucos. Los expertos humanos que juegan muy bien al Pac-Man tienen que fijarse en cómo están los laberintos de los diversos niveles, además de comprender la secuencia de persecución de los antagonistas de Ms. Pac-Man, cosa que es variable y que obliga a repensar cada jugada que se hace.
Maluuba llegó a su récord histórico a través de usar muchos agentes que reforzaron el aprendizaje e intentando comprender la complejidad del juego en una sola estrategia. No obstante esto, los investigadores crearon unos 150 agentes que aprendían para cada trabajo sobre cómo un elemento del juego, las pastillas, los fantasmas, las cerezas, etcétera, afectaba la puntuación. Los agentes individuales entonces alimentaban recomendaciones sobre qué jugada hacer y un agente central tomaba la decisión final sobre qué movimiento tiene que hacer Ms. Pac-Man para no ser capturada. Esto es parecido a la técnica del «blackboard» en los sistemas expertos, a todo esto.
Maluuba reconoce que el éxito en Ms. Pac-Man no lo han podido replicar en otros juegos de Atari, que siguen siendo complejos para ser analizados por los programas que aprenden, como por ejemplo, Montezuma Revenge, en donde el jugador tiene que explorar el interior de una pirámide y en donde muchas veces se requieren planes de más largo alcance, los cuales no son fáciles de descubrir a base de prueba y error.
Silvia Ferrari, directora del Laboratorio de Sistemas Inteligentes y Control de la Universidad de Duke, dice que podría ser que el enfoque de Maluuba fuese difícil de aplica a problemas del mundo real. Por su parte Harm van Seijen, un científico de Maluuba, dice que muchas veces los sistemas deben adaptarse a cada problema y no esperar a que el software resuelva todo. Esto conlleva el riesgo de no saber en algún punto por qué el programa toma una decisión particular. Vamos, que parece entonces difícil que el programa explique sus decisiones.
Referencias: Wired