Activa las notificaciones para estar al tanto de lo más nuevo en tecnología.

Una red neuronal que juega “breakout” mejor que los humanos

La consola de juegos Atari 2600 tiene un lugar especial entre quienes crecieron en los años setenta. Popularizó juegos como Pong, Breakout y Space Invaders....

breakout-00

La consola de juegos Atari 2600 tiene un lugar especial entre quienes crecieron en los años setenta. Popularizó juegos como Pong, Breakout y Space Invaders. Hoy -estos juegos simples de programar- tiene un status de legendarios y aún juegan un importante rol en el mundo de los videojuegos. Curiosamente, todos esos juegos que corren en computadoras son difíciles de jugar para las máquinas. Quizás es la acción ojos-cerebro-control del videojuego que en los seres humanos se coordina asombrosamente pero la máquina no puede hacer lo mismo.

Pero eso era hasta ahora, pues Volodymr Mnih y amigos, de Deep  Mind Technologies de Londres, crearon una red neuronal que  aprende cómo jugar video juegos de la misma manera que los seres humanos: usando la computadora de forma equivalente a la coordinación ojos-manos. Pero más aún, la red aprende tan bien que puede ganarle a jugadores expertos humanos en juegos como Pong y Breakout.

El enfoque es relativamente directo: Estos amigos han puesto su red neuronal contra siete juegos para la Atari 2600, disponible en el Arcade Learning Environment. Estos son Pong, Breakout, Space Invaders, Seaquest, Beam Rider, Enduro y Q*bert. En cualquier instante en el momento de jugar, el usuario puede elegir sobre una finita cantidad de posibles acciones: moverse a la izquierda, a la derecha, disparar, etcétera. El punto aquí es que el ser humano (o la máquina) debe elegir la acción que maximice su puntuación eventualmente.

Hay acciones que no necesariamente incrementan la puntuación, pero que ayudan en el tiempo a este propósito. Por ejemplo, eliminar una bomba de los alienígenas de Space Invaders no incrementa el puntaje pero permite incrementarlo más adelante. Así, el jugador debe aprender de estas acciones. En otras palabras, debe tratar diferentes estrategias, compararlas y aprender a elegir alguna de ellas en el futuro.

Todo esto es estándar para los jugadores y las máquinas. Lo que resulta difícil es que la computadora tenga el sentido de la pantalla, una tarea que aún no logran hacerlo del todo bien. La mayoría de las computadoras que juegan usan entradas directas a las coordenadas de la pantalla en lugar de ver en ella.

atari2600

Mnih y amigos simplificaron este problema visual. La Stari 2600 produce una serie de cuadros de 210 x 160 pixeles, con una paleta de 128 colores. Estos amigos empezaron por convertir el juego en escala de grises y con solamente cuatro tonos, haciendo que el sampleo de las imágenes fguese de 100 x 84. Finalmente pudieron hacer u  marco de 84  x 84 pixeles ya que el sistema requiere una entrada que sea cuadrada.

La red neuronal trabaja evaluando cada imagen y validando cómo cambiará dadas las acciones posibles. Hace una evaluación basada en la experiencia del pasado (a pesar de que Mnih & Co. no quieren decir exactamente cómo logran esto). Significativamente la computadora no tiene un conocimiento avanzado de lo que la pantalla significa. “Nuestros agentes solamente reciben las imágenes RGB y detectan los objetos que hay en ella”, afirman Mnih & Co.

Los resultados son impresionantes. La red neuronal no solamente aprende cómo jugar todos los juegos sino que además, se vuelve bueno en la mayoría de ellos. “Nuestro método logra mejor desempeño que un humano experto en Breakout, Enduro y Pong, y logra casi el mismo desempeño que los seres humanos en Beam Rider”, indicaron los investigadores. Más aún, el desempeño fue sin necesidad de aplicar ninguna mejora al aprendizaje de la red misma.

Esto es significativamente mejor que otros intentos de construir sistemas de inteligencia artificial para vencer a humanos en el mismo. Y ahora pareciera que una nueva amenaza aparece al dominio de los seres humanos en los videojuegos. Sin embargo, se halló que la red neuronal no puede vencer a seres humanos en Q*bert, Seaquest y Space Invaders. Por lo pronto el orgullo humano está más o menos a salvo, pero quien sabe por cuanto tiempo.

Referencias:

Arxiv

Comentarios