La opinión de un especialista sobre Alpha Zero en el ajedrez

Chrilly Donninger es un especialista en el ajedrez computarizado. Creó el programa Nimzo, que fue uno de los animadores en las competencias entre humanos y máquinas, a finales del siglo pasado. Después de eso, creó un sistema llamado Hydra, que no perdió una sola partida contra jugador humano. El gran maestro Michael Adams sólo pudo sacarle al programa dos empates en 6 partidas, perdiendo las otras cuatro.

Donninger está retirado de la programación en ajedrez, pero ha dado su opinión al respecto de Alpha Zero. Por ejemplo, indica que lo que le ha sorprendido es el hecho de que la búsqueda por el sistema Montecarlo haya funcionado muy bien. En general se usa la búsqueda alfa-beta, en donde se crea el árbol de variantes hasta cierta profundidad y entonces se evalúan los nodos terminales. Esta evaluación es el corazón de los programas de ajedrez y contienen ya mucha información ajedrecística de forma numérica.

En el sistema Montecarlo, las variantes se juegan hasta el final. La idea es que si después del movimiento A se ganaba el 60% de las partidas, esto debía ser mejor que el movimiento B, en donde se ganaban solamente el 40% de las partidas. Dice Donninger: “En el caso del ajedrez, tras la búsqueda normal, se suele continuar con una búsqueda de la tranquilidad. Es decir, se vuelven a mirar aquellos movimientos que sirvan para capturar piezas. Si a ese respecto ya no se encuentra nada, entonces la posición se evalúa como “tranquila”. No existe nada comparable en el Go. La cuestión es bajo qué criterios se terminará la partida.”

Donninger indica que en su momento él también intentó usar la búsqueda Montecarlo, sobre todo en los siempre difíciles finales de torres, pues la búsqueda alfa-beta no funcionaba tan bien en ese sentido. Pero eventualmente el especialista terminó pensando “¡Me ca.. en los finales de torres… Destrozaremos a nuestros rivales antes de llegar a eso!”.

Por otra parte, la información de que Alpha Zero lo ha aprendido todo en un día, debía ponerse en un contexto. DeepMind tenía a su disposición 5 mil TPU (hardware desarrollado por Google para el “aprendizaje profundo”). Los TPUs son más potentes que los CPUs. Además, decir que Alpha Zero juega mejor que los humanos ya se había hecho desde hace tiempo. “Alpha Zero juega un poco mejor que el programa más fuerte de ajedrez, Stockfish y éste juega infinitamente más fuerte que el 99% de los jugadores en el mundo”. indica el especialista.

Donninger concluye que, por una parte, el sistema Alpha Zero funciona en condiciones totalmente ajenas a la mayoría de los sistemas que pueden usar los programadores y que, por otra parte, “A mí me parece mucho más interesante el juego de la bolsa. Otra cosa interesante sería póker”.