El mejor jugador de póquer del mundo es una máquina
Libratus, un nuevo sistema de inteligencia artificial, derrota a cuatro de los mejores jugadores de póquer del mundo
Después de un maratoniano enfrentamiento de tres semanas y 120.000 manos jugadas Libratus, un algoritmo de inteligencia artificial (IA), ha vencido a cuatro de los mejores jugadores profesionales de póquer, a los que ha literalmente desplumado. En conjunto, Libratus –desarrollado por la Universidad de Carnegie Mellon– ha conseguido 1.766.220 dólares en fichas, y ninguno de los jugadores humanos ha conseguido ni siquiera una victoria individual.
No es la primera vez que una máquina vence un humano en un juego de mesa (ver recuadro inferior). Tampoco será la última, pero sí es la primera vez que sucede con el póquer de por medio, un juego cuyas características hacen que la victoria de Libratus adquiera cierta relevancia.
El póquer es lo que se conoce como “un juego de información imperfecta”, explica Jordi Torres, catedrático de la UPC e investigador experto en Supercomputación aplicada a la inteligencia artificial en el BSC. A diferencia del ajedrez, donde todas las piezas están encima del tablero desde el inicio, y por tanto es posible calcular todos los movimientos posibles a partir de la posición de la piezas en cada momento, en el póquer no sabemos las cartas que tiene en la mano nuestro oponente, por ejemplo. Por otro lado “en el póquer no existen los movimientos óptimos y además está la cuestión de los faroles, que es una más de las estrategias del juego”, dice Torres. Por último, Tuomas Sandaholm y Noam Brown –los dos responsables de Libratus– han calculado que en el póquer “el número de combinaciones posibles es de 10160, o sea un número formado por un 10 con 160 ceros detrás, mucho mayor que el número de átomos del universo”, explica el catedrático de la UPC. Todo esto ha obligado a los desarrolladores de Libratus ha optar por un enfoque distinto para crear este algoritmo.
Tradicionalmente, las máquinas diseñadas para derrotar a un humano se centraban en el machine learning: se las alimentaba con una gran cantidad de información para que aprendieran a jugar. A Libratus la única información que se le ha proporcionado han sido las reglas para jugar, pero “sin redes neuronales y sin programar las estrategias, que la máquina aprende de cero. Libratus aprende realmente sólo con técnicas como reinforcement learning. Además, la gracia está en que algunas de sus estrategias de juego son, probablemente, distintas a las humanas, ya que no se le ha alimentado con miles de partidas de los mejores jugadores del mundo”, explica Torres. Con este fin Sandaholm y Brown han diseñado un algoritmo de estrategias tipo poda de árbol, en la que la máquina va eliminando las distintas decisiones que tomar en función del cálculo de probabilidades al que obliga el hecho de que en el póquer la información sea incompleta. En este sentido, el propio Tuomas Sandaholm, el investigador principal, ha reconocido –en declaraciones en la web de la Universidad de Carnegie Mellon– que este ha sido el aspecto clave para el éxito de su algoritmo: “La mayor habilidad de la IA para hacer un razonamiento estratégico con información imperfecta ha superado a la de los mejores humanos”.
Pero quizás lo más sorprendente sea que “como se trata de un algoritmo basado en las estrategias más que en los datos, el resultado es que es capaz de predecir los faroles de los humanos”, dice Jordi Torres. O sea que el algoritmo de los investigadores de Carnegie Mellon es capaz de detectar, en cierto modo, el comportamiento humano.
Según Frank Pfenning, jefe del departamento de Ciencias de la Computación de la facultad de esta especialidad en Carnegie Mellon, el éxito de Libratus puede tener implicaciones “para cualquier esfera en la que la información sea incompleta. La negociación empresarial, la estrategia militar, la seguridad cibernética y la planificación de tratamientos médicos podrían beneficiarse de la toma de decisiones automatizada utilizando una IA similar a esta”.
ALBERT MOLINS RENTER Este algoritmo puede ayudar a la toma de decisiones automáticas sin contar con toda la información disponible