La inteligencia artificial ya no necesita a las personas

El programa AlphaGo se supera con una nueva versión totalmente autodidacta

2017-10-19 - JOSEP CORBELLA

Un programa de inteligencia artificial que ha aprendido en sólo tres días lo que a la humanidad le ha costado miles de años, y que además lo ha hecho de manera totalmente autodidacta, sin ninguna ayuda externa, se ha convertido en el mejor jugador de go del mundo. En un torneo a cien partidas contra el programa AlphaGo, que el año pasado derrotó al campeón mundial Lee Sedol, ha vencido por cien a cero.

El juego del go, que se inventó en China hace más de 2.500 años, es reconocido como uno de los más difíciles de dominar para la inteligencia artificial. A diferencia del ajedrez, en que el programa Deep Blue de IBM venció en 1997 al entonces campeón mundial Gary Kasparov gracias a su potencia de cálculo, el go requiere una visión estratégica y una intuición que van más allá de la potencia de cálculo y que nunca se ha sabido cómo programar.

Por eso, cuando el programa AlphaGo de la compañía DeepMind superó el año pasado al campeón surcoreano Lee Sedol, la noticia sorprendió incluso a los especialistas en inteligencia artificial. El nuevo programa, llamado AlphaGo Zero y también creado por DeepMind, es cualitativamente distinto y ha mostrado prestaciones muy superiores, según los resultados que se presentan hoy en la revista científica Nature.

Si el primer AlphaGo necesitó 30 millones de partidas de entrenamiento para poderse enfrentar a Lee Sedol, al nuevo le han bastado con 4,9 millones, seis veces menos. El primero se tuvo que preparar durante varios meses y al nuevo le han bastado 70 horas. El primero necesitó 48 procesadores de tipo TPU –especializados para la inteligencia artificial– distribuidos en varias máquinas y al nuevo le han bastado 4 TPUs en una sola máquina. AlphaGo Zero es, en suma, un programa mucho más eficiente que el primer AlphaGo.

Pero la gran diferencia entre ambos es que AlphaGo Zero lo ha aprendido todo por sí solo. El primer AlphaGo aprendió a jugar basándose en partidas de jugadores expertos. Los programadores de Deep Mind le enseñaron millones de partidas y, a partir de ahí, dedujo qué tipos de jugadas son más ventajosas y empezó a jugar de manera autónoma. Dos versiones posteriores del programa, llamadas AlphaGo Lee y AlphaGo Master, han mejorado sus resultados aprendiendo con la misma estrategia.

Pero el nuevo AlphaGo Zero aprende de manera distinta. No se le ha enseñado ninguna partida humana, sino únicamente las reglas del juego. A partir de ahí ha empezado a jugar contra sí mismo, haciendo las primeras jugadas al azar y aprendiendo por ensayo y error.

Este modo de aprender ha permitido al programa progresar por sí mismo empezando de cero, sin necesitar ningún tipo de supervisión humana. Se le conoce como aprendizaje por refuerzo porque las decisiones que llevan a resultados positivos, como ganar una partida, resultan reforzadas. “AlphaGo se convierte en su propio maestro”, escriben los investigadores de DeepMind en Nature.

Al cabo de tres horas de empezar a jugar, AlphaGo había adquirido nociones básicas del go y jugaba con un nivel de principiante. Capturaba en cada jugada tantas piezas como podía, buscando beneficios inmediatos como un político cortoplacista, y se despreocupaba del desarrollo de la partida a largo plazo.

Al cabo de 19 horas, ya se había dado cuenta de que la codicia es mal negocio y había empezado a jugar con visión de futuro, intentando dominar el territorio del tablero a largo plazo.

A las 70 horas, ya había alcanzado un nivel sobrehumano, con un juego disciplinado que no caía en la tentación de capturas fáciles y que tejía una red de control a lo largo y ancho del tablero.

“Los resultados sugieren que las inteligencias artificiales basadas

en aprendizaje por refuerzo pueden dar resultados mucho mejores que las que dependen de lo experto que sea el humano”, escribe Satinder Singh, de la Universidad de Michigan en Ann Arbor (EE.UU.), en un artículo de opinión publicado en

Nature junto a los resultados de la investigación. “En mi opinión, este es uno de los mayores avances en el campo del aprendizaje por refuerzo hasta la fecha”.

Una de las claves del avance ha sido que AlphaGo Zero utiliza una única red neural para valorar de manera simultánea qué movimiento hacer y qué probabilidad tiene de conducir a la victoria. Las versiones anteriores de AlphaGo necesitaban dos redes neurales independientes, una para decidir la jugada y la otra para evaluarla, lo que era menos eficiente.

El programa ha aprendido en tres días las mismas estrategias de inicios y finales de partidas que han perfeccionado los jugadores de go a lo largo de los siglos. En la fase media del juego, en cambio, AlphaGo Zero ha tomado decisiones que “son verdaderamente misteriosas y que dan a un observador la sensación de que están viendo una partida humana muy buena, más que un ordenador calculando”, explican en otro artículo en Nature Andy Okun y Andrew Jackson, de la Asociación Americana de Go. El hecho de que estas jugadas misteriosas conviertan a AlphaGo Zero en un jugador mejor que cualquier persona “plantea la cuestión de cuánto sabemos realmente sobre el juego”.

Pero el objetivo de DeepMind no es disponer de una máquina que juegue bien al go sino desarrollar la inteligencia artificial basada en el aprendizaje por refuerzo. “AlphaGo Zero es más potente que las versiones anteriores de AlphaGo porque ya no está condicionado por los límites del conocimiento humano”, sostienen en un comunicado Demis Hassabis y David Silver, coautores de la investigación.

Más allá del go, señalan, esta tecnología puede ser especialmente útil en áreas “en las que no hay una base de conocimiento experto humanos” sobre el que construir programas de inteligencia artificial. Frente a quienes alertan de los riesgos de la inteligencia artificial, Hassabis y Silver defienden que “será un multiplicador del ingenio humano que nos ayudará a resolver algunos de los retos más importantes a los que se enfrenta la humanidad. Si técnicas similares se pueden aplicar a otros problemas, como el plegamiento de proteínas, la reducción del consumo de energía o la búsqueda de nuevos materiales, tienen el potencial de tener un efecto positivo en la sociedad”.

?? ?? FUENTE: ‘Aprendizaje del go paso a paso’, Centro Europeo de Go, Asociación Española de Go y Club Go La Pedra — FUENTE: ‘Aprendizaje del go paso a paso’, Centro Europeo de Go, Asociación Española de Go y Club Go La Pedra

La inteligencia artificial ya no necesita a las personas

El programa AlphaGo se supera con una nueva versión totalmente autodidacta

Newspapers in Spanish

Newspapers from Spain

La inteligenc­ia artificial ya no necesita a las personas

El programa AlphaGo se supera con una nueva versión totalmente autodidact­a

Newspapers in Spanish

Newspapers from Spain

La inteligencia artificial ya no necesita a las personas

El programa AlphaGo se supera con una nueva versión totalmente autodidacta