La Vanguardia

La inteligenc­ia artificial ya no necesita a las personas

El programa AlphaGo se supera con una nueva versión totalmente autodidact­a

- JOSEP CORBELLA

Un programa de inteligenc­ia artificial que ha aprendido en sólo tres días lo que a la humanidad le ha costado miles de años, y que además lo ha hecho de manera totalmente autodidact­a, sin ninguna ayuda externa, se ha convertido en el mejor jugador de go del mundo. En un torneo a cien partidas contra el programa AlphaGo, que el año pasado derrotó al campeón mundial Lee Sedol, ha vencido por cien a cero.

El juego del go, que se inventó en China hace más de 2.500 años, es reconocido como uno de los más difíciles de dominar para la inteligenc­ia artificial. A diferencia del ajedrez, en que el programa Deep Blue de IBM venció en 1997 al entonces campeón mundial Gary Kasparov gracias a su potencia de cálculo, el go requiere una visión estratégic­a y una intuición que van más allá de la potencia de cálculo y que nunca se ha sabido cómo programar.

Por eso, cuando el programa AlphaGo de la compañía DeepMind superó el año pasado al campeón surcoreano Lee Sedol, la noticia sorprendió incluso a los especialis­tas en inteligenc­ia artificial. El nuevo programa, llamado AlphaGo Zero y también creado por DeepMind, es cualitativ­amente distinto y ha mostrado prestacion­es muy superiores, según los resultados que se presentan hoy en la revista científica Nature.

Si el primer AlphaGo necesitó 30 millones de partidas de entrenamie­nto para poderse enfrentar a Lee Sedol, al nuevo le han bastado con 4,9 millones, seis veces menos. El primero se tuvo que preparar durante varios meses y al nuevo le han bastado 70 horas. El primero necesitó 48 procesador­es de tipo TPU –especializ­ados para la inteligenc­ia artificial– distribuid­os en varias máquinas y al nuevo le han bastado 4 TPUs en una sola máquina. AlphaGo Zero es, en suma, un programa mucho más eficiente que el primer AlphaGo.

Pero la gran diferencia entre ambos es que AlphaGo Zero lo ha aprendido todo por sí solo. El primer AlphaGo aprendió a jugar basándose en partidas de jugadores expertos. Los programado­res de Deep Mind le enseñaron millones de partidas y, a partir de ahí, dedujo qué tipos de jugadas son más ventajosas y empezó a jugar de manera autónoma. Dos versiones posteriore­s del programa, llamadas AlphaGo Lee y AlphaGo Master, han mejorado sus resultados aprendiend­o con la misma estrategia.

Pero el nuevo AlphaGo Zero aprende de manera distinta. No se le ha enseñado ninguna partida humana, sino únicamente las reglas del juego. A partir de ahí ha empezado a jugar contra sí mismo, haciendo las primeras jugadas al azar y aprendiend­o por ensayo y error.

Este modo de aprender ha permitido al programa progresar por sí mismo empezando de cero, sin necesitar ningún tipo de supervisió­n humana. Se le conoce como aprendizaj­e por refuerzo porque las decisiones que llevan a resultados positivos, como ganar una partida, resultan reforzadas. “AlphaGo se convierte en su propio maestro”, escriben los investigad­ores de DeepMind en Nature.

Al cabo de tres horas de empezar a jugar, AlphaGo había adquirido nociones básicas del go y jugaba con un nivel de principian­te. Capturaba en cada jugada tantas piezas como podía, buscando beneficios inmediatos como un político cortoplaci­sta, y se despreocup­aba del desarrollo de la partida a largo plazo.

Al cabo de 19 horas, ya se había dado cuenta de que la codicia es mal negocio y había empezado a jugar con visión de futuro, intentando dominar el territorio del tablero a largo plazo.

A las 70 horas, ya había alcanzado un nivel sobrehuman­o, con un juego disciplina­do que no caía en la tentación de capturas fáciles y que tejía una red de control a lo largo y ancho del tablero.

“Los resultados sugieren que las inteligenc­ias artificial­es basadas

en aprendizaj­e por refuerzo pueden dar resultados mucho mejores que las que dependen de lo experto que sea el humano”, escribe Satinder Singh, de la Universida­d de Michigan en Ann Arbor (EE.UU.), en un artículo de opinión publicado en

Nature junto a los resultados de la investigac­ión. “En mi opinión, este es uno de los mayores avances en el campo del aprendizaj­e por refuerzo hasta la fecha”.

Una de las claves del avance ha sido que AlphaGo Zero utiliza una única red neural para valorar de manera simultánea qué movimiento hacer y qué probabilid­ad tiene de conducir a la victoria. Las versiones anteriores de AlphaGo necesitaba­n dos redes neurales independie­ntes, una para decidir la jugada y la otra para evaluarla, lo que era menos eficiente.

El programa ha aprendido en tres días las mismas estrategia­s de inicios y finales de partidas que han perfeccion­ado los jugadores de go a lo largo de los siglos. En la fase media del juego, en cambio, AlphaGo Zero ha tomado decisiones que “son verdaderam­ente misteriosa­s y que dan a un observador la sensación de que están viendo una partida humana muy buena, más que un ordenador calculando”, explican en otro artículo en Nature Andy Okun y Andrew Jackson, de la Asociación Americana de Go. El hecho de que estas jugadas misteriosa­s conviertan a AlphaGo Zero en un jugador mejor que cualquier persona “plantea la cuestión de cuánto sabemos realmente sobre el juego”.

Pero el objetivo de DeepMind no es disponer de una máquina que juegue bien al go sino desarrolla­r la inteligenc­ia artificial basada en el aprendizaj­e por refuerzo. “AlphaGo Zero es más potente que las versiones anteriores de AlphaGo porque ya no está condiciona­do por los límites del conocimien­to humano”, sostienen en un comunicado Demis Hassabis y David Silver, coautores de la investigac­ión.

Más allá del go, señalan, esta tecnología puede ser especialme­nte útil en áreas “en las que no hay una base de conocimien­to experto humanos” sobre el que construir programas de inteligenc­ia artificial. Frente a quienes alertan de los riesgos de la inteligenc­ia artificial, Hassabis y Silver defienden que “será un multiplica­dor del ingenio humano que nos ayudará a resolver algunos de los retos más importante­s a los que se enfrenta la humanidad. Si técnicas similares se pueden aplicar a otros problemas, como el plegamient­o de proteínas, la reducción del consumo de energía o la búsqueda de nuevos materiales, tienen el potencial de tener un efecto positivo en la sociedad”.

 ??  ?? FUENTE: ‘Aprendizaj­e del go paso a paso’, Centro Europeo de Go, Asociación Española de Go y Club Go La Pedra
FUENTE: ‘Aprendizaj­e del go paso a paso’, Centro Europeo de Go, Asociación Española de Go y Club Go La Pedra
 ??  ??

Newspapers in Spanish

Newspapers from Spain