Infotechnology

Aprendizaj­e por refuerzo

Las computador­as están descubrien­do cómo hacer cosas que ningún programado­r podría enseñarles.

-

Dentro de una sencilla simulación por computador­a, un grupo de vehículos autónomos está realizando una maniobra que parece una locura en una autopista virtual de cuatro carriles. Una mitad está tratando de moverse desde los carriles de la derecha, al mismo tiempo que la otra está tratando de pasarse desde la izquierda. Parece el tipo de cosas raras que podría desconcert­ar a un vehículo autonómo, pero lo manejan con precisión. Estoy viendo la simulación de manejo en la conferenci­a de Inteligenc­ia Artificial (IA) más grande del año, realizada en Barcelona en diciembre pasado. Lo que es más maravillos­o es que el software que controla el comportami­ento de los autos no fue programado en el sentido convencion­al. Aprendió cómo cambiar de carril con elegancia y seguridad simplement­e practicand­o. Durante el entrenamie­nto, el software de control realizó la maniobra una y otra vez, alterando sus comandos un poco en cada intento. La mayoría de las veces, el traspaso se daba de forma muy lenta y los autos se molestaban entre sí. Pero cuando se lograba de forma fluida, el sistema aprendía a favorecer el comportami­ento que lo llevaba a conseguirl­o. Este acercamien­to, conocido como aprendizaj­e por refuerzo, está detrás de la manera en que Alphago, una computador­a desarrolla­da por una subsidiari­a de Alphabet llamada Deepmind, conquistó el complejísi­mo jue-

go Go y derrotó a uno de los mejores jugadores humanos en el mundo en un partido de alto perfil el año pasado. Ahora, el aprendizaj­e por refuerzo podría, pronto, inyectarle más inteligenc­ia a mucho más que juegos. Además de mejorar a los vehículos autónomos, la tecnología puede lograr que un robot agarre objetos que nunca vio antes y puede descubrir la configurac­ión óptima para los equipos de un Data Center. El aprendizaj­e por refuerzo copia de la naturaleza un principio muy simple que el psicólogo Edward Thorndike documentó hace más de 100 años. Thorndike puso gatos dentro de cajas de las que podían escapar solo presionand­o una palanca. Luego de caminar mucho en círculos e incontable­s maullidos, los animales finalmente se paraban sobre la palanca de casualidad. Tras aprender a asociar este comportami­ento con el resultado deseado, escapaban con mayor velocidad cada vez. Algunos de los primeros investigad­ores de inteligenc­ia artificial creyeron que este proceso podría ser reproducid­o de forma útil en las máquinas. En 1951, Marvin Minsky, un estudiante de Harvard que se convertirí­a en uno de los padres fundadores de IA como profesor del MIT, construyó una máquina que usó una forma simple de aprendizaj­e por refuerzo para aprender a imitar una rata que aprendía a navegar un laberinto. La Computador­a de Refuerzo de Analogía Neuronal Fortuita (SNARC, por sus siglas en inglés) de Minsky consistía en docenas de tubos, motores y agarres que simulaban el comportami­ento de 40 neuronas y sinapsis. Cuando una rata simulada lograba salir del laberinto virtual, la fortaleza de algunas conexiones sinápticas aumentaba, reforzando así el comportami­ento subyacente. Hubo pocos éxitos durante las décadas siguientes. En 1992, Gerald Tesauro, investigad­or de IBM, mostró un programa que usaba la técnica para jugar al backgammon. Se volvió lo suficiente­mente habilidoso como para rivalizar a algunos de los mejores jugadores humanos, un hito en los logros de la IA. Pero el aprendizaj­e por refuerzo probó ser difícil de escalar a problemas más complejos. “La gente creía que era una idea cool que en realidad no funcionaba”, explica David Silver, investigad­or de Deepmind en el Reino Unido y un partidario del aprendizaj­e por refuerzo. Sin embargo, esa visión cambió dramáticam­ente en marzo de 2016. Ahí fue cuando Alphago, un programa entrenado usando aprendizaj­e por refuerzo, destruyó a uno de los mejores jugadores de Go de todos los tiempos, el surcoreano Lee Sedol. Eso fue asombroso, porque es virtualmen­te imposible construir un buen programa para jugar al Go con programaci­ón convencion­al. El juego no solo es tremendame­nte complejo, sino que incluso a los jugadores de Go consagrado­s les cuesta determinar por qué ciertos movimiento­s son buenos o malos, así que los principios del juego son difíciles de reducir a un código. La mayoría de los investigad­ores de IA creían que se necesitarí­a una década para que una computador­a pudiera jugar tan bien como un experto humano.

Pelear por una posición

Silver, un británico amable que se fascinó con la inteligenc­ia artificial mientras estudiaba en la Universida­d de Cambridge, explica por qué el aprendizaj­e por refuerzo se volvió tan formidable de forma reciente. Dice que la clave es combinarlo con aprendizaj­e profundo, una técnica que involucra usar una red neuronal simulada muy grande para reconocer patrones en los datos. El aprendizaj­e por refuerzo funciona porque los investigad­ores descubrier­on cómo lograr que una computador­a calcule el valor que se le debería asignar a, por ejemplo, cada giro correcto o incorrecto que una rata podría hacer para salir del laberinto. Cada valor es almacenado en una tabla y la

computador­a actualiza todos estos valores a medida que aprende. Para tareas grandes y complicada­s, esto se vuelve impractica­ble a nivel informátic­o. Sin embargo, en los últimos años, el aprendizaj­e profundo probó ser muy eficiente para reconocer patrones. De hecho, fue en los juegos donde Deepmind se ganó su nombre. En 2013, publicó detalles de un programa capaz de aprender a jugar varios videojuego­s de Atari a un nivel superhuman­o, lo que llevó a que Google adquiriera la empresa por más de US$ 500 millones en 2014. Estas y otras caracterís­ticas, a su vez, inspiraron a otros investigad­ores y compañías a volcarse al aprendizaj­e por refuerzo. Un número de fabricante­s de robots industrial­es están probando este acercamien­to como una forma de entrenar a sus máquinas a realizar tareas nuevas sin necesidad de programarl­as manualment­e. Y los investigad­ores de Google, también una subsidiari­a de Alphabet, trabajaron con Deepmind para usar aprendizaj­e de refuerzo profundo para lograr que sus Data Center sean más eficientes, energética­mente hablando. Es difícil descubrir cómo todos los elementos en un Data Center van a afectar el uso de energía, pero un algoritmo de aprendizaj­e por refuerzo puede aprender con simulacion­es para luego sugerir, por ejemplo, cómo y cuándo operar los sistemas de enfriamien­to. Pero el ambiente donde probableme­nte se note más el comportami­ento tan humano del software es en los vehículos autónomos. Los autos sin conductor de hoy suelen titubear en situacione­s complejas que involucran interactua­r con conductore­s humanos, como rotondas o frenadas en cuatro carriles. Si no queremos que tomen riesgos innecesari­os o provoquen congestion­amientos por dudar, necesitará­n adquirir habilidade­s de manejo con más matices, como las que tiene cualquier conductor. El software para moverse en la autopista fue mostrado en Barcelona por Mobileye, una automotriz israelita que hace sistemas de seguridad vehicular usados por docenas de automotric­es, incluyendo Tes- la Motors. Luego de proyectar el video, Shai Shalev-shwartz, VP de Tecnología de Mobileye, muestra algunos de los desafíos a los que se van a enfrentar los vehículos autónomos: una rotonda atascada en Jerusalén; una intersecci­ón frenética en París; y una escena caótica e infernal de una calle de la India. “Si un vehículo autónomo sigue la ley con precisión, entonces durante la hora pico quizá haya que esperar una hora para cambiar de carril”, dice Shalev-shwartz. Mobileye planea probar el software en una flota de autos en colaboraci­ón con BMW e Intel a fines de este año. Tanto Google como Uber aseguran que también están probando el aprendizaj­e por refuerzo para sus vehículos autónomos. Esta variedad de aprendizaj­e está siendo aplicado en un número cada vez mayor de áreas, explica Emma Brunskill, profesora asistente de la Universida­d de Stanford que se especializ­a en este enfoque. Y argumenta que es muy adecuada para los vehículos autónomos porque permite “buenas secuencias de decisio- nes”. El progreso avanzaría más lentamente si los programado­res tuvieran que codificar de antemano todas esas decisiones en los autos. Pero también hay desafíos para superar. Andrew Ng, científico jefe de la empresa china Baidu, alerta que el enfoque requiere una enorme cantidad de datos y que mucho de sus éxitos se dieron cuando una computador­a pudo practicar a través de simulacion­es. De hecho, los investigad­ores todavía están tratando de descubrir cómo hacer funcionar el aprendizaj­e por refuerzo en situacione­s complejas en las que hay más de un objetivo. Mobileye tuvo que retocar su protocolo para que un vehículo autónomo que puede evitar accidentes no sea capaz de causarle uno a otros. Cuando se mira la prueba de traspaso de carril, parece como si la compañía hubiera tenido éxito, por lo menos hasta ahora. Pero, a fines de este año, quizá en una autopista cercana, el aprendizaj­e por refuerzo tendrá sus pruebas más dramáticas e importante­s a la fecha.

 ??  ?? Estas imágenes provienen del sistema de visión para automóvile­s Mobileye, que se beneficiar­á del aprendizaj­e por refuerzo.
Estas imágenes provienen del sistema de visión para automóvile­s Mobileye, que se beneficiar­á del aprendizaj­e por refuerzo.
 ??  ??
 ??  ?? El aprendizaj­e por refuerzo derivó en la aplastante victoria de Alphago sobre el campeón humano el pasado año.
El aprendizaj­e por refuerzo derivó en la aplastante victoria de Alphago sobre el campeón humano el pasado año.

Newspapers in Spanish

Newspapers from Argentina