¿La IA tiene un único truco bajo su manga?
Prácticamente cualquier avance de la IA que se escucha depende de un descubrimiento que tiene tres décadas. Mantener el ritmo del progreso requerirá enfrentarse a las serias limitaciones de la inteligencia artificial.
Estoy parado en lo que pronto se convertirá en el centro del mundo, o quizá es solo una sala muy grande en el piso 7 de una brillante torre en el centro de Toronto, Canadá. Mostrándome los alrededores está Jordan Jacobs, quien cofundó este lugar: el naciente Instituto Vector, que abre sus puertas este otoño y apunta a convertirse en el epicentro global de inteligencia artificial. Estamos en Toronto porque Geoffrey Hinton está en Toronto, y Geoffrey Hinton es el padre del “aprendizaje profundo” o “deep learning”, la técnica detrás de la excitación actual sobre la Inteligencia Artificial (IA) 30 años vamos a mirar hacia atrás y ver a Geoff como Einstein —de la IA, el aprendizaje profundo, lo que estamos llamando IA—”, dice Jacobs. De los investigadores en la cima del campo del aprendizaje profundo, Hinton tiene más citas que los tres siguientes combinados. Sus estudiantes y posdoctorandos están manejando los laboratorios de IA de Apple, Facebook y Openia; el propio Hinton es el principal científico del equipo de IA de Google Brain. De hecho, casi todos los logros en la última década de IT —en traducción, reconocimiento de voz, y de imágenes y juegos— vuelven de alguna forma al trabajo de Hinton. El Instituto Vector, este monumento al ascenso de las ideas de Hinton, es un centro de investigación donde compañías de los Estados Unidos y Canadá —como Google, Uber y Nvidia— patrocinarán esfuerzos para comercializar tecnologías de IA. El dinero fluyó más rápido de lo que Jacobs podría haber imaginado; dos de sus cofundadores encuestaron a las empresas en el área de Toronto y la demanda de expertos de IA resultó ser 10 veces lo que Canadá produce al año. Vector es, de alguna forma, la zona cero para el intento ahora mundial de movilizarse alrededor del aprendizaje profundo: aprovechar la tecnología, enseñarla, refinarla y aplicarla. Se están construyendo los data centers, se están llenando las torres con startups, toda una nueva generación de estudiantes está yendo a ese campo. La impresión cuando uno está parado en el piso de Vector, vacío y con eco esperando a ser llenado, es que uno está en el comienzo de algo. Pero lo peculiar sobre el aprendizaje profundo es cuán viejas son sus ideas clave. El paper revolucionario de Hinton, con sus colegas David Rumelhart y Ronald Williams, fue publicado en 1986. El paper elaboraba sobre una técnica llama propagación trasera, o “backprop” (en inglés, viene de “backpropagation”) para abreviar. Backprop, en palabras de Jon Cohen, un psicólogo informático en Princeton, es “en todo lo que está basado el aprendizaje profundo —literalmente todo—”. Cuando uno lo resume, la IA hoy es aprendizaje profundo, y aprendizaje profundo es backprop —lo que es maravilloso, considerando que tiene más de 30 años—. Vale la pena entender cómo sucedió eso —cómo una técnica puede estar a la espera durante tanto tiempo y causar esa explosión— porque, una vez que uno entiende la historia de la backprop, empieza a entender la situación actual de la IA, y en particular el hecho
Quizá no estemos frente al principio de una revolución, sino que enfrentamos su final.
de que quizá no estamos en el comienzo de una revolución. Quizá estamos al final de una.
Reinvindicación
La caminata del Instituto Vector a la oficina de Hinton en Google, donde pasa la mayor parte de su tiempo (ahora es profesor emérito de la Universidad de Toronto), es una especie de publicidad viva de la ciudad, por lo menos en verano. Uno puede entender por qué Hinton, que es originalmente del Reino Unido, se mudó aquí en los años 1980 luego de trabajar en la Universidad Carnegie Mellon, en Pittsburgh. Cuando uno sale, incluso en el centro cerca del distrito financiero, se siente como si se hubiera metido en la naturaleza. Es el olor, creo: tierra húmeda en el aire. Toronto fue construida sobre barrancos forestados y se dice que es “una ciudad dentro de un parque”; a medida que fue urbanizada, el gobierno local ha puesto restricciones limitadas para mantener la población de árboles. Cuando uno llega volando, las partes externas de la ciudad parecen casi como dibujos animados. Toronto es la cuarta ciudad más grande de América del Norte (detrás de Ciudad de México, Nueva York y L.A.) y la más diversa: más de la mitad de la población nació fuera de Canadá. Uno lo nota al caminar. La multitud en el corredor tecnológico luce menos como San Francisco —hombres blancos caminando con buzos con capucha— y más internacional. Hay cuidado de la salud gratuito y buenas escuelas públicas, la gente es amistosa y el orden político es relativamente girado a la izquierda y estable; y estas cosas atraen a personas como Hinton, quien dice que dejó los Estados Unidos por el asunto Irán-contra. Es una de las primeras cosas sobre las que hablamos cuando voy a encontrarme con él, justo antes del almuerzo. “La mayoría de la gente en CMU pensaba que era perfectamente razonable que los Estados Unidos invadiera Nicaragua”, dice. “De alguna forma pensaban que eran los dueños.” Me dice que tuvo un gran descubrimiento hace poco en un proyecto, “de una ingeniera junior muy buena que está trabajando conmigo”, una mujer llamada Sara Sabour. Sabour es iraní y se le negó una visa para trabajar en los Estados Unidos. La oficina de Google de Toronto se la llevó consigo. Hinton, que tiene 69 años, tiene la cara amable, delgada e inglesa del Gran Gigante Amistoso, con una boca delgada, orejas grandes y una nariz importante. Nació en Wimbledon, Inglaterra, y suena, cuando habla, como el narrador de un libro de niños sobre ciencia: curioso, interesante, ansioso por explicar cosas. Es divertido y solo un poco showman. Está de pie durante todo el tiempo que hablamos porque, resulta, estar sentado es demasiado doloroso. “Me senté en junio de 2005 y fue un error”, me dice, dejando la frase en suspenso antes de explicar que tiene un problema en su espalda Significa que no puede volar y, más temprano, tuvo que llevar un objeto que parece una tabla de surf al consultorio del dentista para poder yacer sobre eso mientras le revisaban la raíz rota de un diente. En los años 1980 Hinton era, como ahora, experto en redes neuronales, un modelo muy simplificado de las redes de neuronas y sinapsis en nuestros cerebros. Sin embargo, en esa época se se decidió con firmeza que las redes neuronales eran una calle sin salida en la investigación de IA. Aunque la primera de estas, Perceptron, que comenzó a ser desarrollada en los años 1950, había sido alabada como el primer paso hacia una inteligencia artificial de nivel humano, un libro de 1969 de Marvin Minsky y Seymour Papert del MIT llamado Perceptrons probó matemáticamente que esas redes solo podían hacer las funciones más básicas. Esas redes tenían solo dos capas de neuronas, una de entrada y otra de salida. Aquellas con más capas entre las neuronas de entrada y salida podían en teoría resolver una gran variedad de problemas, pero nadie sabía cómo entrenarlas, así que en la práctica eran inútiles. Excepto por algunos resistentes como Hinton, Perceptrons causó que la mayoría de la gente dejara de lado completamente las redes neuronales. El descubrimiento de Hinton, en 1986, fue para mostrar que la backprop podía entrenar una red neuronal profunda, o sea una con más de dos o tres capas. Pero se necesitaron otros 26 años antes de que el poder informático pudiera aprovechar el descubrimiento. Un paper de 2012 de Hinton y dos de sus estudiantes de Toronto mostraron que las redes neuronales profundas, entrenadas usando backprop, les ganaban a los mejores sistemas de reconocimiento de imagen. El “aprendizaje profundo” despegó. Para el mundo exterior, parecía que la IA se había despertado de un día para el otro. Para Hinton, fue una recompensa largamente esperada.
Campo de distorsión de la realidad
Una red neuronal suele ser dibujada como un club sandwich, con capas una arriba de la otra. Las capas contienen neuronas artificiales, que son pequeñas unidades bobas que se excitan —igual que una neurona real— y pasan esa excitación a las otras neuronas a las que están conectadas. La excitación de una neurona está representada por un número, como 0,13 o 32,29, que dice cuán excitada está. Y hay otro número crucial, en cada una de las conexiones entre dos neuronas, que determina cuánta excitación debería pasar de una a otra. Ese número es para modelar la fuerza de las sinapsis entre las neu-
ronas en el cerebro. Cuando el número es más alto, significa que la conexión es más fuerte, entonces más de excitación de una fluye a la otra. Una de las aplicaciones más exitosas de las redes neuronales profundas está en el reconocimiento de imagen —como en la memorable escena de Silicon Valley, de HBO, en la que el equipo construye un programa que puede determinar si hay un pancho en la imagen—. Los programas como ese existen de verdad y no hubieran sido posibles hace una década. Para que funcionen, el primer paso es tener una foto. Digamos, por simplicidad, que es una pequeña imagen blanco y negro de 100 pixels de ancho y 100 de largo. Uno le alimenta esta imagen a la red neuronal poniendo la excitación de cada neurona estimulada en la capa de entrada para que sea igual al brillo de cada pixel. Esa es la capa de más abajo del sandwich: 10.000 neuronas (100x100) que representan el brillo de cada pixel en la imagen. Uno después conecta esta gran capa de neuronas a otra gran capa de neuronas arriba, digamos algunos miles, y estas a otra capa de otras miles de neuronas y así durante algunas capas. Finalmente, en la capa de más arriba del sandwich, la capa de salida, hay solo dos neuronas —una que representa “pancho” y otra que representa “no pancho”—. La idea es enseñarle a la red neuronal a excitar solo a la primera de esas neuronas si hay un pancho en la imagen, y solo a la segunda si no lo hay. Backprop —la técnica sobre la que Hinton construyó su carrera— es el método para hacer eso. Backprop es notablemente simple, aunque funciona mejor con grandes cantidades de datos. Por eso el Big Data es tan importante en IA y es la razón por la cual Facebook y Google están tan hambrientos por esto, y por qué el Instituto Vector está decidido a instalarse en la misma calle que cuatro de los hospitales más grandes de Canadá y desarrollar acuerdos de datos con ellos. En este caso, los datos toman la forma de millones de imágenes, algunas con panchos y otras sin; el truco es que estas imágenes son etiquetadas según cuáles tienen panchos. Cuando uno crea la red neuronal, las conexiones entre neuronas pueden tener pesos al azar —números azarosos que dicen cuánta excitación hay que pasar en cada conexión. Es como si las sinapsis del cerebro no hubieran sido ajustadas todavía. La meta de backprop es cambiar esos pesos para que hagan funcionar a la red: para que cuando pase una imagen de un pancho en la capa más baja, la neurona “pancho” de la capa de más arriba se excite. Supongamos que uno toma su primer entrenamiento de imagen y es la foto de un piano. Se convierten las intensidades del pixel de la imagen 100x100 en 10.000 números, uno para cada neurona en la capa de más abajo de la red. Cuando la excitación se dispersa por la red de acuerdo a las fortalezas de conexión entre las neuronas de las capas adyacentes, terminará en la última capa, la que tiene las dos neuronas que dicen si hay un pancho en la foto. Dado que la imagen es de un piano, idealmente la neurona “pancho” debería tener un cero, mientras que la neurona “no pancho” debería tener un número alto. Pero
supongamos que no funciona de esa forma. Digamos que la red está equivocada sobre esta imagen. Backprop es un procedimiento para reajustar la fortaleza de cada conexión en la red para corregir el error de un ejemplo de entrenamiento. De la forma en que funciona uno empieza con las últimas dos neuronas y descubre cuán erradas estaban: ¿cuánta diferencia hay entre los números de excitación que debería haber habido y los que hubo en realidad? Cuando eso está hecho, uno mira cada conexión que lleva a esas neuronas —las que están en la capa más baja siguiente— y descubre sus contribuciones al error. Se sigue haciendo esto hasta llegar al primer conjunto de conexiones, en el fondo de la red. En ese momento uno sabe cuánto contribuyó cada conexión individual al error general, y en el último paso se cambia cada peso en la dirección que mejor reduce el error. La técnica se llama “propagación trasera” porque uno está “propagando” los errores hacia atrás (o abajo) de la red, desde la salida. Lo increíble es que cuando uno hace esto con millones o miles de millones de imágenes, la red empieza a ser bastante buena a la hora de decir si una imagen tiene o no un pancho. Aún más notable es que las capas individuales de estas redes de reconocimiento de imagen empiezan a ser capaces de “ver” imágenes de forma similar a como lo hace nuestro propio sistema visual. Esto es, la primera capa puede detectar los bordes, porque las neuronas se excitan donde hay bordes y no se excitan donde no los hay; la capa arriba de esa puede detectar conjuntos de bordes, como esquinas; la superior a esa quizá empieza a ver formas; y la de arriba podría empezar a descubrir cosas como “moño abierto” o “moño cerrado”, en el sentido de tener neuronas que respondan a cualquiera de los dos casos. Las redes se organizan a sí mismas, en otras palabras, en capas jerárquicas sin tener que haber sido explícitamente programadas de esa forma. Esto es lo que tiene capturados a todos. No es solo que las redes neuronales son buenas para clasificar fotos de panchos o lo que fuera: parecen capaces de construir representaciones de ideas. Con texto se puede ver de forma mucho más clara. Uno puede alimentar el texto de Wikipedia, miles de millones de palabras de largo, en una red neuronal simple, entrenándola para devolver, por cada palabra, una gran lista de números que corresponden a la excitación de cada neurona en una capa. Si uno piensa en cada uno de estos números como una coordenada en un espacio complejo, entonces esencialmente lo que se está haciendo es encontrando un punto, conocido en este contexto como vector, para cada palabra en algún lugar de ese espacio. Ahora, se puede entrenar a la red de forma tal que las palabras que aparecen una al lado de la otra en las páginas de Wikipedia terminen con coordenadas similares, y voilà, sucede algo loco: las palabras con significados parecidos empiezan a aparecer una al lado de la otra en el espacio. Esto es, “insano” e “inestable” tendrán coordenadas cercanas, además de “tres” y “siete”, y así. Lo que es más, el llamado vector aritmético hace posible, por ejemplo, sustraer el vector “Francia” del vector “París”, sumar el vector “Italia” y terminar en la vecina “Roma”. Funciona sin que nadie que tenga que decirle explícitamente a la red que Roma es Italia como París es Francia. “Es maravilloso”, dice Hinton. “Es sorprendente.” Las redes neuronales pueden ser pensadas como si trataran de tomar cosas —imágenes, palabras, grabaciones de alguien hablando, datos médicos— y las pusieran en lo que los matemáticos llaman un espacio vector de alta dimensión, donde la cercanía o distancia de las cosas reflejan alguna característica importante del mundo real. Hinton cree que esto es lo que hace el cerebro. “Si uno quiere saber qué es un pensamiento, puedo expresarlo por vos en una línea de palabras. Puedo decir: ‘John pensó “Ups”’. Pero si uno se pregunta: ‘¿Cuál es el pensamiento, qué significa que John haya tenido ese pensamiento?’. No es que adentro de su cabeza hay una cita de apertura, un ‘Ups’ y una cita de cierre, o ni siquiera una versión limpia de eso. Dentro de su cabeza hay un enorme patrón de actividad neuronal.” Los grandes patrones de actividad neuronal, si
uno es matemático, pueden ser capturados en un espacio vector, con la actividad de cada neurona correspondiendo a un número, y cada número a una coordenada de un vector muy grande. En la visión de Hinton, eso es lo que se llama un pensamiento: un baile de vectores. No es coincidencia que la institución insignia de IA de Toronto haya sido nombrada por este hecho. Hinton fue uno de los que eligió el nombre Vector para el instituto. Hay una especie de campo de distorsión de la realidad que crea Hinton, un aire de seguridad y entusiasmo, que da la sensación de que no hay nada que los vectores no puedan hacer. Después de todo, miren lo que ya fueron capaces de producir: autos que se manejan a sí mismos, computadoras que detectan cáncer, máquinas que de forma instantánea traducen lenguaje hablado. ¡Y miren al encantador científico británico hablando sobre gradientes descendientes en espacios de alta dimensión! Solo cuando uno deja la sala se acuerda: estos sistemas de “aprendizaje profundo” todavía son bastante tontos, a pesar de cuán inteligentes parecen a veces. Una computadora que ve una foto de una pila de donas apiladas en una mesa y la etiqueta, automáticamente, como “una pila de donas apiladas en la mesa” parece entender el mundo; pero cuando el mismo programa ve una foto de una chica lavándose los dientes y dice: “El chico está sosteniendo un bate de béisbol”, uno se da cuenta de cuán delgado es realmente el entendimiento, si es que alguna vez existió. Las redes neuronales son solo borrosos reconocedores de patrón sin pensamiento, y a pesar de lo útiles que pueden ser los reconocedores borrosos de patrones —lo que explica el apuro para integrarlos a casi cualquier tipo de software—, pueden representar, en el mejor de los casos, un tipo de inteligencia limitada, una que sea fácil de engañar. Una red neuronal profunda que reconoce imágenes puede ser totalmente engañada cuando uno cambia un solo pixel, o agrega ruido visual que es imperceptible para una persona. De hecho, casi tan seguido como estamos encontrando formas nuevas de aplicar aprendizaje profundo, estamos encontrando más límites. Los vehículos autónomos pueden fallar a la hora de navegar en condiciones que nunca vieron antes. Las máquinas tienen problemas analizando oraciones que demandan entendimiento de sentido común de cómo funciona el mundo. De alguna forma el aprendizaje profundo imita lo que pasa en el cerebro humano, pero solo de forma superficial —lo que quizá explica por qué su inteligencia a veces parece tan artificial—. De hecho, backprop no fue descubierto explorando en lo profundo del cerebro, decodificándose a sí mismo; salió de modelos de cómo los animales aprenden por prueba y error en los viejos experimentos de condicionamiento clásico. Y la mayoría de los grandes saltos que salieron de su desarrollo no involucran nuevos descubrimientos de neurociencia; fueron mejoras técnicas, alcanzadas por años de matemáticos e ingenieros. Lo que sabemos sobre inteligencia no es nada contra lo vasto de lo que todavía no sabemos. David Duvenaud, profesor asistente en el mismo departamento que Hinton en la Universidad de Toronto, dice que el aprendizaje profundo fue un poco como la ingeniería antes de la física. “Alguien escribe un paper y dice: ‘¡Hice este puente y quedó parado!’. Otro tipo tiene un paper: ‘Hice un puente y se cayó; pero después le sumé pilares y se quedó’. Entonces los pilares son la moda. Alguien inventa los arcos y es ‘¡Los arcos son geniales!’.” Con la física, dice, “uno realmente puede entender qué va a funcionar y por qué”. Solo recientemente, añade, empezamos a movernos a la fase de entendimiento real de inteligencia artificial. El propio Hinton admite: “La mayoría de las conferencias consisten en hacer variaciones menores… en lugar de pensar fuerte y decir: ‘¿Qué de lo que estamos haciendo ahora es realmente deficiente? ¿Qué tiene dificultad? Enfoquémonos en eso”. Puede ser difícil entender esto desde afuera, cuando todo lo que se ve es un gran avance detrás de otro. Pero el último barrido de progreso en IA fue menos ciencia que ingeniería, incluso retoques. Y aunque empezamos a tener un mejor agarre en qué tipos de cambios mejorarán los sistemas de aprendizaje profundo, todavía estamos mayormente en la oscuridad sobre cómo funcionan esos sistemas, o si incluso se podrán parecer alguna vez a algo tan poderoso como la mente humana. Vale la pena preguntar si ya sacamos todo lo que pudimos de backprop. Si así fuera, eso podría significar una meseta para el progreso en inteligencia artificial.
Paciencia
Si uno quiere ver la próxima gran cosa, algo que puede formarse de lo básico de las máquinas con una inteligencia mucho más flexible, uno probablemente debería chequear la investigación que se parece a lo que uno hubiera encontrado si se hubiera cruzado con backprop en los años 80: gente inteligente tapada de ideas que todavía realmente no funcionan. Hace un par de meses fui al Centro de las Mentes, Cerebros y Máquinas, un esfuerzo multi institucional en el MIT, para ver a un amigo, Eyal Dechter, defender su disertación sobre ciencia cognitiva. Justo antes de que empezara la charla, su mujer
Una inteligencia verdadera no se rompe cuando apenas se modifica el problema.
Amy, su perro Ruby y su hija Susannah estaban a su alrededor, deseándole suerte. En la pantalla había una foto de Ruby y, al lado, una de Susannah de bebé. Cuando el padre le pidió a Susannah que se señalara a sí misma, ella con felicidad dirigió un puntero láser contra su propia foto. Saliendo de la sala, llevaba un cochecito de juguete detrás de su mamá y gritó: “¡Buena suerte, papá!”, sobre su hombro. “¡Vámanos!”, dijo finalmente. Tiene dos años. Eyal empezó su charla con una pregunta cautivadora: ¿cómo es que Susannah, después de dos años de experiencia, puede aprender a hablar, jugar, seguir historias? ¿Qué tiene el cerebro humano que lo hace aprender tan bien? ¿Podrá una computadora alguna vez ser capaz de aprender tan rápida y fluidamente? Le damos sentido a los fenómenos nuevos en términos de cosas que ya entendemos. Rompemos un dominio en partes y aprendemos las piezas. Eyal es un matemático y programador informático, y piensa las tareas —como hacer un soufflé— como programas de computación realmente complejos. Pero no es que uno aprende a hacer soufflé aprendiendo cada una de las millones de micro-instrucciones del programa, como: “Gire su codo 30 grados, luego mire la mesada, luego extienda su dedo índice, luego…”. Si uno tuviera que hacer eso para cada tarea, aprender sería demasiado duro y uno se quedaría solo con lo que sabe. En cambio, repartimos el programa en términos de pasos de alto nivel, como “Bata las claras de huevo”, que en sí mismas están compuestas por subprogramas, como “Rompa los huevos” y “Separe las yemas”. Las computadoras no hacen esto y eso es una gran parte del motivo por el que son tontas. Para que un sistema de aprendizaje profundo reconozca un pancho, quizá hay que alimentarlo con 40 millones de imágenes de panchos. Para que Susannah reconozca un pancho, uno le muestra un pancho. Y al poco tiempo tendrá un entendimiento del lenguaje que va más allá de reconocer que ciertas palabras suelen ir juntas. “Me parece bastante increíble que la gente le tiene miedo a que las computadoras se queden con los trabajos”, dice Eyal. “No es que las computadoras no pueden reemplazar a los abogados porque los abogados hacen cosas muy complicadas. Es porque los abogados leen y le hablan a la gente. No es que estamos cerca. Estamos muy lejos.” Una inteligencia real no se rompe cuando uno cambia apenas los requerimientos del problema que está tratando de resolver. Y la parte clave de la tesis de Eyal fue su demostración, en principio, de cómo uno podría lograr que una computadora funcione de esa forma: aplicar de forma fluida lo que ya sabe a tareas nuevas, para impulsar rápidamente su forma de saber casi nada sobre un dominio nuevo a ser un experto. Esencialmente, es un procedimiento que él llama algoritmo de “exploración-compresión”. Logra que una computadora funcione de alguna forma como un programador que construye una biblioteca de componentes modulares y reutilizables camino a construir programas más y más complejos. Sin que se le diga nada sobre un dominio nuevo, la computadora trata de estructurar conocimiento sobre esto probando, consolidando lo que encuentra y jugando un poco más, como hace un nene humano. Su tutor, Joshua Tenenbaum, es uno de los investigadores más citados de IA. El nombre de Tenenbaum surgió en la mitad de las conversaciones que tuve con otros científicos. Algunas de las personas clave en Deepmind —el equipo detrás de Alphago, que shockeó a los científicos informáticos ganándole al campeón mundial en el complejo juego de Go en 2016— trabajaron con él. Está involucrado con una startup que está tratando de darles a los vehículos autónomos algo de intuición sobre física básica y las intenciones de otros conductores, así pueden anticipar mejor lo que podría suceder en una situación que nunca vieron antes, como cuando un camión dobla frente a ellos o cuando alguien trata de moverse de carril de forma agresiva. La tesis de Eyal no se traduce todavía a ese tipo de aplicaciones prácticas, menos a programas que llegarían a titulares por ganarle a una persona. Los problemas en los que está trabajando Eyal “son muy, muy complejos”, dijo Tenenbaum. “Van a tomar muchas, muchas generaciones.” Tenenbaum tiene pelo canoso, largo y enrulado, y cuando nos sentamos a tomar café tenía una camisa con pantalones negros. Me dijo que mira a la historia de backprop para inspirarse. Durante décadas, backprop fue una matemática cool que realmente no logró nada. A medida que las computadoras se volvieron más rápidas y los ingenieros más sofisticados, de repente lo hizo. Espera que pase lo mismo con su propio trabajo y el de sus estudiantes, “pero quizá tome otro par de décadas”. Con respecto a Hinton, está convencido de que superar las limitaciones de la IA involucra construir “un puente entre la ciencia informática y la biología”. Backprop fue, en su visión, un triunfo de la computación inspirada por la biología; la iniciativa surgió en principio no de la ingeniería sino de la psicología. Así que ahora Hinton está tratando de lograr un truco similar. Las redes neuronales de hoy están hechas de grandes capas chatas, pero en la neurocorteza humana las neuronas reales están ordenadas no solo horizontalmente en capas sino verticalmente en columnas. Hinton piensa que sabe para qué son las columnas —en la visión, por ejemplo, son cruciales para nuestra habilidad de reconocer objetos incluso cuando cambia nuestro punto de vista—. Así que está construyendo una versión artificial —las llama “cápsulas”— para probar la teoría. Hasta ahora, no lo logró; las cápsulas no mejoraron dramáticamente la performance de su red. Pero esta era la misma situación que con backprop durante casi 30 años. “Esto tiene que ser correcto”, dice sobre la teoría de la cápsula, riéndose de su propia audacia. “Y el hecho de que no funciona es solo una molestia temporal.”