“Enseñamos al lavaplatos a ver y saber si la vajilla está sucia”
La inteligencia es perspectiva que crece con los años y ya tengo 44. Nací en Madrid, pero estudié en la UPC. Investigo en el Centro de Inteligencia Artificial del MIT. Creo en la ciencia, que también es espíritu. Diserto en el XX Aniversari del Centre de
Siempre me interesó la inteligencia artificial y uno de sus grandes retos es la visión: cómo lograr que las máquinas –robots, coches, ordenadores– vean y sean capaces de reconocer lo que ven.
No parece tan difícil. Eso decían los amigos y mucha gente. A ellos les parecía tan natural ver que les costaba pensar que un ordenador no pudiera.
Se le pone una cámara y ya está... ¿no? Es una pregunta algo ingenua, pero también lo fue la planificación de los investigadores del MIT en 1966, que planearon solucionar el problema del reconocimiento de imágenes en apenas tres meses.
Veo que solucionarlo ya cuesta 50 años. Ha sido una larga historia: en los setenta y ochenta las memorias de ordenador apenas tenían capacidad para almacenar imágenes. Era alquimia más que química. En los noventa su memoria te permitía ensayar algún tipo de reconocimiento visual por ordenador, pero sin grandes resultados hasta que hace 15 años las cosas mejoraron mucho.
Mi cámara de fotos ya reconocía caras. Porque lo primero que los ordenadores aprendieron a reconocer fueron rostros humanos, como hacía su cámara. Hoy Google StreetView reconoce miles de caras en fotos de todo el planeta en segundos y las torna inmediatamente irreconocibles...
Para evitar que les demanden. Es el tipo de reconocimiento visual que queremos que logren los ordenadores y no sólo para distinguir caras, sino todos los objetos.
Pues adelante. Sigue sin ser fácil. Para que el ordenador pueda reconocer la realidad, antes hay que haberla convertida en datos que pueda procesar: hay que medir todo cuanto queremos que pueda ver para poder almacenarlo en su memoria como trillones de píxeles.
Medir el mundo es una misión titánica. Que empieza a ser posible a medida que mejora nuestra capacidad de captar, almacenar y procesar infinidad de datos. Es el big data de la inteligencia artificial.
Últimamente todos mis entrevistados acaban citando esas palabritas. Porque es la última frontera tecnológica también en inteligencia artificial. Antes de que los procesadores multiplicaran su capacidad y de que refináramos –que es igual de necesario– los algoritmos de interpretación, para enseñar a los ordenadores a ver sólo teníamos bases de datos muy limitadas . Al ¿Cómo principio, les con enseñaban? imágenes muy simples y precisas: estereotipos sobre fondos inequívocos. La primera base de datos con imágenes para ordenadores sólo tenía una cara: Lena. Era una chica muy admirada, porque los investigadores llegamos a aprendernos sus píxeles casi de memoria.Las Supongo actuales que bases hoy de datos tendrán ofrecen alguna millonesmás. de imágenes Imagenet, reconociblespor ejemplo, para almacenalos ordenadores.más de 80 millones.ir aumentándolos.Places es otra maravilla. Pero hay que
Tenemos ¿Quién introduce colaboradores, todas algunosesas imágenes? remunerados imágenesa céntimospara por que tarea, puedan que ser van memorizadas, etiquetando almacenadas ¿Becarios? y ¿Estudiantes?procesadas. Mi paper madre, sobre por su ejemplo, experienciaha escrito etiquetadorahasta un de imágenes ¿Cuándo para podrá bases un de ordenadordatos icónicas. reconocer tantas imágenes como los humanos? Yo calculo que en unos cinco años. Las nuevas arquitecturas de ordenador y, en especial, las redes neuronales nos permiten un salto gigantesco en robótica y en esos famosos coches inteligentes, que ya ven y reconocen imágenes para poder conducir solos.
¿Cómo ve un coche sin conductor? Se trata de que opere en un entorno cerrado y siempre predecible. El problema se plantea cuando deja de serlo.
¿Cuando se cuela un gato en la ruta? El desafío está en haber previsto lo imprevisto y que lo vea, lo reconozca y actúe.
¿Cómo logran saber mi cámara que enfoco una cara y no la pared? Se trata de deconstruir un problema complejo en multitud de opciones binarias: sí o no. Se descomponen las imágenes en píxels, en cuadraditos, y el ordenador analiza sólo un fragmento, por ejemplo, de 30/30 píxels.
¿Y sólo con eso ya sabe si es un rostro? El procesador va diciendo por exclusión sí o no ante cada píxel, porque todas las caras humanas coinciden en algunos. Y si la imagen no sigue ese patrón, no es una cara.
¿Hasta dónde llegarán por ese camino? Ahora mismo se me ocurre algo muy elemental, pero también muy práctico...
¿La guerra de las galaxias? ¿Visión nocturna para evitar robos? Enseñar al lavaplatos a ver y reconocer si la vajilla está sucia y lavar en consecuencia.
Pues ya haría más que yo muchos días. De eso se trata. De enseñar a las máquinas para que un día nos enseñen a nosotros.
Muy ambicioso me parece. Trasel ya momentose muchospuede y de nosotrosaños pensarde pasitosa y lo los grande, ordenadorescortos créame.ha llegadolo Hoyvamos a ver pronto.