“Alexa, entendeme”
El 31 de agosto de 2012, cuatro ingenieros de Amazon presentaron la patente para lo que después se convertiría en Alexa, un sistema de inteligencia artificial diseñado para interactuar con uno de los conjuntos de datos más grandes y enredados del mundo: el del habla humana. Los ingenieros necesitaron de solo 11 palabras y un diagrama de flujo simple para describir cómo funcionaría: en un cuarto silencioso, un usuario dice: “Alexa, por favor, reproducí Let it be, de Los Beatles”. Entonces una pequeña máquina le contesta: “Ningún problema, John” y comienza a sonar la canción. Desde el momento de ese puntapié inicial, la IA sobre voz para el hogar se convirtió en el principal negocio para Amazon y, cada vez más, un campo de batalla estratégico con sus rivales tecnológicos. Google, Apple, Samsung y Microsoft están volcando miles de investigadores y especialistas de negocios en el trabajo de tratar de crear versiones irresistibles de aparatos fáciles de usar con los que podamos hablar. “Hasta ahora, todos nos flexibilizamos para acomodar a la tecnología, en términos de tipear, apretar o deslizar. Ahora, las nuevas interfaces de usuario se van a flexibilizar”, observa Ahmed Bouzid, CEO de Witlingo, una empresa que construye aplicaciones por voz para todo tipo de bancos, universidades, estudios de abogados y otros. Para Amazon, lo que empezó como una plataforma para crear un mejor reproductor de música se convirtió en algo más grande: un sistema de inteligencia artificial construido sobre —y aprendiendo constantemente de— los datos humanos. Su gadgets Echo y Dot, ambos con Alexa, son omnipresentes ayudantes hogareños que pueden apagar las luces, contar chistes o leer las noticias. También recolectan toneladas de datos sobre sus usuarios, utilizados para mejorar a Alexa y sumar más usos. Desde su debut en el mercado en 2014, se vendieron decenas de millones de máquinas con Alexa. En el mercado estadounidense de aparatos con IA sobre voz, se estima que Amazon lidera con el 70 por ciento de todas las ventas, aunque la competencia se está recalentando. Google Home también vendió millones de unidades, y Apple y Microsoft están lanzando sus propias versiones. El beneficio final es la oportunidad de controlar —o por lo menos influir— tres mercados importantes: automatización del hogar, entretenimiento hogareño y compras. Es difícil saber cuántas personas les quieren hablar a sus heladeras, pero los patrones de la vida diaria están cambiando rápido. De la misma forma que los smartphones cambiaron todo, desde la etiqueta en las citas hasta la velocidad de los peatones, la IA sobre voz está comenzando a modificar muchos aspectos de la vida hogareña. ¿Por qué levantarse para cerrar la puerta de la casa o encender la calefacción de un día muy frío si Alexa o los dispositivos de su tipo pueden arreglar esas cosas de forma instantánea? Por ahora, Amazon no está tratando de conseguir dinero de las empresas que hacen termoestatos y lamparitas inteligentes u otros aparatos conectados a Alexa. Sin embargo, al final del camino es fácil imaginar arreglos de facturación compartida. El más chico de estos mercados, automatización del hogar, ya representa más de US$ 5.000 millones en gastos al año, mientras que las ventas de retail de los Estados Unidos el año pasado fueron de US$ 4,9 billones. Hoy, Amazon gana dinero con las máquinas en sí mismas, con precios que van de US$ 50 para Dot hasta US$ 230 para el Echo más premium con pantalla de video, y cosecha una segunda recompensa si los usuarios terminan haciendo más compras en la enorme tienda online de Amazon (la empresa no revela los números de tráfico). Sin embargo, para que los Echo se vuelvan tan comunes como los smartphones, necesitarán hacer muchas más cosas. Con ese fin, Amazon está alentando a los desarrolladores independientes a construir servicios nuevos para la plataforma, como Apple hace desde hace tiempo con los desarrolladores de aplicaciones. Hasta ahora, se construyeron más de 15.000 de esas “habilidades” o Apps, y las herramientas para construir aplicaciones son tan fáciles que ahora es posible hacer una habilidad simple en menos de una hora sin muchos conocimientos de programación. Entre las aplicaciones más populares están las opciones de transporte como Uber y Lyft. Duds incluye 48 habilidades separadas que bombardean a los oyentes con insultos. Entre los desarrolladores más ambiciosos hay compañías haciendo hardware o vendiendo servicios que funcionan con Alexa. El banco Capital One, por ejemplo, está ofreciendo pago de facturas basado en Alexa para sus clientes; Ecobee, basado en Toronto, es uno de los tantos fabricantes de termostatos inteligentes que está armando versiones con Alexa que dejan bajar o subir la temperatura de una habitación solo diciendo algunas palabras. “Nuestros clientes tienen vida ocupadas”, asegura Stuart Lombard, CEO de Ecobee. Un dato basta para ver la importancia de Alexa en su modelo de negocios: cerca del 40 por ciento de sus ventas totales son de productos con Alexa, su línea de mayor crecimiento en 10 años de vida. “Tienen que luchar contra el tráfico para llegar a su casa, tienen que darles de comer a los chicos, cambiar al bebé y quién sabe qué más. Les damos una forma manos libres de hacer algo mientras están en el medio de otras tareas.”
El discurso y la IA
Lo que hace a la IA sobre voz una idea tan atractiva para los consumidores es su promesa de adaptarse a nosotros, de res-
ponder a la forma en que hablamos —y pensamos— sin que tengamos que tipear sobre un teclado o una pantalla. Eso es lo que también los hace tan técnicamente difíciles de construir. No somos tan ordenados cuando hablamos. En cambio, nos interrumpimos. Dejamos que los pensamientos se mezclen. Usamos palabras, asentimientos, gruñidos de formas raras, y asumimos que estamos hablando con sentido incluso cuando no lo hacemos. Miles de empleados de Amazon están trabajando sobre este desafío, incluyendo a algunos en centros de investigación en Seattle, Sunnyvale (California) y Cambridge (Massachusetts). Y no son suficientes: la página de trabajos de Amazon ofrece 1.100 puestos más para Alexa en docenas de departamentos, incluyendo 215 vacantes para especialistas de aprendizaje automático (Machine Learning). Durante una reunión en las oficinas de la empresa en Cambridge, le pregunté al científico jefe de Alexa, Rohit Prasad, por qué necesita tanta gente —y cuándo va a estar, finalmente, completo su equipo de investigación. “Me causa mucha gracia la pregunta”, respondió Prasad. Después de algunos segundos, habiendo recuperado su compostura, Prasad explica que trabaja en tecnología de voz desde hace 20 años, con resultados lentos y frustrantes durante la mayor parte de ese periodo. Sin embargo, en los últimos cinco años se abrieron oportunidades gigantes. Crear una IA sobre voz efectiva es una tarea compleja y todavía no conquistada. Pero mientras que en el pasado los científicos del habla luchaban por determinar el significado exacto de las expresiones a veces caóticas en el primer intento, los acercamientos nuevos del aprendizaje automático están progresando con una táctica diferente: trabajan a partir de coincidencias imperfectas en el resultado, seguido por un ajuste rápido de suposiciones provisionales. La clave es trabajar a partir de grandes cantidades de datos de usuarios y aprender de los errores anteriores. Cuanto más tiempo pasa Alexa con sus usuarios, más datos de los que aprender recoleta y se vuelve más inteligente. Con el progreso llegan más oportunidades y la necesidad de más mano de obra. “Déjeme dar un ejemplo”, explica Prasad. “Si uno le pregunta a Alexa cuál es el primer disco de Adele, la respuesta debería ser: ‘19’. Si uno después le dice: ‘Que suene’, Alexa sabrá lo suficiente para empezar a tocar ese disco.” ¿Pero qué pasa si hay charlas conversacionales en el medio? ¿Qué pasa si uno primero le pregunta a Alexa en qué año salió el disco y cuántas copias vendió? Al terminar ese intercambio con el críptico “Que suene” las versiones anteriores de Alexa se hubieran quedado trabadas. Ahora la tecnología puede seguir ese tren de pensamiento, por lo menos a veces, y reconocer que eso significa ‘19’.” Las mejores respuestas provienen de las técnicas de aprendizaje automático que reexaminaron miles de intercambios