Desde el punto de vista técnico, ¿cuánto aprende Alexa de un usuario para darle lo que este quiere? ¿Podrán los asistentes aprender de tal manera del usuario que puedan anticiparse a sus necesidades y gustos?
Cuanto más se interactúa con ella, más se adapta a los patrones de habla, al vocabulario y a las referencias del lenguaje del usuario. Pero sí es verdad que estamos en el principio. Trabajamos mucho en que se pueda anticipar a nuestras necesidades y creemos que vamos a ir a una experiencia personalizada que haga la vida más fácil; y que cada vez tengamos que hablar menos con Alexa. En Estados Unidos, por ejemplo, una de cada cinco interacciones en domótica no la inicia el usuario, sino ella; por ejemplo, si has configurado una rutina para que se enciendan las luces veinte minutos antes del anochecer. Otra funcionalidad que existe allí permite definir o recordar, si estás fuera de casa, que no has apagado las luces. Todo esto permite a Alexa anticipar situaciones. Asimismo trabajamos en entender el contexto del usuario para que si le pides los horarios de tu vuelo, te ofrezca además información del tráfico, que proponga un taxi… Que tenga esa inteligencia contextual que tenemos los humanos, pero que hay que enseñar a las máquinas y que es lo más complicado.
La jefa de Alexa en España nos explica que en todo el mundo hay más de diez mil personas trabajando en el desarrollo de este asistente virtual controlado por voz y que fue lanzado en 2014 junto a su línea de altavoces inteligentes Echo. automático del habla) gracias al aprendizaje automático y a las capacidades de computación de hoy. Y ahora mismo nos encontramos en un nivel similar, si no superior, al del entendimiento de un humano. Lo que nos falta es la noción del contexto a la que me refería antes. ¿Hasta dónde vamos a llegar? Creemos que las interfaces de voz se convertirán en una práctica extendida. Usamos muchas fuentes de datos del mundo real para llegar a entrenar los modelos de voz, que incluyen las interacciones de los clientes o las técnicas de aprendizaje profundo de gran escalabilidad. Por ejemplo, recientemente hemos introducido el concepto de teachable con Alexa, que implica que el usuario pida algo que ella no conoce pero que lo pueda aprender. Si le digo que ponga el salón en modo cine, y responde que no sabe lo que es el modo cine, me preguntará qué quiero exactamente. Le explicaré que ponga las luces al 10% y que quite la música. La próxima vez que le ordene “modo cine”, ya lo tendrá aprendido.
En Estados Unidos estamos haciendo esto con la domótica, y lo iremos expandiendo a otros países. Otro ejemplo futurista afecta a las conversaciones, en concreto al hecho de que Alexa pueda involucrarse en una conversación cuando haya varias personas hablando. Esto para un humano es natural, y pronto ella podrá hacerlo porque entiende las señales acústicas, visuales y lingüísticas. Es algo que hemos anunciado en Estados Unidos y que tenemos muchas ganas de ver llegar a España. También estamos introduciendo mejoras en la parte de tech to speech, que existe desde hace mucho tiempo pero con una voz bastante monótona. Trabajamos en hacerla más natural, con más entonaciones para que cuando nos dé las noticias, por ejemplo, lo haga como un presentador. Para eso tiene que conocer el contexto para ajustar su tono y enfatizar ciertas palabras, poner pausas o silencios…