De l’émotion dans les tuyaux
L’équipe d’Amplify, filiale de l’Ircam, bûche sur les intonations des futurs assistants vocaux
« Quand on parle à un humain, on s’adapte à la manière dont il parle. Un même message prononcé différemment déclenche une réaction différente sur l’interlocuteur. » Nathalie Birocheau, directrice générale d’Ircam Amplify, pourrait débattre des heures durant sur l’interaction entre l’homme et la machine. Avec Marion Laporte, directrice marque et communautés, et Vincent Meurisse, chef de projet à Amplify, elle a reçu 20 Minutes, mercredi, à Paris.
L’importance de la prosodie
Près du Centre Pompidou trône l’Institut de recherche et coordination acoustique-musique (Ircam). La filiale Amplify, créée depuis quelques mois, s’appuie sur les recherches de l’Ircam pour réfléchir aux usages de demain. L’équipe a dévoilé ses travaux sur la voix artificielle et ce que l’on peut envisager pour les assistants vocaux intelligents. Et le débat investit le sujet de la prosodie (les caractéristiques de la voix qui rendent les émotions et les intentions intelligibles). Car, pour comprendre les autres, il ne suffit pas de prononcer des mots sur un ton monocorde. Et les assistants vocaux ont du pain sur la planche avant de ressembler à la voix suave de Scarlett Johansson, l’intelligence artificielle dans le film Her, de Spike Jonze. « On peut imaginer, avec un apprentissage de machine-learning et avec un data set [ensemble de données] assez important de réponses, une interaction qui va se construire en fonction de l’évolution de l’intonation de la discussion », anticipe Vincent Meurisse. Amplify travaille surtout sur le compagnonnage homme-machine. Un assistant intelligent capable de repérer le niveau d’anxiété, de colère, de fatigue, pourrait prévenir l’agent opérateur des centres d’appels et l’aider à adopter le meilleur comportement possible dans une situation donnée (lire l’encadré). La directrice d’Amplify prévoit l’arrivée de cette technologie dans deux ou trois ans.