Et maintenant, nous parlons

L’essor fulgurant des technologies vocales bouleverse l’interface homme-machine

2017-01-13 - THE ECONOMIST

“Toute technologie suffisamment

avancée est indiscernable de la magie”, a un jour écrit Arthur C. Clarke, auteur britannique de science-fiction. L’essor fulgurant des technologies de commande vocale en est la preuve. Elles s’utilisent comme un tour de magie: lancez quelques mots à la volée et un appareil à proximité exaucera vos voeux. Amazon Echo, un appareil cylindrique commandé par la voix, se pose sur une table et répond au nom d’Alexa. Il peut lancer des morceaux de musique et parcourir des stations de radio, faire des plaisanteries, répondre à des questions générales et contrôler des objets connectés. Avant Noël, il avait déjà élu domicile dans 4 % des foyers américains. Mais les assistants vocaux prolifèrent aussi dans les smartphones: l’assistant Siri d’Apple répond à pplus de 2 milliards de requêtesq par semaine, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la voix...

“Toute technologie suffisamment avancée est indiscernable de la magie”, a un jour écrit Arthur C. Clarke, auteur britannique de science-fiction. L’essor fulgurant des technologies d’informatisation vocale en est la preuve. Cela ressemble à un tour de magie : lancez quelques mots à la volée et un appareil à proximité exaucera vos voeux. Amazon Echo, un appareil cylindrique commandé par la voix, se pose sur une table et répond au nom d’Alexa. Il peut lancer des morceaux de musique et parcourir des stations de radio, faire des plaisanteries, répondre à des questions générales et contrôler des objets connectés. Avant Noël, il avait déjà élu domicile dans 4 % des foyers américains. Mais les robots conversationnels prolifèrent aussi dans les smartphones : l’assistant virtuel Siri d’Apple répond à plus de 2 milliards de requêtesq ppar semaine, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la voix. Les systèmes de dictée d’e-mail et de SMS fonctionnent désormais de façon assez fiable pour être utiles. Pourquoi taper sur un clavier lorsque l’on peut parler ? Il s’agit là d’un tournant considérable. Aussi simple qu’elle puisse paraître, la voix a le pouvoir de transformer l’informatique en offrant un mode d’interaction naturel avec les machines. Les fenêtres, les icônes et les menus, puis plus tard les écrans tactiles, ont chacun leur tour été accueillis comme des moyens de contrôle plus intuitifs que la saisie de commandes complexes sur un clavier d’ordinateur. Mais voilà qu’aujourd’hui, la possibilité de parler aux ordinateurs supprime tout besoin d’une interface utilisateur abstraite. Les téléphones mobiles représentaient plus que de simples téléphones sans fil et les voitures étaient bien davantage que des carrosses sans chevaux. De la même manière, les ordinateurs sans écrans et sans claviers ont le potentiel pour s’avérer plus utiles, plus puissants et plus répandus que ce que l’on peut imaginer aujourd’hui. La voix ne remplacera pas totalement les autres types de commandes et de réponses informatiques. Dans certaines situations, il restera plus pratique de communiquer avec une machine en tapant sur un clavier plutôt qu’en parlant (Amazon travaillerait actuellement sur un appareil Echo doté d’un écran intégré). Mais la voix est destinée à prendre une place de plus en plus importante dans les interactions des utilisateurs avec la technologie qui les entoure, depuis les machines à laver indiquant la progression du cycle en cours jusqu’aux assistants virtuels dans les centres d’appels. Cependant, pour atteindre son potentiel maximal, cette technologie devra réaliser de nouveaux progrès. Elle devra aussi résoudre les problèmes sensibles qu’elle soulève et atteindre un compromis entre commodité et confidentialité.

Alexa, qu’est-ce que le deep learning ?

Les systèmes de dictée numérique existent depuis des années. Mais ils sont longtemps restés peu fiables et exigeaient un long temps d’apprentissage pour reconnaître la voix d’un utilisateur spécifique. La nouvelle aptitude des ordinateurs à reconnaître la voix de pratiquement n’importe quel utilisateur, de façon fiable et sans entraînement préalable, est la dernière illustration du pouvoir du “deep learning”,

Siri d’Apple répond à plus de 2 milliards de requêtes par semaine,, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la

voix

ou “apprentissage profond”. Cette technique d’intelligence artificielle permet d’entraîner un programme à partir de millions d’exemples, généralement collectés sur Internet. Aujourd’hui et grâce à cet apprentissage profond, les ordinateurs rivalisent presque avec les humains en matière de transcription, les systèmes de traduction automatisée s’améliorent rapidement et les logiciels de synthèse vocale deviennent moins robotiques et s’expriment de façon plus naturelle. En somme, les ordinateurs se sont beaucoup améliorés dans le traitement du langage naturel sous toutes ses formes. Certes, l’apprentissage profond permet aux machines de reconnaître un discours plus rapidement et d’articuler de façon plus naturelle. Mais elles ne comprennent pas encore le sens du langage. C’est l’aspect le plus épineux du problème et il doit être dépassé pour que le traitement informatisé du langage puisse prospérer. Les appareils doivent être capables d’appréhender le contexte pour soutenir une conversation cohérente sur un sujet donné, sans se contenter de répondre à des commandes simples comme ils le font essentiellement aujourd’hui (“Dis Siri, programme la minuterie pour dix minutes”). Dans les universités, les petites et grandes entreprises, des chercheurs travaillent précisément sur ce problème et conçoivent des “robots” capables de tenir des conversations plus élaborées sur des tâches plus complexes, allant de la recherche d’informations jusqu’au conseil en crédit en passant par l’organisation de voyages. Amazon offre même une récompense d’un million de dollars à qui sera capable de concevoir un robot social capable de converser de façon “cohérente et stimulante” pendant vingt minutes.

Quand la magie remplace l’image

Les consommateurs et les instances de contrôle ont aussi leur rôle à jouer dans le développement du traitement informatisé du langage. Même dans sa forme actuelle relativement primitive, cette technologie nous confronte à un dilemme : les systèmes de commande vocale sont essentiellement utiles quand ils sont personnalisés et qu’ils disposent d’un large accès aux données privées telles que les calendriers, les e-mails et autres informations sensibles. Cela soulève des problèmes de confidentialité et de sécurité. Comme pour compliquer davantage les choses, de nombreux appareils commandés par la voix se maintiennent en écoute permanente en attendant d’être activés. Certains s’inquiètent déjà des conséquences que pourraient avoir ces écoutes permanentes, dans chaque pièce et chaque smartphone, par des microphones connectés à Internet. Toutes les données audio ne sont pas envoyées dans le cloud : les appareils attendent les mots-clés d’activation (“Alexa”, “OK Google”, “Hey, Cortana” ou “Dis, Siri”) pour transmettre la voix de l’utilisateur aux serveurs qui gèrent les requêtes. Mais en ce qui concerne le stockage, il est difficile de savoir qui conserve quoi et quand. Enquêtant sur un meurtre dont un appareil Amazon Echo a peutêtre été témoin en Arkansas, la police a réclamé l’accès à toutes les données audio enregistrées. Mais Amazon a refusé de coopérer (avec le soutien des défenseurs de la confidentialité des données), au motif que le statut juridique de telles requêtes n’est pas clair. Cette situation est semblable au refus d’Apple d’aider les enquêteurs du FBI à débloquer l’iPhone d’un terroriste en 2016. Ces deux cas illustrent le besoin de règles précisant quelles intrusions dans la vie privée sont justifiées pour des raisons de sécurité, et dans quel cadre. Les consommateurs adopteront les systèmes de commande vocale, que ces problèmes soient résolus ou non. Dans de nombreuses situations, la voix est plus pratique et naturelle que tout autre moyen de communication. Elle a aussi pour caractéristique exceptionnelle de pouvoir être utilisée tout en faisant autre chose (en conduisant, en faisant de l’exercice ou en marchant dans la rue). Elle peut rendre l’informatique accessible aux personnes qui, pour une raison ou pour une autre, sont incapables d’utiliser un écran et un clavier. Et elle pourrait avoir un impact considérable non seulement sur l’informatique, mais sur l’usage du langage lui-même. La traduction en simultané par ordinateur pourrait rendre superflue la maîtrise d’une langue étrangère pour de nombreuses personnes. Et dans un monde où les machines savent parler, des langues minoritaires et peu diffusées pourraient avoir davantage de chances de survie. L’écran tactile a profondément modifié la façon dont les humains interagissent avec les ordinateurs. Le passage à la parole promet bien davantage encore.

L’écran tactile a profondément modifié la façon dont les humains interagissent avec les ordinateurs. Le passage à la parole

promet bien davantage encore.

Et maintenant, nous parlons

L’essor fulgurant des technologies vocales bouleverse l’interface homme-machine

Newspapers in French

Newspapers from France

Et maintenant, nous parlons

L’essor fulgurant des technologi­es vocales bouleverse l’interface homme-machine

Newspapers in French

Newspapers from France

L’essor fulgurant des technologies vocales bouleverse l’interface homme-machine