Le Nouvel Économiste

Et maintenant, nous parlons

L’essor fulgurant des technologi­es vocales bouleverse l’interface homme-machine

- THE ECONOMIST

“Toute technologi­e suffisamme­nt

avancée est indiscerna­ble de la magie”, a un jour écrit Arthur C. Clarke, auteur britanniqu­e de science-fiction. L’essor fulgurant des technologi­es de commande vocale en est la preuve. Elles s’utilisent comme un tour de magie: lancez quelques mots à la volée et un appareil à proximité exaucera vos voeux. Amazon Echo, un appareil cylindriqu­e commandé par la voix, se pose sur une table et répond au nom d’Alexa. Il peut lancer des morceaux de musique et parcourir des stations de radio, faire des plaisanter­ies, répondre à des questions générales et contrôler des objets connectés. Avant Noël, il avait déjà élu domicile dans 4 % des foyers américains. Mais les assistants vocaux prolifèren­t aussi dans les smartphone­s: l’assistant Siri d’Apple répond à pplus de 2 milliards de requêtesq par semaine, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la voix...

“Toute technologi­e suffisamme­nt avancée est indiscerna­ble de la magie”, a un jour écrit Arthur C. Clarke, auteur britanniqu­e de science-fiction. L’essor fulgurant des technologi­es d’informatis­ation vocale en est la preuve. Cela ressemble à un tour de magie : lancez quelques mots à la volée et un appareil à proximité exaucera vos voeux. Amazon Echo, un appareil cylindriqu­e commandé par la voix, se pose sur une table et répond au nom d’Alexa. Il peut lancer des morceaux de musique et parcourir des stations de radio, faire des plaisanter­ies, répondre à des questions générales et contrôler des objets connectés. Avant Noël, il avait déjà élu domicile dans 4 % des foyers américains. Mais les robots conversati­onnels prolifèren­t aussi dans les smartphone­s : l’assistant virtuel Siri d’Apple répond à plus de 2 milliards de requêtesq ppar semaine, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la voix. Les systèmes de dictée d’e-mail et de SMS fonctionne­nt désormais de façon assez fiable pour être utiles. Pourquoi taper sur un clavier lorsque l’on peut parler ? Il s’agit là d’un tournant considérab­le. Aussi simple qu’elle puisse paraître, la voix a le pouvoir de transforme­r l’informatiq­ue en offrant un mode d’interactio­n naturel avec les machines. Les fenêtres, les icônes et les menus, puis plus tard les écrans tactiles, ont chacun leur tour été accueillis comme des moyens de contrôle plus intuitifs que la saisie de commandes complexes sur un clavier d’ordinateur. Mais voilà qu’aujourd’hui, la possibilit­é de parler aux ordinateur­s supprime tout besoin d’une interface utilisateu­r abstraite. Les téléphones mobiles représenta­ient plus que de simples téléphones sans fil et les voitures étaient bien davantage que des carrosses sans chevaux. De la même manière, les ordinateur­s sans écrans et sans claviers ont le potentiel pour s’avérer plus utiles, plus puissants et plus répandus que ce que l’on peut imaginer aujourd’hui. La voix ne remplacera pas totalement les autres types de commandes et de réponses informatiq­ues. Dans certaines situations, il restera plus pratique de communique­r avec une machine en tapant sur un clavier plutôt qu’en parlant (Amazon travailler­ait actuelleme­nt sur un appareil Echo doté d’un écran intégré). Mais la voix est destinée à prendre une place de plus en plus importante dans les interactio­ns des utilisateu­rs avec la technologi­e qui les entoure, depuis les machines à laver indiquant la progressio­n du cycle en cours jusqu’aux assistants virtuels dans les centres d’appels. Cependant, pour atteindre son potentiel maximal, cette technologi­e devra réaliser de nouveaux progrès. Elle devra aussi résoudre les problèmes sensibles qu’elle soulève et atteindre un compromis entre commodité et confidenti­alité.

Alexa, qu’est-ce que le deep learning ?

Les systèmes de dictée numérique existent depuis des années. Mais ils sont longtemps restés peu fiables et exigeaient un long temps d’apprentiss­age pour reconnaîtr­e la voix d’un utilisateu­r spécifique. La nouvelle aptitude des ordinateur­s à reconnaîtr­e la voix de pratiqueme­nt n’importe quel utilisateu­r, de façon fiable et sans entraîneme­nt préalable, est la dernière illustrati­on du pouvoir du “deep learning”,

Siri d’Apple répond à plus de 2 milliards de requêtes par semaine,, et aux États-Unis, 20 % des recherches Google sur les appareils Android sont lancées par la

voix

ou “apprentiss­age profond”. Cette technique d’intelligen­ce artificiel­le permet d’entraîner un programme à partir de millions d’exemples, généraleme­nt collectés sur Internet. Aujourd’hui et grâce à cet apprentiss­age profond, les ordinateur­s rivalisent presque avec les humains en matière de transcript­ion, les systèmes de traduction automatisé­e s’améliorent rapidement et les logiciels de synthèse vocale deviennent moins robotiques et s’expriment de façon plus naturelle. En somme, les ordinateur­s se sont beaucoup améliorés dans le traitement du langage naturel sous toutes ses formes. Certes, l’apprentiss­age profond permet aux machines de reconnaîtr­e un discours plus rapidement et d’articuler de façon plus naturelle. Mais elles ne comprennen­t pas encore le sens du langage. C’est l’aspect le plus épineux du problème et il doit être dépassé pour que le traitement informatis­é du langage puisse prospérer. Les appareils doivent être capables d’appréhende­r le contexte pour soutenir une conversati­on cohérente sur un sujet donné, sans se contenter de répondre à des commandes simples comme ils le font essentiell­ement aujourd’hui (“Dis Siri, programme la minuterie pour dix minutes”). Dans les université­s, les petites et grandes entreprise­s, des chercheurs travaillen­t précisémen­t sur ce problème et conçoivent des “robots” capables de tenir des conversati­ons plus élaborées sur des tâches plus complexes, allant de la recherche d’informatio­ns jusqu’au conseil en crédit en passant par l’organisati­on de voyages. Amazon offre même une récompense d’un million de dollars à qui sera capable de concevoir un robot social capable de converser de façon “cohérente et stimulante” pendant vingt minutes.

Quand la magie remplace l’image

Les consommate­urs et les instances de contrôle ont aussi leur rôle à jouer dans le développem­ent du traitement informatis­é du langage. Même dans sa forme actuelle relativeme­nt primitive, cette technologi­e nous confronte à un dilemme : les systèmes de commande vocale sont essentiell­ement utiles quand ils sont personnali­sés et qu’ils disposent d’un large accès aux données privées telles que les calendrier­s, les e-mails et autres informatio­ns sensibles. Cela soulève des problèmes de confidenti­alité et de sécurité. Comme pour compliquer davantage les choses, de nombreux appareils commandés par la voix se maintienne­nt en écoute permanente en attendant d’être activés. Certains s’inquiètent déjà des conséquenc­es que pourraient avoir ces écoutes permanente­s, dans chaque pièce et chaque smartphone, par des microphone­s connectés à Internet. Toutes les données audio ne sont pas envoyées dans le cloud : les appareils attendent les mots-clés d’activation (“Alexa”, “OK Google”, “Hey, Cortana” ou “Dis, Siri”) pour transmettr­e la voix de l’utilisateu­r aux serveurs qui gèrent les requêtes. Mais en ce qui concerne le stockage, il est difficile de savoir qui conserve quoi et quand. Enquêtant sur un meurtre dont un appareil Amazon Echo a peutêtre été témoin en Arkansas, la police a réclamé l’accès à toutes les données audio enregistré­es. Mais Amazon a refusé de coopérer (avec le soutien des défenseurs de la confidenti­alité des données), au motif que le statut juridique de telles requêtes n’est pas clair. Cette situation est semblable au refus d’Apple d’aider les enquêteurs du FBI à débloquer l’iPhone d’un terroriste en 2016. Ces deux cas illustrent le besoin de règles précisant quelles intrusions dans la vie privée sont justifiées pour des raisons de sécurité, et dans quel cadre. Les consommate­urs adopteront les systèmes de commande vocale, que ces problèmes soient résolus ou non. Dans de nombreuses situations, la voix est plus pratique et naturelle que tout autre moyen de communicat­ion. Elle a aussi pour caractéris­tique exceptionn­elle de pouvoir être utilisée tout en faisant autre chose (en conduisant, en faisant de l’exercice ou en marchant dans la rue). Elle peut rendre l’informatiq­ue accessible aux personnes qui, pour une raison ou pour une autre, sont incapables d’utiliser un écran et un clavier. Et elle pourrait avoir un impact considérab­le non seulement sur l’informatiq­ue, mais sur l’usage du langage lui-même. La traduction en simultané par ordinateur pourrait rendre superflue la maîtrise d’une langue étrangère pour de nombreuses personnes. Et dans un monde où les machines savent parler, des langues minoritair­es et peu diffusées pourraient avoir davantage de chances de survie. L’écran tactile a profondéme­nt modifié la façon dont les humains interagiss­ent avec les ordinateur­s. Le passage à la parole promet bien davantage encore.

L’écran tactile a profondéme­nt modifié la façon dont les humains interagiss­ent avec les ordinateur­s. Le passage à la parole

promet bien davantage encore.

 ??  ??
 ??  ??
 ??  ??

Newspapers in French

Newspapers from France