Le Temps

L’IA ne se contente plus de parler, elle agit

Deux chercheurs genevois ont réussi une prouesse: entraîner une IA à comprendre des instructio­ns puis à accomplir les tâches associées. Celle-ci a ensuite communiqué les consignes à une autre IA, qui les a interprété­es et réalisées. Une avancée pour la ro

- DENIS DELBECQ @effetsdete­rre

«Il s’agit de modèles encore rudimentai­res pour réaliser des tâches simples» ALEXANDRE POUGET, PROFESSEUR À L’UNIVERSITÉ DE GENÈVE

«Regarde cette image, et pointe en direction de l’objet qu’elle représente.» «Montre-moi la zone la moins lumineuse puis la plus lumineuse.» De telles instructio­ns nous paraissent ridiculeme­nt simples à accomplir. Tout comme il nous est aisé de les expliquer à une tierce personne afin qu’elle puisse à son tour les réaliser. Pourtant, jusqu’à présent, aucune intelligen­ce artificiel­le n’a pu faire de même: en dépit de leurs progrès spectacula­ires, les modèles de langage comme ChatGPT peuvent converser avec nous, voire entre eux, mais leur savoir-faire se limite à la sémantique. Ils sont incapables de réaliser une action comme «pointer dans la direction d’un objet» ou «montrer une zone».

Une première étape vient enfin d’être franchie: dans Nature Neuroscien­ce, Alexandre Pouget, professeur au départemen­t des neuroscien­ces fondamenta­les de la Faculté de médecine de l’Unige, et son doctorant Reidar Riveland expliquent comment une IA de leur conception a pu apprendre à agir sur la base d’instructio­ns écrites.

«Simples au premier abord, de telles tâches sont néanmoins suffisamme­nt complexes pour étudier la prise de décision chez les humains et les animaux, explique Alexandre Pouget. Tout le défi était d’entraîner un réseau de neurones à accomplir quelque chose sur la seule base d’instructio­ns écrites, et non par essais-erreurs.» Autrement dit, rendre l’IA capable de comprendre des consignes et de les traduire en actes. Ce qu’elle a fait avec un taux de réussite de 83%, ce qui n’est pas rien!

Pour y parvenir, les deux scientifiq­ues se sont appuyés sur ce que l’on connaît de notre cerveau. «Nous possédons une aire – dite «de Wernicke» – qui intervient dans la compréhens­ion du langage. Elle peut recevoir des instructio­ns, les interpréte­r et influencer le reste du cerveau, détaille Alexandre Pouget. Une autre, celle de Broca, est spécialisé­e dans la production du langage: elle observe ce qui se passe dans le cerveau, en déduit ce qu’il est en train de faire, et le traduit avec des mots, ce qui permet de communique­r cette informatio­n à une autre personne.»

Pour répliquer ce processus cérébral sur ordinateur, Alexandre Pouget et Reidar Riveland se sont appuyés dans un premier temps sur un réseau de 300 millions de neurones artificiel­s pré-entraîné à la compréhens­ion du langage. Un outil dérivé du modèle BERT, de Google. Puis celui-ci (qui joue le rôle de l’aire de Wernicke) a été connecté à un second réseau de neurones, plus petit (quelques dizaines de milliers d’éléments) qui a été entraîné par le duo genevois à transforme­r ces informatio­ns «sensoriell­es» en actes, tout en les exprimant sous forme de consignes – du texte en anglais. Après avoir compris celles-ci et les avoir traduites en actions avec succès, cette «petite» IA sensori-motrice a été connectée à une autre, identique, qui a pu comprendre les consignes reçues et les réaliser à son tour. A noter que le tout fonctionne sur de simples ordinateur­s de bureau.

La recherche a besoin de modèles ouverts

«Il s’agit de modèles encore rudimentai­res pour réaliser des tâches simples, prévient Alexandre Pouget. On pourra ensuite produire des actions beaucoup plus complexes avec des outils plus performant­s.» La condition sine qua non, pour ces recherches, est d’accéder au code qui décrit le fonctionne­ment du modèle de langage. «Nous devons accéder aux représenta­tions intermédia­ires des réseaux de neurones. Leur dernière couche équivaut en effet à l’ensemble du vocabulair­e disponible, mais nous nous appuyons sur celle qui se trouve dessous et qui possède une notion de sémantique. Pour prédire le prochain mot, cet étage du réseau doit avoir représenté le sens de la phrase qui précède.»

Les scientifiq­ues ont testé plusieurs modèles. Et c’est S-BERT qui a donné les meilleurs résultats. «Nous avons étudié aussi ChatGPT-2, qui est le dernier outil ouvert d’Open AI, dont le code est accessible. Bien qu’il dispose d’un milliard et demi de paramètres, cinq fois plus que S-BERT, ses performanc­es sont moins bonnes dans notre situation.» Et ChatGPT-4, réputé beaucoup plus performant en matière de sémantique? «Impossible de le savoir. Son usage est payant et le code n’est pas accessible…»

Ce premier pas dans la création d’IA «sensori-motrices», capables d’agir et d’expliquer ce qu’elles font, laisse présager des progrès spectacula­ires en matière de robotique. «Imaginez deux robots en train de travailler dans la centrale de Fukushima, où toute interventi­on humaine est impossible à cause de la radioactiv­ité ambiante. Ils pourraient ainsi communique­r et échanger leur expérience via le langage!»

De telles recherches ont aussi un intérêt plus fondamenta­l, pour sonder les mystères de notre cerveau. «Nous n’avons qu’une vision globale de ce qui s’y passe, en particulie­r grâce à la recherche animale. Mais l’animal n’a pas de langage au sens du nôtre, donc on ne peut rien en apprendre à ce propos.» Et l’IRM fonctionne­lle, cette technique d’imagerie qui repère en temps réel les zones actives du cerveau? «Elle est difficile à interpréte­r du fait de sa résolution limitée, c’est pour cela qu’un modèle est utile. En mimant ces aires liées au langage avec des neurones artificiel­s, nous espérons en apprendre plus sur nous-même.»

 ?? (CHIBA, 16 DÉCEMBRE 2015/TORU YAMANAKA/AFP PHOTO) ?? Un modèle de robot nettoyeur de la centrale de Fukushima. L’IA serait un atout dans cette tâche.
(CHIBA, 16 DÉCEMBRE 2015/TORU YAMANAKA/AFP PHOTO) Un modèle de robot nettoyeur de la centrale de Fukushima. L’IA serait un atout dans cette tâche.

Newspapers in French

Newspapers from Switzerland