L’IA ne se contente plus de parler, elle agit
Deux chercheurs genevois ont réussi une prouesse: entraîner une IA à comprendre des instructions puis à accomplir les tâches associées. Celle-ci a ensuite communiqué les consignes à une autre IA, qui les a interprétées et réalisées. Une avancée pour la ro
«Il s’agit de modèles encore rudimentaires pour réaliser des tâches simples» ALEXANDRE POUGET, PROFESSEUR À L’UNIVERSITÉ DE GENÈVE
«Regarde cette image, et pointe en direction de l’objet qu’elle représente.» «Montre-moi la zone la moins lumineuse puis la plus lumineuse.» De telles instructions nous paraissent ridiculement simples à accomplir. Tout comme il nous est aisé de les expliquer à une tierce personne afin qu’elle puisse à son tour les réaliser. Pourtant, jusqu’à présent, aucune intelligence artificielle n’a pu faire de même: en dépit de leurs progrès spectaculaires, les modèles de langage comme ChatGPT peuvent converser avec nous, voire entre eux, mais leur savoir-faire se limite à la sémantique. Ils sont incapables de réaliser une action comme «pointer dans la direction d’un objet» ou «montrer une zone».
Une première étape vient enfin d’être franchie: dans Nature Neuroscience, Alexandre Pouget, professeur au département des neurosciences fondamentales de la Faculté de médecine de l’Unige, et son doctorant Reidar Riveland expliquent comment une IA de leur conception a pu apprendre à agir sur la base d’instructions écrites.
«Simples au premier abord, de telles tâches sont néanmoins suffisamment complexes pour étudier la prise de décision chez les humains et les animaux, explique Alexandre Pouget. Tout le défi était d’entraîner un réseau de neurones à accomplir quelque chose sur la seule base d’instructions écrites, et non par essais-erreurs.» Autrement dit, rendre l’IA capable de comprendre des consignes et de les traduire en actes. Ce qu’elle a fait avec un taux de réussite de 83%, ce qui n’est pas rien!
Pour y parvenir, les deux scientifiques se sont appuyés sur ce que l’on connaît de notre cerveau. «Nous possédons une aire – dite «de Wernicke» – qui intervient dans la compréhension du langage. Elle peut recevoir des instructions, les interpréter et influencer le reste du cerveau, détaille Alexandre Pouget. Une autre, celle de Broca, est spécialisée dans la production du langage: elle observe ce qui se passe dans le cerveau, en déduit ce qu’il est en train de faire, et le traduit avec des mots, ce qui permet de communiquer cette information à une autre personne.»
Pour répliquer ce processus cérébral sur ordinateur, Alexandre Pouget et Reidar Riveland se sont appuyés dans un premier temps sur un réseau de 300 millions de neurones artificiels pré-entraîné à la compréhension du langage. Un outil dérivé du modèle BERT, de Google. Puis celui-ci (qui joue le rôle de l’aire de Wernicke) a été connecté à un second réseau de neurones, plus petit (quelques dizaines de milliers d’éléments) qui a été entraîné par le duo genevois à transformer ces informations «sensorielles» en actes, tout en les exprimant sous forme de consignes – du texte en anglais. Après avoir compris celles-ci et les avoir traduites en actions avec succès, cette «petite» IA sensori-motrice a été connectée à une autre, identique, qui a pu comprendre les consignes reçues et les réaliser à son tour. A noter que le tout fonctionne sur de simples ordinateurs de bureau.
La recherche a besoin de modèles ouverts
«Il s’agit de modèles encore rudimentaires pour réaliser des tâches simples, prévient Alexandre Pouget. On pourra ensuite produire des actions beaucoup plus complexes avec des outils plus performants.» La condition sine qua non, pour ces recherches, est d’accéder au code qui décrit le fonctionnement du modèle de langage. «Nous devons accéder aux représentations intermédiaires des réseaux de neurones. Leur dernière couche équivaut en effet à l’ensemble du vocabulaire disponible, mais nous nous appuyons sur celle qui se trouve dessous et qui possède une notion de sémantique. Pour prédire le prochain mot, cet étage du réseau doit avoir représenté le sens de la phrase qui précède.»
Les scientifiques ont testé plusieurs modèles. Et c’est S-BERT qui a donné les meilleurs résultats. «Nous avons étudié aussi ChatGPT-2, qui est le dernier outil ouvert d’Open AI, dont le code est accessible. Bien qu’il dispose d’un milliard et demi de paramètres, cinq fois plus que S-BERT, ses performances sont moins bonnes dans notre situation.» Et ChatGPT-4, réputé beaucoup plus performant en matière de sémantique? «Impossible de le savoir. Son usage est payant et le code n’est pas accessible…»
Ce premier pas dans la création d’IA «sensori-motrices», capables d’agir et d’expliquer ce qu’elles font, laisse présager des progrès spectaculaires en matière de robotique. «Imaginez deux robots en train de travailler dans la centrale de Fukushima, où toute intervention humaine est impossible à cause de la radioactivité ambiante. Ils pourraient ainsi communiquer et échanger leur expérience via le langage!»
De telles recherches ont aussi un intérêt plus fondamental, pour sonder les mystères de notre cerveau. «Nous n’avons qu’une vision globale de ce qui s’y passe, en particulier grâce à la recherche animale. Mais l’animal n’a pas de langage au sens du nôtre, donc on ne peut rien en apprendre à ce propos.» Et l’IRM fonctionnelle, cette technique d’imagerie qui repère en temps réel les zones actives du cerveau? «Elle est difficile à interpréter du fait de sa résolution limitée, c’est pour cela qu’un modèle est utile. En mimant ces aires liées au langage avec des neurones artificiels, nous espérons en apprendre plus sur nous-même.»
■