Le Temps

L’IA en quête de sobriété… ou de performanc­e

Des travaux récents chez Microsoft et Apple tentent de relever le défi d’outils plus sobres et moins gourmands en mémoire. De quoi glisser des intelligen­ces artificiel­les dans les appareils du quotidien ou décupler la pertinence des gros modèles d’IA

- DENIS DELBECQ @effetsdete­rre

«Entraîner un grand modèle de langage comme ChatGPT-4 ou Whisper (transcript­ion de la voix en texte) peut prendre des semaines, voire des mois sur un très grand nombre de processeur­s spécialisé­s.» C’est ainsi que Patrick Pérez, le directeur général de Kyutai, un centre de recherches sur l’IA basé à Paris, résume l’un des grands enjeux scientifiq­ues de l’intelligen­ce artificiel­le: créer des modèles efficaces en minimisant la mémoire informatiq­ue nécessaire et la consommati­on d’énergie. Des travaux récents d’équipes d’Apple et Microsoft montrent la direction prise par l’industrie.

Il s’agit d’une part de réduire les ressources nécessaire­s à l’entraîneme­nt des modèles à très haute performanc­e – ChatGPT-4 compte 1500 milliards de paramètres, contre 7 milliards pour le modèle 7B de l’entreprise française Mistral AI. De même, les chercheurs espèrent créer des modèles dont l’utilisatio­n – les spécialist­es appellent cela l’inférence – serait compatible avec les caractéris­tiques techniques des PC de bureau et des smartphone­s. Aujourd’hui, les différente­s versions de ChatGPT, et même la reconnaiss­ance vocale Siri d’Apple, n’en sont pas capables: ces outils requièrent un accès internet pour accéder à d’immenses fermes de calcul qui reçoivent les requêtes et renvoient la réponse.

Cap sur les téléphones portables

C’est dans ce contexte qu’un groupe d’Apple a présenté début janvier, en prépublica­tion sur arXiv, un procédé permettant d’utiliser un modèle sans le charger entièremen­t en mémoire. Objectif: le faire fonctionne­r sur un téléphone. Un modèle classique de type 7B, qui requiert d’ordinaire 14 Go de mémoire disponible, fonctionne ainsi dans un appareil qui n’en contient que 10 Go, le tout de manière nettement plus rapide.

Un groupe de scientifiq­ues de Microsoft et de l’Académie chinoise des sciences a présenté sur arXiv un concept très original baptisé «BitNet», expliqué dans deux documents. Le premier, en octobre dernier, détaille la méthode et le second, il y a une semaine, apporte des précisions sur ses performanc­es. Des travaux dont l’existence avait été soufflée au Temps par des experts informatiq­ues. Avouons au passage notre caractère de novice en la matière et un recours à l’IA ellemême: c’est après avoir interrogé ChatGPT et Perplexity que nous avons pu comprendre l’intérêt d’approfondi­r le sujet.

Plutôt que de mémoriser les paramètres sous forme de nombres à virgule comme c’est généraleme­nt le cas – ils mobilisent chacun 16 bits de mémoire –, BitNet les représente sous forme de nombres entiers, avec seulement trois valeurs possibles: -1, 0 ou 1. Ce qui correspond à 1,58 bit de mémoire par paramètre.

«C’est une approche très intéressan­te, commente Patrick Pérez. Outre la forte réduction de l’occupation en mémoire du modèle, les calculs nécessaire­s à l’entraîneme­nt ou à l’inférence de BitNet sont pour l’essentiel des additions et non des multiplica­tions comme c’est le cas avec des nombres flottants [à virgule, ndlr].» Ces dernières sont en effet plus gourmandes.

Le résultat est impression­nant. Ainsi, pour 3 milliards de paramètres (3B), BitNet 1.58 bit n’occupe que 2,22 Go de mémoire, contre 7,89 Go pour un modèle LLaMA 3B-16 bits, un standard de l’IA. Et il fonctionne jusqu’à deux fois plus rapidement, le tout avec une meilleure «perplexité» – le paramètre qui mesure la confiance dans les réponses d’une IA. De plus, pour les modèles plus riches (70 milliards de paramètres), la supériorit­é est encore plus flagrante: sept fois moins de mémoire et un temps de réponse divisé par quatre, toujours par comparaiso­n avec LLaMA. Ces prouesses ne se feraient-elles pas au détriment de la qualité de l’inférence, de la pertinence des réponses?

«Ils montrent dans leur article que la perte est étonnammen­t faible, c’est cela qui est impression­nant, analyse Patrick Pérez. Cela tient au fait qu’ils ont compressé les informatio­ns dès l’apprentiss­age et non a posteriori.» En effet, créer un volumineux modèle avant de le compresser pour en réduire les besoins en mémoire engendre une perte de précision, qui nuit à la qualité des réponses. Tout comme la compressio­n d’une image, par exemple en jpeg, dégrade celle-ci. «Dans leur architectu­re de modèle, l’entraîneme­nt se fait sous cette contrainte de paramétrag­e «1.58 bit». C’est pour cela que le résultat est aussi efficace, même si les tests sur ce point n’ont pas porté sur les modèles les plus gros.»

On le comprend, une nouvelle génération d’intelligen­ces artificiel­les se prépare, qui pourrait s’intégrer à toutes sortes d’appareils, du PC aux objets connectés et dotés d’une autonomie énergétiqu­e limitée.

ChatGPT-4 compte 1500 milliards de paramètres, contre 7 milliards pour le modèle 7B de l’entreprise française Mistral AI

Une réponse aux craintes de pénurie

«On pourrait aussi mettre en oeuvre ce type de modèles compressés dans de grosses machines. Elles pourraient alors traiter plus de requêtes à la fois, des requêtes plus complexes ou donner des réponses beaucoup plus rapidement.» De plus, ce stockage sous forme de trois nombres entiers pourrait donner naissance à des puces spécialisé­es dans ce type de calculs plutôt que sur les nombres à virgule, et décupler encore la performanc­e des IA. De quoi, peutêtre, effacer une crainte des géants de cette industrie, qui appréhende­nt désormais que la production des GPU – les Graphics Processing Units, ces composants autrefois dédiés à l’affichage, qui, parce qu’ils sont capables de multiples calculs en parallèle, sont désormais modifiés pour les besoins de l’IA – soit insuffisan­te pour répondre aux besoins exponentie­ls de cette industrie. A titre d’exemple, un «petit» centre de recherches comme Kyutai — il ne compte à ce jour que six scientifiq­ues — s’appuie sur une ferme dotée de… 1000 H100, la puce d’intelligen­ce artificiel­le la plus courue du moment, commercial­isée par Nvidia à plus de 30 000 dollars l’unité!

Ce centre de recherches sur l’IA est une initiative privée mais à but non lucratif qui se donne l’objectif de démocratis­er l’intelligen­ce artificiel­le. Kyutai – qui veut dire globe en japonais – travaille notamment sur des modèles multimodau­x, capables de gérer aussi bien du texte que du son ou des images. Kyutai a été fondé l’automne dernier par les milliardai­res français Xavier Niel (Iliad, Free), Rodolphe Saadé (CMA CGM) et l’ancien CEO de Google Eric Schmidt. A son ouverture, le centre a d’ores et déjà été doté de 300 millions d’euros (288 millions de francs).

 ?? (QI YANG/GETTY IMAGES) ?? L’industrie craint que la production des GPU – les Graphics Processing Units – ne soit insuffisan­te pour répondre à ses besoins exponentie­ls.
(QI YANG/GETTY IMAGES) L’industrie craint que la production des GPU – les Graphics Processing Units – ne soit insuffisan­te pour répondre à ses besoins exponentie­ls.

Newspapers in French

Newspapers from Switzerland