L’IA en quête de sobriété… ou de performance
Des travaux récents chez Microsoft et Apple tentent de relever le défi d’outils plus sobres et moins gourmands en mémoire. De quoi glisser des intelligences artificielles dans les appareils du quotidien ou décupler la pertinence des gros modèles d’IA
«Entraîner un grand modèle de langage comme ChatGPT-4 ou Whisper (transcription de la voix en texte) peut prendre des semaines, voire des mois sur un très grand nombre de processeurs spécialisés.» C’est ainsi que Patrick Pérez, le directeur général de Kyutai, un centre de recherches sur l’IA basé à Paris, résume l’un des grands enjeux scientifiques de l’intelligence artificielle: créer des modèles efficaces en minimisant la mémoire informatique nécessaire et la consommation d’énergie. Des travaux récents d’équipes d’Apple et Microsoft montrent la direction prise par l’industrie.
Il s’agit d’une part de réduire les ressources nécessaires à l’entraînement des modèles à très haute performance – ChatGPT-4 compte 1500 milliards de paramètres, contre 7 milliards pour le modèle 7B de l’entreprise française Mistral AI. De même, les chercheurs espèrent créer des modèles dont l’utilisation – les spécialistes appellent cela l’inférence – serait compatible avec les caractéristiques techniques des PC de bureau et des smartphones. Aujourd’hui, les différentes versions de ChatGPT, et même la reconnaissance vocale Siri d’Apple, n’en sont pas capables: ces outils requièrent un accès internet pour accéder à d’immenses fermes de calcul qui reçoivent les requêtes et renvoient la réponse.
Cap sur les téléphones portables
C’est dans ce contexte qu’un groupe d’Apple a présenté début janvier, en prépublication sur arXiv, un procédé permettant d’utiliser un modèle sans le charger entièrement en mémoire. Objectif: le faire fonctionner sur un téléphone. Un modèle classique de type 7B, qui requiert d’ordinaire 14 Go de mémoire disponible, fonctionne ainsi dans un appareil qui n’en contient que 10 Go, le tout de manière nettement plus rapide.
Un groupe de scientifiques de Microsoft et de l’Académie chinoise des sciences a présenté sur arXiv un concept très original baptisé «BitNet», expliqué dans deux documents. Le premier, en octobre dernier, détaille la méthode et le second, il y a une semaine, apporte des précisions sur ses performances. Des travaux dont l’existence avait été soufflée au Temps par des experts informatiques. Avouons au passage notre caractère de novice en la matière et un recours à l’IA ellemême: c’est après avoir interrogé ChatGPT et Perplexity que nous avons pu comprendre l’intérêt d’approfondir le sujet.
Plutôt que de mémoriser les paramètres sous forme de nombres à virgule comme c’est généralement le cas – ils mobilisent chacun 16 bits de mémoire –, BitNet les représente sous forme de nombres entiers, avec seulement trois valeurs possibles: -1, 0 ou 1. Ce qui correspond à 1,58 bit de mémoire par paramètre.
«C’est une approche très intéressante, commente Patrick Pérez. Outre la forte réduction de l’occupation en mémoire du modèle, les calculs nécessaires à l’entraînement ou à l’inférence de BitNet sont pour l’essentiel des additions et non des multiplications comme c’est le cas avec des nombres flottants [à virgule, ndlr].» Ces dernières sont en effet plus gourmandes.
Le résultat est impressionnant. Ainsi, pour 3 milliards de paramètres (3B), BitNet 1.58 bit n’occupe que 2,22 Go de mémoire, contre 7,89 Go pour un modèle LLaMA 3B-16 bits, un standard de l’IA. Et il fonctionne jusqu’à deux fois plus rapidement, le tout avec une meilleure «perplexité» – le paramètre qui mesure la confiance dans les réponses d’une IA. De plus, pour les modèles plus riches (70 milliards de paramètres), la supériorité est encore plus flagrante: sept fois moins de mémoire et un temps de réponse divisé par quatre, toujours par comparaison avec LLaMA. Ces prouesses ne se feraient-elles pas au détriment de la qualité de l’inférence, de la pertinence des réponses?
«Ils montrent dans leur article que la perte est étonnamment faible, c’est cela qui est impressionnant, analyse Patrick Pérez. Cela tient au fait qu’ils ont compressé les informations dès l’apprentissage et non a posteriori.» En effet, créer un volumineux modèle avant de le compresser pour en réduire les besoins en mémoire engendre une perte de précision, qui nuit à la qualité des réponses. Tout comme la compression d’une image, par exemple en jpeg, dégrade celle-ci. «Dans leur architecture de modèle, l’entraînement se fait sous cette contrainte de paramétrage «1.58 bit». C’est pour cela que le résultat est aussi efficace, même si les tests sur ce point n’ont pas porté sur les modèles les plus gros.»
On le comprend, une nouvelle génération d’intelligences artificielles se prépare, qui pourrait s’intégrer à toutes sortes d’appareils, du PC aux objets connectés et dotés d’une autonomie énergétique limitée.
ChatGPT-4 compte 1500 milliards de paramètres, contre 7 milliards pour le modèle 7B de l’entreprise française Mistral AI
Une réponse aux craintes de pénurie
«On pourrait aussi mettre en oeuvre ce type de modèles compressés dans de grosses machines. Elles pourraient alors traiter plus de requêtes à la fois, des requêtes plus complexes ou donner des réponses beaucoup plus rapidement.» De plus, ce stockage sous forme de trois nombres entiers pourrait donner naissance à des puces spécialisées dans ce type de calculs plutôt que sur les nombres à virgule, et décupler encore la performance des IA. De quoi, peutêtre, effacer une crainte des géants de cette industrie, qui appréhendent désormais que la production des GPU – les Graphics Processing Units, ces composants autrefois dédiés à l’affichage, qui, parce qu’ils sont capables de multiples calculs en parallèle, sont désormais modifiés pour les besoins de l’IA – soit insuffisante pour répondre aux besoins exponentiels de cette industrie. A titre d’exemple, un «petit» centre de recherches comme Kyutai — il ne compte à ce jour que six scientifiques — s’appuie sur une ferme dotée de… 1000 H100, la puce d’intelligence artificielle la plus courue du moment, commercialisée par Nvidia à plus de 30 000 dollars l’unité!
Ce centre de recherches sur l’IA est une initiative privée mais à but non lucratif qui se donne l’objectif de démocratiser l’intelligence artificielle. Kyutai – qui veut dire globe en japonais – travaille notamment sur des modèles multimodaux, capables de gérer aussi bien du texte que du son ou des images. Kyutai a été fondé l’automne dernier par les milliardaires français Xavier Niel (Iliad, Free), Rodolphe Saadé (CMA CGM) et l’ancien CEO de Google Eric Schmidt. A son ouverture, le centre a d’ores et déjà été doté de 300 millions d’euros (288 millions de francs).
■