L'Informaticien

LE PROJET BIG SCIENCE

-

Le projet Bigscience a été initié au printemps 2021 par la start- up franco- américaine en intelligen­ce artificiel­le Hugging Face, pour remédier à ces problèmes en entraînant un nouveau modèle : Bloom. Il apprend à partir de grands corpus de textes, en utilisant un principe simple, consistant à prédire et à compléter des phrases, mot après mot. Chaque prédiction du modèle est comparée avec le mot correct, ce qui permet d'ajuster les paramètres internes du modèle. Dans le cas de Bloom, l'apprentiss­age est réalisé en évaluant des milliers de milliards de mots, conduisant à un modèle qui contient 176 milliards de paramètres. Cet apprentiss­age a duré plusieurs mois, nécessitan­t des centaines de processeur­s graphiques ( GPU) tournant en parallèle, soit l'équivalent de 5 millions d'heures de calcul. Bloom se distingue des autres modèles de langue par le fait qu'il est entraîné simultaném­ent en 46 langues, réparties sur des sources aussi variées que de la littératur­e, des articles scientifiq­ues ou des dépêches sportives et incluant de nombreuses langues rarement prises en compte, en particulie­r une vingtaine de langues d'afrique. Agglomérer des contenus en des langues variées permet d'apprendre des modèles robustes et performant­s pour toutes les langues considérée­s, et conduit même souvent à des résultats meilleurs que des modèles monolingue­s. Le projet bénéficie des ressources du supercalcu­lateur convergé Jean Zay, l'un des plus puissants d'europe, mis en service en 2019 dans le sillage du plan AI for Humanity. Aujourd'hui, plus de 1000 projets de recherche mobilisent ses ressources.

Newspapers in French

Newspapers from France