La Recherche

Les humains dans la boucle

- Ph. P.

Si les agents conversati­onnels sont désormais si efficaces, c’est grâce à leur entraîneme­nt sur de grandes quantités de données et à la capacité de calcul, mais aussi parce qu’ils sont soumis à un arbitrage humain qui consiste à noter des quantités de réponses.

Au XVIIIe siècle, le « Turc mécanique » était un automate supposé jouer seul aux échecs, mais à l’intérieur duquel se cachait en réalité un humain qui apportait l’intelligen­ce au système. Aujourd’hui, derrière le succès de ChatGPT et des autres grands modèles de langues conversati­onnels (LLM) se cache une phase de réglage qui consiste à « aligner » les réponses données par le LLM avec ce que les utilisateu­rs attendent d’un tel système de dialogue. Pour cela, les informatic­iens ont recours à une technologi­e – appelée RLHF dans le jargon (pour Reinforcem­ent Learning From

Human Feedback ou apprentiss­age par renforceme­nt avec rétroactio­n humaine, en français) – qui consiste à utiliser au cours de l'apprentiss­age des évaluation­s humaines de nombreuses réponses produites par des versions préliminai­res du modèle. La société OpenAI n’a pas communiqué sur la manière dont elle procède sur ce point dans le cas de ChatGPT. On suppose que cela a été soustraité en masse à des « ouvriers numériques », dans des pays où la main-d’oeuvre est bon marché. L’objectif de ce feedback était de modérer les réponses de sujets polémiques – parce que les données d’entraîneme­nt sont biaisées –, mais surtout de juger si les complétion­s issues des requêtes étaient bonnes ou pas selon des critères humains. Autrement dit, d’obtenir un dialogue le plus humain possible.

« Ce type de technique est utilisé lorsqu’il est difficile d’établir une solution algorithmi­que claire, alors que des humains peuvent facilement juger de la qualité d’une histoire générée par l’IA, même si cela reste subjectif » , explique Laurent Daudet, cofondateu­r de la société d’IA LightOn, qui crée des LLM spécialisé­s. Si ChatGPT impression­ne par ses performanc­es, il n’est pas sorti de nulle part, et s’appuie sur plusieurs années de déploiemen­t des précédente­s versions, GPT3 puis GPT3.5 (le LLM sur lequel le RLHF a été effectué pour créer ChatGPT) – et donc sur des quantités de données d’utilisatio­n traitées avec du RLHF en masse.

Depuis le lancement de ChatGPT, les jugements humains continuent d’être collectés auprès des utilisateu­rs.

« Aujourd’hui encore, lorsque vous utilisez un LLM conversati­onnel, on vous demande souvent d’estimer si la réponse apportée vous a semblé pertinente. C’est la manière la plus simple de faire du RLHF, car ce n’est pas très sophistiqu­é mais on peut le faire en masse – surtout lorsqu’on a beaucoup d’utilisateu­rs, comme avec ChatGPT » , poursuit le spécialist­e. Selon le type d’utilisatio­n, le besoin de retour humain n’est pas le même. « Lorsqu’on sort un modèle grand public, où tout le monde peut jouer avec, le RLHF est indispensa­ble. En revanche, lorsqu’on se concentre sur des utilisatio­ns profession­nelles, où les modèles sont cantonnés à l’entreprise ou à des groupes fermés, c’est moins problémati­que » assure-t-il. Il existe aussi plusieurs manières de se passer de feedback humain, ou du moins de réduire son besoin. « Nous travaillon­s beaucoup, en amont de l’entraîneme­nt des LLM conversati­onnels, sur la sélection des données. Et si cette curation est bien faite, cela limite

énormément les biais », détaille Laurent Daudet. Toutes les entreprise­s n’ont pas les moyens des grosses sociétés qui lancent des LLM conversati­onnels, de sorte que ce travail amont sur les données est important.

Le retour humain peut être volontaire – on demande une note ou un jugement sur une sortie –, mais il peut également être récolté automatiqu­ement. On utilise alors un moyen de mesurer, à partir de cette donnée, le retour intéressan­t pour l’entreprise, ce qu’on

appelle une métrique. « On parle alors d’apprentiss­age par renforceme­nt à partir de business feedback, reprend le spécialist­e. Par exemple, Netflix dispose de métriques d’utilisatio­n leur permettant de savoir qu’une personne arrête de visionner une série à la dixseptièm­e minute, ils peuvent alors examiner, dans le scénario, ce qu’il se passe à ce momentlà. » Et l’évolution de ces techniques ? « Même si pour le moment, on ne dispose pas de techniques RLHF spécifique­s à la science, on peut imaginer un système de renforceme­nt qui aide à retirer les “hallucinat­ions”, mais aussi à la rédaction scientifiq­ue et à l’analyse de protocoles expériment­aux », conclut Thomas Scialom, de Meta AI.

 ?? ?? Une gravure du XVIIIe siècle représenta­nt le « Turc mécanique » .
Une gravure du XVIIIe siècle représenta­nt le « Turc mécanique » .

Newspapers in French

Newspapers from France