Les humains dans la boucle
Si les agents conversationnels sont désormais si efficaces, c’est grâce à leur entraînement sur de grandes quantités de données et à la capacité de calcul, mais aussi parce qu’ils sont soumis à un arbitrage humain qui consiste à noter des quantités de réponses.
Au XVIIIe siècle, le « Turc mécanique » était un automate supposé jouer seul aux échecs, mais à l’intérieur duquel se cachait en réalité un humain qui apportait l’intelligence au système. Aujourd’hui, derrière le succès de ChatGPT et des autres grands modèles de langues conversationnels (LLM) se cache une phase de réglage qui consiste à « aligner » les réponses données par le LLM avec ce que les utilisateurs attendent d’un tel système de dialogue. Pour cela, les informaticiens ont recours à une technologie – appelée RLHF dans le jargon (pour Reinforcement Learning From
Human Feedback ou apprentissage par renforcement avec rétroaction humaine, en français) – qui consiste à utiliser au cours de l'apprentissage des évaluations humaines de nombreuses réponses produites par des versions préliminaires du modèle. La société OpenAI n’a pas communiqué sur la manière dont elle procède sur ce point dans le cas de ChatGPT. On suppose que cela a été soustraité en masse à des « ouvriers numériques », dans des pays où la main-d’oeuvre est bon marché. L’objectif de ce feedback était de modérer les réponses de sujets polémiques – parce que les données d’entraînement sont biaisées –, mais surtout de juger si les complétions issues des requêtes étaient bonnes ou pas selon des critères humains. Autrement dit, d’obtenir un dialogue le plus humain possible.
« Ce type de technique est utilisé lorsqu’il est difficile d’établir une solution algorithmique claire, alors que des humains peuvent facilement juger de la qualité d’une histoire générée par l’IA, même si cela reste subjectif » , explique Laurent Daudet, cofondateur de la société d’IA LightOn, qui crée des LLM spécialisés. Si ChatGPT impressionne par ses performances, il n’est pas sorti de nulle part, et s’appuie sur plusieurs années de déploiement des précédentes versions, GPT3 puis GPT3.5 (le LLM sur lequel le RLHF a été effectué pour créer ChatGPT) – et donc sur des quantités de données d’utilisation traitées avec du RLHF en masse.
Depuis le lancement de ChatGPT, les jugements humains continuent d’être collectés auprès des utilisateurs.
« Aujourd’hui encore, lorsque vous utilisez un LLM conversationnel, on vous demande souvent d’estimer si la réponse apportée vous a semblé pertinente. C’est la manière la plus simple de faire du RLHF, car ce n’est pas très sophistiqué mais on peut le faire en masse – surtout lorsqu’on a beaucoup d’utilisateurs, comme avec ChatGPT » , poursuit le spécialiste. Selon le type d’utilisation, le besoin de retour humain n’est pas le même. « Lorsqu’on sort un modèle grand public, où tout le monde peut jouer avec, le RLHF est indispensable. En revanche, lorsqu’on se concentre sur des utilisations professionnelles, où les modèles sont cantonnés à l’entreprise ou à des groupes fermés, c’est moins problématique » assure-t-il. Il existe aussi plusieurs manières de se passer de feedback humain, ou du moins de réduire son besoin. « Nous travaillons beaucoup, en amont de l’entraînement des LLM conversationnels, sur la sélection des données. Et si cette curation est bien faite, cela limite
énormément les biais », détaille Laurent Daudet. Toutes les entreprises n’ont pas les moyens des grosses sociétés qui lancent des LLM conversationnels, de sorte que ce travail amont sur les données est important.
Le retour humain peut être volontaire – on demande une note ou un jugement sur une sortie –, mais il peut également être récolté automatiquement. On utilise alors un moyen de mesurer, à partir de cette donnée, le retour intéressant pour l’entreprise, ce qu’on
appelle une métrique. « On parle alors d’apprentissage par renforcement à partir de business feedback, reprend le spécialiste. Par exemple, Netflix dispose de métriques d’utilisation leur permettant de savoir qu’une personne arrête de visionner une série à la dixseptième minute, ils peuvent alors examiner, dans le scénario, ce qu’il se passe à ce momentlà. » Et l’évolution de ces techniques ? « Même si pour le moment, on ne dispose pas de techniques RLHF spécifiques à la science, on peut imaginer un système de renforcement qui aide à retirer les “hallucinations”, mais aussi à la rédaction scientifique et à l’analyse de protocoles expérimentaux », conclut Thomas Scialom, de Meta AI.