L’UNESCO dénonce le sexisme des contenus d’intelligence artificielle
Des correctifs ne peuvent pas être apportés sans intervention humaine
Dans les contenus produits par l’intelligence artificielle (IA), les femmes se voient plus fréquemment attribuer des rôles de domestiques, de cuisinières et de prostituées, tandis que les hommes sont incarnés en enseignants, en médecins ou en ingénieurs.
C’est ce que dévoile une étude de l’UNESCO qui met en garde le public et les concepteurs d’intelligence artificielle contre ses biais sexistes.
L’étude a porté sur les contenus générés par GPT-3.5 et GPT-2 (OpenAI) et par Llama 2 (Meta). Les chercheurs ont soumis aux outils de traitement de langage différents personnages de genres, de sexualités et de milieux culturels différents. Ils ont demandé aux outils d’« écrire une histoire » sur chaque personne. Ils ont aussi remarqué que 70 % des textes générés autour du personnage d’un homosexuel avaient un contenu négatif.
« Lorsque les trois modèles d’IA ont été invités à compléter des phrases commençant par “Une personne gay est…”, 70 % du contenu généré par Llama 2 était négatif. Parmi les résultats figurait : “L’homosexuel était considéré comme le plus bas dans la hiérarchie sociale” », rapporte l’UNESCO dans son communiqué. « Les femmes sont décrites comme des travailleuses domestiques jusqu’à quatre fois plus souvent que les hommes. Elles sont fréquemment associées aux mots “maison”, “famille” et “enfants”, quand pour les hommes les mots “entreprise”, “cadre”, “salaire” et “carrière” sont privilégiés. »
Le Web entier comme base de données
Les chercheurs relèvent que les modèles gratuits, dit d’open source (de source libre), sont ceux qui reproduisent les plus gros stéréotypes. À partir de bases de données ouvertes de contenu circulant sur Internet, dont tout ce qui circule notamment sur les forums et les réseaux sociaux, la machine reproduit « la séquence de mots la plus probable », explique Marie-Jean Meurs, professeure en informatique à l’UQAM et spécialisée en intelligence artificielle.
« Ces outils sont créés pour faire de la génération de contenu. Donc, ce sont des perroquets […], dit-elle. Ces modèles ont été entraînés à partir de textes que nous, humains, avons produits durant des générations, et ces textes que nous, humains, avons produits depuis des générations de façon tout à fait évidente ont des biais massivement sexistes, homophobes, et cetera. » Tout performant qu’il soit, ChatGPT n’est pas un moteur de recherche, souligne-t-elle. « Le grillepain est une bonne invention, mais vous vous brûlez si vous mettez vos doigts dedans. »
Le problème existe depuis très longtemps, remarque pour sa part Maude Bonenfant, professeure au Département de communication sociale et publique de l’UQAM. « Honnêtement, je ne suis pas surprise de ces résultats-là, dit-elle. C’est sûr que le Web est très sexualisé. Il y a beaucoup de sites pornographiques et autres. Et on ne sait pas exactement sur quelle base de données les outils de traitement de langage sont entraînés. » L’UNESCO recommande par ailleurs aux gouvernements de mettre en place des régulations pour l’instauration d’une « intelligence artificielle éthique ».
« Si vous voulez parler des recommandations de l’UNESCO, bien sûr que ça prend une plus grande diversité dans les équipes technos. Ce type de technologie est développé en Californie surtout par des hommes caucasiens », dit Maude Bonenfant.
Dans son rapport, l’UNESCO mentionne en effet que seulement 22 % des membres des équipes développant ces produits technologiques sont des femmes. Mais une plus grande représentativité dans les équipes de conception ne changera pas la nature des données circulant sur le Web, ajoute Maude Bonenfant.
L’intervention humaine indispensable aux correctifs
« Ça fait longtemps qu’on dit qu’il faudrait qu’il y ait des correctifs. Ça serait soit d’entraîner différemment les intelligences artificielles, en leur donnant des consignes précises. Il faudrait que ce soit un apprentissage plus supervisé, pour essayer d’enlever ces biais-là, pour favoriser autre chose comme type de réponse. Ou alors il faudrait carrément trouver des bases de données qui ne sont pas biaisées. Mais c’est sûr que c’est des coûts énormes, parce que ça ne se fait pas automatiquement. Il faut qu’il y ait intervention humaine pour pouvoir dire : “Ceci est homophobe et cela ne l’est pas.” »
Pour le sous-directeur général de l’UNESCO pour la communication et l’information, Tawfik Jelassi, « les discriminations du monde réel ne font pas que se refléter dans la sphère numérique, elles y sont aussi amplifiées ». Audrey Azoulay, directrice générale de l’ONU, ajoute que ces générateurs de contenu « ont le pouvoir de façonner la perception de millions de personnes ».
Les discriminations du monde réel ne font pas que se refléter dans la sphère numérique, elles y sont aussi »
amplifiées TAWFIK JELASSI