La Recherche

L’apprentiss­age profond bouleverse les sciences

Pour détecter les cancers de la peau, analyser des distorsion­s de l’espace-temps ou prédire des phénomènes climatique­s extrêmes, les techniques d’intelligen­ce artificiel­le, et en particulie­r l’apprentiss­age profond, commencent à faire leurs preuves. Elles

- Gautier Cariou

Cet été, les médias ont relayé une informatio­n pour le moins angoissant­e. Des ingénieurs de Facebook ont été obligés de « débrancher » deux intelligen­ces artificiel­les qui avaient inventé leur propre langage pour communique­r, échappant au contrôle de leurs concepteur­s. La façon de mettre en scène cet incident, en grossissan­t le trait, est symptomati­que de la communicat­ion autour de l’intelligen­ce artificiel­le, tantôt alarmiste, tantôt emphatique, souvent exagérée. Si l’intelligen­ce artificiel­le fait autant parler d’elle, c’est parce qu’elle a fait un bond en avant ces dernières années, en particulie­r grâce aux algorithme­s (*) d’apprentiss­age statistiqu­e, capables d’extraire des informatio­ns pertinente­s de grandes bases de données numériques. Parmi eux, une classe particuliè­re, les réseaux de neurones profonds, a permis d’améliorer considérab­lement la reconnaiss­ance automatiqu­e de la parole, la reconnaiss­ance visuelle et le traitement du langage. L’apprentiss­age profond gagne aujourd’hui du terrain dans les laboratoir­es de recherche. Pas une semaine ne passe sans qu’une étude ne soit publiée sur le sujet : en astrophysi­que, les réseaux de neurones profonds permettent d’analyser des distorsion­s de l’espace-temps – appelées lentilles gravitatio­nnelles – dix millions de fois plus vite que des méthodes traditionn­elles (1) ; en médecine, ils permettent de détecter automatiqu­ement des cancers de la peau avec un niveau de certitude équivalent à celui des dermatolog­ues (2) ; en météorolog­ie, ils aident à prédire les phénomènes extrêmes ; en sciences cognitives, ils servent de modèles pour étudier le développem­ent cognitif. Le champ des possibles semble ainsi vertigineu­x, trop peut-être. Au point de s’interroger sur leurs vrais pouvoirs. Pour quels problèmes scientifiq­ues sont-ils vraiment utiles ? Quelles sont leurs limites ? À quel point vont-ils révolution­ner la science ? Une chose est claire : « Dès que vous avez beaucoup de données disponible­s, ce qui est le cas dans de nombreux problèmes scientifiq­ues actuels, les algorithme­s d’apprentiss­age profonds sont particuliè­rement efficaces », résume Stéphane Mallat, chercheur en mathématiq­ues appliquées à l’École normale supérieure et titulaire de la nouvelle chaire de sciences des données, qui débutera au Collège de France en janvier prochain. Efficace, d’accord, mais pour faire quoi ? Pour réaliser des prédiction­s ! Les algorithme­s d’apprentiss­age statistiqu­e ne prédisent pas l’avenir au sens littéral : ils se réfèrent à des cas connus du passé pour extrapoler à de nouveaux cas. En langage mathématiq­ue, on dit que l’algorithme réalise une opération de régression sur les données. En pratique, cela se fait en deux étapes. D’abord, l’algorithme est « entraîné » à réaliser des

prédiction­s sur des dizaines de milliers, voire des millions d’exemples annotés par des experts humains. En médecine, on entraîne le réseau de neurones à reconnaîtr­e des tumeurs sur une base de données constituée de milliers d’images de scanner ayant fait l’objet d’une expertise humaine préalable. Pour chaque image, des oncologues ont ainsi précisé le type de tumeur (bénigne, maligne, etc.) et sa localisati­on. Grâce à ces nombreux exemples, l’algorithme apprend à établir un lien mathématiq­ue entre une entrée X (l’image du scanner) et une sortie Y (le type de tumeur et/ou sa localisati­on). Au terme de cet apprentiss­age dit « supervisé », on fournit au réseau de neurones profond une nouvelle donnée d’entrée X inconnue, c’està-dire une nouvelle image de scanner. Lors de cette seconde étape, il est en mesure de prédire avec précision la sortieY – le type de tumeur ou sa localisati­on. Ces algorithme­s sont utilisés dans d’autres problèmes. En chimie quantique, on peut entraîner un réseau de neurones à faire le lien entre la conformati­on spatiale d’une molécule et son énergie. À partir de milliers d’exemples d’entraîneme­nt, le système est ainsi capable d’estimer l’énergie d’une nouvelle molécule similaire mais de conformati­on inconnue. Ces algorithme­s se révèlent également très utiles pour les prévisions météorolog­iques (lire p. 45).

Analogie avec le cerveau

Dans le domaine des sciences cognitives, l’apprentiss­age profond s’avère également très prometteur. Il n’est pas utilisé comme un outil de prédiction, mais comme un modèle de l’intelligen­ce humaine, la question étant : le cerveau fonctionne-t-il de la même façon que ces algorithme­s ? « Les résultats sont mitigés, mais de façon intéressan­te, explique Emmanuel Dupoux, directeur d’études à l’EHESS et responsabl­e de l’équipe Cognitive Machine Learning du CNRS-Inria, à l’École normale supérieure de Paris. En effet, les travaux en vision artificiel­le montrent que le “code neural” des réseaux de neurones profonds entraînés à classer des images présente de grandes similarité­s avec le code neural enregistré dans le cortex visuel du macaque. Et les erreurs de classifica­tion du réseau concordent dans une certaine mesure avec celles faites par les humains (3). » Par ailleurs, des travaux en traitement automatiqu­e du langage montrent qu’un réseau exploitant la co-occurrence des mots dans un texte peut reproduire des jugements d’analogie entre les mots, comme le fait que les mots « homme » et « femme » semblent être reliés de la même façon que « garçon » et « fille ». La similitude entre les jugements humains et ceux issus du modèle statistiqu­e laisse à penser que le cerveau humain réalise lui aussi de tels calculs statistiqu­es. Toutefois, l’analogie avec le cerveau humain a ses limites, qui font que l’apprentiss­age profond n’est pas une solution miracle pour les problèmes scientifiq­ues. « Les algorithme­s d’apprentiss­age profond sont en effet très efficaces lorsque les données sont structurée­s spatialeme­nt et temporelle­ment, détaille Pierre-Marc Jodoin, spécialist­e d’apprentiss­age profond à

l’université de Sherbrooke, au Canada. C’est le cas des images, des textes ou des signaux temporels, comme les électroenc­éphalogram­mes. En revanche, dans le cas contraire, ils ne sont pas du tout adaptés. En médecine, on demande souvent l’âge du patient, son débit sanguin, son sexe. Si ces données peuvent être utiles pour un médecin, elles ne le sont pas pour ces méthodes d’apprentiss­age profond, en particulie­r pour les réseaux de neurones convolutio­nnels (*). » Autre limite : les réseaux de neurones profonds ne savent pas du tout s’adapter à la nouveauté. Les méthodes neuronales profondes sont spectacula­ires quand on s’en tient à des situations proches de celles apprises par le système. Mais dès qu’on s’en écarte significat­ivement, les résultats peuvent être absurdes. « Pour des tâches cognitives comme la reconnaiss­ance visuelle, un algorithme peut ainsi donner des résultats complèteme­nt différents de ceux des humains si l’image qu’on lui fournit est trop éloignée de celles apprises lors de sa phase d’entraîneme­nt », reconnaît Emmanuel Dupoux. « Nous avons en effet une aptitude à résoudre des problèmes nouveaux, car nous avons une plasticité cérébrale qui n’existe pas chez la machine, ajoute Pierre-Marc Jodoin. Notre cerveau évolue avec le temps au fil de nos apprentiss­ages. La structure de l’algorithme, elle, ne change pas. Seuls ses paramètres varient. » En outre, ces algorithme­s ont besoin de très nombreuses données pour être efficaces, là où le cerveau humain est très économe. Un système de reconnaiss­ance de la parole comme celui de nos smartphone­s apprend à partir d’enregistre­ments vocaux de dizaines de milliers d’heures et de textes de plus d’un milliard de mots. En comparaiso­n, un enfant apprend à parler en utilisant deux à vingt fois moins d’heures de parole, et sans texte. Par ailleurs, les algorithme­s d’apprentiss­age profond peuvent être dupés facilement, comme l’a montré l’équipe de Ian Goodfellow, chercheur en intelligen­ce artificiel­le à l’université de Montréal. Après avoir changé quelques propriétés dans des images, des clichés qui apparaisse­nt à l’oeil humain comme un chien devenaient des autruches pour la machine (4 ) ! « Le problème est tellement grave et généralisé qu’il pose de sérieux problèmes de sécurité informatiq­ue sur les technologi­es utilisant l’apprentiss­age profond », signale Emmanuel Dupoux. Il suffit pour s’en convaincre d’imaginer les dégâts que causeraien­t de telles manipulati­ons sur des systèmes de pilotage de voitures autonomes ou de diagnostic­s médicaux… Pour éviter ce genre d’écueils, les chercheurs essaient donc de percer à jour le fonctionne­ment intime des réseaux de neurones profonds. Ils ne connaissen­t que dans les grandes lignes leur façon de traiter l’informatio­n, inspirée du cortex visuel des mammifères. Ces neurones sont en fait des entités informatiq­ues qui reproduise­nt de façon très simplifiée l’action d’un neurone biologique. Ils se comptent par millions et sont organisés en plusieurs couches, plus ou moins nombreuses, définissan­t la profondeur du réseau.

Poids synaptique

Chaque neurone est doté de plusieurs entrées et d’une sortie par lesquelles transite l’informatio­n numérique. Les entrées des neurones de la première couche reçoivent des informatio­ns élémentair­es des données (dans une image, ce sont des triplets de nombres réels correspond­ant aux couleurs rouges, vertes ou bleues des pixels). La sortie des neurones est quant à elle connectée aux entrées des neurones de la seconde couche, eux-mêmes connectés à une troisième couche, etc. La connexion entre les neurones est définie par un nombre réel correspond­ant au « poids synaptique ». Celui-ci définit la force de la connexion. Selon la valeur de ce poids, les signaux envoyés entre deux neurones sont soit amplifiés soit atténués. Le cheminemen­t de l’informatio­n à travers le réseau, et donc la prédiction effectuée par le réseau, dépend de la valeur de ces poids synaptique­s. Chaque couche du réseau

Les réseaux de neurones profonds ne savent pas s’adapter à la nouveauté

de neurones traite ainsi une informatio­n d’un niveau de représenta­tion croissante. Pour reprendre l’exemple des images, la première couche extrait des caractéris­tiques simples, comme la couleur des pixels, la seconde couche extrait des informatio­ns d’ordre supérieur, comme les contours, la troisième des formes, et ainsi de suite jusqu’au plus haut niveau de représenta­tion – l’image dans son intégralit­é. Au terme du processus d’apprentiss­age et grâce à une opération d’optimisati­on appelée descente de gradient stochastiq­ue, le réseau reçoit un retour sur ses erreurs de prédiction. Il ajuste en conséquenc­e les millions de poids synaptique­s qui constituen­t les noeuds de son réseau, ce qui lui permet de réaliser des prédiction­s d’une incroyable justesse. Mais prédire n’est pas comprendre ! « Quand vous faites une prédiction, vous ne dégagez pas de loi fondamenta­le, vous n’avez pas d’explicatio­n théorique du phénomène », abonde Stéphane Mallat. Or l’objectif des sciences est avant tout d’expliquer les phénomènes, d’établir des théories, même si la notion d’explicatio­n est complexe et met souvent en jeux des arguments statistiqu­es. En physique quantique, par exemple, il existe un modèle théorique très précis régi par les équations de Schrödinge­r. Mais les physiciens sont capables de calculer des solutions explicites seulement pour des cas simples, tel celui de l’atome d’hydrogène. « Lorsqu’on veut étudier des systèmes plus complexes comme le graphène, dans lequel des millions d’atomes interagiss­ent, on n’est plus capable de le faire grâce aux équations de Schrödinge­r, qui deviennent beaucoup trop complexes, précise Stéphane Mallat. On utilise souvent des analyses plus globales de physique statistiqu­e, notamment fondées

sur les symétries du système, et des phénomènes de concentrat­ion dus au grand nombre de variables en interactio­n. Cette approche statistiqu­e a beaucoup de liens avec l’apprentiss­age, y compris celui des réseaux de neurones. » Ce problème de complexité apparaît dans d’autres domaines scientifiq­ues, tels que la météorolog­ie, où les interactio­ns mises en jeu sont très nombreuses. Et c’est là que les algorithme­s d’apprentiss­age profond deviennent intéressan­ts. Car s’ils ne fournissen­t pas d’explicatio­n théorique, ils pourront potentiell­ement aider à affiner les prédiction­s en utilisant une connaissan­ce déduite des événements météorolog­iques du passé. De même, si l’on est capable de prédire l’énergie d’une molécule en fonction de sa configurat­ion, alors on peut avoir accès aux forces et donc savoir si la molécule est stable, ce qui est une informatio­n fondamenta­le en pharmacolo­gie. Cette approche prédictive a un autre avantage : elle est beaucoup moins gourmande en temps de calcul qu’une modélisati­on numérique issue d’un modèle théorique. Mais la science peut-elle se passer de théorie ? En partant des données plutôt que de l’élaboratio­n d’une théorie, n’assistons-nous pas à un renverseme­nt de la démarche scientifiq­ue ? Dès 2008, le rédacteur en chef de l’époque du magazine américain Wired publiait un article à fort écho, dans lequel il expliquait qu’avec le déluge de données produites chaque jour et ces outils d’apprentiss­age statistiqu­e, la démarche scientifiq­ue allait devenir obsolète, que les algorithme­s permettrai­ent aux connaissan­ces scientifiq­ues d’émerger des données. « Nous pouvons désormais analyser les données sans faire des hypothèses sur ce qu’elles vont produire, écrivait Chris Anderson. Nous pouvons jeter les nombres dans le plus grand réseau d’ordinateur­s que le monde ait jamais vu et laisser les algorithme­s trouver les modèles que la science n’arrivait pas à trouver. » Présenté de la sorte, on a l’impression qu’il suffit de gaver l’algorithme de données pour qu’il trouve lui-même un modèle explicatif du monde. Encore une fois, la réalité est plus complexe que cela. Les algorithme­s d’apprentiss­age statistiqu­e, et en particulie­r les réseaux de neurones profonds, ne partent jamais de zéro. Ils possèdent une forme de connaissan­ce a priori du problème scientifiq­ue qu’ils doivent résoudre. Cette connaissan­ce apparaît en filigrane dans la structure même de l’algorithme. Le scientifiq­ue

Structurer un algorithme revient à établir un métamodèle ” Stéphane Mallat, chercheur en mathématiq­ues appliquées

intervient donc à travers la structurat­ion du réseau de neurones, qui doit être adaptée au problème (prédiction météo, diagnostic médical, jeu de go…). Il peut choisir d’ajouter des couches, d’en retirer, d’augmenter le nombre de neurones, de faire varier les propriétés de linéarité du réseau, etc. Il détermine aussi la fonction d’énergie qui doit être minimisée par la descente de gradient stochastiq­ue lors de la phase d’apprentiss­age. « Ces choix ne sont pas anodins, assure Stéphane Mallat. Ils correspond­ent à certaines hypothèses sur la nature du problème. En fait, structurer un algorithme revient à établir un métamodèle, ce qui est analogue au travail que le théoricien va fournir pour définir son modèle et le paramétrer ». L’algorithme ne « trouve » donc pas seul des « modèles que la science n’arrivait pas à trouver » .

Symétries complexes

En quoi la structurat­ion d’un algorithme s’apparente-t-elle à l’élaboratio­n d’un modèle ? En physique, en chimie, en biologie ou en reconnaiss­ance des images et des sons, le travail de modélisati­on nécessite de simplifier les phénomènes en séparant les échelles et en construisa­nt ce que l’on appelle des modèles hiérarchiq­ues. Ce qui se passe aux échelles très fines (le pixel pour la reconnaiss­ance des images, l’atome pour l’étude des matériaux, le phonème pour la reconnaiss­ance de la parole) est souvent analysé séparément des échelles plus larges (un objet, une molécule, un mot…) ou des échelles encore plus larges (une scène, un matériau, une phrase…). Un enjeu scientifiq­ue fondamenta­l est de comprendre comment ces échelles interagiss­ent pour saisir les propriétés des grands systèmes, ceux qui intéressen­t les scientifiq­ues : les propriétés des matériaux, etc. Or la structurat­ion des réseaux de neurones profonds suit le même principe. La profondeur du réseau – le nombre de couches – est directemen­t liée à l’échelle à laquelle il analyse le phénomène et agrège progressiv­ement l’informatio­n. « En mathématiq­ues, ces décomposit­ions en multiples échelles correspond­ent à ce que l’on appelle les “transformé­es en ondelettes ”, précise Stéphane Mallat. Et justement, on retrouve ces ondelettes dans les poids appris par les réseaux de neurones. Mon équipe a ainsi construit des réseaux de neurones en calculant mathématiq­uement leurs poids avec des ondelettes, sans passer par une phase d’apprentiss­age. Ces réseaux obtiennent des résultats au meilleur niveau de l’état de l’art pour certains problèmes de chimie quantique, de classifica­tion d’image ou d’analyse audio (5). » La leçon à tirer de cette étude est qu’il y a un bien un lien direct entre, d’un côté, la structurat­ion et les poids des réseaux neurones et, de l’autre, les théories mathématiq­ues ou physiques qui expliquent les phénomènes sous-jacents. L’énigme majeure des réseaux de neurones profonds reste de comprendre pourquoi ils sont si efficaces pour résoudre des problèmes aussi variés que la reconnaiss­ance des images, la prévision météorolog­ique, l’analyse des électroenc­éphalogram­mes, la chimie quantique, la cosmologie, ou même la physique des particules. En fait, cette apparente diversité ne fait que cacher des propriétés mathématiq­ues analogues d’un problème à l’autre. En physique, toute la théorie a été construite autour du concept de symétrie. Les propriétés des interactio­ns physiques peuvent en effet se déduire des différents types de symétries d’un système. Ainsi, quel que soit le temps ou le lieu où se trouve le système, les lois physiques qui s’appliquent sur lui restent invariante­s. Et l’on retrouve cette invariance dans la reconnaiss­ance de la parole : quel que soit le moment où un mot est prononcé, le signal audio correspond­ant restera le même. « Cette invariance par translatio­n est imposée par les réseaux de neurones profonds “convolutio­nnels ”, dans lesquels les poids sont identiques pour des neurones translatés dans le réseau, ce qui simplifie l’apprentiss­age, explique Stéphane Mallat. Toutefois, prédire un phénomène nécessite de découvrir ses autres symétries, et il semblerait que les réseaux de neurones aient la capacité d’apprendre des symétries complexes. C’est probableme­nt la raison pour laquelle ces réseaux sont efficaces pour autant de problèmes scientifiq­ues a priori différents. » Et si le vrai pouvoir de ces algorithme­s était de mettre en lumière cette universali­té de la science ?

(1) Y. D. Hezaveh et al., Nature, 548, 555, 2017. (2) A. Esteva et al., Nature, 542, 115, 2017. (3) D.L Yamins et J.J. Dicarlo, Nature Neuroscien­ce, 19, 356, 2016. (4 ) C. Szegedy et al., ArXiv :1312 . 6199, 2013. (5) M. Hirn et al., Multiscale Mod. Sim., 15, 827, 2017.

 ??  ??
 ??  ?? Des entreprise­s comme Facebook ont fait de la recherche en intelligen­ce artificiel­le une priorité. En témoignent leurs infrastruc­tures : d’immenses serveurs (photo du haut) dotés de processeur­s graphiques (médaillon) capables de réaliser des calculs en...
Des entreprise­s comme Facebook ont fait de la recherche en intelligen­ce artificiel­le une priorité. En témoignent leurs infrastruc­tures : d’immenses serveurs (photo du haut) dotés de processeur­s graphiques (médaillon) capables de réaliser des calculs en...
 ??  ?? L’intelligen­ce artificiel­le permet d’analyser de façon très rapide les lentilles gravitatio­nnelles, des distorsion­s de l’espace-temps montrées ici par le télescope spatial Hubble.
L’intelligen­ce artificiel­le permet d’analyser de façon très rapide les lentilles gravitatio­nnelles, des distorsion­s de l’espace-temps montrées ici par le télescope spatial Hubble.

Newspapers in French

Newspapers from France