L’apprentissage profond bouleverse les sciences
Pour détecter les cancers de la peau, analyser des distorsions de l’espace-temps ou prédire des phénomènes climatiques extrêmes, les techniques d’intelligence artificielle, et en particulier l’apprentissage profond, commencent à faire leurs preuves. Elles
Cet été, les médias ont relayé une information pour le moins angoissante. Des ingénieurs de Facebook ont été obligés de « débrancher » deux intelligences artificielles qui avaient inventé leur propre langage pour communiquer, échappant au contrôle de leurs concepteurs. La façon de mettre en scène cet incident, en grossissant le trait, est symptomatique de la communication autour de l’intelligence artificielle, tantôt alarmiste, tantôt emphatique, souvent exagérée. Si l’intelligence artificielle fait autant parler d’elle, c’est parce qu’elle a fait un bond en avant ces dernières années, en particulier grâce aux algorithmes (*) d’apprentissage statistique, capables d’extraire des informations pertinentes de grandes bases de données numériques. Parmi eux, une classe particulière, les réseaux de neurones profonds, a permis d’améliorer considérablement la reconnaissance automatique de la parole, la reconnaissance visuelle et le traitement du langage. L’apprentissage profond gagne aujourd’hui du terrain dans les laboratoires de recherche. Pas une semaine ne passe sans qu’une étude ne soit publiée sur le sujet : en astrophysique, les réseaux de neurones profonds permettent d’analyser des distorsions de l’espace-temps – appelées lentilles gravitationnelles – dix millions de fois plus vite que des méthodes traditionnelles (1) ; en médecine, ils permettent de détecter automatiquement des cancers de la peau avec un niveau de certitude équivalent à celui des dermatologues (2) ; en météorologie, ils aident à prédire les phénomènes extrêmes ; en sciences cognitives, ils servent de modèles pour étudier le développement cognitif. Le champ des possibles semble ainsi vertigineux, trop peut-être. Au point de s’interroger sur leurs vrais pouvoirs. Pour quels problèmes scientifiques sont-ils vraiment utiles ? Quelles sont leurs limites ? À quel point vont-ils révolutionner la science ? Une chose est claire : « Dès que vous avez beaucoup de données disponibles, ce qui est le cas dans de nombreux problèmes scientifiques actuels, les algorithmes d’apprentissage profonds sont particulièrement efficaces », résume Stéphane Mallat, chercheur en mathématiques appliquées à l’École normale supérieure et titulaire de la nouvelle chaire de sciences des données, qui débutera au Collège de France en janvier prochain. Efficace, d’accord, mais pour faire quoi ? Pour réaliser des prédictions ! Les algorithmes d’apprentissage statistique ne prédisent pas l’avenir au sens littéral : ils se réfèrent à des cas connus du passé pour extrapoler à de nouveaux cas. En langage mathématique, on dit que l’algorithme réalise une opération de régression sur les données. En pratique, cela se fait en deux étapes. D’abord, l’algorithme est « entraîné » à réaliser des
prédictions sur des dizaines de milliers, voire des millions d’exemples annotés par des experts humains. En médecine, on entraîne le réseau de neurones à reconnaître des tumeurs sur une base de données constituée de milliers d’images de scanner ayant fait l’objet d’une expertise humaine préalable. Pour chaque image, des oncologues ont ainsi précisé le type de tumeur (bénigne, maligne, etc.) et sa localisation. Grâce à ces nombreux exemples, l’algorithme apprend à établir un lien mathématique entre une entrée X (l’image du scanner) et une sortie Y (le type de tumeur et/ou sa localisation). Au terme de cet apprentissage dit « supervisé », on fournit au réseau de neurones profond une nouvelle donnée d’entrée X inconnue, c’està-dire une nouvelle image de scanner. Lors de cette seconde étape, il est en mesure de prédire avec précision la sortieY – le type de tumeur ou sa localisation. Ces algorithmes sont utilisés dans d’autres problèmes. En chimie quantique, on peut entraîner un réseau de neurones à faire le lien entre la conformation spatiale d’une molécule et son énergie. À partir de milliers d’exemples d’entraînement, le système est ainsi capable d’estimer l’énergie d’une nouvelle molécule similaire mais de conformation inconnue. Ces algorithmes se révèlent également très utiles pour les prévisions météorologiques (lire p. 45).
Analogie avec le cerveau
Dans le domaine des sciences cognitives, l’apprentissage profond s’avère également très prometteur. Il n’est pas utilisé comme un outil de prédiction, mais comme un modèle de l’intelligence humaine, la question étant : le cerveau fonctionne-t-il de la même façon que ces algorithmes ? « Les résultats sont mitigés, mais de façon intéressante, explique Emmanuel Dupoux, directeur d’études à l’EHESS et responsable de l’équipe Cognitive Machine Learning du CNRS-Inria, à l’École normale supérieure de Paris. En effet, les travaux en vision artificielle montrent que le “code neural” des réseaux de neurones profonds entraînés à classer des images présente de grandes similarités avec le code neural enregistré dans le cortex visuel du macaque. Et les erreurs de classification du réseau concordent dans une certaine mesure avec celles faites par les humains (3). » Par ailleurs, des travaux en traitement automatique du langage montrent qu’un réseau exploitant la co-occurrence des mots dans un texte peut reproduire des jugements d’analogie entre les mots, comme le fait que les mots « homme » et « femme » semblent être reliés de la même façon que « garçon » et « fille ». La similitude entre les jugements humains et ceux issus du modèle statistique laisse à penser que le cerveau humain réalise lui aussi de tels calculs statistiques. Toutefois, l’analogie avec le cerveau humain a ses limites, qui font que l’apprentissage profond n’est pas une solution miracle pour les problèmes scientifiques. « Les algorithmes d’apprentissage profond sont en effet très efficaces lorsque les données sont structurées spatialement et temporellement, détaille Pierre-Marc Jodoin, spécialiste d’apprentissage profond à
l’université de Sherbrooke, au Canada. C’est le cas des images, des textes ou des signaux temporels, comme les électroencéphalogrammes. En revanche, dans le cas contraire, ils ne sont pas du tout adaptés. En médecine, on demande souvent l’âge du patient, son débit sanguin, son sexe. Si ces données peuvent être utiles pour un médecin, elles ne le sont pas pour ces méthodes d’apprentissage profond, en particulier pour les réseaux de neurones convolutionnels (*). » Autre limite : les réseaux de neurones profonds ne savent pas du tout s’adapter à la nouveauté. Les méthodes neuronales profondes sont spectaculaires quand on s’en tient à des situations proches de celles apprises par le système. Mais dès qu’on s’en écarte significativement, les résultats peuvent être absurdes. « Pour des tâches cognitives comme la reconnaissance visuelle, un algorithme peut ainsi donner des résultats complètement différents de ceux des humains si l’image qu’on lui fournit est trop éloignée de celles apprises lors de sa phase d’entraînement », reconnaît Emmanuel Dupoux. « Nous avons en effet une aptitude à résoudre des problèmes nouveaux, car nous avons une plasticité cérébrale qui n’existe pas chez la machine, ajoute Pierre-Marc Jodoin. Notre cerveau évolue avec le temps au fil de nos apprentissages. La structure de l’algorithme, elle, ne change pas. Seuls ses paramètres varient. » En outre, ces algorithmes ont besoin de très nombreuses données pour être efficaces, là où le cerveau humain est très économe. Un système de reconnaissance de la parole comme celui de nos smartphones apprend à partir d’enregistrements vocaux de dizaines de milliers d’heures et de textes de plus d’un milliard de mots. En comparaison, un enfant apprend à parler en utilisant deux à vingt fois moins d’heures de parole, et sans texte. Par ailleurs, les algorithmes d’apprentissage profond peuvent être dupés facilement, comme l’a montré l’équipe de Ian Goodfellow, chercheur en intelligence artificielle à l’université de Montréal. Après avoir changé quelques propriétés dans des images, des clichés qui apparaissent à l’oeil humain comme un chien devenaient des autruches pour la machine (4 ) ! « Le problème est tellement grave et généralisé qu’il pose de sérieux problèmes de sécurité informatique sur les technologies utilisant l’apprentissage profond », signale Emmanuel Dupoux. Il suffit pour s’en convaincre d’imaginer les dégâts que causeraient de telles manipulations sur des systèmes de pilotage de voitures autonomes ou de diagnostics médicaux… Pour éviter ce genre d’écueils, les chercheurs essaient donc de percer à jour le fonctionnement intime des réseaux de neurones profonds. Ils ne connaissent que dans les grandes lignes leur façon de traiter l’information, inspirée du cortex visuel des mammifères. Ces neurones sont en fait des entités informatiques qui reproduisent de façon très simplifiée l’action d’un neurone biologique. Ils se comptent par millions et sont organisés en plusieurs couches, plus ou moins nombreuses, définissant la profondeur du réseau.
Poids synaptique
Chaque neurone est doté de plusieurs entrées et d’une sortie par lesquelles transite l’information numérique. Les entrées des neurones de la première couche reçoivent des informations élémentaires des données (dans une image, ce sont des triplets de nombres réels correspondant aux couleurs rouges, vertes ou bleues des pixels). La sortie des neurones est quant à elle connectée aux entrées des neurones de la seconde couche, eux-mêmes connectés à une troisième couche, etc. La connexion entre les neurones est définie par un nombre réel correspondant au « poids synaptique ». Celui-ci définit la force de la connexion. Selon la valeur de ce poids, les signaux envoyés entre deux neurones sont soit amplifiés soit atténués. Le cheminement de l’information à travers le réseau, et donc la prédiction effectuée par le réseau, dépend de la valeur de ces poids synaptiques. Chaque couche du réseau
Les réseaux de neurones profonds ne savent pas s’adapter à la nouveauté
de neurones traite ainsi une information d’un niveau de représentation croissante. Pour reprendre l’exemple des images, la première couche extrait des caractéristiques simples, comme la couleur des pixels, la seconde couche extrait des informations d’ordre supérieur, comme les contours, la troisième des formes, et ainsi de suite jusqu’au plus haut niveau de représentation – l’image dans son intégralité. Au terme du processus d’apprentissage et grâce à une opération d’optimisation appelée descente de gradient stochastique, le réseau reçoit un retour sur ses erreurs de prédiction. Il ajuste en conséquence les millions de poids synaptiques qui constituent les noeuds de son réseau, ce qui lui permet de réaliser des prédictions d’une incroyable justesse. Mais prédire n’est pas comprendre ! « Quand vous faites une prédiction, vous ne dégagez pas de loi fondamentale, vous n’avez pas d’explication théorique du phénomène », abonde Stéphane Mallat. Or l’objectif des sciences est avant tout d’expliquer les phénomènes, d’établir des théories, même si la notion d’explication est complexe et met souvent en jeux des arguments statistiques. En physique quantique, par exemple, il existe un modèle théorique très précis régi par les équations de Schrödinger. Mais les physiciens sont capables de calculer des solutions explicites seulement pour des cas simples, tel celui de l’atome d’hydrogène. « Lorsqu’on veut étudier des systèmes plus complexes comme le graphène, dans lequel des millions d’atomes interagissent, on n’est plus capable de le faire grâce aux équations de Schrödinger, qui deviennent beaucoup trop complexes, précise Stéphane Mallat. On utilise souvent des analyses plus globales de physique statistique, notamment fondées
sur les symétries du système, et des phénomènes de concentration dus au grand nombre de variables en interaction. Cette approche statistique a beaucoup de liens avec l’apprentissage, y compris celui des réseaux de neurones. » Ce problème de complexité apparaît dans d’autres domaines scientifiques, tels que la météorologie, où les interactions mises en jeu sont très nombreuses. Et c’est là que les algorithmes d’apprentissage profond deviennent intéressants. Car s’ils ne fournissent pas d’explication théorique, ils pourront potentiellement aider à affiner les prédictions en utilisant une connaissance déduite des événements météorologiques du passé. De même, si l’on est capable de prédire l’énergie d’une molécule en fonction de sa configuration, alors on peut avoir accès aux forces et donc savoir si la molécule est stable, ce qui est une information fondamentale en pharmacologie. Cette approche prédictive a un autre avantage : elle est beaucoup moins gourmande en temps de calcul qu’une modélisation numérique issue d’un modèle théorique. Mais la science peut-elle se passer de théorie ? En partant des données plutôt que de l’élaboration d’une théorie, n’assistons-nous pas à un renversement de la démarche scientifique ? Dès 2008, le rédacteur en chef de l’époque du magazine américain Wired publiait un article à fort écho, dans lequel il expliquait qu’avec le déluge de données produites chaque jour et ces outils d’apprentissage statistique, la démarche scientifique allait devenir obsolète, que les algorithmes permettraient aux connaissances scientifiques d’émerger des données. « Nous pouvons désormais analyser les données sans faire des hypothèses sur ce qu’elles vont produire, écrivait Chris Anderson. Nous pouvons jeter les nombres dans le plus grand réseau d’ordinateurs que le monde ait jamais vu et laisser les algorithmes trouver les modèles que la science n’arrivait pas à trouver. » Présenté de la sorte, on a l’impression qu’il suffit de gaver l’algorithme de données pour qu’il trouve lui-même un modèle explicatif du monde. Encore une fois, la réalité est plus complexe que cela. Les algorithmes d’apprentissage statistique, et en particulier les réseaux de neurones profonds, ne partent jamais de zéro. Ils possèdent une forme de connaissance a priori du problème scientifique qu’ils doivent résoudre. Cette connaissance apparaît en filigrane dans la structure même de l’algorithme. Le scientifique
Structurer un algorithme revient à établir un métamodèle ” Stéphane Mallat, chercheur en mathématiques appliquées
intervient donc à travers la structuration du réseau de neurones, qui doit être adaptée au problème (prédiction météo, diagnostic médical, jeu de go…). Il peut choisir d’ajouter des couches, d’en retirer, d’augmenter le nombre de neurones, de faire varier les propriétés de linéarité du réseau, etc. Il détermine aussi la fonction d’énergie qui doit être minimisée par la descente de gradient stochastique lors de la phase d’apprentissage. « Ces choix ne sont pas anodins, assure Stéphane Mallat. Ils correspondent à certaines hypothèses sur la nature du problème. En fait, structurer un algorithme revient à établir un métamodèle, ce qui est analogue au travail que le théoricien va fournir pour définir son modèle et le paramétrer ». L’algorithme ne « trouve » donc pas seul des « modèles que la science n’arrivait pas à trouver » .
Symétries complexes
En quoi la structuration d’un algorithme s’apparente-t-elle à l’élaboration d’un modèle ? En physique, en chimie, en biologie ou en reconnaissance des images et des sons, le travail de modélisation nécessite de simplifier les phénomènes en séparant les échelles et en construisant ce que l’on appelle des modèles hiérarchiques. Ce qui se passe aux échelles très fines (le pixel pour la reconnaissance des images, l’atome pour l’étude des matériaux, le phonème pour la reconnaissance de la parole) est souvent analysé séparément des échelles plus larges (un objet, une molécule, un mot…) ou des échelles encore plus larges (une scène, un matériau, une phrase…). Un enjeu scientifique fondamental est de comprendre comment ces échelles interagissent pour saisir les propriétés des grands systèmes, ceux qui intéressent les scientifiques : les propriétés des matériaux, etc. Or la structuration des réseaux de neurones profonds suit le même principe. La profondeur du réseau – le nombre de couches – est directement liée à l’échelle à laquelle il analyse le phénomène et agrège progressivement l’information. « En mathématiques, ces décompositions en multiples échelles correspondent à ce que l’on appelle les “transformées en ondelettes ”, précise Stéphane Mallat. Et justement, on retrouve ces ondelettes dans les poids appris par les réseaux de neurones. Mon équipe a ainsi construit des réseaux de neurones en calculant mathématiquement leurs poids avec des ondelettes, sans passer par une phase d’apprentissage. Ces réseaux obtiennent des résultats au meilleur niveau de l’état de l’art pour certains problèmes de chimie quantique, de classification d’image ou d’analyse audio (5). » La leçon à tirer de cette étude est qu’il y a un bien un lien direct entre, d’un côté, la structuration et les poids des réseaux neurones et, de l’autre, les théories mathématiques ou physiques qui expliquent les phénomènes sous-jacents. L’énigme majeure des réseaux de neurones profonds reste de comprendre pourquoi ils sont si efficaces pour résoudre des problèmes aussi variés que la reconnaissance des images, la prévision météorologique, l’analyse des électroencéphalogrammes, la chimie quantique, la cosmologie, ou même la physique des particules. En fait, cette apparente diversité ne fait que cacher des propriétés mathématiques analogues d’un problème à l’autre. En physique, toute la théorie a été construite autour du concept de symétrie. Les propriétés des interactions physiques peuvent en effet se déduire des différents types de symétries d’un système. Ainsi, quel que soit le temps ou le lieu où se trouve le système, les lois physiques qui s’appliquent sur lui restent invariantes. Et l’on retrouve cette invariance dans la reconnaissance de la parole : quel que soit le moment où un mot est prononcé, le signal audio correspondant restera le même. « Cette invariance par translation est imposée par les réseaux de neurones profonds “convolutionnels ”, dans lesquels les poids sont identiques pour des neurones translatés dans le réseau, ce qui simplifie l’apprentissage, explique Stéphane Mallat. Toutefois, prédire un phénomène nécessite de découvrir ses autres symétries, et il semblerait que les réseaux de neurones aient la capacité d’apprendre des symétries complexes. C’est probablement la raison pour laquelle ces réseaux sont efficaces pour autant de problèmes scientifiques a priori différents. » Et si le vrai pouvoir de ces algorithmes était de mettre en lumière cette universalité de la science ?
(1) Y. D. Hezaveh et al., Nature, 548, 555, 2017. (2) A. Esteva et al., Nature, 542, 115, 2017. (3) D.L Yamins et J.J. Dicarlo, Nature Neuroscience, 19, 356, 2016. (4 ) C. Szegedy et al., ArXiv :1312 . 6199, 2013. (5) M. Hirn et al., Multiscale Mod. Sim., 15, 827, 2017.