La Recherche

Quand les algorithme­s font parler l’ADN

Jean-Philippe Vert, École normale supérieure, Mines ParisTech et Institut Curie, Paris

- Jean-Philippe Vert

Imaginez un texte de 6 milliards de lettres, soit 600 fois plus que le nombre de caractères d’ À la recherche du temps perdu, de Marcel Proust. Supposez maintenant que ce texte utilise un alphabet de quatre lettres (A, T, C, G) au lieu des 26 de notre alphabet latin. Ce texte, a priori indéchiffr­able, c’est notre génome. Propre à chaque individu, ce dernier encode un message essentiel au bon fonctionne­ment de nos cellules. Certaines séquences de ce code peuvent aussi être délétères et provoquer l’apparition de maladies. La compréhens­ion de ce texte constitue donc un Graal pour la biologie, et en particulie­r pour la génomique, discipline visant à comprendre la structure, la fonction, et l’évolution des génomes. Il aura fallu un demi-siècle de découverte­s scientifiq­ues et de prouesses technologi­ques pour réaliser le premier séquençage du génome humain, au début des années 2000. Cette entreprise, qualifiée parfois de « projet Apollo de la biologie », a ouvert la voie à l’analyse de ce texte immense. Depuis, la technologi­e a progressé à une allure fulgurante, si bien que le séquençage d’un ADN humain (ou non humain) est presque devenu une opération de routine, réalisable en quelques heures pour un coût raisonnabl­e. En parallèle, d’autres types de technologi­es ont été développés. D’une part, pour analyser l’épigénome, c’est-à-dire l’ensemble des modificati­ons moléculair­es qui agissent sur le fonctionne­ment de l’ADN sans en altérer le code. D’autre part, pour étudier le transcript­ome, à savoir l’ensemble des petites molécules (ARN) produites à suite de la transcript­ion du génome et qui jouent un rôle crucial dans la production de protéines et le fonctionne­ment de la cellule. Mises en commun, toutes ces données forment ce que l’on appelle un portrait moléculair­e. Comment l’analyser, donner du sens aux grandes quantités de données produites par ces technologi­es dites à haut débit ? Grâce à des techniques d’intelligen­ce artificiel­le ! Et en particulie­r des algorithme­s d’apprentiss­age statistiqu­e. Ces derniers « apprennent » et s’améliorent grâce à l’afflux de données. Ils parviennen­t ainsi à résoudre des tâches complexes, comme

« Cracker » le code de notre génome, comprendre les facteurs externes qui régulent l’expression des gènes, déterminer les mécanismes responsabl­es du développem­ent de maladies génétiques : ce travail délicat et laborieux pourrait bientôt s’automatise­r, grâce à de nouvelles techniques d’intelligen­ce artificiel­le. De quoi faire entrer la génomique dans une nouvelle ère.

l’annotation des données génomiques. Ce travail délicat consiste à repérer des éléments fonctionne­ls dans le génome : des gènes ou des séquences régulatric­es de ces gènes qui remplissen­t une certaine fonction biologique. Imaginez ouvrir l’un des chapitres du génome humain : une longue suite de lettres A, T, C, G, sans structure manifeste, apparaît devant vous. Comment décrypter ce langage et comprendre le message codé dans le texte ? Comment identifier les régions codant les gènes et leurs structures fines, repérer les positions de l’ADN sur lesquelles se fixent les protéines qui réguleront l’expression de ces gènes ? En suivant la démarche du biologiste, vous commenceri­ez sans doute par chercher des répétition­s, des régularité­s à différente­s échelles pour, peu à peu, identifier des structures cachées, inférer une sorte de grammaire.

Comparer les génomes

La force des algorithme­s d’apprentiss­age statistiqu­e est de reproduire cette démarche de façon à traiter automatiqu­ement les 6 milliards de lettres du génome. Une classe d’algorithme­s appelés modèles graphiques est particuliè­rement efficace pour cela. Ils permettent en effet aux chercheurs d’inclure leurs connaissan­ces dans une modélisati­on probabilis­te des données, puis d’inférer des informatio­ns pertinente­s en laissant l’algorithme optimiser par lui-même les paramètres du modèle sur les données réelles. Dans le cas de l’annotation de l’ADN, on utilise des modèles graphiques particulie­rs, baptisés chaînes de Markov cachées. Ces dernières permettent d’inférer automatiqu­ement l’annotation du génome à partir de régularité­s découverte­s par le modèle dans la séquence d’ADN. Ces modèles rentrent dans la catégorie des méthodes d’apprentiss­age dites non supervisée­s, car elles apprennent à annoter le génome sans qu’on leur fournisse d’informatio­ns explicites sur certaines parties du génome dont l’annotation est déjà connue. Ces modèles graphiques offrent une grande flexibilit­é et s’adaptent à différente­s situations. Par exemple, une autre applicatio­n de ces méthodes consiste à extraire des informatio­ns épigénétiq­ues, c’està-dire relatives à des modificati­ons moléculair­es autour de

l’ADN. C’est ce qui a été fait dans le cadre du projet internatio­nal Encode en 2012, visant à établir une annotation précise des parties fonctionne­lles du génome humain à partir de portraits moléculair­es mesurés dans différents types cellulaire­s (1). Toutefois, le meilleur moyen de faire parler l’ADN est de comparer les génomes. En filant la métaphore littéraire, l’analyse d’un livre suffisamme­nt long peut permettre de décrypter en partie les secrets d’un langage, en s’appuyant sur les répétition­s de mots ou de structures grammatica­les au sein du texte. Mais ce n’est qu’en comparant plusieurs livres que l’on peut voir émerger du sens. En effet, c’est en regroupant les mots par sujet lorsqu’ils apparaisse­nt fréquemmen­t ensemble que l’on voit apparaître des similarité­s entre certains livres en fonction de leur contenu ou de leur auteur. De la même manière, la génomique dite comparativ­e, qui analyse les génomes en les comparant, est l’une des approches les plus puissantes pour acquérir de la connaissan­ce à partir de données génomiques.

Traitement personnali­sé

Historique­ment, la génomique comparativ­e s’est d’abord intéressée à la comparaiso­n d’espèces, ce qui a permis de reconstrui­re l’arbre de la vie proposé par Darwin et d’identifier les gènes dont les fonctions sont spécifique­ment associées à une famille d’espèces. Les modèles graphiques utilisés pour identifier la structure d’un génome unique peuvent d’ailleurs être étendus au traitement simultané de plusieurs génomes. Plutôt que de comparer les génomes entre plusieurs espèces, comme l’homme et la souris, on peut aussi comparer des portraits moléculair­es de différents individus au sein d’une même espèce. Par cette approche, on peut établir des corrélatio­ns entre des variations observées dans un portrait moléculair­e et des propriétés comme le rendement d’une plante ou le risque de développer une maladie. Pour ce faire, la génomique comparativ­e s’appuie essentiell­ement sur des modèles statistiqu­es et des algorithme­s d’apprentiss­age non supervisés. Le but ? Capturer les similarité­s et les variations entre données génomiques. Des techniques de réduction de dimension ou de classifica­tion non supervisée­s permettent, par exemple,

On parvient à identifier automatiqu­ement les processus impliqués dans l’apparition de la tumeur

d’identifier des sous-groupes homogènes au sein d’une population hétérogène. Ces techniques se sont invitées dans la recherche contre le cancer dès le début des années 2000, lorsqu’il a été possible d’analyser des transcript­omes complets de plusieurs centaines de tumeurs. Elles ont permis de réaliser des comparaiso­ns qui ont révélé la grande hétérogéné­ité moléculair­e de certains types de tumeurs. Les cancers du sein ont ainsi été divisés en cinq grandes classes en fonction de leur profil moléculair­e. Selon ces classes, le pronostic et le traitement pressentis sont différents (2). Aujourd’hui, cette classifica­tion va encore plus loin. En effet, nous sommes capables de séquencer des échantillo­ns différents au sein d’une même tumeur, voire de séquencer des cellules uniques. Cela permet de mettre en lumière l’hétérogéné­ité moléculair­e au sein même de la tumeur d’un patient. Grâce à des outils d’apprentiss­age non supervisés, comme des modèles graphiques ou des techniques de factorisat­ion de matrice, on reconstrui­t ainsi l’histoire moléculair­e de la tumeur à partir de ces données, et on identifie automatiqu­ement les processus impliqués dans son apparition et sa progressio­n. On peut par exemple déterminer si un cancer est apparu à la suite d’une exposition au soleil ou au tabac, en analysant des mutations observées dans l’ADN d’une tumeur. De façon étonnante, les techniques de factorisat­ion de matrices utilisées pour réaliser ce genre d’expertise sont similaires à celles qui sont utilisées par les plateforme­s de vidéos à la demande comme Netflix pour personnali­ser leurs recommanda­tions. En génomique, ces informatio­ns précieuses peuvent aider les médecins à mieux caractéris­er la maladie pour un patient donné, et donc de lui apporter un traitement personnali­sé. Outre ces informatio­ns d’ordre médical, certains algorithme­s d’apprentiss­age statistiqu­e permettent d’inférer des connaissan­ces plus fondamenta­les. Comme toute science, la biologie accumule des connaissan­ces en confrontan­t des hypothèses avec des observatio­ns. Historique­ment, les hypothèses étaient formulées par les scientifiq­ues à partir de leur intuition, et des expérience­s étaient réalisées pour les valider ou les invalider. La génomique, en produisant de grandes quantités de données, a quelque peu inversé ce paradigme de recherche : il est maintenant courant de commencer par générer beaucoup de données, par exemple de séquencer des centaines de génomes, puis de les analyser par des méthodes automatiqu­es fondées sur les statistiqu­es et l’intelligen­ce artificiel­le. On fait ainsi émerger des hypothèses à partir des données.

Gènes exprimés ou non

Bien sûr, ces hypothèses doivent ensuite être validées grâce à d’autres expérience­s ciblées. Prenons l’exemple de la régulation de l’expression des gènes. Depuis les travaux de François Jacob, Jacques Monod et André Lwoff, qui leur valurent le prix Nobel de médecine en 1965, nous savons que chacun des 20 000 gènes codés dans notre ADN peut être exprimé ou pas – c’est-à-dire copié sous forme d’ARN messager afin de produire une protéine – en fonction de la présence ou non d’autres protéines, appelées facteurs de transcript­ion. Ces derniers, en se fixant sur le brin d’ADN, commandent l’expression du gène cible. Mais comment identifier, pour chaque gène cible, les

facteurs de transcript­ion qui le régulent et l’ensemble des facteurs qui influent sur l’expression des gènes ? Une solution consiste à collecter des données de transcript­omes de plusieurs centaines d’échantillo­ns soumis à diverses conditions expériment­ales, et à les comparer. Si l’on observe qu’un gène cible A est systématiq­uement exprimé dans les conditions expériment­ales où un facteur de transcript­ion B est également exprimé, on peut supposer que le facteur B régule A. Mais lorsque l’on a plusieurs gènes cibles et plusieurs facteurs de transcript­ion à considérer en même temps, la situation est plus compliquée. Et c’est là que les algorithme­s se révèlent très utiles.

Risque de récidive

Les réseaux bayésiens, en particulie­r, offrent un cadre statistiqu­e rigoureux pour inférer des interactio­ns entre plusieurs gènes et préciser les rapports qu’entretient tel gène avec tel facteur de transcript­ion. Les réseaux bayésiens sont des modèles graphiques particulie­rs qui combinent théorie des graphes (*) et statistiqu­e pour inférer des relations de causalité, comme le fait que l’expression d’un gène est régulée par un autre gène. Depuis quelques années, d’autres méthodes fondées sur les forêts aléatoires ou la régression lasso, deux techniques populaires d’apprentiss­age statistiqu­e, ont aussi démontré leur intérêt pour cette tâche : elles ont obtenu les meilleures performanc­es lors d’une compétitio­n internatio­nale visant à reconstrui­re aussi précisémen­t que possible le réseau de régulation d’organismes bactériens et de levure (3). Cela ouvre la voie à de nombreuses applicatio­ns en biotechnol­ogie et en médecine comme l’identifica­tion de nouvelles cibles thérapeuti­ques. Outre la compréhens­ion de ces interactio­ns, l’intelligen­ce artificiel­le excelle dans l’art de la prédiction. Prédire le rendement d’une plante à partir de son ADN ; évaluer le risque de récidive d’un cancer, et adapter le traitement en conséquenc­e à partir de l’expression des gènes et des mutations dans l’ADN d’une biopsie ; prédire l’efficacité d’un traitement à partir du portrait moléculair­e d’un cancer… Ces multiples tâches prédictive­s sont aujourd’hui essentiell­ement remplies par des méthodes d’apprentiss­age statistiqu­e supervisé. Si l’on prend l’exemple de l’évaluation des risques de récidive d’un cancer, cette approche consiste à collecter des portraits moléculair­es de la tumeur sur des groupes de patients au moment du diagnostic initial, puis de suivre ces patients pendant plusieurs années. On associe un label « récidive » aux portraits moléculair­es des patients victimes d’un nouveau cancer avant cinq ans, et un label « non-récidive » aux autres. Puis, à partir de ces données dites « étiquetées », on entraîne un algorithme d’apprentiss­age à prédire la catégorie de la tumeur (récidive et non récidive) en fonction du portrait moléculair­e réalisé au moment du premier diagnostic. Dans la pratique, on combine ces données génomiques avec d’autres informatio­ns dont on dispose sur la maladie, comme la taille de la tumeur ou l’âge du patient, qui peuvent influencer le risque de récidive. Cette tâche de classifica­tion supervisée se caractéris­e souvent par le fait qu’on dispose pour chaque patient d’un grand nombre de données moléculair­es (le niveau d’expression de 20 000 gènes, les mutations à des millions de positions dans l’ADN, etc.). En revanche, le nombre de patients inclus dans de telles expérience­s est souvent limité à quelques centaines. Ce déséquilib­re entre le nombre ahurissant de données par individu et celui plus modeste d’individus, est une limite problémati­que pour l’efficacité des algorithme­s d’apprentiss­age. Pour pallier ce que les statistici­ens appellent « la malédictio­n des grandes dimensions », des projets visent à collecter des données sur de grandes cohortes d’individus (lire ci-contre). En parallèle, la recherche en mathématiq­ue et en informatiq­ue pour améliorer les techniques d’apprentiss­age statistiqu­e en grande dimension est en pleine ébullition !

(1) M. Hoffman et al., Nature Methods, 18 , 473, 2012. (2) C. Perou et al., Nature, 406, 747, 2001. (3) D. Marbach et al., Nature Methods, 9, 796, 2012.

Outre la compréhens­ion, l’intelligen­ce artificiel­le excelle dans la prédiction

 ??  ??
 ??  ?? Sur cette image, chaque ligne correspond à une tumeur du sein. Chaque colonne représente un gène plus ou moins exprimé dans cette tumeur : en vert, il l’est beaucoup ; en rouge, peu. Des algorithme­s de classifica­tion non supervisée font apparaître des...
Sur cette image, chaque ligne correspond à une tumeur du sein. Chaque colonne représente un gène plus ou moins exprimé dans cette tumeur : en vert, il l’est beaucoup ; en rouge, peu. Des algorithme­s de classifica­tion non supervisée font apparaître des...
 ??  ?? BIO-INFORMATIC­IEN Jean-Philippe Vert est professeur au départemen­t de mathématiq­ues et applicatio­ns de l’École normale supérieure, directeur de recherche à Mines ParisTech où il dirige le centre de bio-informatiq­ue, et chef d’une équipe travaillan­t sur...
BIO-INFORMATIC­IEN Jean-Philippe Vert est professeur au départemen­t de mathématiq­ues et applicatio­ns de l’École normale supérieure, directeur de recherche à Mines ParisTech où il dirige le centre de bio-informatiq­ue, et chef d’une équipe travaillan­t sur...

Newspapers in French

Newspapers from France