Quand les al­go­rithmes font par­ler l’ADN

Jean-Phi­lippe Vert, École nor­male su­pé­rieure, Mines ParisTech et Ins­ti­tut Cu­rie, Pa­ris

La Recherche - - Sommaire - Jean-Phi­lippe Vert

Ima­gi­nez un texte de 6 mil­liards de lettres, soit 600 fois plus que le nombre de ca­rac­tères d’ À la re­cherche du temps per­du, de Mar­cel Proust. Sup­po­sez main­te­nant que ce texte uti­lise un al­pha­bet de quatre lettres (A, T, C, G) au lieu des 26 de notre al­pha­bet la­tin. Ce texte, a prio­ri in­dé­chif­frable, c’est notre gé­nome. Propre à chaque in­di­vi­du, ce der­nier en­code un mes­sage es­sen­tiel au bon fonc­tion­ne­ment de nos cel­lules. Cer­taines sé­quences de ce code peuvent aus­si être dé­lé­tères et pro­vo­quer l’ap­pa­ri­tion de ma­la­dies. La com­pré­hen­sion de ce texte consti­tue donc un Graal pour la bio­lo­gie, et en par­ti­cu­lier pour la gé­no­mique, dis­ci­pline vi­sant à com­prendre la struc­ture, la fonc­tion, et l’évolution des gé­nomes. Il au­ra fal­lu un de­mi-siècle de dé­cou­vertes scien­ti­fiques et de prouesses tech­no­lo­giques pour réa­li­ser le pre­mier sé­quen­çage du gé­nome hu­main, au dé­but des an­nées 2000. Cette en­tre­prise, qua­li­fiée par­fois de « pro­jet Apol­lo de la bio­lo­gie », a ou­vert la voie à l’ana­lyse de ce texte im­mense. De­puis, la tech­no­lo­gie a pro­gres­sé à une al­lure ful­gu­rante, si bien que le sé­quen­çage d’un ADN hu­main (ou non hu­main) est presque de­ve­nu une opé­ra­tion de rou­tine, réa­li­sable en quelques heures pour un coût rai­son­nable. En pa­ral­lèle, d’autres types de tech­no­lo­gies ont été dé­ve­lop­pés. D’une part, pour ana­ly­ser l’épi­gé­nome, c’est-à-dire l’en­semble des mo­di­fi­ca­tions mo­lé­cu­laires qui agissent sur le fonc­tion­ne­ment de l’ADN sans en al­té­rer le code. D’autre part, pour étu­dier le trans­crip­tome, à sa­voir l’en­semble des pe­tites mo­lé­cules (ARN) pro­duites à suite de la trans­crip­tion du gé­nome et qui jouent un rôle cru­cial dans la pro­duc­tion de pro­téines et le fonc­tion­ne­ment de la cel­lule. Mises en com­mun, toutes ces don­nées forment ce que l’on ap­pelle un portrait mo­lé­cu­laire. Com­ment l’ana­ly­ser, don­ner du sens aux grandes quan­ti­tés de don­nées pro­duites par ces tech­no­lo­gies dites à haut dé­bit ? Grâce à des tech­niques d’in­tel­li­gence ar­ti­fi­cielle ! Et en par­ti­cu­lier des al­go­rithmes d’ap­pren­tis­sage sta­tis­tique. Ces der­niers « ap­prennent » et s’amé­liorent grâce à l’af­flux de don­nées. Ils par­viennent ain­si à ré­soudre des tâches com­plexes, comme

« Cra­cker » le code de notre gé­nome, com­prendre les fac­teurs ex­ternes qui ré­gulent l’ex­pres­sion des gènes, dé­ter­mi­ner les mé­ca­nismes res­pon­sables du dé­ve­lop­pe­ment de ma­la­dies gé­né­tiques : ce tra­vail dé­li­cat et la­bo­rieux pour­rait bientôt s’au­to­ma­ti­ser, grâce à de nou­velles tech­niques d’in­tel­li­gence ar­ti­fi­cielle. De quoi faire en­trer la gé­no­mique dans une nou­velle ère.

l’an­no­ta­tion des don­nées gé­no­miques. Ce tra­vail dé­li­cat consiste à re­pé­rer des élé­ments fonc­tion­nels dans le gé­nome : des gènes ou des sé­quences ré­gu­la­trices de ces gènes qui rem­plissent une cer­taine fonc­tion bio­lo­gique. Ima­gi­nez ou­vrir l’un des cha­pitres du gé­nome hu­main : une longue suite de lettres A, T, C, G, sans struc­ture ma­ni­feste, ap­pa­raît de­vant vous. Com­ment dé­cryp­ter ce lan­gage et com­prendre le mes­sage co­dé dans le texte ? Com­ment iden­ti­fier les ré­gions co­dant les gènes et leurs struc­tures fines, re­pé­rer les po­si­tions de l’ADN sur les­quelles se fixent les pro­téines qui ré­gu­le­ront l’ex­pres­sion de ces gènes ? En sui­vant la dé­marche du bio­lo­giste, vous com­men­ce­riez sans doute par cher­cher des ré­pé­ti­tions, des ré­gu­la­ri­tés à dif­fé­rentes échelles pour, peu à peu, iden­ti­fier des struc­tures ca­chées, in­fé­rer une sorte de gram­maire.

Com­pa­rer les gé­nomes

La force des al­go­rithmes d’ap­pren­tis­sage sta­tis­tique est de re­pro­duire cette dé­marche de fa­çon à trai­ter au­to­ma­ti­que­ment les 6 mil­liards de lettres du gé­nome. Une classe d’al­go­rithmes ap­pe­lés mo­dèles gra­phiques est par­ti­cu­liè­re­ment ef­fi­cace pour ce­la. Ils per­mettent en ef­fet aux cher­cheurs d’in­clure leurs connais­sances dans une mo­dé­li­sa­tion pro­ba­bi­liste des don­nées, puis d’in­fé­rer des in­for­ma­tions per­ti­nentes en lais­sant l’al­go­rithme op­ti­mi­ser par lui-même les pa­ra­mètres du mo­dèle sur les don­nées réelles. Dans le cas de l’an­no­ta­tion de l’ADN, on uti­lise des mo­dèles gra­phiques par­ti­cu­liers, bap­ti­sés chaînes de Mar­kov ca­chées. Ces der­nières per­mettent d’in­fé­rer au­to­ma­ti­que­ment l’an­no­ta­tion du gé­nome à par­tir de ré­gu­la­ri­tés dé­cou­vertes par le mo­dèle dans la sé­quence d’ADN. Ces mo­dèles rentrent dans la ca­té­go­rie des mé­thodes d’ap­pren­tis­sage dites non su­per­vi­sées, car elles ap­prennent à an­no­ter le gé­nome sans qu’on leur four­nisse d’in­for­ma­tions ex­pli­cites sur cer­taines par­ties du gé­nome dont l’an­no­ta­tion est dé­jà connue. Ces mo­dèles gra­phiques offrent une grande flexi­bi­li­té et s’adaptent à dif­fé­rentes si­tua­tions. Par exemple, une autre ap­pli­ca­tion de ces mé­thodes consiste à ex­traire des in­for­ma­tions épi­gé­né­tiques, c’es­tà-dire re­la­tives à des mo­di­fi­ca­tions mo­lé­cu­laires au­tour de

l’ADN. C’est ce qui a été fait dans le cadre du pro­jet in­ter­na­tio­nal En­code en 2012, vi­sant à éta­blir une an­no­ta­tion pré­cise des par­ties fonc­tion­nelles du gé­nome hu­main à par­tir de por­traits mo­lé­cu­laires me­su­rés dans dif­fé­rents types cel­lu­laires (1). Tou­te­fois, le meilleur moyen de faire par­ler l’ADN est de com­pa­rer les gé­nomes. En fi­lant la mé­ta­phore lit­té­raire, l’ana­lyse d’un livre suf­fi­sam­ment long peut per­mettre de dé­cryp­ter en par­tie les se­crets d’un lan­gage, en s’ap­puyant sur les ré­pé­ti­tions de mots ou de struc­tures gram­ma­ti­cales au sein du texte. Mais ce n’est qu’en com­pa­rant plusieurs livres que l’on peut voir émer­ger du sens. En ef­fet, c’est en re­grou­pant les mots par sujet lors­qu’ils ap­pa­raissent fré­quem­ment en­semble que l’on voit ap­pa­raître des si­mi­la­ri­tés entre cer­tains livres en fonc­tion de leur conte­nu ou de leur au­teur. De la même ma­nière, la gé­no­mique dite com­pa­ra­tive, qui ana­lyse les gé­nomes en les com­pa­rant, est l’une des ap­proches les plus puis­santes pour ac­qué­rir de la connais­sance à par­tir de don­nées gé­no­miques.

Trai­te­ment per­son­na­li­sé

His­to­ri­que­ment, la gé­no­mique com­pa­ra­tive s’est d’abord in­té­res­sée à la com­pa­rai­son d’es­pèces, ce qui a per­mis de re­cons­truire l’arbre de la vie pro­po­sé par Dar­win et d’iden­ti­fier les gènes dont les fonc­tions sont spé­ci­fi­que­ment as­so­ciées à une fa­mille d’es­pèces. Les mo­dèles gra­phiques uti­li­sés pour iden­ti­fier la struc­ture d’un gé­nome unique peuvent d’ailleurs être éten­dus au trai­te­ment si­mul­ta­né de plusieurs gé­nomes. Plu­tôt que de com­pa­rer les gé­nomes entre plusieurs es­pèces, comme l’homme et la sou­ris, on peut aus­si com­pa­rer des por­traits mo­lé­cu­laires de dif­fé­rents in­di­vi­dus au sein d’une même es­pèce. Par cette ap­proche, on peut éta­blir des cor­ré­la­tions entre des va­ria­tions ob­ser­vées dans un portrait mo­lé­cu­laire et des pro­prié­tés comme le ren­de­ment d’une plante ou le risque de dé­ve­lop­per une ma­la­die. Pour ce faire, la gé­no­mique com­pa­ra­tive s’ap­puie es­sen­tiel­le­ment sur des mo­dèles sta­tis­tiques et des al­go­rithmes d’ap­pren­tis­sage non su­per­vi­sés. Le but ? Cap­tu­rer les si­mi­la­ri­tés et les va­ria­tions entre don­nées gé­no­miques. Des tech­niques de ré­duc­tion de di­men­sion ou de clas­si­fi­ca­tion non su­per­vi­sées per­mettent, par exemple,

On par­vient à iden­ti­fier au­to­ma­ti­que­ment les pro­ces­sus im­pli­qués dans l’ap­pa­ri­tion de la tu­meur

d’iden­ti­fier des sous-groupes ho­mo­gènes au sein d’une po­pu­la­tion hé­té­ro­gène. Ces tech­niques se sont in­vi­tées dans la re­cherche contre le can­cer dès le dé­but des an­nées 2000, lors­qu’il a été pos­sible d’ana­ly­ser des trans­crip­tomes com­plets de plusieurs cen­taines de tu­meurs. Elles ont per­mis de réa­li­ser des com­pa­rai­sons qui ont ré­vé­lé la grande hé­té­ro­gé­néi­té mo­lé­cu­laire de cer­tains types de tu­meurs. Les can­cers du sein ont ain­si été di­vi­sés en cinq grandes classes en fonc­tion de leur pro­fil mo­lé­cu­laire. Se­lon ces classes, le pro­nos­tic et le trai­te­ment pres­sen­tis sont dif­fé­rents (2). Au­jourd’hui, cette clas­si­fi­ca­tion va en­core plus loin. En ef­fet, nous sommes ca­pables de sé­quen­cer des échan­tillons dif­fé­rents au sein d’une même tu­meur, voire de sé­quen­cer des cel­lules uniques. Ce­la per­met de mettre en lu­mière l’hé­té­ro­gé­néi­té mo­lé­cu­laire au sein même de la tu­meur d’un pa­tient. Grâce à des ou­tils d’ap­pren­tis­sage non su­per­vi­sés, comme des mo­dèles gra­phiques ou des tech­niques de fac­to­ri­sa­tion de ma­trice, on re­cons­truit ain­si l’his­toire mo­lé­cu­laire de la tu­meur à par­tir de ces don­nées, et on iden­ti­fie au­to­ma­ti­que­ment les pro­ces­sus im­pli­qués dans son ap­pa­ri­tion et sa pro­gres­sion. On peut par exemple dé­ter­mi­ner si un can­cer est ap­pa­ru à la suite d’une ex­po­si­tion au so­leil ou au ta­bac, en ana­ly­sant des mu­ta­tions ob­ser­vées dans l’ADN d’une tu­meur. De fa­çon éton­nante, les tech­niques de fac­to­ri­sa­tion de ma­trices uti­li­sées pour réa­li­ser ce genre d’ex­per­tise sont si­mi­laires à celles qui sont uti­li­sées par les pla­te­formes de vi­déos à la de­mande comme Net­flix pour per­son­na­li­ser leurs re­com­man­da­tions. En gé­no­mique, ces in­for­ma­tions pré­cieuses peuvent ai­der les mé­de­cins à mieux ca­rac­té­ri­ser la ma­la­die pour un pa­tient don­né, et donc de lui ap­por­ter un trai­te­ment per­son­na­li­sé. Outre ces in­for­ma­tions d’ordre mé­di­cal, cer­tains al­go­rithmes d’ap­pren­tis­sage sta­tis­tique per­mettent d’in­fé­rer des connais­sances plus fon­da­men­tales. Comme toute science, la bio­lo­gie ac­cu­mule des connais­sances en confron­tant des hy­po­thèses avec des ob­ser­va­tions. His­to­ri­que­ment, les hy­po­thèses étaient for­mu­lées par les scien­ti­fiques à par­tir de leur in­tui­tion, et des ex­pé­riences étaient réa­li­sées pour les va­li­der ou les in­va­li­der. La gé­no­mique, en pro­dui­sant de grandes quan­ti­tés de don­nées, a quelque peu in­ver­sé ce pa­ra­digme de re­cherche : il est main­te­nant cou­rant de com­men­cer par gé­né­rer beau­coup de don­nées, par exemple de sé­quen­cer des cen­taines de gé­nomes, puis de les ana­ly­ser par des mé­thodes au­to­ma­tiques fon­dées sur les sta­tis­tiques et l’in­tel­li­gence ar­ti­fi­cielle. On fait ain­si émer­ger des hy­po­thèses à par­tir des don­nées.

Gènes ex­pri­més ou non

Bien sûr, ces hy­po­thèses doivent en­suite être va­li­dées grâce à d’autres ex­pé­riences ci­blées. Pre­nons l’exemple de la ré­gu­la­tion de l’ex­pres­sion des gènes. De­puis les tra­vaux de Fran­çois Ja­cob, Jacques Mo­nod et An­dré Lwoff, qui leur va­lurent le prix No­bel de mé­de­cine en 1965, nous sa­vons que cha­cun des 20 000 gènes co­dés dans notre ADN peut être ex­pri­mé ou pas – c’est-à-dire co­pié sous forme d’ARN mes­sa­ger afin de pro­duire une pro­téine – en fonc­tion de la pré­sence ou non d’autres pro­téines, ap­pe­lées fac­teurs de trans­crip­tion. Ces der­niers, en se fixant sur le brin d’ADN, com­mandent l’ex­pres­sion du gène cible. Mais com­ment iden­ti­fier, pour chaque gène cible, les

fac­teurs de trans­crip­tion qui le ré­gulent et l’en­semble des fac­teurs qui in­fluent sur l’ex­pres­sion des gènes ? Une so­lu­tion consiste à col­lec­ter des don­nées de trans­crip­tomes de plusieurs cen­taines d’échan­tillons sou­mis à di­verses condi­tions ex­pé­ri­men­tales, et à les com­pa­rer. Si l’on ob­serve qu’un gène cible A est sys­té­ma­ti­que­ment ex­pri­mé dans les condi­tions ex­pé­ri­men­tales où un fac­teur de trans­crip­tion B est éga­le­ment ex­pri­mé, on peut sup­po­ser que le fac­teur B ré­gule A. Mais lorsque l’on a plusieurs gènes cibles et plusieurs fac­teurs de trans­crip­tion à consi­dé­rer en même temps, la si­tua­tion est plus com­pli­quée. Et c’est là que les al­go­rithmes se ré­vèlent très utiles.

Risque de ré­ci­dive

Les ré­seaux bayé­siens, en par­ti­cu­lier, offrent un cadre sta­tis­tique ri­gou­reux pour in­fé­rer des in­ter­ac­tions entre plusieurs gènes et pré­ci­ser les rap­ports qu’en­tre­tient tel gène avec tel fac­teur de trans­crip­tion. Les ré­seaux bayé­siens sont des mo­dèles gra­phiques par­ti­cu­liers qui com­binent théo­rie des graphes (*) et sta­tis­tique pour in­fé­rer des re­la­tions de cau­sa­li­té, comme le fait que l’ex­pres­sion d’un gène est ré­gu­lée par un autre gène. De­puis quelques an­nées, d’autres mé­thodes fon­dées sur les fo­rêts aléa­toires ou la ré­gres­sion las­so, deux tech­niques po­pu­laires d’ap­pren­tis­sage sta­tis­tique, ont aus­si dé­mon­tré leur in­té­rêt pour cette tâche : elles ont ob­te­nu les meilleures per­for­mances lors d’une com­pé­ti­tion in­ter­na­tio­nale vi­sant à re­cons­truire aus­si pré­ci­sé­ment que pos­sible le ré­seau de ré­gu­la­tion d’or­ga­nismes bac­té­riens et de le­vure (3). Ce­la ouvre la voie à de nom­breuses ap­pli­ca­tions en bio­tech­no­lo­gie et en mé­de­cine comme l’iden­ti­fi­ca­tion de nou­velles cibles thé­ra­peu­tiques. Outre la com­pré­hen­sion de ces in­ter­ac­tions, l’in­tel­li­gence ar­ti­fi­cielle ex­celle dans l’art de la pré­dic­tion. Pré­dire le ren­de­ment d’une plante à par­tir de son ADN ; éva­luer le risque de ré­ci­dive d’un can­cer, et adap­ter le trai­te­ment en consé­quence à par­tir de l’ex­pres­sion des gènes et des mu­ta­tions dans l’ADN d’une biop­sie ; pré­dire l’ef­fi­ca­ci­té d’un trai­te­ment à par­tir du portrait mo­lé­cu­laire d’un can­cer… Ces mul­tiples tâches pré­dic­tives sont au­jourd’hui es­sen­tiel­le­ment rem­plies par des mé­thodes d’ap­pren­tis­sage sta­tis­tique su­per­vi­sé. Si l’on prend l’exemple de l’éva­lua­tion des risques de ré­ci­dive d’un can­cer, cette ap­proche consiste à col­lec­ter des por­traits mo­lé­cu­laires de la tu­meur sur des groupes de pa­tients au mo­ment du diag­nos­tic ini­tial, puis de suivre ces pa­tients pen­dant plusieurs an­nées. On as­so­cie un label « ré­ci­dive » aux por­traits mo­lé­cu­laires des pa­tients vic­times d’un nou­veau can­cer avant cinq ans, et un label « non-ré­ci­dive » aux autres. Puis, à par­tir de ces don­nées dites « éti­que­tées », on en­traîne un al­go­rithme d’ap­pren­tis­sage à pré­dire la ca­té­go­rie de la tu­meur (ré­ci­dive et non ré­ci­dive) en fonc­tion du portrait mo­lé­cu­laire réa­li­sé au mo­ment du pre­mier diag­nos­tic. Dans la pra­tique, on com­bine ces don­nées gé­no­miques avec d’autres in­for­ma­tions dont on dis­pose sur la ma­la­die, comme la taille de la tu­meur ou l’âge du pa­tient, qui peuvent in­fluen­cer le risque de ré­ci­dive. Cette tâche de clas­si­fi­ca­tion su­per­vi­sée se ca­rac­té­rise sou­vent par le fait qu’on dis­pose pour chaque pa­tient d’un grand nombre de don­nées mo­lé­cu­laires (le ni­veau d’ex­pres­sion de 20 000 gènes, les mu­ta­tions à des mil­lions de po­si­tions dans l’ADN, etc.). En re­vanche, le nombre de pa­tients in­clus dans de telles ex­pé­riences est sou­vent li­mi­té à quelques cen­taines. Ce dés­équi­libre entre le nombre ahu­ris­sant de don­nées par in­di­vi­du et ce­lui plus mo­deste d’in­di­vi­dus, est une li­mite pro­blé­ma­tique pour l’ef­fi­ca­ci­té des al­go­rithmes d’ap­pren­tis­sage. Pour pal­lier ce que les sta­tis­ti­ciens ap­pellent « la ma­lé­dic­tion des grandes di­men­sions », des pro­jets visent à col­lec­ter des don­nées sur de grandes co­hortes d’in­di­vi­dus (lire ci-contre). En pa­ral­lèle, la re­cherche en ma­thé­ma­tique et en in­for­ma­tique pour amé­lio­rer les tech­niques d’ap­pren­tis­sage sta­tis­tique en grande di­men­sion est en pleine ébul­li­tion !

(1) M. Hoff­man et al., Na­ture Me­thods, 18 , 473, 2012. (2) C. Pe­rou et al., Na­ture, 406, 747, 2001. (3) D. Mar­bach et al., Na­ture Me­thods, 9, 796, 2012.

Outre la com­pré­hen­sion, l’in­tel­li­gence ar­ti­fi­cielle ex­celle dans la pré­dic­tion

BIO-IN­FOR­MA­TI­CIEN Jean-Phi­lippe Vert est pro­fes­seur au dé­par­te­ment de ma­thé­ma­tiques et ap­pli­ca­tions de l’École nor­male su­pé­rieure, di­rec­teur de re­cherche à Mines ParisTech où il di­rige le centre de bio-in­for­ma­tique, et chef d’une équipe tra­vaillant sur la mo­dé­li­sa­tion du can­cer à l’Ins­ti­tut Cu­rie.

Sur cette image, chaque ligne cor­res­pond à une tu­meur du sein. Chaque co­lonne re­pré­sente un gène plus ou moins ex­pri­mé dans cette tu­meur : en vert, il l’est beau­coup ; en rouge, peu. Des al­go­rithmes de clas­si­fi­ca­tion non su­per­vi­sée font ap­pa­raître des groupes de tu­meurs aux ca­rac­té­ris­tiques gé­né­tiques proches et les classent en cinq ca­té­go­ries, ce qui aide les mé­de­cins à choi­sir un trai­te­ment adap­té.

Newspapers in French

Newspapers from France

© PressReader. All rights reserved.