Pourquoi les études se suivent et ne se ressemblent pas
Une même expérience conduite selon les mêmes méthodes est supposée donner les mêmes résultats. On découvre qu’il n’en est rien. Quelles sont les causes de cette crise de reproductibilité que traversent les sciences expérimentales ? Et comment y faire face
Deux tiers des chercheurs ont un jour été incapables de reproduire une expérience publiée ; la moitié déclare avoir parfois échoué à retrouver dans leur propre travail le même résultat à une même expérience ; et 90 % des chercheurs en sciences expérimentales (physique, biologie, chimie, géologie, science de l’environnement) considèrent que leur discipline traverse aujourd’hui une crise de reproductibilité. C’est là les informations les plus frappantes d’une enquête menée en 2016 par la revue Nature auprès de 1 576 de ses lecteurs (1). Parmi eux, une moitié de biologistes. Certes, les scientifiques les plus préoccupés par cette question ont sans doute répondu davantage que ceux qui ne l’étaient pas. Mais ce sondage vient après plusieurs études remarquées remettant en cause le postulat selon lequel, où que l’on se trouve et qui que l’on soit, une expérience conduite selon les mêmes méthodes donnera toujours les mêmes résultats. En 1955, The Journal of Irreproducible Results a été fondé en Israël. Il existe toujours et est à présent publié en Californie. Il s’agit d’un journal satirique et divertissant, plagiant le sérieux des articles scientifiques, mais son ancienneté montre que le problème de la reproductibilité expérimentale n’est pas nouveau. Les chercheurs savent bien qu’une expérience « qui marche » à tous les coups est un TP pour étudiant, et non une véritable expérience de recherche. Découvrir la nonreproductibilité de bon nombre de résultats est même « un rite initiatique » dans une carrière scientifique, relève le psychologue Marcus Munafo, de l’université de Bristol, au Royaume-Uni, qui raconte : « Quand j’étais étudiant, j’ai tenté de reproduire des expériences classiques de la littérature scientifique de mon domaine, et je n’y suis pas parvenu. Il s’en est suivi pour moi une crise de confiance en ce qui était publié. Puis j’ai compris que ce qui m’était arrivé n’était pas rare. » Mais personne n’avait songé à quantifier la fréquence à laquelle les expériences « marchent ».
CONCLUSIONS INQUIÉTANTES
D’où le coup de tonnerre qu’ont représenté trois publications successives s’attelant à cette tâche. En 2011, une équipe de la firme pharmaceutique Bayer a entrepris de réitérer les expériences, de nature très fondamentale, rapportées dans 67 publications importantes en oncologie, gynécologie et cardiologie. Conclusion : 21 % des expériences décrites étaient entièrement reproductibles, 7 % dans leurs grandes lignes et 4 % partiellement. En d’autres termes, les deux tiers des expériences décrites se sont révélées impossibles à reproduire. L’année suivante, une étude de l’entreprise de biotechnologie californienne Amgen démontrait que seulement 6 des 53 études dans le domaine de l’oncologie fondamentale (notamment l’identification des mécanismes cellulaires de la transformation cancéreuse) intéressant l’entreprise étaient reproductibles dans les laboratoires de la firme. Et, en 2015, une analyse diligentée par un groupe international de 279 chercheurs en psychologie expérimentale est parvenue à des conclusions tout aussi inquiétantes. Ils ont sélectionné 100 études parues en 2008 dans trois des revues les plus prestigieuses du domaine, et ont entrepris d’en refaire les expériences. Dans seulement 36 cas, ils ont obtenu les mêmes résultats
Les sciences telles que la psychologie et la biologie sont les plus visées car le vivant est intrinsèquement variable
que dans l’étude originale, et toujours avec une robustesse statistique inférieure à celle de l’article princeps (2). D’une certaine manière, vu la complexité de l’esprit humain, on peut déjà trouver remarquables ces 36 % de reproductibilité en psychologie expérimentale. Une des manières d’expliquer la crise de reproductibilité actuelle est en effet de souligner que la science s’attaque à des questions de plus en plus complexes, faisant l’objet d’une grande variabilité que l’on ne sait pas expliquer. C’est le cas en psychologie comportementale, mais aussi en éthologie ou en écologie comportementale. « Je travaille sur les comportements d’oiseaux de l’Antarctique. Nous constatons que le comportement des manchots papous n’est pas du tout le même aux îles Crozet et aux îles Kerguelen. Il ne faut pas s’étonner qu’un comportement observé dans un lieu ne puisse pas être observé tel quel ailleurs », raconte Francesco Bonadonna, directeur de recherche CNRS au Centre d’écologie fonctionnelle et évolutive à Montpellier.
UN SAVOIR-FAIRE IMPLICITE
Cet argument permet aussi de comprendre pourquoi les sciences du vivant, incluant la psychologie expérimentale, semblent aujourd’hui les plus visées par les questions de reproductibilité : précisément parce que le vivant, contrairement à la matière, est intrinsèquement variable. Même dans les conditions optimales pour tester la reproductibilité (un même chercheur reproduisant dans le même laboratoire avec les mêmes réactifs une expérience à cinq mois d’écart), on trouve des différences non négligeables, comme l’a montré un travail sur l’identification des gènes humains interagissant avec ceux du virus de la fièvre jaune. En cinq mois, le taux d’infection des cellules humaines par le virus est passé de 90 à 98 %, les auteurs reconnaissant n’avoir aucune idée pour expliquer cette variation (3). Une autre manière d’expliquer la crise de la reproductibilité est de souligner que la complexité des méthodes et des techniques est telle qu’elles ne sont pas réellement maîtrisées par les expérimentateurs. Les anecdotes abondent, rapportées sous le couvert de l’anonymat. On constate notamment, dans un laboratoire de physique, que les échantillons sur lesquels on étudie le transport d’électron « ne fonctionnent pas » quand ils sont trop anciens. Dans un laboratoire de biochimie, on se rend compte qu’une réaction donnée ne se produit que dans un tube à essai tenu par un chercheur travaillant sans gants.
On s’aperçoit, dans un laboratoire de microbiologie, que telle souche bactérienne ne pousse pas en hiver. Aucun de ces faits n’a d’explication théorique satisfaisante. Mais ils montrent bien que de petits riens, non maîtrisés par l’expérimentateur (et de ce fait non décrits dans les sections méthodologiques des articles), peuvent changer le résultat des expériences. « Il existe tout un savoir-faire propre à un laboratoire, voire à un chercheur, qui est implicite et que l’on ne peut pas décrire exhaustivement, mais qui conditionne le résultat d’une expérience », témoigne Guillaume Chanfreau, professeur de biochimie à l’université de Californie à Los Angeles. La difficulté accrue à reproduire des résultats tient donc en deux explications : la complexité et la variabilité croissante des objets d’étude ; la sophistication de plus en plus grande des méthodes. À ces deux explications, auxquelles adhèrent la plupart des scientifiques, pourrait s’ajouter une troisième : le très faible taux de reproductibilité d’expériences importantes en biologie ou en psychologie pourrait traduire un recours généralisé à l’embellissement des données. Dès lors, l’article scientifique ne présenterait qu’une version expurgée des véritables données expérimentales, ce qui rendrait leur reproduction impossible. Plusieurs indices appuient cette troisième explication. En testant à l’aide de logiciels spécialisés les clichés numériques accompagnant les articles qui leur étaient soumis, les éditeurs du Journal of Cell Biology, pour la biologie cellulaire, et d’Organic Letters, pour la chimie organique, ont par exemple constaté que le quart d’entre eux avaient été retouchés. Une autre manière d’embellir les données est d’en manipuler les statistiques, un phénomène particulièrement bien documenté dans le domaine de la psy- chologie expérimentale (lire l’encadré ci-contre). « Les problèmes de reproductibilité sont particulièrement apparents dans les domaines les plus compétitifs… qui sont aussi ceux qui connaissent le plus fort taux de rétractation d’articles, que ce soit pour fraude ou à cause d’une erreur de bonne foi », relève Guillaume Chanfreau.
NOUVELLES PROCÉDURES
En toile de fond, on trouve l’intensification de la concurrence et de la pression à la publication, qui conduit trop souvent à communiquer des résultats encore préliminaires… et parfois embellis. Comme le déploraient les chercheurs d’Amgen qui ont mis en évidence la très faible reproductibilité des résultats en oncologie, « les éditeurs des revues scientifiques, leurs relecteurs et les évaluateurs des demandes de financement sont le plus souvent à la recherche de découvertes scientifiques simples, claires et complètes : des histoires parfaites. Il est donc tentant pour les chercheurs de publier seulement les données qui correspondent à ce qu’ils veulent démontrer, voire de cuisiner les données pour qu’elles correspondent à l’hypothèse sous-jacente. Mais le problème est qu’il n’y a pas d’histoire parfaite en biologie » . La récente prise de conscience des problèmes majeurs de reproductibilité des expériences en biologie et en psychologie
a conduit à plusieurs initiatives pour y faire face. Certaines sont prises au niveau des laboratoires. Le tiers des chercheurs interrogés par Nature indiquait par exemple avoir mis en place au sein de leur équipe de recherche, durant les cinq dernières années, des procédures nouvelles pour améliorer la reproductibilité. L’une d’elles consiste à faire reproduire une expérience par un autre membre de l’équipe. Une autre est de confier à deux scientifiques l’analyse d’une observation ou d’une expérience : il y a là un moyen de sortir de la subjectivité inhérente à la présence d’un seul observateur. Comme le notaient déjà les chercheurs d’Amgen, les articles reproductibles en oncologie sont ceux où l’analyse des données est faite en aveugle par un chercheur ne sachant pas s’il a affaire au groupe témoin ou au groupe expérimental.
FOURNIR LES DONNÉES BRUTES
D’autres initiatives sont prises au niveau des institutions scientifiques. Les Instituts nationaux de la santé (NIH) aux États-Unis, qui s’occupent de la recherche médicale et biomédicale, ont par exemple publié, à la suite d’un vaste audit mené en 2014 dans leurs laboratoires, un guide des bonnes pratiques favorisant la reproductibilité dans la recherche préclinique. Citons aussi la création de l’Open Science Collaboration, coopération internationale visant à « rapprocher les valeurs des sciences et leurs pratiques » . L’organisation a été à l’origine de la rédaction d’un ensemble de lignes de conduite adopté par plus de 500 revues, et a entamé une étude systématique de la reproductibilité des recherches en cancérologie. De leur côté, les revues scientifiques les plus prestigieuses, dont Science et Nature, ont informé leurs auteurs de nouvelles règles de publication, supposées améliorer la reproductibilité. Elles ont aussi, chose impensable il y a encore quelques années, publié des articles rapportant l’impossibilité de reproduire certains résultats, même si l’on peut regretter que
cela n’ait été fait que pour des sujets très polémiques comme les cellules-souches ou la toxicité des OGM (4 ) . Les possibilités nouvelles ouvertes par Internet pourraient aussi contribuer à résoudre cette crise que traverse aujourd’hui une partie des sciences. Rien n’interdit en effet de déposer en ligne le protocole expérimental exhaustif, dans ses moindres détails, ou les données brutes de l’expérience, même si l’article lui-même, pour des questions de taille, n’en indique qu’un condensé. « Dans certaines revues, si les auteurs ne s’engagent pas à fournir toutes les données brutes, l’article n’est même pas envoyé en relecture par des experts. Par exemple, il faut mettre en ligne non seulement tous les programmes qui permettent de refaire ses simulations, mais aussi toutes les simulations générées et analysées. Donc, aujourd’hui, on peut arriver à une telle transparence », témoigne Samuel Alizon, écologiste de l’évolution à Montpellier. Dès lors que les principales revues feront de ce dépôt en ligne des données brutes un critère sine qua non de publication dans leurs colonnes, il est certain que la qualité des données scientifiques publiées s’améliorera, et avec elle leur reproductibilité. (1) M. Baker, Nature, 533, 452, 2016. (2) F. Prinz et al., Nat. Rev. Drug Discov., 10, 712, 2011 ; C. G. Begley et L. M. Ellis, Nature, 483, 531, 2012 ; Open Science Collaboration, Science, 349, aac4716, 2015. (3) N. J. Barrows et al., J. Biomol. Screen., 15, 735, 2010. (4 ) A. De Los Angeles et al., Nature, 525, E6, 2015 ; B. Dickinson et al., Nat. Biotechnol., 31, 965, 2013.