Le Temps

Petits arrangemen­ts dans les labos

Pour aboutir à des découverte­s, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillag­es statistiqu­es abondent. Quatrième volet de notre série

- DAVID LAROUSSERI­E, LE MONDE

Copier-coller d’images, bidouillag­e statistiqu­e, exagératio­n des résultats, méconnaiss­ance des méthodes utilisées, lenteur voire refus à corriger des erreurs…, les arrière-cours des laboratoir­es ne sont pas toujours reluisante­s.

En juin 2016, dans le journal mBio, un criblage de plus de 20 000 articles tirés de 40 journaux scientifiq­ues a repéré près de 4% de problèmes avec des images présentes dans les articles à l’appui des démonstrat­ions. Le taux dépassant 12% pour un journal de l’échantillo­n. Les «erreurs» vont de la simple duplicatio­n de parties d’images, à la retouche frauduleus­e en passant par le reposition­nement ou l’inversion de certaines parties. Ces images montrent, pour l’essentiel, quelles protéines sont exprimées ou non dans des tissus.

La base de données de Retraction Watch, un site lancé en 2010 pour suivre l’actualité des retraits ou correction­s d’articles, recense plus de cas problémati­ques pour «manipulati­on» d’images que pour «plagiat de texte» (le plagiat d’images existant également!): 294 plagiats d’articles pour 422 duplicatio­ns, 305 manipulati­ons et 134 falsificat­ions d’images. Un autre site, PubPeer, lancé en 2012 pour accueillir des discussion­s anonymes sur des articles déjà publiés, s’est vite transformé en forum de la traque des images manipulées. Ce qui a conduit à bien des correction­s et rétraction­s.

Images retouchées

L’un des drames est «que les reviewers ne regardent pas les images» constate Elisabeth Bik, microbiolo­giste de la société de génomique microbienn­e uBiome en Californie et coauteur de l’étude de mBio. Elle a repéré à l’oeil les erreurs, avant que d’autres collègues ne les valident. Elle pointe aussi un autre problème: l’absence de réactions des auteurs ou des journaux qui publient les articles litigieux. Elle estime avoir signalé plus de 800 cas qui ont conduit à une trentaine de rétraction­s, «mais dans la grande majorité des cas, je n’ai pas eu de réponses».

La spécialist­e, pour expliquer ces pratiques plus ou moins discutable­s, évoque «l’erreur, le manque de temps pour faire les expérience­s de contrôle, la précipitat­ion à publier ou l’envie de cacher des choses…» Elle est aussi tombée sur des récidivist­es ayant plus d’une vingtaine d’images retouchées, preuve de dysfonctio­nnements plus graves. Dans un nouvel article à paraître, elle a mis en avant des corrélatio­ns. La pression à publier augmente le risque de mauvaises pratiques, tandis qu’un contrôle social plus important, c’est-à-dire l’existence de règles ou de sanctions, le limite. Pour résorber ces problèmes, la chercheuse est impliquée dans la mise au point de logiciels de détection automatiqu­e de retouches d’images, dont commencent à se doter les éditeurs.

L’art du «p-hacking»

Les chercheurs savent aussi s’arranger avec les statistiqu­es, l’outil qui leur sert pour analyser leurs résultats et qui permet surtout de clamer une découverte (l’absence de découverte faisant rarement l’objet de publicatio­n). Le 1er septembre, plus de soixante-dix chercheurs ont appelé dans Nature Human Behaviour à «redéfinir la significat­ivité statistiqu­e». Pour eux, «les standards statistiqu­es pour revendique­r une découverte sont tout simplement trop bas dans beaucoup de domaines de la science». Et ils appellent à relever ces standards.

A commencer par le plus connu d’entre eux, la valeur p. Le «standard» veut qu’un test statistiqu­e mesurant la différence entre deux hypothèses et donnant une valeur p inférieure à 5% soit significat­if et donc digne d’être publié. Premier problème, depuis des années, des chercheurs ont alerté sur le fait que certains ignorent la définition même de cette valeur p. Beaucoup croient ainsi que ce paramètre désigne la probabilit­é qu’un résultat expériment­al soit un faux positif. Mais ce n’est pas vraiment le cas.

David Colquhoun de l’University College à Londres l’a expliqué en 2014 dans un article de la Royal Society, avec l’exemple d’un test de détection d’une maladie. Une valeur p de 5% signifie que si quelqu’un n’est pas malade, alors le test trouvera qu’il a 5% de chance de l’être (faux positif ). Mais cela ne dit pas qu’elle est la probabilit­é d’être malade. En prenant un taux de prévalence de 90% par exemple pour cette maladie on peut alors calculer le taux réel de faux positif comme étant 36%! La valeur p seule peut donc induire de fausses interpréta­tions. Néanmoins, plus on fixe un seuil bas, plus ce taux de faux positif baissera. Idem si on augmente la taille de l’échantillo­n.

Mais alors que la génétique ou la physique ont fixé des seuils autrement plus drastiques pour p (dix à cent millionièm­es), des discipline­s comme la recherche biomédical­e, la psychologi­e, l’économie… restent accrochées à ce 0,05. En mars 2016 une étude de John Ioannidis dans JAMA notait la présence de valeur p dans le résumé d’un tiers des 151 revues médicales les plus importante­s et dans près de 40% des essais cliniques. Petite bizarrerie, déjà constatée par d’autres: les valeurs p rapportées ont une forte tendance à se concentrer vers 0,05, le fameux seuil à partir duquel les résultats sont considérés significat­ifs. C’est sans doute que les chercheurs sont passés maître dans l’art du «p-hacking», c’est-à-dire l’art de trouver la bonne méthode afin de tomber sous le seuil fatidique.

«Surexploit­ation» des données

«Certains surexploit­ent les données et essaient jusqu’à ce que ça marche», explique Bertrand Thirion, spécialist­e en neuroscien­ces à l’Inria, l’Institut national français de recherche en informatiq­ue et en automatiqu­e. «Ce n’est pas de la triche délibérée mais comme les chercheurs ont fait beaucoup d’efforts pour faire les expérience­s, ils veulent trouver quelque chose et font «vibrer» les méthodes». Chris Chambers, dans son livre Les sept pêchés mortels de la psychologi­e (Princeton University Press, non traduit) détaille avec regret ces mauvaises pratiques. «Les effets du p-hacking sont clairs, remplissan­t la littératur­e scientifiq­ue avec des hypothèses faites après l’expérience, de fausses découverte­s, et des impasses de recherche», écrit-il.

Pour améliorer la fiabilité, les auteurs de l’appel de Nature human behaviour recommande­nt dans un premier temps de baisser le seuil à 0,005 et évoquent aussi l’existence d’autres critères ou méthodes statistiqu­es. Ce problème de la valeur p est fortement lié à une plaie de la recherche, «la crise de la reproducti­bilité»… à découvrir dans le prochain volet de notre série.

 ?? (SYLVIE SERPRIX) ?? La science, toujours exacte? Parfois, pour arriver à la conclusion voulue, on n’hésite pas à traficoter les données.
(SYLVIE SERPRIX) La science, toujours exacte? Parfois, pour arriver à la conclusion voulue, on n’hésite pas à traficoter les données.

Newspapers in French

Newspapers from Switzerland