Petits arrangements dans les labos

Pour aboutir à des découvertes, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillages statistiques abondent. Quatrième volet de notre série

2017-09-22 - DAVID LAROUSSERIE, LE MONDE

Copier-coller d’images, bidouillage statistique, exagération des résultats, méconnaissance des méthodes utilisées, lenteur voire refus à corriger des erreurs…, les arrière-cours des laboratoires ne sont pas toujours reluisantes.

En juin 2016, dans le journal mBio, un criblage de plus de 20 000 articles tirés de 40 journaux scientifiques a repéré près de 4% de problèmes avec des images présentes dans les articles à l’appui des démonstrations. Le taux dépassant 12% pour un journal de l’échantillon. Les «erreurs» vont de la simple duplication de parties d’images, à la retouche frauduleuse en passant par le repositionnement ou l’inversion de certaines parties. Ces images montrent, pour l’essentiel, quelles protéines sont exprimées ou non dans des tissus.

La base de données de Retraction Watch, un site lancé en 2010 pour suivre l’actualité des retraits ou corrections d’articles, recense plus de cas problématiques pour «manipulation» d’images que pour «plagiat de texte» (le plagiat d’images existant également!): 294 plagiats d’articles pour 422 duplications, 305 manipulations et 134 falsifications d’images. Un autre site, PubPeer, lancé en 2012 pour accueillir des discussions anonymes sur des articles déjà publiés, s’est vite transformé en forum de la traque des images manipulées. Ce qui a conduit à bien des corrections et rétractions.

Images retouchées

L’un des drames est «que les reviewers ne regardent pas les images» constate Elisabeth Bik, microbiologiste de la société de génomique microbienne uBiome en Californie et coauteur de l’étude de mBio. Elle a repéré à l’oeil les erreurs, avant que d’autres collègues ne les valident. Elle pointe aussi un autre problème: l’absence de réactions des auteurs ou des journaux qui publient les articles litigieux. Elle estime avoir signalé plus de 800 cas qui ont conduit à une trentaine de rétractions, «mais dans la grande majorité des cas, je n’ai pas eu de réponses».

La spécialiste, pour expliquer ces pratiques plus ou moins discutables, évoque «l’erreur, le manque de temps pour faire les expériences de contrôle, la précipitation à publier ou l’envie de cacher des choses…» Elle est aussi tombée sur des récidivistes ayant plus d’une vingtaine d’images retouchées, preuve de dysfonctionnements plus graves. Dans un nouvel article à paraître, elle a mis en avant des corrélations. La pression à publier augmente le risque de mauvaises pratiques, tandis qu’un contrôle social plus important, c’est-à-dire l’existence de règles ou de sanctions, le limite. Pour résorber ces problèmes, la chercheuse est impliquée dans la mise au point de logiciels de détection automatique de retouches d’images, dont commencent à se doter les éditeurs.

L’art du «p-hacking»

Les chercheurs savent aussi s’arranger avec les statistiques, l’outil qui leur sert pour analyser leurs résultats et qui permet surtout de clamer une découverte (l’absence de découverte faisant rarement l’objet de publication). Le 1er septembre, plus de soixante-dix chercheurs ont appelé dans Nature Human Behaviour à «redéfinir la significativité statistique». Pour eux, «les standards statistiques pour revendiquer une découverte sont tout simplement trop bas dans beaucoup de domaines de la science». Et ils appellent à relever ces standards.

A commencer par le plus connu d’entre eux, la valeur p. Le «standard» veut qu’un test statistique mesurant la différence entre deux hypothèses et donnant une valeur p inférieure à 5% soit significatif et donc digne d’être publié. Premier problème, depuis des années, des chercheurs ont alerté sur le fait que certains ignorent la définition même de cette valeur p. Beaucoup croient ainsi que ce paramètre désigne la probabilité qu’un résultat expérimental soit un faux positif. Mais ce n’est pas vraiment le cas.

David Colquhoun de l’University College à Londres l’a expliqué en 2014 dans un article de la Royal Society, avec l’exemple d’un test de détection d’une maladie. Une valeur p de 5% signifie que si quelqu’un n’est pas malade, alors le test trouvera qu’il a 5% de chance de l’être (faux positif ). Mais cela ne dit pas qu’elle est la probabilité d’être malade. En prenant un taux de prévalence de 90% par exemple pour cette maladie on peut alors calculer le taux réel de faux positif comme étant 36%! La valeur p seule peut donc induire de fausses interprétations. Néanmoins, plus on fixe un seuil bas, plus ce taux de faux positif baissera. Idem si on augmente la taille de l’échantillon.

Mais alors que la génétique ou la physique ont fixé des seuils autrement plus drastiques pour p (dix à cent millionièmes), des disciplines comme la recherche biomédicale, la psychologie, l’économie… restent accrochées à ce 0,05. En mars 2016 une étude de John Ioannidis dans JAMA notait la présence de valeur p dans le résumé d’un tiers des 151 revues médicales les plus importantes et dans près de 40% des essais cliniques. Petite bizarrerie, déjà constatée par d’autres: les valeurs p rapportées ont une forte tendance à se concentrer vers 0,05, le fameux seuil à partir duquel les résultats sont considérés significatifs. C’est sans doute que les chercheurs sont passés maître dans l’art du «p-hacking», c’est-à-dire l’art de trouver la bonne méthode afin de tomber sous le seuil fatidique.

«Surexploitation» des données

«Certains surexploitent les données et essaient jusqu’à ce que ça marche», explique Bertrand Thirion, spécialiste en neurosciences à l’Inria, l’Institut national français de recherche en informatique et en automatique. «Ce n’est pas de la triche délibérée mais comme les chercheurs ont fait beaucoup d’efforts pour faire les expériences, ils veulent trouver quelque chose et font «vibrer» les méthodes». Chris Chambers, dans son livre Les sept pêchés mortels de la psychologie (Princeton University Press, non traduit) détaille avec regret ces mauvaises pratiques. «Les effets du p-hacking sont clairs, remplissant la littérature scientifique avec des hypothèses faites après l’expérience, de fausses découvertes, et des impasses de recherche», écrit-il.

Pour améliorer la fiabilité, les auteurs de l’appel de Nature human behaviour recommandent dans un premier temps de baisser le seuil à 0,005 et évoquent aussi l’existence d’autres critères ou méthodes statistiques. Ce problème de la valeur p est fortement lié à une plaie de la recherche, «la crise de la reproductibilité»… à découvrir dans le prochain volet de notre série.

▅

?? (SYLVIE SERPRIX) ?? La science, toujours exacte? Parfois, pour arriver à la conclusion voulue, on n’hésite pas à traficoter les données. — (SYLVIE SERPRIX) La science, toujours exacte? Parfois, pour arriver à la conclusion voulue, on n’hésite pas à traficoter les données.

Petits arrangements dans les labos

Pour aboutir à des découvertes, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillages statistiques abondent. Quatrième volet de notre série

Newspapers in French

Newspapers from Switzerland

Petits arrangemen­ts dans les labos

Pour aboutir à des découverte­s, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillag­es statistiqu­es abondent. Quatrième volet de notre série

Newspapers in French

Newspapers from Switzerland

Petits arrangements dans les labos

Pour aboutir à des découvertes, les chercheurs ont parfois recours à des tours de passe-passe douteux: trucages d’images et bidouillages statistiques abondent. Quatrième volet de notre série