Histoire de probabilités
Un résultat expérimental est jugé « statistiquement significatif » si l’on peut calculer qu’il y a moins d’une chance sur vingt qu’il soit dû au hasard. Cette probabilité est notée p. Ce seuil de p < 0,05 (1 sur 20) est arbitraire et implique de fait que, sur vingt études l’ayant retenu, il y en a probablement une qui rapporte des résultats faux. Certaines études, notamment en épidémiologie, ont un niveau d’exigence plus élevé : par exemple p < 0,01 (1 chance sur 100 que le résultat obtenu soit dû au hasard) ou de p < 0,001 (1 chance sur 1 000). Deux psychologues nord-américains ont étudié les valeurs de p rapportées dans les expériences décrites dans 3 557 publications parues en 2008 dans trois revues respectées du domaine de la psychologie expérimentale (1). Ils ont observé que les valeurs de p comprises entre 0,045 et 0,05 sont surreprésentées, avec un pic particulièrement net entre 0,04875 et 0,05, qui incite à penser que les données ont été arrangées pour passer juste sous le seuil fatidique de significativité. Plusieurs manipulations sont possibles pour pratiquer ce p-hacking. Par exemple, il suffit de sélectionner de préférence les expériences jugées concluantes ou d’arrêter la collecte de données quand les résultats obtenus permettent d’obtenir le fameux p < 0,05, car poursuivre risquerait de s’en éloigner. Une autre étude a montré que cette tendance à manipuler la valeur de p en psychologie expérimentale est bien plus fréquente aujourd’hui qu’en 1965, époque où son calcul à l’aide de tables statistiques imprimées était une tâche complexe (2). La tentation est grande, à présent que ce calcul peut être effectué en quelques secondes avec des logiciels, de sortir quelques valeurs pour faire passer p sous la barre de 0,05. (1) E. J. Masicampo et D. R. Lalande, Quart. J. Exp. Psychol., 65, 2271, 2012. (2) N. C. Leggett et al., Q. J. Exp. Psychol., 66, 2303, 2013.