Tester les hypothèses suggérées par les données - Testing hypotheses suggested by the data

En statistiques , les hypothèses suggérées par un ensemble de données donné , lorsqu'elles sont testées avec le même ensemble de données qui les a suggérées, sont susceptibles d'être acceptées même lorsqu'elles ne sont pas vraies. C'est parce qu'un raisonnement circulaire (double trempage) serait impliqué : quelque chose semble vrai dans l'ensemble de données limité ; donc nous émettons l'hypothèse que c'est vrai en général ; par conséquent, nous le testons (à tort) sur le même ensemble de données limité, ce qui semble confirmer que c'est vrai. Générer des hypothèses à partir de données déjà observées, à défaut de les tester sur de nouvelles données, est appelé théorisation post hoc (du latin post hoc , « après cela »).

La procédure correcte consiste à tester toute hypothèse sur un ensemble de données qui n'a pas été utilisé pour générer l'hypothèse.

Le problème général

Tester une hypothèse suggérée par les données peut très facilement entraîner des faux positifs ( erreurs de type I ). Si l'on regarde assez longtemps et dans suffisamment d'endroits différents, on finit par trouver des données pour étayer n'importe quelle hypothèse. Pourtant, ces données positives ne constituent pas en elles-mêmes la preuve que l'hypothèse est correcte. Les données de test négatives qui ont été rejetées sont tout aussi importantes, car elles donnent une idée de la fréquence des résultats positifs par rapport au hasard. Exécuter une expérience, voir un modèle dans les données, proposer une hypothèse à partir de ce modèle, puis utiliser les mêmes données expérimentales comme preuve de la nouvelle hypothèse est extrêmement suspect, car les données de toutes les autres expériences, terminées ou potentielles, ont essentiellement été « jetées out" en choisissant de ne regarder que les expériences qui ont suggéré la nouvelle hypothèse en premier lieu.

Un grand nombre de tests, comme décrit ci-dessus, gonfle considérablement la probabilité d' erreur de type I, car toutes les données, sauf les données les plus favorables à l' hypothèse, sont rejetées. C'est un risque, non seulement dans les tests d'hypothèses mais dans toutes les inférences statistiques car il est souvent problématique de décrire avec précision le processus qui a été suivi pour rechercher et rejeter des données . En d'autres termes, on veut garder toutes les données (qu'elles aient tendance à soutenir ou à réfuter l'hypothèse) des « bons tests », mais il est parfois difficile de comprendre ce qu'est un « bon test ». C'est un problème particulier dans la modélisation statistique , où de nombreux modèles différents sont rejetés par essais et erreurs avant de publier un résultat (voir aussi surajustement , biais de publication ).

L'erreur est particulièrement répandue dans l'exploration de données et l'apprentissage automatique . Cela se produit également couramment dans l'édition universitaire où seuls les rapports de résultats positifs, plutôt que négatifs, ont tendance à être acceptés, ce qui entraîne l'effet connu sous le nom de biais de publication .

Procédures correctes

Toutes les stratégies de test solide des hypothèses suggérées par les données impliquent l'inclusion d'un plus large éventail de tests dans le but de valider ou de réfuter la nouvelle hypothèse. Ceux-ci inclus:

Le test simultané de tous les contrastes d' Henry Scheffé dans les problèmes de comparaisons multiples est le remède le plus connu dans le cas de l' analyse de la variance . Il s'agit d'une méthode conçue pour tester les hypothèses suggérées par les données tout en évitant l'erreur décrite ci-dessus.

Voir également

Notes et références