p -valeur - p-value

Dans les tests de signification de l' hypothèse nulle , le p -valeur est la probabilité d'obtenir des résultats de test au moins aussi extrême que les résultats effectivement observées , en supposant que l' hypothèse nulle est correcte. Une très petite valeur p signifie qu'un résultat observé aussi extrême serait très improbable sous l'hypothèse nulle. Le rapport des valeurs p des tests statistiques est une pratique courante dans les publications universitaires de nombreux domaines quantitatifs. Étant donné que la signification précise de la valeur p est difficile à saisir, l' utilisation abusive est répandue et a été un sujet majeur en métascience .

Concepts de base

En statistique, chaque conjecture concernant la distribution de probabilité inconnue d'un ensemble de variables aléatoires représentant les données observées dans une étude est appelée une hypothèse statistique . Si nous énonçons une seule hypothèse et que le but du test statistique est de voir si cette hypothèse est tenable, mais pas d'étudier d'autres hypothèses spécifiques, alors un tel test est appelé test d'hypothèse nulle .

Comme notre hypothèse statistique énoncera, par définition, une propriété de la distribution, l' hypothèse nulle est l'hypothèse par défaut sous laquelle cette propriété n'existe pas. L'hypothèse nulle est généralement qu'un paramètre (comme une corrélation ou une différence entre les moyennes) dans les populations d'intérêt est nul. Notez que notre hypothèse pourrait spécifier la distribution de probabilité de précisément, ou elle pourrait seulement spécifier qu'elle appartient à une classe de distributions. Souvent, nous réduisons les données à une seule statistique numérique, par exemple , dont la distribution de probabilité marginale est étroitement liée à une question principale d'intérêt dans l'étude.

La valeur p est utilisée dans le cadre du test d'hypothèse nulle afin de quantifier la signification statistique d'un résultat, le résultat étant la valeur observée de la statistique choisie . Plus la valeur p est faible, plus la probabilité d'obtenir ce résultat est faible si l'hypothèse nulle était vraie. Un résultat est dit statistiquement significatif s'il permet de rejeter l'hypothèse nulle. Toutes choses étant égales par ailleurs, les valeurs p plus petites sont considérées comme des preuves plus solides contre l'hypothèse nulle

En gros, le rejet de l'hypothèse nulle implique qu'il y a suffisamment de preuves contre elle.

À titre d'exemple particulier, si une hypothèse nulle indique qu'une certaine statistique récapitulative suit la distribution normale standard N(0,1), alors le rejet de cette hypothèse nulle pourrait signifier que (i) la moyenne de n'est pas 0, ou (ii ) la variance de n'est pas 1, ou (iii) n'est pas normalement distribuée. Différents tests de la même hypothèse nulle seraient plus ou moins sensibles à différentes alternatives. Cependant, même si nous parvenons à rejeter l'hypothèse nulle pour les 3 alternatives, et même si nous savons que la distribution est normale et que la variance est de 1, le test d'hypothèse nulle ne nous dit pas quelles valeurs non nulles de la moyenne sont maintenant les plus plausible. Plus on a d'observations indépendantes de la même distribution de probabilité, plus le test sera précis et plus la précision avec laquelle on pourra déterminer la valeur moyenne et montrer qu'elle n'est pas égale à zéro sera élevée ; mais cela augmentera également l'importance d'évaluer la pertinence scientifique ou réelle de cette déviation.

Définition et interprétation

Général

Valeur p dans le test de signification statistique.svg

Considérons une statistique de test observée à partir d'une distribution inconnue . Ensuite , la p -value est ce que la probabilité a priori serait d'observer une valeur statistique essai au moins aussi « extrême » , comme si l' hypothèse nulle était vraie. C'est-à-dire:

  • pour un test unilatéral de queue droite,
  • pour un test unilatéral de la queue gauche,
  • pour un test bilatéral. Si la distribution est symétrique par rapport à zéro, alors

Si la valeur p est très petite, alors l'hypothèse nulle est fausse ou quelque chose d'improbable s'est produit. Dans un test de signification formel , l' hypothèse nulle est rejetée si la valeur p est inférieure à une valeur seuil prédéfinie , appelée niveau alpha ou niveau de signification . La valeur de est plutôt définie par le chercheur avant d'examiner les données. définit la proportion de la distribution, , qui est censée définir une plage si étroite de tous les résultats possibles que si la valeur de s est dans cette plage, il est peu probable que sa valeur se soit produite par hasard. Intuitivement, cela signifie que si est défini sur 0,10, seul 1/10ème de la distribution de est défini par , donc si se situe dans cette plage, il se produit déjà sur un certain nombre de résultats qui se produisent un rare 1/10ème du temps, suggérant ainsi qu'il est peu probable que cela se produise au hasard. Par convention, est généralement défini sur 0,05, bien que des niveaux alpha inférieurs soient parfois utilisés. Cependant, il est important de se rappeler un certain nombre de facteurs - tels écarts, des erreurs de mesure, des erreurs de spécification, les problèmes de comparaisons multiples, etc .-- peut vouloir dire que juste parce que les chutes dans la plage spécifiée par cela ne pas dire automatiquement une valeur surprenante de est en fait statistiquement significatif.

La valeur p est fonction de la statistique de test choisie et est donc une variable aléatoire . Si l'hypothèse nulle fixe la distribution de probabilité de précisément, et si cette distribution est continue, alors lorsque l'hypothèse nulle est vraie, la valeur p est uniformément distribuée entre 0 et 1. Ainsi, la valeur p n'est pas fixe. Si le même test est répété indépendamment avec de nouvelles données (toujours avec la même distribution de probabilité), on obtiendra une valeur p différente à chaque itération. Si l'hypothèse nulle est composite, ou si la distribution de la statistique est discrète, la probabilité d'obtenir une valeur p inférieure ou égale à tout nombre compris entre 0 et 1 est inférieure ou égale à ce nombre, si l'hypothèse nulle est vrai. Il reste que de très petites valeurs sont relativement peu probables si l'hypothèse nulle est vraie, et qu'un test de signification au niveau est obtenu en rejetant l'hypothèse nulle si le niveau de signification est inférieur ou égal à .

Différentes valeurs p basées sur des ensembles de données indépendants peuvent être combinées, par exemple en utilisant le test de probabilité combiné de Fisher .

Distribution

Lorsque l'hypothèse nulle est vraie, si elle prend la forme , et que la variable aléatoire sous-jacente est continue, alors la distribution de probabilité de la valeur p est uniforme sur l'intervalle [0,1]. En revanche, si l'hypothèse alternative est vraie, la distribution dépend de la taille de l'échantillon et de la vraie valeur du paramètre étudié.

La distribution des valeurs p pour un groupe d'études est parfois appelée courbe p . Une courbe p peut être utilisée pour évaluer la fiabilité de la littérature scientifique, par exemple en détectant les biais de publication ou le p- hacking .

Pour l'hypothèse composite

Dans les problèmes de test d'hypothèses paramétriques, une hypothèse simple ou ponctuelle fait référence à une hypothèse dans laquelle la valeur du paramètre est supposée être un nombre unique. En revanche, dans une hypothèse composite, la valeur du paramètre est donnée par un ensemble de nombres. Par exemple, lors du test de l'hypothèse nulle selon laquelle une distribution est normale avec une moyenne inférieure ou égale à zéro par rapport à l'alternative que la moyenne est supérieure à zéro (variance connue), l'hypothèse nulle ne spécifie pas la distribution de probabilité du test approprié statistique. Dans l'exemple qui vient mentionné qui serait le Z -statistic appartenant à l'une-face d' un échantillon Z -test. Pour chaque valeur possible de la moyenne théorique, la statistique du test Z a une distribution de probabilité différente. Dans ces circonstances (le cas d'une hypothèse nulle dite composite), la valeur p est définie en prenant le cas d'hypothèse nulle le moins favorable, qui se situe généralement à la frontière entre nulle et alternative.

Cette définition garantit la complémentarité des valeurs p et des niveaux alpha. Si nous fixons le niveau de signification alpha à 0,05 et ne rejetons l'hypothèse nulle que si la valeur p est inférieure ou égale à 0,05, alors notre test d'hypothèse aura effectivement un niveau de signification (taux d'erreur de type 1 maximal) de 0,05. Comme l'a écrit Neyman : « L'erreur qu'un statisticien en exercice considérerait comme la plus importante à éviter (ce qui est un jugement subjectif) est appelée erreur de première espèce. La première exigence de la théorie mathématique est de déduire des critères de test qui garantiraient que la probabilité de commettre une erreur du premier type serait égale (ou approximativement égale, ou ne dépasse pas) un nombre prédéfini , tel que α = 0,05 ou 0,01 , etc. Ce nombre est appelé le niveau de signification » ; Neyman 1976, p. 161 dans « L'émergence des statistiques mathématiques : un croquis historique avec une référence particulière aux États-Unis », « Sur l'histoire des statistiques et des probabilités », éd. DB Owen, New York : Marcel Dekker, p. 149-193. Voir aussi « Confusion Over Measures of Evidence (p's) versus Errors (a's) in Classical Statistical Testing », Raymond Hubbard et MJ Bayarri, The American Statistician, août 2003, vol. 57, n° 3, 171--182 (avec discussion). Pour une déclaration moderne concise, voir le chapitre 10 de "All of Statistics: A Concise Course in Statistical Inference", Springer; 1ère éd. corrigée. 20 édition (17 septembre 2004). Larry Wasserman.

Usage

La valeur p est largement utilisée dans les tests d'hypothèses statistiques , en particulier dans les tests de signification de l'hypothèse nulle. Dans cette méthode, dans le cadre du plan expérimental , avant de réaliser l'expérience, on choisit d'abord un modèle (l' hypothèse nulle ) et une valeur seuil pour p , appelée niveau de signification du test, traditionnellement 5% ou 1% et notée α . Si le p -valeur est inférieur au seuil de signification choisi ( en α ), qui suggère que les données observées est suffisamment incompatible avec l' hypothèse nulle et qui peut être rejeté l'hypothèse nulle. Cependant, cela ne prouve pas que l'hypothèse testée est fausse. Lorsque la valeur p est calculée correctement, ce test garantit que le taux d'erreur de type I est d'au plus α . Pour une analyse typique, en utilisant le  seuil standard α = 0,05, l'hypothèse nulle est rejetée lorsque p 0,05 et non rejetée lorsque p > 0,05. La valeur p n'étaye pas, en soi, le raisonnement sur les probabilités des hypothèses, mais n'est qu'un outil pour décider s'il faut rejeter l'hypothèse nulle.

Abuser

Selon l' ASA , il est largement admis que les valeurs p sont souvent mal utilisées et mal interprétées. Une pratique qui a été particulièrement critiquée consiste à accepter l'hypothèse alternative pour toute valeur p nominalement inférieure à 0,05 sans autre preuve à l'appui. Bien que les valeurs p soient utiles pour évaluer l'incompatibilité des données avec un modèle statistique spécifié, des facteurs contextuels doivent également être pris en compte, tels que « la conception d'une étude, la qualité des mesures, les preuves externes du phénomène à l'étude, et la validité des hypothèses qui sous-tendent l'analyse des données". Une autre préoccupation est que la valeur p est souvent mal comprise comme étant la probabilité que l'hypothèse nulle soit vraie.

Certains statisticiens ont proposé d'abandonner les valeurs p et de se concentrer davantage sur d'autres statistiques inférentielles, telles que les intervalles de confiance , les rapports de vraisemblance ou les facteurs de Bayes , mais il existe un débat houleux sur la faisabilité de ces alternatives. D'autres ont suggéré de supprimer les seuils de signification fixes et d'interpréter les valeurs p comme des indices continus de la force de la preuve contre l'hypothèse nulle. D'autres encore ont suggéré de rapporter à côté des valeurs p la probabilité a priori d'un effet réel qui serait nécessaire pour obtenir un risque faux positif (c'est-à-dire la probabilité qu'il n'y ait pas d'effet réel) en dessous d'un seuil prédéfini (par exemple 5 %).

Calcul

Habituellement, est une statistique de test . Une statistique de test est la sortie d'une fonction scalaire de toutes les observations. Cette statistique fournit un nombre unique, tel qu'une statistique t ou une statistique F. En tant que telle, la statistique de test suit une distribution déterminée par la fonction utilisée pour définir cette statistique de test et la distribution des données d'observation d'entrée.

Pour le cas important dans lequel les données sont supposées être un échantillon aléatoire d'une distribution normale, selon la nature de la statistique de test et les hypothèses d'intérêt sur sa distribution, différents tests d'hypothèse nulle ont été développés. Certains de ces tests sont le test z pour les hypothèses concernant la moyenne d'une distribution normale avec une variance connue, le test t basé sur la distribution t de Student d'une statistique appropriée pour les hypothèses concernant la moyenne d'une distribution normale lorsque la variance est inconnue, le test F basé sur la distribution F d'une autre statistique pour les hypothèses concernant la variance. Pour des données d'une autre nature, par exemple des données catégorielles (discrètes), des statistiques de test peuvent être construites dont la distribution d'hypothèse nulle est basée sur des approximations normales de statistiques appropriées obtenues en invoquant le théorème central limite pour de grands échantillons, comme dans le cas du chi de Pearson. test au carré .

Ainsi, le calcul d'une valeur p nécessite une hypothèse nulle, une statistique de test (ainsi que le fait de décider si le chercheur effectue un test unilatéral ou un test bilatéral ) et des données. Même si le calcul de la statistique de test sur des données données peut être facile, le calcul de la distribution d'échantillonnage sous l'hypothèse nulle, puis le calcul de sa fonction de distribution cumulative (CDF) est souvent un problème difficile. Aujourd'hui, ce calcul est effectué à l'aide de logiciels statistiques, souvent via des méthodes numériques (plutôt que des formules exactes), mais, au début et au milieu du 20e siècle, cela se faisait plutôt via des tables de valeurs, et une interpolation ou extrapolation des valeurs p à partir de celles-ci. valeurs discrètes. Plutôt que d'utiliser un tableau de valeurs p , Fisher a inversé le CDF, en publiant une liste de valeurs de la statistique de test pour des valeurs p fixes données ; cela correspond au calcul de la fonction quantile (CDF inverse).

Exemple

À titre d'exemple de test statistique, une expérience est réalisée pour déterminer si un tirage au sort est juste (chance égale d'atterrir face ou face) ou injustement biaisé (un résultat étant plus probable que l'autre).

Supposons que les résultats expérimentaux montrent que la pièce est retournée face 14 fois sur un total de 20 lancers. Les données complètes seraient une séquence de vingt fois le symbole "H" ou "T". La statistique sur laquelle on pourrait se concentrer pourrait être le nombre total de têtes. L'hypothèse nulle est que la pièce est juste et que les lancers de pièces sont indépendants les uns des autres. Si un test à queue droite est envisagé, ce qui serait le cas si l'on s'intéresse réellement à la possibilité que la pièce soit biaisée vers la chute face à face, alors la valeur p de ce résultat est la chance qu'une pièce équitable atterrisse sur face à au moins 14 fois sur 20 flips. Cette probabilité peut être calculée à partir de coefficients binomiaux comme

Cette probabilité est la valeur p , en ne considérant que les résultats extrêmes qui favorisent les têtes. C'est ce qu'on appelle un test unilatéral . Cependant, on pourrait être intéressé par des déviations dans les deux sens, favorisant soit pile, soit pile. La valeur p bilatérale, qui prend en compte les écarts favorisant soit pile soit face, peut être calculée à la place. Comme la distribution binomiale est symétrique pour une pièce équitable, la valeur p bilatérale est simplement le double de la valeur p unilatérale calculée ci-dessus : la valeur p bilatérale est de 0,115.

Dans l'exemple ci-dessus :

  • Hypothèse nulle (H 0 ) : La pièce est juste, avec Prob(face) = 0.5
  • Statistique de test : Nombre de têtes
  • Niveau alpha (seuil de signification désigné) : 0,05
  • Observation O : 14 têtes sur 20 flips ; et
  • Deux queues p -valeur d'observation donné O H 0 = 2 * min (Prob (no. De tête des têtes 14), Prob (no. De tête des têtes 14)) = 2 * min (0,058, 0,978) = 2 *0,058 = 0,115.

Notez que le Prob (nombre de têtes ≤ 14 têtes) = 1 - Prob(nombre de têtes ≥ 14 têtes) + Prob (nombre de têtes = 14) = 1 - 0,058 + 0,036 = 0,978 ; cependant, la symétrie de la distribution binomiale rend un calcul inutile pour trouver la plus petite des deux probabilités. Ici, la valeur p calculée dépasse 0,05, ce qui signifie que les données se situent dans la plage de ce qui se produirait 95% du temps si la pièce était en fait juste. Par conséquent, l'hypothèse nulle n'est pas rejetée au niveau 0,05.

Cependant, si une tête supplémentaire avait été obtenue, la valeur p résultante (bilatérale) aurait été de 0,0414 (4,14 %), auquel cas l'hypothèse nulle aurait été rejetée au niveau de 0,05.

Histoire

Les calculs des valeurs p remontent aux années 1700, où ils ont été calculés pour le sex-ratio humain à la naissance, et utilisés pour calculer la signification statistique par rapport à l'hypothèse nulle de probabilité égale de naissances masculines et féminines. John Arbuthnot étudia cette question en 1710 et examina les registres de naissance à Londres pour chacune des 82 années de 1629 à 1710. Chaque année, le nombre d'hommes nés à Londres dépassait le nombre de femmes. Si l'on considère que plus de naissances masculines ou féminines sont également probables, la probabilité du résultat observé est de 1/2 82 , soit environ 1 sur 4 836 000 000 000 000 000 000 000 ; en termes modernes, la valeur p . C'est infiniment petit, ce qui conduit Arbuth à ne pas dire que ce n'était pas dû au hasard, mais à la providence divine : « D'où il suit que c'est l'Art, et non le Chance, qui gouverne. En termes modernes, il a rejeté l'hypothèse nulle des naissances masculines et féminines également probables au niveau de signification p  = 1/2 82 . Ce travail et d'autres d'Arbuthnot sont considérés comme "… la première utilisation de tests de signification…", le premier exemple de raisonnement sur la signification statistique, et "… peut-être le premier rapport publié d'un test non paramétrique …", en particulier le test de signe ; voir les détails à Test de signe § Historique .

La même question a ensuite été abordée par Pierre-Simon Laplace , qui a plutôt utilisé un test paramétrique , modélisant le nombre de naissances masculines avec une distribution binomiale :

Dans les années 1770, Laplace considérait les statistiques de près d'un demi-million de naissances. Les statistiques ont montré un excès de garçons par rapport aux filles. Il a conclu par le calcul d'une valeur p que l'excès était un effet réel, mais inexpliqué.

La valeur p a été introduite pour la première fois par Karl Pearson , dans son test du chi-carré de Pearson , en utilisant la distribution du chi-carré et notée comme P majuscule. Les valeurs de p pour la distribution du chi-carré (pour diverses valeurs de χ 2 et degrés de liberté), maintenant notés P, ont été calculés dans ( Elderton 1902 ), rassemblés dans ( Pearson 1914 , pp. xxxi-xxxiii, 26-28, Tableau XII) .

L'utilisation de la valeur p dans les statistiques a été popularisée par Ronald Fisher et elle joue un rôle central dans son approche du sujet. Dans son livre influent Statistical Methods for Research Workers (1925), Fisher a proposé le niveau p = 0,05, ou 1 chance sur 20 d'être dépassé par hasard, comme limite de signification statistique , et l'a appliqué à une distribution normale (en tant que test bilatéral), donnant ainsi la règle des deux écarts types (sur une distribution normale) pour la signification statistique (voir règle 68-95-99.7 ).

Il a ensuite calculé un tableau de valeurs, semblable à Elderton , mais, surtout, a inversé les rôles de χ 2 et p. Autrement dit, plutôt que de calculer p pour différentes valeurs de χ 2 (et de degrés de liberté n ), il calcule les valeurs de χ 2 que le rendement spécifié p -values, en particulier 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50 , 0,30, 0,20, 0,10, 0,05, 0,02 et 0,01. Cela a permis à des valeurs calculées de χ 2 à être comparés aux seuils et ont encouragé l'utilisation de p -values ( en particulier 0,05, 0,02, et 0,01) comme seuils, au lieu de calculer et de rapport p se -values. Le même type de tableaux a ensuite été compilé dans ( Fisher & Yates 1938 ), ce qui a cimenté l'approche.

Pour illustrer l'application des valeurs p à la conception et à l'interprétation des expériences, dans son livre suivant, The Design of Experiments (1935), Fisher a présenté l' expérience du thé de la dame , qui est l'exemple archétypal de la valeur p .

Pour évaluer l'affirmation d'une dame selon laquelle elle ( Muriel Bristol ) pouvait distinguer par goût comment le thé est préparé (en ajoutant d'abord le lait dans la tasse, puis le thé, ou d'abord le thé, puis le lait), on lui a présenté séquentiellement 8 tasses : 4 préparées dans un sens, 4 préparaient l'autre, et demandaient de déterminer la préparation de chaque tasse (sachant qu'il y en avait 4 de chaque). Dans ce cas, l'hypothèse nulle était qu'elle n'avait aucune capacité spéciale, le test était le test exact de Fisher et la valeur p était telle que Fisher était disposé à rejeter l'hypothèse nulle (considérez que le résultat est très peu susceptible d'être dû au hasard) si tous ont été classés correctement. (Dans l'expérience réelle, Bristol a correctement classé les 8 tasses.)

Fisher a réitéré le seuil de p = 0,05 et a expliqué sa justification en déclarant :

Il est habituel et pratique pour les expérimentateurs de prendre 5 pour cent comme niveau de signification standard, en ce sens qu'ils sont prêts à ignorer tous les résultats qui n'atteignent pas cette norme, et, par ce moyen, à éliminer de toute discussion ultérieure le plus grand partie des fluctuations que le hasard a introduites dans leurs résultats expérimentaux.

Il applique également ce seuil à la conception des expériences, notant que seulement eu 6 tasses été présentés (3 chacun), une classification parfaite aurait seulement permis d' obtenir p -value de qui n'aurait pas atteint ce niveau d'importance. Fisher a également souligné l'interprétation de p, comme la proportion à long terme de valeurs au moins aussi extrêmes que les données, en supposant que l'hypothèse nulle est vraie.

Dans les éditions ultérieures, Fisher a explicitement opposé l'utilisation de la valeur p pour l'inférence statistique en science avec la méthode Neyman-Pearson, qu'il appelle « procédures d'acceptation ». Fisher souligne que bien que des niveaux fixes tels que 5%, 2% et 1% soient pratiques, la valeur p exacte peut être utilisée et la force des preuves peut et sera révisée avec d'autres expérimentations. En revanche, les procédures de décision nécessitent une décision claire, entraînant une action irréversible, et la procédure est basée sur les coûts d'erreur, qui, selon lui, sont inapplicables à la recherche scientifique.

Quantités associées

Un concept est étroitement liée à l' E -value , qui est le prévu nombre de fois dans plusieurs tests que l' on attend d'obtenir une statistique de test au moins aussi extrême que celui qui a été effectivement observé si l' on admet que l'hypothèse nulle est vraie. La valeur E est le produit du nombre de tests et de la valeur p .

Le q -valeur est l'analogue de la p -valeur par rapport à la vitesse de découverte de faux positifs . Il est utilisé dans les tests d'hypothèses multiples pour maintenir la puissance statistique tout en minimisant le taux de faux positifs .

Voir également

Remarques

Les références

Lectures complémentaires

Liens externes