Puissance d'un test - Power of a test

La puissance statistique d'un test d'hypothèse binaire est la probabilité que le test rejette correctement l' hypothèse nulle ( ) lorsqu'une hypothèse alternative spécifique ( ) est vraie. Il est communément désigné par , et représente les chances d'une détection « vraiment positive » conditionnellement à l'existence réelle d'un effet à détecter. La puissance statistique varie de 0 à 1, et à mesure que la puissance d'un test augmente, la probabilité de commettre une erreur de type II en omettant à tort de rejeter l'hypothèse nulle diminue.

Notation

Cet article utilise la notation suivante

  • β = probabilité d'une erreur de type II, dite "faux négatif"
  • 1-β = probabilité d'un "vrai positif", c'est-à-dire rejetant correctement l'hypothèse nulle. "1-β" est également connu comme la puissance du test.
  • α = probabilité d'une erreur de type I, dite "faux positif"
  • 1-α = probabilité d'un "vrai négatif", c'est-à-dire de ne pas rejeter correctement l'hypothèse nulle

La description

Pour une probabilité d'erreur de type II de β , la puissance statistique correspondante est de 1 −  β . Par exemple, si l'expérience E a une puissance statistique de 0,7 et que l'expérience F a une puissance statistique de 0,95, alors il y a une plus forte probabilité que l'expérience E ait une erreur de type II que l'expérience F. Cela réduit la sensibilité de l'expérience E pour détecter des effets significatifs . Cependant, l'expérience E est par conséquent plus fiable que l'expérience F en raison de sa plus faible probabilité d'erreur de type I. Elle peut être considérée de manière équivalente comme la probabilité d'accepter l'hypothèse alternative ( ) lorsqu'elle est vraie, c'est-à-dire la capacité d'un test à détecter un effet spécifique, si cet effet spécifique existe réellement. Ainsi,

Si ce n'est pas une égalité mais simplement la négation de (par exemple avec pour un paramètre de population non observé, nous avons simplement ) alors la puissance ne peut pas être calculée à moins que les probabilités ne soient connues pour toutes les valeurs possibles du paramètre qui violent l'hypothèse nulle. Ainsi, on se réfère généralement à la puissance d'un test par rapport à une hypothèse alternative spécifique .

Comme la puissance augmente, il y a une probabilité décroissante d'une erreur de type II, aussi appelé le taux de faux négatifs ( en β ) puisque la puissance est égale à 1 -  β . Un concept similaire est la probabilité d' erreur de type I , également appelée taux de faux positifs ou niveau d'un test sous l'hypothèse nulle.

Dans le contexte de la classification binaire , la puissance d'un test est appelée sa sensibilité statistique , son taux de vrais positifs ou sa probabilité de détection .

Analyse de puissance

Un concept connexe est "l'analyse de puissance". L'analyse de puissance peut être utilisée pour calculer la taille d'échantillon minimale requise afin que l'on puisse être raisonnablement susceptible de détecter un effet d'une taille donnée . Par exemple : « Combien de fois dois-je lancer une pièce pour conclure qu'elle est truquée d'un certain montant ? » L'analyse de puissance peut également être utilisée pour calculer la taille d'effet minimale susceptible d'être détectée dans une étude utilisant une taille d'échantillon donnée. De plus, le concept de puissance est utilisé pour faire des comparaisons entre différentes procédures de tests statistiques : par exemple, entre un test paramétrique et un test non paramétrique de la même hypothèse.

Fond

Les tests statistiques utilisent des données d' échantillons pour évaluer ou faire des déductions sur une population statistique . Dans le cadre concret d'une comparaison à deux échantillons, l'objectif est d'évaluer si les valeurs moyennes d'un attribut obtenu pour les individus de deux sous-populations diffèrent. Par exemple, pour tester l'hypothèse nulle selon laquelle les scores moyens des hommes et des femmes à un test ne diffèrent pas, des échantillons d'hommes et de femmes sont tirés, le test leur est administré et le score moyen d'un groupe est comparé à celui de l'autre groupe en utilisant un test statistique tel que les deux échantillons z -test . La puissance du test est la probabilité que le test trouve une différence statistiquement significative entre les hommes et les femmes, en fonction de la taille de la vraie différence entre ces deux populations.

Facteurs influençant le pouvoir

La puissance statistique peut dépendre d'un certain nombre de facteurs. Certains facteurs peuvent être particuliers à une situation de test spécifique, mais au minimum, la puissance dépend presque toujours des trois facteurs suivants :

Un critère de signification est une déclaration indiquant dans quelle mesure un résultat positif doit être improbable, si l'hypothèse nulle d'absence d'effet est vraie, pour que l'hypothèse nulle soit rejetée. Les critères les plus couramment utilisés sont les probabilités de 0,05 (5 %, 1 sur 20), 0,01 (1 %, 1 sur 100) et 0,001 (0,1 %, 1 sur 1000). Si le critère est de 0,05, la probabilité que les données impliquent un effet au moins aussi important que l'effet observé lorsque l'hypothèse nulle est vraie doit être inférieure à 0,05, pour que l'hypothèse nulle d'absence d'effet soit rejetée. Un moyen simple d'augmenter la puissance d'un test consiste à effectuer un test moins conservateur en utilisant un critère de signification plus large, par exemple 0,10 au lieu de 0,05 . Cela augmente les chances de rejeter l'hypothèse nulle (obtenir un résultat statistiquement significatif) lorsque l'hypothèse nulle est fausse ; c'est-à-dire qu'il réduit le risque d' erreur de type II (faux négatif quant à l'existence d'un effet). Mais cela augmente aussi le risque d'obtenir un résultat statistiquement significatif (rejet de l'hypothèse nulle) lorsque l'hypothèse nulle n'est pas fausse ; c'est-à-dire qu'il augmente le risque d' erreur de type I (faux positif).

L' ampleur de l'effet d'intérêt dans la population peut être quantifiée en termes de taille d'effet , où il y a une plus grande puissance pour détecter des effets plus importants. Une taille d'effet peut être une valeur directe de la quantité d'intérêt, ou il peut s'agir d'une mesure standardisée qui tient également compte de la variabilité de la population. Par exemple, dans une analyse comparant les résultats dans une population traitée et témoin, la différence des moyennes des résultats serait une estimation directe de la taille de l'effet, alors que ce serait une taille d'effet standardisée estimée, où est l'écart type commun des résultats dans la groupes traités et témoins. Si elle est construite de manière appropriée, une taille d'effet standardisée, ainsi que la taille de l'échantillon, détermineront complètement la puissance. Une taille d'effet non standardisée (directe) est rarement suffisante pour déterminer la puissance, car elle ne contient pas d'informations sur la variabilité des mesures.

Un exemple de la façon dont la taille de l'échantillon affecte les niveaux de puissance

La taille de l'échantillon détermine la quantité d' erreur d'échantillonnage inhérente à un résultat de test. Toutes choses étant égales par ailleurs, les effets sont plus difficiles à détecter dans des échantillons plus petits. L'augmentation de la taille de l'échantillon est souvent le moyen le plus simple d'augmenter la puissance statistique d'un test. La façon dont la taille de l'échantillon accrue se traduit par une puissance plus élevée est une mesure de l' efficacité du test - par exemple, la taille de l'échantillon requise pour une puissance donnée.

La précision avec laquelle les données sont mesurées influence également la puissance statistique. Par conséquent, la puissance peut souvent être améliorée en réduisant l'erreur de mesure dans les données. Un concept connexe est d'améliorer la "fiabilité" de la mesure évaluée (comme dans la fiabilité psychométrique ).

La conception d'une expérience ou d'une étude observationnelle influence souvent la puissance. Par exemple, dans une situation de test à deux échantillons avec une taille d'échantillon totale donnée n , il est optimal d'avoir un nombre égal d'observations des deux populations comparées (tant que les variances dans les deux populations sont les mêmes). Dans l'analyse de régression et l' analyse de la variance , il existe de nombreuses théories et stratégies pratiques pour améliorer la puissance en fonction de la définition optimale des valeurs des variables indépendantes dans le modèle.

Interprétation

Bien qu'il n'y ait pas de normes formelles de puissance (parfois appelées π ), la plupart des chercheurs évaluent la puissance de leurs tests en utilisant π  = 0,80 comme norme d'adéquation. Cette convention implique un compromis à quatre contre un entre le β -risque et le α -risque. ( β est la probabilité d'une erreur de type II, et α est la probabilité d'une erreur de type I ; 0,2 et 0,05 sont des valeurs conventionnelles pour β et α ). Cependant, il y aura des moments où cette pondération de 4 pour 1 sera inappropriée. En médecine, par exemple, les tests sont souvent conçus de manière à ce qu'aucun faux négatif (erreur de type II) ne soit produit. Mais cela soulève inévitablement le risque d'obtenir un faux positif (une erreur de type I). La raison en est qu'il vaut mieux dire à un patient en bonne santé « nous avons peut-être trouvé quelque chose, testons plus loin » que de dire à un patient malade « tout va bien ».

L'analyse de puissance est appropriée lorsque la préoccupation est le rejet correct d'une fausse hypothèse nulle. Dans de nombreux contextes, le problème est moins de déterminer s'il y a ou non une différence, mais plutôt d'obtenir une estimation plus précise de la taille de l'effet de population. Par exemple, si nous nous attendions à une corrélation de population entre l'intelligence et la performance au travail d'environ 0,50, une taille d'échantillon de 20 nous donnera environ 80% de puissance ( α  = 0,05, bilatéral) pour rejeter l'hypothèse nulle de corrélation nulle. Cependant, en faisant cette étude, nous sommes probablement plus intéressés à savoir si la corrélation est de 0,30 ou 0,60 ou 0,50 . Dans ce contexte, nous aurions besoin d'une taille d'échantillon beaucoup plus grande afin de réduire l'intervalle de confiance de notre estimation à une plage acceptable pour nos besoins. Des techniques similaires à celles employées dans une analyse de puissance traditionnelle peuvent être utilisées pour déterminer la taille d'échantillon requise pour que la largeur d'un intervalle de confiance soit inférieure à une valeur donnée.

De nombreuses analyses statistiques impliquent l'estimation de plusieurs quantités inconnues. Dans des cas simples, toutes ces grandeurs sauf une sont des paramètres de nuisance . Dans ce cadre, la seule puissance pertinente concerne la quantité unique qui fera l'objet d'une inférence statistique formelle. Dans certains contextes, en particulier si les objectifs sont plus « exploratoires », il peut y avoir un certain nombre de quantités d'intérêt dans l'analyse. Par exemple, dans une analyse de régression multiple , nous pouvons inclure plusieurs covariables d'intérêt potentiel. Dans des situations comme celle-ci où plusieurs hypothèses sont envisagées, il est fréquent que les puissances associées aux différentes hypothèses diffèrent. Par exemple, dans une analyse de régression multiple, la puissance de détection d'un effet d'une taille donnée est liée à la variance de la covariable. Étant donné que différentes covariables auront des variances différentes, leurs puissances seront également différentes.

Toute analyse statistique impliquant plusieurs hypothèses est sujette à une inflation du taux d'erreur de type I si des mesures appropriées ne sont pas prises. De telles mesures impliquent généralement l'application d'un seuil de rigueur plus élevé pour rejeter une hypothèse afin de compenser les comparaisons multiples effectuées ( par exemple, comme dans la méthode Bonferroni ). Dans cette situation, l'analyse de puissance doit refléter l'approche de tests multiples à utiliser. Ainsi, par exemple, une étude donnée peut avoir une puissance suffisante pour détecter une certaine taille d'effet lorsqu'un seul test doit être effectué, mais la même taille d'effet peut avoir une puissance beaucoup plus faible si plusieurs tests doivent être effectués.

Il est également important de considérer la puissance statistique d'un test d'hypothèse lors de l'interprétation de ses résultats. La puissance d'un test est la probabilité de rejeter correctement l'hypothèse nulle lorsqu'elle est fausse ; la puissance d'un test est influencée par le choix du niveau de signification du test, la taille de l'effet mesuré et la quantité de données disponibles. Un test d'hypothèse peut échouer à rejeter la valeur nulle, par exemple, s'il existe une véritable différence entre deux populations comparées par un test t mais que l'effet est petit et que la taille de l'échantillon est trop petite pour distinguer l'effet du hasard. De nombreux essais cliniques , par exemple, ont une faible puissance statistique pour détecter les différences dans les effets indésirables des traitements, car ces effets peuvent être rares et le nombre de patients touchés faible.

Analyse a priori vs. post hoc

L'analyse de puissance peut être effectuée avant ( analyse de puissance a priori ou prospective) ou après ( analyse de puissance post hoc ou rétrospective) la collecte des données. L' analyse de puissance a priori est effectuée avant l'étude de recherche et est généralement utilisée pour estimer des tailles d'échantillon suffisantes pour obtenir une puissance adéquate. L' analyse post-hoc de la « puissance observée » est effectuée une fois l'étude terminée et utilise la taille de l'échantillon et la taille de l'effet obtenues pour déterminer quelle était la puissance dans l'étude, en supposant que la taille de l'effet dans l'échantillon est égale à la taille de l'effet dans la population. Alors que l'utilité de l'analyse de puissance prospective dans la conception expérimentale est universellement acceptée, l'analyse de puissance post hoc est fondamentalement erronée. Tomber dans la tentation d'utiliser l'analyse statistique des données collectées pour estimer la puissance se traduira par des valeurs non informatives et trompeuses. En particulier, il a été montré que post-hoc « puissance observée » est un-à-un de la fonction p -valeur atteint. Cela a été étendu pour montrer que toutes les analyses de puissance post-hoc souffrent de ce qu'on appelle le « paradoxe de l'approche par la puissance » (PAP), dans lequel une étude avec un résultat nul est censée montrer plus de preuves que l'hypothèse nulle est réellement vraie lorsque la valeur p est plus petite, car la puissance apparente pour détecter un effet réel serait plus élevée. En fait, une valeur p plus petite est bien comprise pour rendre l'hypothèse nulle relativement moins susceptible d'être vraie.

Application

Les agences de financement, les comités d'éthique et les comités d'examen de la recherche demandent fréquemment qu'un chercheur effectue une analyse de puissance, par exemple pour déterminer le nombre minimum de sujets d'expérimentation animale nécessaires pour qu'une expérience soit informative. Dans les statistiques fréquentistes , il est peu probable qu'une étude de faible puissance permette de choisir entre des hypothèses au niveau de signification souhaité. Dans les statistiques bayésiennes , les tests d'hypothèses du type utilisé dans l'analyse de puissance classique ne sont pas effectués. Dans le cadre bayésien, on met à jour ses croyances antérieures en utilisant les données obtenues dans une étude donnée. En principe, une étude qui serait considérée comme insuffisante du point de vue des tests d'hypothèses pourrait toujours être utilisée dans un tel processus de mise à jour. Cependant, la puissance reste une mesure utile de la mesure dans laquelle une taille d'expérience donnée peut affiner ses croyances. Il est peu probable qu'une étude de faible puissance conduise à un changement important dans les croyances.

Exemple

L'exemple suivant montre comment calculer la puissance d'une expérience randomisée : supposons que le but d'une expérience est d'étudier l'effet d'un traitement sur une certaine quantité et de comparer les sujets de recherche en mesurant la quantité avant et après le traitement, en analysant la données à l'aide d'un test t apparié . Soit et désignons respectivement les mesures de pré-traitement et de post-traitement sur le sujet . L'effet possible du traitement doit être visible dans les différences qui sont supposées être distribuées indépendamment, toutes avec la même valeur moyenne attendue et la même variance.

L'effet du traitement peut être analysé à l'aide d'un test t unilatéral. L'hypothèse nulle d'absence d'effet sera que la différence moyenne sera nulle, c'est-à-dire que dans ce cas, l'hypothèse alternative indique un effet positif, correspondant à La statistique de test est :

n est la taille de l'échantillon et l'erreur standard. La statistique de test sous l'hypothèse nulle suit une distribution t de Student avec l'hypothèse supplémentaire que les données sont distribuées de manière identique . De plus, supposons que l'hypothèse nulle sera rejetée au niveau de signification de Puisque n est grand, on peut approximer la distribution t par une distribution normale et calculer la valeur critique en utilisant la fonction quantile , l'inverse de la fonction de distribution cumulative de la distribution normale. Il s'avère que l'hypothèse nulle sera rejetée si

Supposons maintenant que l'hypothèse alternative est vraie et . Ensuite, la puissance est

Pour un grand n , suit approximativement une distribution normale standard lorsque l'hypothèse alternative est vraie, la puissance approximative peut être calculée comme

Selon cette formule, la puissance augmente avec les valeurs du paramètre Pour une valeur spécifique d' une puissance plus élevée peut être obtenue en augmentant la taille de l'échantillon n .

Il n'est pas possible de garantir une puissance suffisamment grande pour toutes les valeurs de as pouvant être très proche de 0. La valeur minimale ( infimum ) de la puissance est égale au niveau de confiance du test, dans cet exemple 0,05. Cependant, il n'est pas important de distinguer entre et de petites valeurs positives. S'il est souhaitable d'avoir suffisamment de puissance, disons au moins 0,90, pour détecter les valeurs de la taille d'échantillon requise, on peut calculer approximativement :

d'où il découle que

Par conséquent, en utilisant la fonction quantile

où est un quantile normal standard ; reportez-vous à l' article Probit pour une explication de la relation entre et les valeurs z.

Extension

Puissance bayésienne

Dans le cadre fréquentiste , les paramètres sont supposés avoir une valeur spécifique qui a peu de chance d'être vraie. Ce problème peut être résolu en supposant que le paramètre a une distribution. La puissance résultante est parfois appelée puissance bayésienne qui est couramment utilisée dans la conception d' essais cliniques .

Probabilité prédictive de succès

La puissance fréquentiste et la puissance bayésienne utilisent toutes deux la signification statistique comme critère de réussite. Cependant, la signification statistique n'est souvent pas suffisante pour définir le succès. Pour résoudre ce problème, le concept de puissance peut être étendu au concept de probabilité prédictive de succès (PPOS). Le critère de succès du PPOS n'est pas limité à la signification statistique et est couramment utilisé dans les conceptions d' essais cliniques .

Logiciel pour les calculs de puissance et de taille d'échantillon

De nombreux programmes gratuits et/ou open source sont disponibles pour effectuer des calculs de puissance et de taille d'échantillon. Ceux-ci inclus

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Analyse de puissance statistique en ligne gratuite ( https://webpower.psychstat.org )
  • Calculatrices en ligne gratuites et open source ( https://powerandsamplesize.com )
  • Mise sous tension ! fournit des fonctions pratiques basées sur Excel pour déterminer la taille d'effet détectable minimale et la taille d'échantillon minimale requise pour divers modèles expérimentaux et quasi-expérimentaux.
  • PowerUpR est la version du package R de PowerUp ! et comprend en outre des fonctions pour déterminer la taille de l'échantillon pour diverses expériences randomisées à plusieurs niveaux avec ou sans contraintes budgétaires.
  • R paquet pwr
  • Pack R WebPower
  • Paquet Python statsmodels ( https://www.statsmodels.org/ )

Voir également

Les références

Sources

  • Cohen, J. (1988). Analyse de puissance statistique pour les sciences du comportement (2e éd.). ISBN 0-8058-0283-5.
  • Aberson, CL (2010). Analyse de puissance appliquée pour la science du comportement . ISBN 1-84872-835-2.

Liens externes