Test du chi carré de Pearson - Pearson's chi-squared test

Le test du chi-carré de Pearson ( ) est un test statistique appliqué à des ensembles de données catégorielles pour évaluer la probabilité que toute différence observée entre les ensembles soit due au hasard. C'est le plus largement utilisé de nombreux tests du chi-carré (par exemple, Yates , rapport de vraisemblance , test portemanteau dans les séries chronologiques , etc.) – des procédures statistiques dont les résultats sont évalués par référence à la distribution du chi-carré . Ses propriétés ont été étudiées pour la première fois par Karl Pearson en 1900. Dans des contextes où il est important d'améliorer la distinction entre la statistique de testet sa distribution, des noms similaires au test ou à la statistique du -carré de Pearson sont utilisés.

Il teste une hypothèse nulle indiquant que la distribution de fréquence de certains événements observés dans un échantillon est cohérente avec une distribution théorique particulière. Les événements considérés doivent être mutuellement exclusifs et avoir une probabilité totale de 1. Un cas courant est celui où les événements couvrent chacun un résultat d'une variable catégorielle . Un exemple simple est l'hypothèse selon laquelle un à six faces ordinaires meurent est « juste » (i. E., Les six résultats sont tout aussi susceptibles de se produire.)

Définition

Le test du chi-carré de Pearson est utilisé pour évaluer trois types de comparaison : la qualité de l'ajustement , l' homogénéité et l' indépendance .

  • Un test de qualité de l'ajustement établit si une distribution de fréquence observée diffère d'une distribution théorique.
  • Un test d'homogénéité compare la distribution des dénombrements pour deux groupes ou plus en utilisant la même variable catégorielle (par exemple, choix d'activité - collège, armée, emploi, voyage - des diplômés d'une école secondaire déclaré un an après l'obtention du diplôme, trié par année d'obtention du diplôme, pour voir si le nombre de diplômés choisissant une activité donnée a changé d'une classe à l'autre, ou d'une décennie à l'autre).
  • Un test d'indépendance évalue si les observations consistant en des mesures sur deux variables, exprimées dans un tableau de contingence , sont indépendantes l'une de l'autre (par exemple, les réponses à un sondage de personnes de nationalités différentes pour voir si la nationalité d'une personne est liée à la réponse).

Pour les trois tests, la procédure de calcul comprend les étapes suivantes :

  1. Calculez la statistique de test du chi carré , , qui ressemble à une somme normalisée des écarts au carré entre les fréquences observées et théoriques (voir ci-dessous).
  2. Déterminez les degrés de liberté , df , de cette statistique.
    1. Pour un test de qualité de l'ajustement, df = Cats − Parms , où Cats est le nombre de catégories d'observations reconnues par le modèle, et Parms est le nombre de paramètres du modèle ajustés pour que le modèle corresponde au mieux aux observations : nombre de catégories réduit du nombre de paramètres ajustés dans la distribution.
    2. Pour un test d'homogénéité, df = (Rows − 1)×(Cols − 1) , où Rows correspond au nombre de catégories (ie lignes du tableau de contingence associé), et Cols correspond au nombre de groupes indépendants (ie colonnes dans le tableau de contingence associé).
    3. Pour un test d'indépendance, df = (Rows − 1)×(Cols − 1) , où dans ce cas, Rows correspond au nombre de catégories dans une variable, et Cols correspond au nombre de catégories dans la deuxième variable.
  3. Sélectionnez un niveau de confiance souhaité (niveau de signification , valeur p ou niveau alpha correspondant ) pour le résultat du test.
  4. Comparer à la valeur critique de la distribution chi-carré avec df degrés de liberté et le niveau de confiance sélectionné (unilatéral, puisque le test n'est que dans un sens, c'est-à-dire que la valeur de test est supérieure à la valeur critique ?), qui en de nombreux cas donne une bonne approximation de la distribution de .
  5. Maintenir ou rejeter l'hypothèse nulle selon laquelle la distribution de fréquence observée est la même que la distribution théorique selon que la statistique de test dépasse la valeur critique de . Si la statistique de test dépasse la valeur critique de , l'hypothèse nulle ( = il n'y a pas de différence entre les distributions) peut être rejetée, et l'hypothèse alternative ( = il y a une différence entre les distributions) peut être acceptée, toutes deux avec le niveau sélectionné de confiance. Si la statistique de test tombe en dessous de la valeur seuil , aucune conclusion claire ne peut être tirée et l'hypothèse nulle est maintenue (nous ne rejetons pas l'hypothèse nulle), bien qu'elle ne soit pas nécessairement acceptée.

Test d'ajustement d'une distribution

Distribution uniforme discrète

Dans ce cas, les observations sont réparties entre les cellules. Une application simple consiste à tester l'hypothèse selon laquelle, dans la population générale, les valeurs se produiraient dans chaque cellule avec une fréquence égale. La "fréquence théorique" pour toute cellule (sous l'hypothèse nulle d'une distribution uniforme discrète ) est donc calculée comme

et la réduction des degrés de liberté est , théoriquement parce que les fréquences observées sont contraintes de sommer à .

Un exemple spécifique de son application serait son application pour le test du log-rank.

Autres répartitions

Lorsqu'on teste si les observations sont des variables aléatoires dont la distribution appartient à une famille donnée de distributions, les "fréquences théoriques" sont calculées à l'aide d'une distribution de cette famille ajustée d'une manière standard. La réduction des degrés de liberté est calculée comme , où est le nombre de paramètres utilisés pour ajuster la distribution. Par exemple, lors de la vérification d'une distribution gamma généralisée à trois paramètres , , et lors de la vérification d'une distribution normale (où les paramètres sont la moyenne et l'écart type) , et lors de la vérification d'une distribution de Poisson (où le paramètre est la valeur attendue), . Ainsi, il y aura des degrés de liberté, où est le nombre de catégories.

Les degrés de liberté ne sont pas basés sur le nombre d'observations comme avec une loi t de Student ou une loi F . Par exemple, si l' essai pour une foire, à six côtés meurent , il y aurait cinq degrés de liberté parce qu'il ya six catégories ou paramètres (chaque numéro); le nombre de lancers de dé n'influence pas le nombre de degrés de liberté.

Calcul de la statistique de test

Distribution du chi carré , montrant X 2 sur l'axe des x et la valeur P sur l'axe des y.

La valeur de la statistique de test est

= Statistique de test cumulative de Pearson, qui approche asymptotiquement une distribution .
= le nombre d'observations de type i .
= nombre total d'observations
= le nombre attendu (théorique) de type i , affirmé par l'hypothèse nulle selon laquelle la fraction de type i dans la population est
= le nombre de cellules du tableau.

La statistique du chi-carré peut ensuite être utilisée pour calculer une valeur p en comparant la valeur de la statistique à une distribution du chi-carré . Le nombre de degrés de liberté est égal au nombre de cellules , moins la réduction des degrés de liberté, .

Le résultat concernant le nombre de degrés de liberté est valide lorsque les données d'origine sont multinomiales et que, par conséquent, les paramètres estimés sont efficaces pour minimiser la statistique du chi carré. Plus généralement cependant, lorsque l'estimation du maximum de vraisemblance ne coïncide pas avec l'estimation du chi-carré minimum, la distribution se situera quelque part entre une distribution du chi-carré avec et degrés de liberté (voir par exemple Chernoff et Lehmann, 1954).

Méthode bayésienne

En statistique bayésienne , on utiliserait plutôt une distribution de Dirichlet comme a priori conjugué . Si on a pris un a priori uniforme, alors l' estimation de vraisemblance maximale pour la probabilité de population est la probabilité observée, et on peut calculer une région crédible autour de cette estimation ou d'une autre.

Test d'indépendance statistique

Dans ce cas, une « observation » se compose des valeurs de deux résultats et l'hypothèse nulle est que l'occurrence de ces résultats est statistiquement indépendante . Chaque observation est affectée à une cellule d'un tableau bidimensionnel de cellules (appelé tableau de contingence ) en fonction des valeurs des deux résultats. S'il y a r lignes et c colonnes dans le tableau, la "fréquence théorique" d'une cellule, compte tenu de l'hypothèse d'indépendance, est

où est la taille totale de l'échantillon (la somme de toutes les cellules du tableau), et

est la fraction d'observations de type i sans tenir compte de l'attribut de colonne (fraction des totaux de ligne), et

est la fraction d'observations de type j ignorant l'attribut de ligne (fraction des totaux de colonne). Le terme « fréquences » fait référence à des nombres absolus plutôt qu'à des valeurs déjà normalisées.

La valeur de la statistique de test est

Notez que vaut 0 si et seulement si , c'est-à-dire seulement si le nombre attendu et le nombre réel d'observations sont égaux dans toutes les cellules.

L'ajustement du modèle d'« indépendance » réduit le nombre de degrés de liberté de p  =  r  +  c  − 1. Le nombre de degrés de liberté est égal au nombre de cellules rc , moins la réduction des degrés de liberté, p , ce qui réduit à ( r  − 1)( c  − 1).

Pour le test d'indépendance, également connu sous le nom de test d'homogénéité, une probabilité chi-carré inférieure ou égale à 0,05 (ou la statistique chi-carré étant égale ou supérieure au point critique de 0,05) est communément interprétée par les travailleurs appliqués comme justification du rejet de l'hypothèse nulle selon laquelle la variable de ligne est indépendante de la variable de colonne. L' hypothèse alternative correspond aux variables ayant une association ou une relation dont la structure de cette relation n'est pas précisée.

Hypothèses

Le test du chi-carré, lorsqu'il est utilisé avec l'approximation standard selon laquelle une distribution du chi-carré est applicable, repose sur les hypothèses suivantes :

Échantillon aléatoire simple
Les données de l'échantillon sont un échantillonnage aléatoire à partir d'une distribution ou d'une population fixe où chaque collection de membres de la population de la taille d'échantillon donnée a une probabilité égale de sélection. Des variantes du test ont été développées pour des échantillons complexes, tels que ceux où les données sont pondérées. D'autres formes peuvent être utilisées, telles que l' échantillonnage raisonné .
Taille de l'échantillon (table entière)
Un échantillon avec une taille suffisamment grande est supposé. Si un test du chi carré est effectué sur un échantillon de plus petite taille, le test du chi carré donnera une inférence inexacte. Le chercheur, en utilisant le test du chi carré sur de petits échantillons, pourrait finir par commettre une erreur de type II .
Nombre de cellules attendu
Nombres de cellules attendus adéquats. Certains nécessitent 5 ou plus, et d'autres nécessitent 10 ou plus. Une règle courante est 5 ou plus dans toutes les cellules d'un tableau 2 sur 2, et 5 ou plus dans 80 % des cellules des tableaux plus grands, mais aucune cellule avec un nombre attendu nul. Lorsque cette hypothèse n'est pas satisfaite, la correction de Yates est appliquée.
Indépendance
Les observations sont toujours supposées indépendantes les unes des autres. Cela signifie que le chi carré ne peut pas être utilisé pour tester des données corrélées (comme des paires appariées ou des données de panel). Dans ces cas, le test de McNemar peut être plus approprié.

Un test qui repose sur différentes hypothèses est le test exact de Fisher ; si son hypothèse de distributions marginales fixes est satisfaite, il est considérablement plus précis pour obtenir un niveau de signification, en particulier avec peu d'observations. Dans la grande majorité des applications, cette hypothèse ne sera pas satisfaite, et le test exact de Fisher sera trop prudent et n'aura pas une couverture correcte.

Dérivation

Dérivation à l'aide du théorème central limite

La distribution nulle de la statistique de Pearson avec j lignes et k colonnes est approchée par la distribution chi-carré avec ( k  − 1)( j  − 1) degrés de liberté.

Cette approximation se présente comme la vraie distribution, sous l'hypothèse nulle, si la valeur attendue est donnée par une distribution multinomiale . Pour les échantillons de grande taille, le théorème central limite dit que cette distribution tend vers une certaine distribution normale multivariée .

Deux cellules

Dans le cas particulier où il n'y a que deux cellules dans le tableau, les valeurs attendues suivent une distribution binomiale ,

p = probabilité, sous l'hypothèse nulle,
n = nombre d'observations dans l'échantillon.

Dans l'exemple ci-dessus, la probabilité hypothétique d'une observation masculine est de 0,5, avec 100 échantillons. On s'attend donc à observer 50 mâles.

Si n est suffisamment grand, la distribution binomiale ci-dessus peut être approximée par une distribution gaussienne (normale) et donc la statistique du test de Pearson se rapproche d'une distribution chi-carré,

Soit O 1 le nombre d'observations de l'échantillon qui se trouvent dans la première cellule. La statistique du test de Pearson peut être exprimée sous la forme

qui peut à son tour s'exprimer par

Par l'approximation normale d'un binôme, c'est le carré d'une variable normale standard, et est donc distribué comme chi-carré avec 1 degré de liberté. Notez que le dénominateur est un écart type de l'approximation gaussienne, donc peut être écrit

Ainsi, conformément à la signification de la distribution du chi carré, nous mesurons la probabilité que le nombre observé d'écarts-types par rapport à la moyenne soit sous l'approximation gaussienne (qui est une bonne approximation pour un grand n ).

La distribution du chi carré est ensuite intégrée à droite de la valeur statistique pour obtenir la valeur P , qui est égale à la probabilité d'obtenir une statistique égale ou supérieure à celle observée, en supposant l'hypothèse nulle.

Tableaux de contingence deux par deux

Lorsque le test est appliqué à un tableau de contingence contenant deux lignes et deux colonnes, le test équivaut à un test Z des proportions.

De nombreuses cellules

Des arguments globalement similaires à ceux ci-dessus conduisent au résultat souhaité, bien que les détails soient plus compliqués. On peut appliquer un changement orthogonal de variables pour transformer les sommes limites de la statistique de test en un carré de moins de variables aléatoires normales iid.

Montrons maintenant que la distribution se rapproche bien asymptotiquement de la distribution lorsque le nombre d'observations tend vers l'infini.

Soit le nombre d'observations, le nombre de cellules et la probabilité qu'une observation tombe dans la i-ème cellule, pour . Nous désignons par la configuration où pour chaque i il y a des observations dans la i-ème cellule. Noter que

Soit la statistique de test cumulative de Pearson pour une telle configuration, et soit la distribution de cette statistique. Nous montrerons que cette dernière probabilité se rapproche de la distribution avec des degrés de liberté, comme

Pour toute valeur arbitraire T :

Nous utiliserons une procédure similaire à l'approximation du théorème de Moivre–Laplace . Les contributions des petites sont d'ordre inférieur et donc pour les grandes, nous pouvons utiliser la formule de Stirling pour les deux et pour obtenir ce qui suit :

En remplaçant

nous pouvons approximer pour grand la somme sur le par une intégrale sur le . En notant que:

nous arrivons à

En développant le logarithme et en prenant les termes principaux dans , on obtient

Le chi de Pearson, , est précisément l'argument de l'exposant (sauf pour le -1/2 ; notez que le terme final de l'argument de l'exposant est égal à ).

Cet argument peut s'écrire ainsi :

est une matrice symétrique régulière , et donc diagonalisable . Il est donc possible de faire un changement linéaire de variables de manière à obtenir de nouvelles variables de sorte que :

Ce changement linéaire de variables multiplie simplement l'intégrale par une constante Jacobienne , nous obtenons donc :

Où C est une constante.

Il s'agit de la probabilité que la somme au carré des variables indépendantes normalement distribuées de moyenne nulle et de variance unitaire soit supérieure à T, c'est-à-dire qu'avec des degrés de liberté soit supérieure à T.

Nous avons ainsi montré qu'à la limite où la distribution du chi de Pearson se rapproche de la distribution du chi avec des degrés de liberté.

Exemples

Équité des dés

Un dé à 6 faces est lancé 60 fois. Le nombre de fois où il atterrit avec 1, 2, 3, 4, 5 et 6 face visible est de 5, 8, 9, 8, 10 et 20, respectivement. Le dé est-il biaisé, selon le test du chi carré de Pearson à un niveau de signification de 95 % et/ou 99 % ?

n = 6 car il y a 6 résultats possibles, 1 à 6. L'hypothèse nulle est que le dé est sans biais, donc chaque nombre devrait se produire le même nombre de fois, dans ce cas,60/m = 10. Les résultats peuvent être tabulés comme suit :

1 5 dix -5 25 2.5
2 8 dix -2 4 0,4
3 9 dix -1 1 0,1
4 8 dix -2 4 0,4
5 dix dix 0 0 0
6 20 dix dix 100 dix
Somme 13.4

Le nombre de degrés de liberté est n − 1 = 5. Le tableau des valeurs critiques de la partie supérieure de la distribution du chi carré donne une valeur critique de 11,070 à un niveau de signification de 95 % :

Degrés
de
liberté
Probabilité inférieure à la valeur critique
0,90 0,95 0,975 0.99 0,999
5 9.236 11.070 12.833 15.086 20.515

Comme la statistique du chi carré de 13,4 dépasse cette valeur critique, nous rejetons l'hypothèse nulle et concluons que le dé est biaisé à un niveau de signification de 95 %.

Au niveau de signification de 99 %, la valeur critique est de 15 086. Comme la statistique du chi carré ne la dépasse pas, nous ne rejetons pas l'hypothèse nulle et concluons donc qu'il n'y a pas suffisamment de preuves pour montrer que le dé est biaisé à un niveau de signification de 99 %.

Qualité de l'ajustement

Dans ce contexte, les fréquences des distributions théoriques et empiriques sont des nombres non normalisés, et pour un test du chi carré, les tailles totales d'échantillon de ces deux distributions (sommes de toutes les cellules des tableaux de contingence correspondants ) doivent être les mêmes.

Par exemple, pour tester l'hypothèse selon laquelle un échantillon aléatoire de 100 personnes a été tiré d'une population dans laquelle hommes et femmes sont de fréquence égale, le nombre observé d'hommes et de femmes serait comparé aux fréquences théoriques de 50 hommes et 50 femmes . S'il y avait 44 hommes dans l'échantillon et 56 femmes, alors

Si l'hypothèse nulle est vraie (c'est-à-dire que les hommes et les femmes sont choisis avec une probabilité égale), la statistique de test sera tirée d'une distribution chi-carré avec un degré de liberté (car si la fréquence masculine est connue, alors la fréquence féminine est déterminé).

La consultation de la distribution du chi carré pour 1 degré de liberté montre que la probabilité d'observer cette différence (ou une différence plus extrême que celle-ci) si les hommes et les femmes sont également nombreux dans la population est d'environ 0,23. Cette probabilité est plus élevée que les critères conventionnels de signification statistique (0,01 ou 0,05), donc normalement nous ne rejetterions pas l'hypothèse nulle selon laquelle le nombre d'hommes dans la population est le même que le nombre de femmes (c'est-à-dire que nous considérerions notre échantillon dans la fourchette de ce à quoi nous nous attendrions pour un ratio hommes/femmes de 50/50.)

Problèmes

L'approximation de la distribution chi-carré se décompose si les fréquences attendues sont trop faibles. Cela sera normalement acceptable tant que pas plus de 20 % des événements ont des fréquences attendues inférieures à 5. Lorsqu'il n'y a qu'un degré de liberté, l'approximation n'est pas fiable si les fréquences attendues sont inférieures à 10. Dans ce cas, une meilleure approximation peut être obtenu en réduisant la valeur absolue de chaque différence entre les fréquences observées et attendues de 0,5 avant élévation au carré ; c'est ce qu'on appelle la correction de Yates pour la continuité .

Dans les cas où la valeur attendue, E, s'avère faible (indiquant une faible probabilité de population sous-jacente et/ou un petit nombre d'observations), l'approximation normale de la distribution multinomiale peut échouer et, dans de tels cas, elle s'avère Il serait plus approprié d'utiliser le test G , une statistique de test basée sur le rapport de vraisemblance . Lorsque la taille totale de l'échantillon est petite, il est nécessaire d'utiliser un test exact approprié, généralement soit le test binomial, soit, pour les tableaux de contingence , le test exact de Fisher . Ce test utilise la distribution conditionnelle de la statistique de test compte tenu des totaux marginaux, et suppose donc que les marges ont été déterminées avant l'étude ; des alternatives telles que le test de Boschloo qui ne font pas cette hypothèse sont uniformément plus puissantes .

On peut montrer que le test est une approximation d'ordre faible du test. Les raisons ci-dessus pour les problèmes ci-dessus deviennent apparentes lorsque les termes d'ordre supérieur sont étudiés.

Voir également

Remarques

Les références