Test F - F-test

Un test F est un test statistique dans lequel la statistique de test a une distribution F sous l' hypothèse nulle . Il est le plus souvent utilisé pour comparer des modèles statistiques qui ont été ajustés à un ensemble de données , afin d'identifier le modèle qui correspond le mieux à la population à partir de laquelle les données ont été échantillonnées. Les « tests F » exacts surviennent principalement lorsque les modèles ont été ajustés aux données en utilisant les moindres carrés . Le nom a été inventé par George W. Snedecor , en l'honneur de Sir Ronald A. Fisher . Fisher a initialement développé la statistique sous forme de ratio de variance dans les années 1920.

Exemples courants

Des exemples courants d'utilisation des tests F incluent l'étude des cas suivants:

De plus, certaines procédures statistiques, comme la méthode de Scheffé pour l'ajustement des comparaisons multiples dans les modèles linéaires, utilisent également des tests F.

F -test de l'égalité de deux variances

Le test F est sensible à la non-normalité . Dans l' analyse de la variance (Anova), d' autres tests incluent le test de Levene , le test de Bartlett , et le test de Brown-Forsythe . Cependant, lorsque l'un de ces tests est effectué pour tester l'hypothèse sous-jacente d' homoscédasticité ( c'est-à-dire l' homogénéité de la variance), comme étape préliminaire pour tester les effets moyens, il y a une augmentation du taux d' erreur de type I expérimental .

Formule et calcul

La plupart des tests F surviennent en considérant une décomposition de la variabilité d'une collection de données en termes de sommes de carrés . La statistique de test dans un F -test est le rapport de deux sommes de carrés mises à l'échelle reflétant différentes sources de variabilité. Ces sommes de carrés sont construites de telle sorte que la statistique a tendance à être plus grande lorsque l'hypothèse nulle n'est pas vraie. Pour que la statistique suive la distribution F sous l'hypothèse nulle, les sommes des carrés doivent être statistiquement indépendantes , et chacune doit suivre une distribution χ² mise à l'échelle . Cette dernière condition est garantie si les valeurs des données sont indépendantes et normalement distribuées avec une variance commune .

Problèmes d'ANOVA à comparaisons multiples

Le test F dans l'analyse unidirectionnelle de la variance est utilisé pour évaluer si les valeurs attendues d'une variable quantitative au sein de plusieurs groupes prédéfinis diffèrent les unes des autres. Par exemple, supposons qu'un essai médical compare quatre traitements. Le test ANOVA F peut être utilisé pour évaluer si l'un des traitements est en moyenne supérieur ou inférieur aux autres par rapport à l'hypothèse nulle que les quatre traitements donnent la même réponse moyenne. Ceci est un exemple de test «omnibus», ce qui signifie qu'un seul test est effectué pour détecter l'une de plusieurs différences possibles. Alternativement, nous pourrions effectuer des tests par paires parmi les traitements (par exemple, dans l'exemple d'essai médical avec quatre traitements, nous pourrions effectuer six tests parmi des paires de traitements). L'avantage du test ANOVA F est que nous n'avons pas besoin de pré-spécifier les traitements à comparer, et nous n'avons pas besoin d'ajuster pour faire des comparaisons multiples . L'inconvénient du test ANOVA F est que si nous rejetons l' hypothèse nulle , nous ne savons pas quels traitements peuvent être considérés comme significativement différents des autres, ni, si le test F est effectué au niveau α, nous ne pouvons pas dire que la paire de traitements avec la plus grande différence moyenne est significativement différente au niveau α.

La formule de la statistique du test ANOVA F à un facteur est

ou alors

La «variance expliquée», ou «variabilité inter-groupes» est

où désigne la moyenne de l' échantillon dans le i- ème groupe, est le nombre d'observations dans le i- ème groupe, dénote la moyenne globale des données et dénote le nombre de groupes.

La «variance inexpliquée», ou «variabilité intra-groupe» est

où est la j ème observation dans le i ème hors des groupes et la taille globale de l'échantillon. Cette F -statistique suit la F -distribution avec des degrés de liberté et sous l'hypothèse nulle. La statistique sera grande si la variabilité entre les groupes est grande par rapport à la variabilité à l'intérieur des groupes, ce qui est peu probable si les moyennes de population des groupes ont toutes la même valeur.

Notez que lorsqu'il n'y a que deux groupes pour le test F ANOVA unidirectionnel, où t est la statistique de Student .

Problèmes de régression

Considérons deux modèles, 1 et 2, où le modèle 1 est «imbriqué» dans le modèle 2. Le modèle 1 est le modèle restreint et le modèle 2 est le modèle sans restriction. Autrement dit, le modèle 1 a p 1 paramètres, et le modèle 2 a p 2 paramètres, où p 1  <  p 2 , et pour tout choix de paramètres dans le modèle 1, la même courbe de régression peut être obtenue par un certain choix des paramètres du modèle 2.

Un contexte courant à cet égard est celui de décider si un modèle correspond beaucoup mieux aux données qu'un modèle naïf, dans lequel le seul terme explicatif est le terme d'interception, de sorte que toutes les valeurs prédites pour la variable dépendante soient égales à celles de cette variable. moyenne de l'échantillon. Le modèle naïf est le modèle restreint, puisque les coefficients de toutes les variables explicatives potentielles sont limités à zéro.

Un autre contexte courant consiste à décider s'il y a une rupture structurelle dans les données: ici, le modèle restreint utilise toutes les données dans une régression, tandis que le modèle sans restriction utilise des régressions distinctes pour deux sous-ensembles différents des données. Cette utilisation du test F est connue sous le nom de test Chow .

Le modèle avec plus de paramètres sera toujours en mesure d'ajuster les données au moins aussi bien que le modèle avec moins de paramètres. Ainsi, typiquement, le modèle 2 donnera un meilleur ajustement (c'est-à-dire moins d'erreur) aux données que le modèle 1. Mais on veut souvent déterminer si le modèle 2 donne un ajustement significativement meilleur aux données. Une approche à ce problème consiste à utiliser un test F.

S'il y a n points de données à partir desquels estimer les paramètres des deux modèles, alors on peut calculer la statistique F , donnée par

où RSS i est la somme résiduelle des carrés du modèle i . Si le modèle de régression a été calculé avec des poids, remplacez RSS i par χ 2 , la somme pondérée des carrés des résidus. Sous l'hypothèse nulle que le modèle 2 ne fournit pas un ajustement significativement meilleur que le modèle 1, F aura une distribution F , avec ( p 2 - p 1 n - p 2 ) degrés de liberté . L'hypothèse nulle est rejetée si le F calculé à partir des données est supérieur à la valeur critique de la distribution F pour une certaine probabilité de faux rejet souhaitée (par exemple 0,05). Le test F est un test Wald .

Voir également

Les références

Lectures complémentaires

Liens externes