Analyse de covariance - Analysis of covariance

L'analyse de covariance ( ANCOVA ) est un modèle linéaire général qui mélange ANOVA et régression . ANCOVA évalue si le moyen d'une variable dépendante (DV) sont égales entre les niveaux d'une catégorique variable indépendante (IV) , appelé souvent un traitement, tout en contrôlant statistiquement les effets des autres variables continues qui ne sont pas d' un intérêt primordial, appelés covariables ( CV) ou des variables de nuisance. Mathématiquement, ANCOVA décompose la variance de la DV en variance expliquée par le(s) CV(s), variance expliquée par l'IV catégorique et variance résiduelle. Intuitivement, ANCOVA peut être considéré comme « ajustant » la DV par les moyens de groupe du ou des CV.

Le modèle ANCOVA suppose une relation linéaire entre la réponse (DV) et la covariable (CV) :

Dans cette équation, la DV est la jième observation sous le ième groupe catégoriel ; le CV, est la j ème observation de la covariable sous le i ème groupe. Les variables du modèle dérivées des données observées sont (la moyenne générale) et (la moyenne globale pour la covariable ). Les variables à ajuster sont (l'effet du i ème niveau de l'IV), (la pente de la droite) et (le terme d'erreur non observé associé pour la j ème observation dans le i ème groupe).

Selon cette spécification, la somme des effets du traitement catégorique est nulle. Les hypothèses standard du modèle de régression linéaire sont également supposées être vérifiées, comme indiqué ci-dessous.

Les usages

Augmenter la puissance

L'ANCOVA peut être utilisée pour augmenter la puissance statistique (la probabilité qu'une différence significative soit trouvée entre les groupes lorsqu'il en existe une) en réduisant la variance d' erreur au sein du groupe . Pour comprendre cela, il est nécessaire de comprendre le test utilisé pour évaluer les différences entre les groupes, le F-test . Le test F est calculé en divisant la variance expliquée entre les groupes (par exemple, les différences de récupération médicale) par la variance inexpliquée au sein des groupes. Ainsi,

Si cette valeur est supérieure à une valeur critique, nous concluons qu'il existe une différence significative entre les groupes. La variance inexpliquée comprend la variance d'erreur (par exemple, les différences individuelles), ainsi que l'influence d'autres facteurs. Par conséquent, l'influence des CV est regroupée dans le dénominateur. Lorsque nous contrôlons l'effet des CV sur le DV, nous le supprimons du dénominateur , ce qui augmente F plus grand, augmentant ainsi votre pouvoir de trouver un effet significatif s'il en existe un.

Variation de partitionnement

Ajuster les différences préexistantes

Une autre utilisation de l'ANCOVA consiste à ajuster les différences préexistantes dans les groupes non équivalents (intacts). Cette application controversée vise à corriger les différences de groupe initiales (avant l'attribution du groupe) qui existent sur DV parmi plusieurs groupes intacts. Dans cette situation, les participants ne peuvent pas être rendus égaux par l'assignation aléatoire, de sorte que les CV sont utilisés pour ajuster les scores et rendre les participants plus similaires que sans CV. Cependant, même avec l'utilisation de covariables, il n'existe aucune technique statistique qui puisse assimiler des groupes inégaux. De plus, le CV peut être si intimement lié à l'IV que la suppression de la variance sur la DV associée au CV supprimerait une variance considérable sur la DV, rendant les résultats dénués de sens.

Hypothèses

Plusieurs hypothèses clés sous-tendent l'utilisation de l'ANCOVA et affectent l'interprétation des résultats. Les hypothèses de régression linéaire standard sont valables ; en outre, nous supposons que la pente de la covariable est égale dans tous les groupes de traitement (homogénéité des pentes de régression).

Hypothèse 1 : linéarité de la régression

La relation de régression entre la variable dépendante et les variables concomitantes doit être linéaire.

Hypothèse 2 : homogénéité des variances d'erreur

L'erreur est une variable aléatoire avec une moyenne conditionnelle nulle et des variances égales pour différentes classes de traitement et observations.

Hypothèse 3 : indépendance des termes d'erreur

Les erreurs ne sont pas corrélées. C'est-à-dire que la matrice de covariance d'erreur est diagonale.

Homogénéité des pentes de régression.png

Hypothèse 4 : normalité des termes d'erreur

Les résidus (termes d'erreur) doivent être normalement distribués ~ .

Hypothèse 5 : homogénéité des pentes de régression

Les pentes des différentes droites de régression doivent être équivalentes, c'est-à-dire que les droites de régression doivent être parallèles entre les groupes.

Le cinquième problème, concernant l'homogénéité des différentes pentes de régression de traitement, est particulièrement important pour évaluer la pertinence du modèle ANCOVA. Notez également que nous avons seulement besoin que les termes d'erreur soient normalement distribués. En fait, la variable indépendante et les variables concomitantes ne seront pas normalement distribuées dans la plupart des cas.

Conduire une ANCOVA

Tester la multicolinéarité

Si un CV est fortement lié à un autre CV (à une corrélation de 0,5 ou plus), alors il n'ajustera pas la DV au-dessus de l'autre CV. L'un ou l'autre devrait être supprimé car ils sont statistiquement redondants.

Tester l'hypothèse d'homogénéité de la variance

Testé par le test d'égalité des variances d'erreur de Levene . C'est le plus important après que les ajustements aient été faits, mais si vous l'avez avant l'ajustement, vous l'aurez probablement après.

Tester l'hypothèse d'homogénéité des pentes de régression

Pour voir si le CV interagit de manière significative avec le IV, exécutez un modèle ANCOVA comprenant à la fois le terme d'interaction IV et CVxIV. Si l'interaction CVxIV est significative, l'ANCOVA ne doit pas être réalisée. Au lieu de cela, Green & Salkind suggèrent d'évaluer les différences de groupe sur le DV à des niveaux particuliers du CV. Envisagez également d'utiliser une analyse de régression modérée , en traitant le CV et son interaction comme une autre IV. Alternativement, on pourrait utiliser des analyses de médiation pour déterminer si le CV explique l'effet de l'IV sur le DV.

Exécuter l'analyse ANCOVA

Si l'interaction CV×IV n'est pas significative, réexécutez l'ANCOVA sans le terme d'interaction CV×IV. Dans cette analyse, vous devez utiliser les moyennes ajustées et l'erreur MS ajustée. Les moyennes ajustées (également appelées moyennes des moindres carrés, moyennes LS, moyennes marginales estimées ou EMM) se réfèrent aux moyennes du groupe après contrôle de l'influence du CV sur la DV.

Graphique simple des effets principaux montrant une petite interaction entre les deux niveaux de la variable indépendante.

Analyses de suivi

S'il y avait un effet principal significatif , cela signifie qu'il y a une différence significative entre les niveaux d'un IV, en ignorant tous les autres facteurs. Pour trouver exactement quels niveaux sont significativement différents les uns des autres, on peut utiliser les mêmes tests de suivi que pour l'ANOVA. S'il y a deux IV ou plus, il peut y avoir une interaction significative , ce qui signifie que l'effet d'un IV sur la VD change en fonction du niveau d'un autre facteur. On peut étudier les effets principaux simples en utilisant les mêmes méthodes que dans une ANOVA factorielle .

Considérations de puissance

Alors que l'inclusion d'une covariable dans une ANOVA augmente généralement la puissance statistique en prenant en compte une partie de la variance dans la variable dépendante et donc en augmentant le rapport de variance expliqué par les variables indépendantes, l'ajout d'une covariable dans l'ANOVA réduit également les degrés de liberté . Par conséquent, l'ajout d'une covariable qui représente très peu de variance dans la variable dépendante pourrait en fait réduire la puissance.

Voir également

  • MANCOVA (Analyse multivariée de covariance)

Les références

Liens externes