Rapport de corrélation - Correlation ratio

En statistique , le rapport de corrélation est une mesure de la relation curviligne entre la dispersion statistique au sein des catégories individuelles et la dispersion dans l'ensemble de la population ou de l'échantillon. La mesure est définie comme le rapport de deux écarts types représentant ces types de variation. Le contexte est ici le même que celui du coefficient de corrélation intraclasse , dont la valeur est le carré du rapport de corrélation.

Définition

Supposons que chaque observation soit y xix indique la catégorie dans laquelle se trouve l'observation et i est l'étiquette de l'observation particulière. Soit n x le nombre d'observations dans la catégorie x et

et

où est la moyenne de la catégorie x et est la moyenne de l'ensemble de la population. Le rapport de corrélation η ( eta ) est défini comme satisfaisant

qui peut s'écrire comme

c'est-à-dire la variance pondérée des moyennes de la catégorie divisée par la variance de tous les échantillons.

Si la relation entre les valeurs de et les valeurs de est linéaire (ce qui est certainement vrai lorsqu'il n'y a que deux possibilités pour x ) cela donnera le même résultat que le carré du coefficient de corrélation de Pearson ; sinon, le rapport de corrélation sera plus important. Il peut donc être utilisé pour juger des relations non linéaires.

Varier

Le rapport de corrélation prend des valeurs comprises entre 0 et 1. La limite représente le cas particulier de l'absence de dispersion entre les moyennes des différentes catégories, tandis que la limite renvoie à l'absence de dispersion au sein des catégories respectives. est indéfini lorsque tous les points de données de la population complète prennent la même valeur.

Exemple

Supposons qu'il existe une distribution des résultats des tests dans trois sujets (catégories) :

  • Algèbre : 45, 70, 29, 15 et 21 (5 notes)
  • Géométrie : 40, 20, 30 et 42 (4 scores)
  • Statistiques : 65, 95, 80, 70, 85 et 73 (6 scores).

Ensuite, les moyennes des sujets sont de 36, 33 et 78, avec une moyenne globale de 52.

Les sommes des carrés des différences par rapport aux moyennes des sujets sont de 1952 pour l'algèbre, 308 pour la géométrie et 600 pour les statistiques, ce qui donne 2860. La somme globale des carrés des différences par rapport à la moyenne globale est de 9640. La différence de 6780 entre celles-ci est aussi la somme pondérée des carrés des différences entre les moyennes des sujets et la moyenne globale :

Cela donne

suggérant que la majeure partie de la dispersion globale est le résultat de différences entre les sujets, plutôt qu'à l'intérieur des sujets. Prendre la racine carrée donne

Car la dispersion globale de l'échantillon est purement due à la dispersion entre les catégories et pas du tout à la dispersion au sein des catégories individuelles. Pour une compréhension rapide, imaginez simplement que tous les scores d'algèbre, de géométrie et de statistique sont les mêmes respectivement, par exemple 5 fois 36, 4 fois 33, 6 fois 78.

La limite se réfère au cas sans dispersion entre les catégories contribuant à la dispersion globale. L'exigence triviale pour cet extrême est que toutes les moyennes de catégorie soient les mêmes.

Pearson c. Fisher

Le rapport de corrélation a été introduit par Karl Pearson dans le cadre de l' analyse de la variance . Ronald Fisher a commenté :

En tant que statistique descriptive, l'utilité du rapport de corrélation est extrêmement limitée. On remarquera que le nombre de degrés de liberté au numérateur de dépend du nombre de tableaux

auquel Egon Pearson (le fils de Karl) a répondu en disant

Encore une fois, une méthode établie de longue date telle que l'utilisation du rapport de corrélation [§45 Le « rapport de corrélation » η] est passée en quelques mots sans description adéquate, ce qui n'est peut-être guère juste pour l'étudiant qui n'a pas la possibilité de juger de sa portée par lui-même.

Les références

  1. ^ Ronald Fisher (1926) Méthodes statistiques pour les chercheurs , ISBN  0-05-002170-2 (extrait)
  2. ^ Pearson ES (1926) "Examen des méthodes statistiques pour les chercheurs (RA Fisher)", Science Progress , 20, 733-734. (extrait)