Erreur standard - Standard error

Pour une valeur échantillonnée avec une erreur normalement distribuée non biaisée , ce qui précède décrit la proportion d'échantillons qui se situeraient entre 0, 1, 2 et 3 écarts types au-dessus et en dessous de la valeur réelle.

L' erreur type ( SE ) d'une statistique (généralement une estimation d'un paramètre ) est l' écart type de sa distribution d'échantillonnage ou une estimation de cet écart type. Si la statistique est la moyenne de l'échantillon, elle est appelée erreur standard de la moyenne ( SEM ).

La distribution d'échantillonnage d'une moyenne est générée par un échantillonnage répété à partir de la même population et l'enregistrement des moyennes d'échantillon obtenues. Cela forme une distribution de différentes moyennes, et cette distribution a sa propre moyenne et sa propre variance . Mathématiquement, la variance de la distribution d'échantillonnage obtenue est égale à la variance de la population divisée par la taille de l'échantillon. En effet, à mesure que la taille de l'échantillon augmente, les moyennes de l'échantillon se regroupent plus étroitement autour de la moyenne de la population.

Par conséquent, la relation entre l'erreur type de la moyenne et l'écart type est telle que, pour une taille d'échantillon donnée, l'erreur type de la moyenne est égale à l'écart type divisé par la racine carrée de la taille de l'échantillon. En d'autres termes, l'erreur type de la moyenne est une mesure de la dispersion des moyennes de l'échantillon autour de la moyenne de la population.

Dans l'analyse de régression , le terme « erreur type » fait référence soit à la racine carrée de la statistique chi-carré réduite , soit à l'erreur type pour un coefficient de régression particulier (tel qu'il est utilisé, par exemple, dans les intervalles de confiance ).

Erreur standard de la moyenne

Valeur exacte

Si un échantillon d' observations statistiquement indépendant est tiré d'une population statistique avec un écart type de , alors la valeur moyenne calculée à partir de l'échantillon aura une erreur type associée sur la moyenne donnée par :

.

En pratique, cela nous indique que lorsqu'on essaie d'estimer la valeur d'une moyenne de population, en raison du facteur , réduire l'erreur sur l'estimation par un facteur de deux nécessite d'acquérir quatre fois plus d'observations dans l'échantillon ; la réduire d'un facteur dix nécessite cent fois plus d'observations.

Estimation

L'écart type de la population échantillonnée est rarement connu. Par conséquent, l'erreur type de la moyenne est généralement estimée en remplaçant plutôt par l' écart type de l' échantillon :

.

Comme il ne s'agit que d'un estimateur de la véritable "erreur standard", il est courant de voir ici d'autres notations telles que :

ou alternativement .

Une source fréquente de confusion survient lorsqu'on ne distingue pas clairement entre l'écart type de la population ( ), l'écart type de l' échantillon ( ), l'écart type de la moyenne elle - même ( , qui est l'erreur type) et l' estimateur de l'écart type de la moyenne ( , qui est la quantité la plus souvent calculée, et est aussi souvent appelée familièrement l' erreur type ).

Précision de l'estimateur

Lorsque la taille de l'échantillon est petite, l'utilisation de l'écart-type de l'échantillon au lieu du véritable écart-type de la population aura tendance à sous-estimer systématiquement l'écart-type de la population, et donc aussi l'erreur-type. Avec n = 2, la sous-estimation est d'environ 25 %, mais pour n = 6, la sous-estimation n'est que de 5 %. Gurland et Tripathi (1971) fournissent une correction et une équation pour cet effet. Sokal et Rohlf (1981) donnent une équation du facteur de correction pour les petits échantillons de n < 20. Voir l' estimation sans biais de l'écart type pour une discussion plus approfondie.

Dérivation

L'erreur standard sur la moyenne peut être dérivée de la variance d'une somme de variables aléatoires indépendantes, compte tenu de la définition de la variance et de certaines propriétés simples de celle-ci. Si sont des observations indépendantes d'une population avec une moyenne et un écart-type , alors nous pouvons définir le total

qui en raison de la formule de Bienaymé , aura une variance

La moyenne de ces mesures est simplement donnée par

.

La variance de la moyenne est alors

L'erreur type est, par définition, dont l'écart type est simplement la racine carrée de la variance :

.

Pour les variables aléatoires corrélées, la variance de l'échantillon doit être calculée selon le théorème central limite de la chaîne de Markov .

Variables aléatoires indépendantes et distribuées de manière identique avec une taille d'échantillon aléatoire

Il y a des cas où un échantillon est prélevé sans savoir, à l'avance, combien d'observations seront acceptables selon un certain critère. Dans de tels cas, la taille de l'échantillon est une variable aléatoire dont la variation s'ajoute à la variation de telle que,

Si a une distribution de Poisson , alors avec estimateur . Par conséquent, l'estimateur de devient , conduisant à la formule suivante pour l'erreur type :

(puisque l'écart type est la racine carrée de la variance)

Approximation de l' élève lorsque σ valeur est inconnue

Dans de nombreuses applications pratiques, la vraie valeur de σ est inconnue. Par conséquent, nous avons besoin d'utiliser une distribution qui tient compte du fait que la propagation de possibles σ » s. Lorsque la vraie distribution sous-jacente est connue pour être gaussienne, bien qu'avec σ inconnu, la distribution estimée résultante suit la distribution t de Student. L'erreur type est l'écart type de la loi t de Student. Les distributions T sont légèrement différentes de gaussiennes et varient en fonction de la taille de l'échantillon. Les petits échantillons sont un peu plus susceptibles de sous-estimer l'écart type de la population et d'avoir une moyenne qui diffère de la vraie moyenne de la population, et la loi t de Student tient compte de la probabilité de ces événements avec des queues un peu plus lourdes par rapport à une gaussienne. Pour estimer l'erreur type d'une distribution t des élèves , il suffit d'utiliser l'écart - type échantillon « s » au lieu de σ , et nous pourrions utiliser cette valeur pour calculer les intervalles de confiance.

Remarque : La distribution de probabilité de Student est bien approchée par la distribution gaussienne lorsque la taille de l'échantillon est supérieure à 100. Pour de tels échantillons, on peut utiliser cette dernière distribution, qui est beaucoup plus simple.

Hypothèses et utilisation

Un exemple de la façon dont est utilisé est de faire des intervalles de confiance de la moyenne de population inconnue. Si la distribution d'échantillonnage est distribuée normalement , la moyenne de l'échantillon, l'erreur standard et les quantiles de la distribution normale peuvent être utilisés pour calculer les intervalles de confiance pour la vraie moyenne de la population. Les expressions suivantes peuvent être utilisées pour calculer les limites de confiance supérieure et inférieure à 95 %, où est égal à la moyenne de l'échantillon, est égal à l'erreur type pour la moyenne de l'échantillon et 1,96 est la valeur approximative du 97,5 centile de la normale. diffusion :

Limite supérieure de 95 % et
Limite inférieure de 95 %

En particulier, l'erreur type d'une statistique d'échantillon (telle que la moyenne de l'échantillon ) est l'écart type réel ou estimé de la moyenne de l'échantillon dans le processus par lequel elle a été générée. En d'autres termes, il s'agit de l'écart type réel ou estimé de la distribution d'échantillonnage de la statistique d'échantillon. La notation de l'erreur standard peut être l'une de SE, SEM (pour erreur standard de mesure ou moyenne ) ou S E .

Les erreurs types fournissent des mesures simples de l'incertitude d'une valeur et sont souvent utilisées parce que :

Erreur type de la moyenne par rapport à l'écart type

Dans la littérature scientifique et technique, les données expérimentales sont souvent résumées soit en utilisant la moyenne et l'écart type des données de l'échantillon, soit la moyenne avec l'erreur type. Cela conduit souvent à une confusion quant à leur interchangeabilité. Cependant, la moyenne et l'écart type sont des statistiques descriptives , tandis que l'erreur type de la moyenne est descriptive du processus d'échantillonnage aléatoire. L'écart type des données de l'échantillon est une description de la variation des mesures, tandis que l'erreur type de la moyenne est une déclaration probabiliste sur la façon dont la taille de l'échantillon fournira une meilleure limite sur les estimations de la moyenne de la population, à la lumière de la limite centrale théorème.

En termes simples, l' erreur type de la moyenne de l'échantillon est une estimation de la distance probable entre la moyenne de l'échantillon et la moyenne de la population, tandis que l' écart type de l'échantillon est le degré auquel les individus de l'échantillon diffèrent de la moyenne de l'échantillon. Si l'écart type de la population est fini, l'erreur type de la moyenne de l'échantillon tendra vers zéro avec l'augmentation de la taille de l'échantillon, car l'estimation de la moyenne de la population s'améliorera, tandis que l'écart type de l'échantillon aura tendance à se rapprocher de la norme de la population écart à mesure que la taille de l'échantillon augmente.

Rallonges

Correction de population finie (FPC)

La formule donnée ci-dessus pour l'erreur type suppose que la taille de l'échantillon est beaucoup plus petite que la taille de la population, de sorte que la population peut être considérée comme étant effectivement de taille infinie. C'est généralement le cas même avec des populations finies, car la plupart du temps, les gens sont principalement intéressés par la gestion des processus qui ont créé la population finie existante ; c'est ce qu'on appelle une étude analytique , à la suite de W. Edwards Deming . Si les gens sont intéressés par la gestion d'une population finie existante qui ne changera pas avec le temps, il est alors nécessaire de s'adapter à la taille de la population ; c'est ce qu'on appelle une étude énumérative .

Lorsque la fraction d'échantillonnage (souvent appelée f ) est importante (environ 5 % ou plus) dans une étude énumérative , l'estimation de l'erreur type doit être corrigée en multipliant par une « correction de population finie » (alias : fpc ) :

qui, pour un grand N :

pour tenir compte de la précision supplémentaire obtenue en échantillonnant près d'un pourcentage plus élevé de la population. L'effet du FPC est que l'erreur devient nulle lorsque la taille de l'échantillon n est égale à la taille de la population N .

Cela se produit dans la méthodologie d'enquête lors de l'échantillonnage sans remise . Si l'échantillonnage avec remplacement, alors FPC n'entre pas en jeu.

Correction pour corrélation dans l'échantillon

Erreur attendue dans la moyenne de A pour un échantillon de n points de données avec un coefficient de biais d'échantillon  ρ . L' erreur standard sans biais est représentée par la  ligne diagonale ρ = 0 avec une pente log-log −½.

Si les valeurs de la quantité mesurée A ne sont pas statistiquement indépendantes mais ont été obtenues à partir d'emplacements connus dans l'espace des paramètres  x , une estimation non biaisée de la véritable erreur standard de la moyenne (en fait une correction sur la partie de l'écart type) peut être obtenue en multipliant le erreur type calculée de l'échantillon par le facteur  f :

où le coefficient de biais d'échantillon ρ est l' estimation de Prais-Winsten largement utilisée du -coefficient d' autocorrélation (une quantité comprise entre -1 et +1) pour toutes les paires de points d'échantillon. Cette formule approximative s'applique aux échantillons de taille moyenne à grande; la référence donne les formules exactes pour n'importe quelle taille d'échantillon et peut être appliquée à des séries chronologiques fortement autocorrélées comme les cotations boursières de Wall Street. De plus, cette formule fonctionne aussi bien pour positif que négatif. Voir également l' estimation sans biais de l'écart type pour plus de détails.

Voir également

Les références