Dispersion statistique - Statistical dispersion
En statistiques , la dispersion (également appelée variabilité , dispersion ou propagation ) est la mesure dans laquelle une distribution est étirée ou comprimée. Des exemples courants de mesures de dispersion statistique sont la variance , l' écart-type et l' intervalle interquartile .
La dispersion est contrastée avec l'emplacement ou la tendance centrale , et ensemble, ce sont les propriétés les plus utilisées des distributions.
Les mesures
Une mesure de la dispersion statistique est un nombre réel non négatif qui est nul si toutes les données sont identiques et augmente à mesure que les données deviennent plus diverses.
La plupart des mesures de dispersion ont les mêmes unités que la quantité mesurée. En d'autres termes, si les mesures sont en mètres ou en secondes, la mesure de dispersion l'est aussi. Voici des exemples de mesures de dispersion :
- Écart-type
- Plage interquartile (IQR)
- Varier
- Différence absolue moyenne (également appelée différence absolue moyenne de Gini)
- Déviation absolue médiane (MAD)
- Écart moyen absolu (ou simplement appelé écart moyen)
- Écart type de distance
Ceux-ci sont fréquemment utilisés (avec les facteurs d'échelle ) comme estimateurs de paramètres d'échelle , dans lesquels ils sont appelés estimations d'échelle. Les mesures d'échelle robustes sont celles qui ne sont pas affectées par un petit nombre de valeurs aberrantes et incluent l'IQR et le MAD.
Toutes les mesures de dispersion statistique ci-dessus ont la propriété utile d'être invariantes en fonction de l'emplacement et d'échelle linéaire . Cela signifie que si une variable aléatoire X a une dispersion de S X alors une transformation linéaire Y = aX + b pour les réels a et b devrait avoir une dispersion S Y = | un | S X , où | un | est la valeur absolue de a , c'est-à-dire qu'elle ignore un signe négatif précédent – .
D'autres mesures de dispersion sont sans dimension . En d'autres termes, ils n'ont pas d'unités même si la variable elle-même a des unités. Ceux-ci inclus:
- Coefficient de variation
- Coefficient de dispersion quartile
- Différence moyenne relative , égale à deux fois le coefficient de Gini
- Entropie : Alors que l'entropie d'une variable discrète est invariante de localisation et indépendante de l'échelle, et donc pas une mesure de dispersion dans le sens ci-dessus, l'entropie d'une variable continue est invariante de localisation et additive en échelle : Si Hz est l'entropie de variable continue z et z =ax+b , puis Hz=Hx+log(a) .
Il existe d'autres mesures de dispersion :
- Variance (le carré de l'écart type) - invariant en fonction de l'emplacement mais pas linéaire en échelle.
- Rapport variance/moyenne - principalement utilisé pour les données de comptage lorsque le terme coefficient de dispersion est utilisé et lorsque ce rapport est sans dimension , car les données de comptage sont elles-mêmes sans dimension, pas autrement.
Certaines mesures de dispersion ont des objectifs particuliers. La variance d'Allan peut être utilisée pour les applications où le bruit perturbe la convergence. La variance Hadamard peut être utilisée pour contrer la sensibilité à la dérive de fréquence linéaire.
Pour les variables catégorielles , il est moins courant de mesurer la dispersion par un seul nombre ; voir variation qualitative . Une mesure qui le fait est l' entropie discrète .
Sources
En sciences physiques , une telle variabilité peut résulter d'erreurs de mesure aléatoires : les mesures des instruments ne sont souvent pas parfaitement précises, c'est-à-dire reproductibles , et il existe une variabilité supplémentaire entre les évaluateurs dans l'interprétation et la communication des résultats mesurés. On peut supposer que la quantité mesurée est stable et que la variation entre les mesures est due à une erreur d'observation . Un système d'un grand nombre de particules est caractérisé par les valeurs moyennes d'un nombre relativement petit de grandeurs macroscopiques telles que la température, l'énergie et la densité. L'écart type est une mesure importante dans la théorie des fluctuations, qui explique de nombreux phénomènes physiques, notamment pourquoi le ciel est bleu.
En sciences biologiques , la quantité mesurée est rarement immuable et stable, et la variation observée peut en outre être intrinsèque au phénomène : elle peut être due à une variabilité interindividuelle , c'est-à-dire à des membres distincts d'une population qui diffèrent les uns des autres. De plus, cela peut être dû à une variabilité intra-individuelle , c'est-à-dire un même sujet différant par des tests passés à des moments différents ou dans d'autres conditions différentes. De tels types de variabilité sont également observés dans le domaine des produits manufacturés ; même là, le scientifique méticuleux trouve des variations.
En économie , en finance et dans d'autres disciplines, l'analyse de régression tente d'expliquer la dispersion d'une variable dépendante , généralement mesurée par sa variance, en utilisant une ou plusieurs variables indépendantes dont chacune a elle-même une dispersion positive. La fraction de variance expliquée est appelée coefficient de détermination .
Un ordre partiel de dispersion
Un étalement préservant la moyenne (MPS) est un changement d'une distribution de probabilité A à une autre distribution de probabilité B, où B est formé en étalant une ou plusieurs parties de la fonction de densité de probabilité de A tout en laissant la moyenne (la valeur attendue) inchangée. Le concept d'écart préservant la moyenne fournit un classement partiel des distributions de probabilité en fonction de leurs dispersions : de deux distributions de probabilité, l'une peut être classée comme ayant plus de dispersion que l'autre, ou bien aucune ne peut être classée comme ayant plus de dispersion.
Voir également
- Moyenne
- Dispersion circulaire
- Variation qualitative
- Incertitude des mesures
- Mesures d'échelle robustes
- Statistiques récapitulatives