Dispersion statistique - Statistical dispersion

Exemple d'échantillons de deux populations avec la même moyenne mais une dispersion différente. La population bleue est beaucoup plus dispersée que la population rouge.

En statistiques , la dispersion (également appelée variabilité , dispersion ou propagation ) est la mesure dans laquelle une distribution est étirée ou comprimée. Des exemples courants de mesures de dispersion statistique sont la variance , l' écart-type et l' intervalle interquartile .

La dispersion est contrastée avec l'emplacement ou la tendance centrale , et ensemble, ce sont les propriétés les plus utilisées des distributions.

Les mesures

Une mesure de la dispersion statistique est un nombre réel non négatif qui est nul si toutes les données sont identiques et augmente à mesure que les données deviennent plus diverses.

La plupart des mesures de dispersion ont les mêmes unités que la quantité mesurée. En d'autres termes, si les mesures sont en mètres ou en secondes, la mesure de dispersion l'est aussi. Voici des exemples de mesures de dispersion :

Ceux-ci sont fréquemment utilisés (avec les facteurs d'échelle ) comme estimateurs de paramètres d'échelle , dans lesquels ils sont appelés estimations d'échelle. Les mesures d'échelle robustes sont celles qui ne sont pas affectées par un petit nombre de valeurs aberrantes et incluent l'IQR et le MAD.

Toutes les mesures de dispersion statistique ci-dessus ont la propriété utile d'être invariantes en fonction de l'emplacement et d'échelle linéaire . Cela signifie que si une variable aléatoire X a une dispersion de S X alors une transformation linéaire Y  =  aX  +  b pour les réels a et b devrait avoir une dispersion S Y  = | un | S X , où | un | est la valeur absolue de a , c'est-à-dire qu'elle ignore un signe négatif précédent .

D'autres mesures de dispersion sont sans dimension . En d'autres termes, ils n'ont pas d'unités même si la variable elle-même a des unités. Ceux-ci inclus:

Il existe d'autres mesures de dispersion :

Certaines mesures de dispersion ont des objectifs particuliers. La variance d'Allan peut être utilisée pour les applications où le bruit perturbe la convergence. La variance Hadamard peut être utilisée pour contrer la sensibilité à la dérive de fréquence linéaire.

Pour les variables catégorielles , il est moins courant de mesurer la dispersion par un seul nombre ; voir variation qualitative . Une mesure qui le fait est l' entropie discrète .

Sources

En sciences physiques , une telle variabilité peut résulter d'erreurs de mesure aléatoires : les mesures des instruments ne sont souvent pas parfaitement précises, c'est-à-dire reproductibles , et il existe une variabilité supplémentaire entre les évaluateurs dans l'interprétation et la communication des résultats mesurés. On peut supposer que la quantité mesurée est stable et que la variation entre les mesures est due à une erreur d'observation . Un système d'un grand nombre de particules est caractérisé par les valeurs moyennes d'un nombre relativement petit de grandeurs macroscopiques telles que la température, l'énergie et la densité. L'écart type est une mesure importante dans la théorie des fluctuations, qui explique de nombreux phénomènes physiques, notamment pourquoi le ciel est bleu.

En sciences biologiques , la quantité mesurée est rarement immuable et stable, et la variation observée peut en outre être intrinsèque au phénomène : elle peut être due à une variabilité interindividuelle , c'est-à-dire à des membres distincts d'une population qui diffèrent les uns des autres. De plus, cela peut être dû à une variabilité intra-individuelle , c'est-à-dire un même sujet différant par des tests passés à des moments différents ou dans d'autres conditions différentes. De tels types de variabilité sont également observés dans le domaine des produits manufacturés ; même là, le scientifique méticuleux trouve des variations.

En économie , en finance et dans d'autres disciplines, l'analyse de régression tente d'expliquer la dispersion d'une variable dépendante , généralement mesurée par sa variance, en utilisant une ou plusieurs variables indépendantes dont chacune a elle-même une dispersion positive. La fraction de variance expliquée est appelée coefficient de détermination .

Un ordre partiel de dispersion

Un étalement préservant la moyenne (MPS) est un changement d'une distribution de probabilité A à une autre distribution de probabilité B, où B est formé en étalant une ou plusieurs parties de la fonction de densité de probabilité de A tout en laissant la moyenne (la valeur attendue) inchangée. Le concept d'écart préservant la moyenne fournit un classement partiel des distributions de probabilité en fonction de leurs dispersions : de deux distributions de probabilité, l'une peut être classée comme ayant plus de dispersion que l'autre, ou bien aucune ne peut être classée comme ayant plus de dispersion.

Voir également

Les références