Indice de dispersion - Index of dispersion

Dans la théorie des probabilités et statistiques , l' indice de dispersion , l' indice de dispersion, le coefficient de dispersion, variance relative , ou variance à moyenne rapport (VMR) , comme le coefficient de variation , est normalisée mesure de la dispersion d'une distribution de probabilité : c'est une mesure utilisée pour quantifier si un ensemble d'occurrences observées est groupé ou dispersé par rapport à un modèle statistique standard.

Il est défini comme le rapport de la variance à la moyenne ,

Il est également connu sous le nom de facteur Fano , bien que ce terme soit parfois réservé aux données fenêtrées (la moyenne et la variance sont calculées sur une sous-population), où l'indice de dispersion est utilisé dans le cas particulier où la fenêtre est infinie. Le fenêtrage des données est fréquemment effectué: le VMR est fréquemment calculé sur divers intervalles dans le temps ou sur de petites régions de l'espace, que l'on peut appeler des «fenêtres», et la statistique qui en résulte est appelée le facteur Fano.

Il n'est défini que lorsque la moyenne est différente de zéro et n'est généralement utilisé que pour les statistiques positives, telles que les données de comptage ou le temps entre les événements, ou lorsque la distribution sous-jacente est supposée être la distribution exponentielle ou la distribution de Poisson .

Terminologie

Dans ce contexte, le jeu de données observé peut être constitué des moments d'occurrence d'événements prédéfinis, tels que les tremblements de terre dans une région donnée sur une magnitude donnée, ou des emplacements dans l'espace géographique des plantes d'une espèce donnée. Les détails de ces occurrences sont d'abord convertis en comptes du nombre d'événements ou d'occurrences dans chacune d'un ensemble de régions temporelles ou spatiales de taille égale.

Ce qui précède définit un indice de dispersion pour les comptages . Une définition différente s'applique pour un indice de dispersion des intervalles , où les quantités traitées sont les longueurs des intervalles de temps entre les événements. L'usage courant est que «indice de dispersion» signifie l'indice de dispersion des dénombrements.

Interprétation

Certaines distributions, notamment la distribution de Poisson , ont une variance et une moyenne égales, ce qui leur donne un VMR = 1. La distribution géométrique et la distribution binomiale négative ont VMR> 1, tandis que la distribution binomiale a VMR <1, et la variable aléatoire constante a VMR = 0. Cela donne le tableau suivant:

Distribution VMR
variable aléatoire constante VMR = 0 pas dispersé
distribution binomiale 0 <VMR <1 sous-dispersé
Distribution de Poisson VMR = 1
distribution binomiale négative VMR> 1 sur-dispersé

Cela peut être considéré comme analogue à la classification des sections coniques par excentricité ; voir Cumulants de distributions de probabilité particulières pour plus de détails.

La pertinence de l'indice de dispersion est qu'il a une valeur de un lorsque la distribution de probabilité du nombre d'occurrences dans un intervalle est une distribution de Poisson . Ainsi, la mesure peut être utilisée pour évaluer si les données observées peuvent être modélisées à l'aide d'un processus de Poisson . Lorsque le coefficient de dispersion est inférieur à 1, un jeu de données est dit "sous-dispersé": cette condition peut concerner des modèles d'occurrence plus réguliers que le caractère aléatoire associé à un processus de Poisson. Par exemple, des points répartis uniformément dans l'espace ou des événements réguliers et périodiques seront sous-dispersés. Si l'indice de dispersion est supérieur à 1, un jeu de données est dit surdispersé : cela peut correspondre à l'existence de grappes d'occurrences. Les données groupées et concentrées sont sur-dispersées.

Une estimation basée sur un échantillon de l'indice de dispersion peut être utilisée pour construire un test d'hypothèse statistique formel pour déterminer si le modèle est adéquat qu'une série de comptages suit une distribution de Poisson. En termes d'intervalles-comptages, la sur-dispersion correspond au fait qu'il y ait plus d'intervalles avec des comptages faibles et plus d'intervalles avec des comptages élevés, par rapport à une distribution de Poisson: en revanche, la sous-dispersion est caractérisée par le fait qu'il y a plus d'intervalles ayant des comptages proches de le nombre moyen, comparé à une distribution de Poisson.

Le VMR est également une bonne mesure du degré d'aléa d'un phénomène donné. Par exemple, cette technique est couramment utilisée dans la gestion des devises.

Exemple

Pour des particules diffusant aléatoirement ( mouvement brownien ), la distribution du nombre de particules à l'intérieur d'un volume donné est poissonienne, c'est-à-dire VMR = 1. Par conséquent, pour évaluer si un motif spatial donné (en supposant que vous ayez un moyen de le mesurer) est uniquement dû à la diffusion ou si une interaction particule-particule est impliquée: divisez l'espace en patchs, quadrats ou unités d'échantillonnage (SU), comptez le nombre d'individus dans chaque patch ou SU, et calculez le VMR. Les VMR significativement supérieures à 1 dénotent une distribution groupée, où la marche aléatoire n'est pas suffisante pour étouffer le potentiel inter-particules attractif.

Histoire

Le premier à discuter de l'utilisation d'un test pour détecter les écarts par rapport à une distribution de Poisson ou binomiale semble avoir été Lexis en 1877. L'un des tests qu'il a mis au point était le ratio de Lexis .

Cet index a été utilisé pour la première fois en botanique par Clapham en 1936.

Si les variables sont distribuées de Poisson, alors l'indice de dispersion est distribué comme une statistique χ 2 avec n - 1 degrés de liberté lorsque n est grand et est μ > 3. Pour de nombreux cas d'intérêt, cette approximation est exacte et Fisher en 1950 a dérivé un test exact pour cela.

Hoel a étudié les quatre premiers moments de sa distribution. Il a constaté que l'approximation de la statistique χ 2 est raisonnable si μ > 5.

Distributions biaisées

Pour les distributions fortement asymétriques, il peut être plus approprié d'utiliser une fonction de perte linéaire, par opposition à une fonction quadratique. Le coefficient de dispersion analogue dans ce cas est le rapport de l'écart absolu moyen de la médiane à la médiane des données, ou, en symboles:

n est la taille de l'échantillon, m est la médiane de l'échantillon et la somme prise sur l'ensemble de l'échantillon. L'Iowa , New York et le Dakota du Sud utilisent ce coefficient de dispersion linéaire pour estimer les droits.

Pour un test à deux échantillons dans lequel la taille des échantillons est grande, les deux échantillons ont la même médiane et diffèrent dans la dispersion autour de celle-ci, un intervalle de confiance pour le coefficient de dispersion linéaire est limité en dessous par

t j est l'écart absolu moyen du j ème échantillon et z α est la longueur de l'intervalle de confiance pour une distribution normale de confiance α (par exemple, pour α = 0,05, z α = 1,96).

Voir également

Rapports similaires

Remarques

Références

  • Cox, DR; Lewis, PAW (1966). L'analyse statistique de séries d'événements . Londres: Methuen.
  • Upton, G .; Cook, I. (2006). Oxford Dictionary of Statistics (2e éd.). Presse d'université d'Oxford. ISBN 978-0-19-954145-4.