Distribution hypergéométrique non centrale de Fisher - Fisher's noncentral hypergeometric distribution

Fonction de masse de probabilité pour la distribution hypergéométrique non centrale de Fisher pour différentes valeurs de l'odds ratio ω.
m 1 = 80, m 2 = 60, n = 100, ω = 0,01, ..., 1000
Biologiste et statisticien Ronald Fisher

En théorie des probabilités et en statistique , la distribution hypergéométrique non centrale de Fisher est une généralisation de la distribution hypergéométrique où les probabilités d'échantillonnage sont modifiées par des facteurs de poids. Elle peut également être définie comme la distribution conditionnelle de deux ou plusieurs variables distribuées binomialement en fonction de leur somme fixe.

La distribution peut être illustrée par le modèle d'urne suivant . Supposons, par exemple, qu'une urne contienne m 1 boules rouges et m 2 boules blanches, totalisant N = m 1 + m 2 boules. Chaque boule rouge a le poids ω 1 et chaque boule blanche a le poids ω 2 . Nous dirons que le rapport de cotes est ω = ω 1 / ω 2 . Maintenant, nous prenons des balles au hasard de telle manière que la probabilité de prendre une balle particulière soit proportionnelle à son poids, mais indépendante de ce qui arrive aux autres balles. Le nombre de balles prises d'une couleur particulière suit la distribution binomiale . Si le nombre total n de boules prises est connu, alors la distribution conditionnelle du nombre de boules rouges prises pour n donné est la distribution hypergéométrique non centrale de Fisher. Pour générer cette distribution expérimentalement, nous devons répéter l'expérience jusqu'à ce qu'elle donne n boules.

Si nous voulons fixer la valeur de n avant l'expérience, nous devons prendre les boules une par une jusqu'à ce que nous ayons n boules. Les billes ne sont donc plus indépendantes. Cela donne une distribution légèrement différente connue sous le nom de distribution hypergéométrique non centrale de Wallenius . Il est loin d'être évident de savoir pourquoi ces deux distributions sont différentes. Voir l'entrée pour les distributions hypergéométriques non centrales pour une explication de la différence entre ces deux distributions et une discussion sur la distribution à utiliser dans diverses situations.

Les deux distributions sont toutes deux égales à la distribution hypergéométrique (centrale) lorsque l'odds ratio est de 1.

Malheureusement, les deux distributions sont connues dans la littérature comme «la» distribution hypergéométrique non centrale. Il est important d'être précis quant à la distribution voulue lors de l'utilisation de ce nom.

La distribution hypergéométrique non centrale de Fisher a d'abord reçu le nom de distribution hypergéométrique étendue (Harkness, 1965), et certains auteurs utilisent encore ce nom aujourd'hui.

Distribution univariée

Distribution hypergéométrique non centrale de Fisher univariée
Paramètres


Soutien

PMF
Moyenne , où
Mode , Où , , .
Variance , où P k est donné ci-dessus.

La fonction de probabilité, la moyenne et la variance sont données dans le tableau ci-contre.

Une autre expression de la distribution a à la fois le nombre de boules prises de chaque couleur et le nombre de boules non prises comme des variables aléatoires, par quoi l'expression de la probabilité devient symétrique.

Le temps de calcul de la fonction de probabilité peut être élevé lorsque la somme dans P 0 comporte plusieurs termes. Le temps de calcul peut être réduit en calculant les termes de la somme de manière récursive par rapport au terme pour y = x et en ignorant les termes négligeables dans les queues (Liao et Rosen, 2001).

La moyenne peut être approximée par:

,

où , , .

La variance peut être estimée par:

.

De meilleures approximations de la moyenne et de la variance sont données par Levin (1984, 1990), McCullagh et Nelder (1989), Liao (1992) et Eisinga et Pelzer (2011). Les méthodes du point de selle pour approximer la moyenne et la variance suggérées par Eisinga et Pelzer (2011) offrent des résultats extrêmement précis.

Propriétés

Les relations de symétrie suivantes s'appliquent:

Relation réccurente:

La distribution est affectueusement appelée «cochon finchy», sur la base de la convention d'abréviation ci-dessus.

Dérivation

La distribution hypergéométrique non centrale univariée peut être dérivée alternativement comme une distribution conditionnelle dans le contexte de deux variables aléatoires distribuées de manière binomiale, par exemple lors de l'examen de la réponse à un traitement particulier dans deux groupes différents de patients participant à un essai clinique. Une application importante de la distribution hypergéométrique non centrale dans ce contexte est le calcul des intervalles de confiance exacts pour l'odds ratio comparant la réponse au traitement entre les deux groupes.

Supposons que X et Y sont des variables aléatoires à distribution binomiale comptant le nombre de répondeurs dans deux groupes correspondants de taille m X et m Y respectivement,

.

Leur odds ratio est donné comme

.

La prévalence de répondeur est entièrement défini en termes de probabilités , qui correspondent au biais d'échantillonnage dans le schéma ci - dessus urne, à savoir

.

L'essai peut être résumé et analysé en fonction du tableau de contingence suivant.

      Traitement
  Grouper
répondeur non-répondant Total
X X . m X
Oui y . m Y
Total n . N

Dans le tableau, correspond au nombre total de répondeurs dans les groupes et N au nombre total de patients recrutés dans l'essai. Les points indiquent les comptages de fréquence correspondants sans autre importance.

La distribution d'échantillonnage des répondeurs du groupe X en fonction du résultat de l'essai et des prévalences , est hypergéométrique non centrale:

Notez que le dénominateur est essentiellement juste le numérateur, additionné sur tous les événements de l'espace d'échantillonnage conjoint pour lequel il contient cela . Les termes indépendants de X peuvent être déduits de la somme et s'annuler avec le numérateur.

Distribution multivariée

Distribution hypergéométrique non centrale de Fisher multivariée
Paramètres



Soutien
PMF
Moyenne La moyenne μ i de x i peut être approximée par où r est l'unique solution positive de .

La distribution peut être étendue à n'importe quel nombre de couleurs c de boules dans l'urne. La distribution multivariée est utilisée lorsqu'il y a plus de deux couleurs.

La fonction de probabilité et une simple approximation de la moyenne sont données à droite. De meilleures approximations de la moyenne et de la variance sont données par McCullagh et Nelder (1989).

Propriétés

L'ordre des couleurs est arbitraire afin que toutes les couleurs puissent être permutées.

Les poids peuvent être mis à l'échelle arbitrairement:

pour tous

Les couleurs avec un nombre nul ( m i = 0) ou un poids nul (ω i = 0) peuvent être omises des équations.

Les couleurs de même poids peuvent être jointes:

où est la probabilité de distribution hypergéométrique (univariée, centrale).

Applications

La distribution hypergéométrique non centrale de Fisher est utile pour les modèles d'échantillonnage biaisé ou de sélection biaisée où les éléments individuels sont échantillonnés indépendamment les uns des autres sans concurrence. Le biais ou les probabilités peuvent être estimés à partir d'une valeur expérimentale de la moyenne. Utilisez plutôt la distribution hypergéométrique non centrale de Wallenius si les éléments sont échantillonnés un par un avec la concurrence.

La distribution hypergéométrique non centrale de Fisher est principalement utilisée pour les tests dans les tableaux de contingence où une distribution conditionnelle pour des marges fixes est souhaitée. Cela peut être utile, par exemple, pour tester ou mesurer l'effet d'un médicament. Voir McCullagh et Nelder (1989).

Logiciel disponible

Voir également

Les références

Breslow, NE; Day, NE (1980), Statistical Methods in Cancer Research , Lyon: Centre international de recherche sur le cancer .

Eisinga, R .; Pelzer, B. (2011), «Approximations en point de selle de la moyenne et de la variance de la distribution hypergéométrique étendue» (PDF) , Statistica Neerlandica , 65 (1), pp. 22–31, doi : 10.1111 / j.1467-9574.2010. 00468.x .

Fog, A. (2007), Théorie des nombres aléatoires .

Fog, A. (2008), «Sampling Methods for Wallenius 'and Fisher's Noncentral Hypergeometric Distributions», Communications in Statictics, Simulation and Computation , 37 (2), pp. 241–257, doi : 10.1080 / 03610910701790236 , S2CID   14904723 .

Johnson, NL; Kemp, AW; Kotz, S. (2005), Univariate Discrete Distributions , Hoboken, New Jersey: Wiley and Sons .

Levin, B. (1984), "Améliorations simples de l'approximation de Cornfield à la moyenne d'une variable aléatoire hypergéométrique non centrale", Biometrika , 71 (3), pp. 630–632, doi : 10.1093 / biomet / 71.3.630 .

Levin, B. (1990), «La correction du point de selle dans l'analyse de vraisemblance logistique conditionnelle», Biometrika , [Oxford University Press, Biometrika Trust], 77 (2), pp. 275-285, doi : 10.1093 / biomet / 77.2.275 , JSTOR   2336805 .

Liao, J. (1992), "An Algorithm for the Mean and Variance of the Noncentral Hypergeometric Distribution", Biometrics , [Wiley, International Biometric Society], 48 (3), pp. 889–892, doi : 10.2307 / 2532354 , JSTOR   2532354 .

Liao, JG; Rosen, O. (2001), «Algorithmes rapides et stables pour le calcul et l'échantillonnage à partir de la distribution hypergéométrique non centrale», The American Statistician , 55 (4), pp. 366–369, doi : 10.1198 / 000313001753272547 , S2CID   121279235 .

McCullagh, P .; Nelder, JA (1989), Modèles linéaires généralisés, 2. éd. , Londres: Chapman et Hall .