régression de Poisson - Poisson regression

En statistique , la régression de Poisson est une forme de modèle linéaire généralisé d' analyse de régression utilisée pour modéliser les données de comptage et les tableaux de contingence . La régression de Poisson suppose que la variable de réponse Y a une distribution de Poisson et suppose que le logarithme de sa valeur attendue peut être modélisé par une combinaison linéaire de paramètres inconnus . Un modèle de régression de Poisson est parfois appelé modèle log-linéaire , en particulier lorsqu'il est utilisé pour modéliser des tableaux de contingence.

La régression binomiale négative est une généralisation populaire de la régression de Poisson car elle assouplit l'hypothèse très restrictive selon laquelle la variance est égale à la moyenne faite par le modèle de Poisson. Le modèle traditionnel de régression binomiale négative, communément appelé NB2, est basé sur la distribution du mélange Poisson-gamma. Ce modèle est populaire car il modélise l'hétérogénéité de Poisson avec une distribution gamma.

Les modèles de régression de Poisson sont des modèles linéaires généralisés avec le logarithme comme fonction de lien (canonique) et la fonction de distribution de Poisson comme distribution de probabilité supposée de la réponse.

Modèles de régression

Si est un vecteur de variables indépendantes , alors le modèle prend la forme

où et . Parfois, cela est écrit de manière plus compacte comme

x est maintenant un  vecteur de dimension ( n + 1) composé de n variables indépendantes concaténées au nombre un. Ici θ est simplement α concaténés à β .

Ainsi, lorsqu'il est administré un modèle de régression de Poisson θ et un vecteur d'entrée x , est donnée à la prédite moyenne de la distribution de Poisson associée par

Si Y i sont des observations indépendantes avec des valeurs correspondantes x i des variables prédictives, alors θ peut être estimé par le maximum de vraisemblance . Les estimations du maximum de vraisemblance n'ont pas d' expression sous forme fermée et doivent être trouvées par des méthodes numériques. La surface de probabilité pour la régression de Poisson à vraisemblance maximale est toujours concave, ce qui fait de Newton-Raphson ou d'autres méthodes basées sur le gradient des techniques d'estimation appropriées.

Estimation des paramètres basée sur le maximum de vraisemblance

Etant donné un ensemble de paramètres θ et un vecteur d'entrée x , la moyenne de la prédite distribution de Poisson , comme indiqué ci - dessus, est donnée par

et ainsi, la fonction de masse de probabilité de la distribution de Poisson est donnée par

Supposons maintenant que l'on nous donne un ensemble de données composé de m vecteurs , avec un ensemble de m valeurs . Ensuite, pour un ensemble donné de paramètres θ , la probabilité d'atteindre cet ensemble particulier de données est donnée par

Par la méthode de maximum de vraisemblance , nous voulons trouver l'ensemble des paramètres θ qui rend cette probabilité aussi grande que possible. Pour ce faire, l'équation est d'abord réécrite comme une fonction de vraisemblance en fonction de θ :

Notez que l'expression sur le côté droit n'a pas réellement changé. Une formule sous cette forme est généralement difficile à utiliser ; à la place, on utilise la log-vraisemblance :

Notez que les paramètres θ n'apparaissent que dans les deux premiers termes de chaque terme de la sommation. Par conséquent, étant donné que nous ne cherchons qu'à trouver la meilleure valeur pour θ, nous pouvons laisser tomber le y i ! et écrire simplement

Pour trouver un maximum, nous devons résoudre une équation qui n'a pas de solution fermée. Cependant, la vraisemblance de négatif, est une fonction convexe, et ainsi de standards d' optimisation convexe des techniques telles que la descente de gradient peut être appliqué pour trouver la valeur optimale de θ .

La régression de Poisson en pratique

La régression de Poisson peut être appropriée lorsque la variable dépendante est un décompte, par exemple des événements tels que l'arrivée d'un appel téléphonique dans un centre d'appels. Les événements doivent être indépendants dans le sens où l'arrivée d'un appel n'en rendra pas un autre plus ou moins probable, mais la probabilité par unité de temps des événements est comprise comme étant liée à des covariables telles que l'heure de la journée.

« Exposition » et décalage

La régression de Poisson peut également être appropriée pour les données de taux, où le taux est un nombre d'événements divisé par une certaine mesure de l' exposition de cette unité (une unité d'observation particulière). Par exemple, les biologistes peuvent compter le nombre d'espèces d'arbres dans une forêt : les événements seraient des observations d'arbres, l'exposition serait une unité de surface et le taux serait le nombre d'espèces par unité de surface. Les démographes peuvent modéliser les taux de mortalité dans les zones géographiques comme le nombre de décès divisé par les années-personnes. Plus généralement, les taux d'événements peuvent être calculés en événements par unité de temps, ce qui permet à la fenêtre d'observation de varier pour chaque unité. Dans ces exemples, l'exposition est respectivement une unité de surface, des personnes-années et une unité de temps. Dans la régression de Poisson, cela est traité comme un décalage , où la variable d'exposition entre sur le côté droit de l'équation, mais avec une estimation de paramètre (pour log(exposition)) contrainte à 1.

ce qui implique

L'offset dans le cas d'un GLM dans R peut être obtenu à l'aide de la offset()fonction :

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Surdispersion et inflation nulle

Une caractéristique de la distribution de Poisson est que sa moyenne est égale à sa variance. Dans certaines circonstances, on constatera que la variance observée est supérieure à la moyenne ; ceci est connu sous le nom de surdispersion et indique que le modèle n'est pas approprié. Une raison courante est l'omission de variables explicatives pertinentes ou d'observations dépendantes. Dans certaines circonstances, le problème de la surdispersion peut être résolu en utilisant à la place une estimation de quasi-vraisemblance ou une distribution binomiale négative .

Ver Hoef et Boveng décrit la différence entre quasi-Poisson (également appelé surdispersion avec quasi-vraisemblance) et binomiale négatif (équivalent à gamma-Poisson) comme suit: Si E ( Y ) = μ , le modèle quasi-Poisson assume var ( Y ) = θμ tandis que le gamma-Poisson suppose var( Y ) = μ (1 +  κμ ), où θ est le paramètre de surdispersion quasi-Poisson, et κ est le paramètre de forme de la distribution binomiale négative . Pour les deux modèles, les paramètres sont estimés à l'aide des moindres carrés repondérés itérativement . Pour le quasi-Poisson, les poids sont μ / θ . Pour un binôme négatif, les poids sont μ /(1 +  κμ ). Avec un grand μ et substantielle variation extra-Poisson, les poids binomiales négatives sont limitées à 1 / κ . Ver Hoef et Boveng ont discuté d'un exemple où ils ont choisi entre les deux en traçant les résidus quadratiques moyens par rapport à la moyenne.

Un autre problème courant avec la régression de Poisson est l'excès de zéros : s'il y a deux processus à l'œuvre, l'un déterminant s'il y a zéro événement ou des événements, et un processus de Poisson déterminant combien d'événements il y a, il y aura plus de zéros qu'une régression de Poisson ne le ferait. prédire. Un exemple serait la distribution de cigarettes fumées en une heure par les membres d'un groupe où certains individus sont non-fumeurs.

D'autres modèles linéaires généralisés tels que le modèle binomial négatif ou le modèle gonflé à zéro peuvent mieux fonctionner dans ces cas.

Utilisation dans l'analyse de survie

La régression de Poisson crée des modèles à risques proportionnels, une classe d' analyse de survie : voir les modèles à risques proportionnels pour les descriptions des modèles de Cox.

Rallonges

Régression de Poisson régularisée

Lors de l' estimation des paramètres de régression de Poisson, on cherche généralement à trouver des valeurs pour θ qui maximise la probabilité d'une expression de la forme

m est le nombre d'exemples dans l'ensemble de données et est la fonction de masse de probabilité de la distribution de Poisson avec la moyenne fixée à . La régularisation peut être ajoutée à ce problème d'optimisation en maximisant à la place

pour une constante positive . Cette technique, similaire à la régression de crête , peut réduire le surapprentissage .

Voir également

Les références

Lectures complémentaires