Modèle linéaire général - General linear model

Le modèle linéaire général ou modèle général de régression multivariée est un moyen compact d'écrire simultanément plusieurs modèles de régression linéaire multiple . En ce sens, il ne s'agit pas d'un modèle statistique linéaire distinct . Les divers modèles de régression linéaire multiple peuvent être écrits de manière compacte sous la forme

Y est une matrice avec une série de mesures multivariées (chaque colonne étant un ensemble de mesures sur l'une des variables dépendantes ), X est une matrice d'observations sur des variables indépendantes qui pourraient être une matrice de conception (chaque colonne étant un ensemble d'observations sur l'une des variables indépendantes), B est une matrice contenant des paramètres qui sont généralement à estimer et U est une matrice contenant des erreurs (bruit). Les erreurs sont généralement supposées non corrélées entre les mesures et suivent une distribution normale multivariée . Si les erreurs ne suivent pas une distribution normale multivariée, des modèles linéaires généralisés peuvent être utilisés pour assouplir les hypothèses concernant Y et U .

Le modèle linéaire général intègre un certain nombre de modèles statistiques différents : ANOVA , ANCOVA , MANOVA , MANCOVA , régression linéaire ordinaire , test t et test F . Le modèle linéaire général est une généralisation de la régression linéaire multiple au cas de plusieurs variables dépendantes. Si Y , B et U étaient des vecteurs colonnes , l'équation matricielle ci-dessus représenterait une régression linéaire multiple.

Les tests d'hypothèse avec le modèle linéaire général peuvent être réalisés de deux manières : multivariée ou sous forme de plusieurs tests univariés indépendants . Dans les tests multivariés, les colonnes de Y sont testées ensemble, tandis que dans les tests univariés, les colonnes de Y sont testées indépendamment, c'est-à-dire en tant que tests univariés multiples avec la même matrice de conception.

Comparaison à la régression linéaire multiple

La régression linéaire multiple est une généralisation de la régression linéaire simple au cas de plusieurs variables indépendantes, et un cas particulier de modèles linéaires généraux, limités à une variable dépendante. Le modèle de base pour la régression linéaire multiple est

pour chaque observation i = 1, ... , n .

Dans la formule ci-dessus, nous considérons n observations d'une variable dépendante et p variables indépendantes. Ainsi, Y i est la i ème observation de la variable dépendante, X ij est la i ème observation de la j ème variable indépendante, j = 1, 2, ..., p . Les valeurs de j représentent des paramètres à estimer, et e i est le i ième erreur normale indépendant distribué de façon identique.

Dans la régression linéaire multivariée plus générale, il existe une équation de la forme ci-dessus pour chacune des variables dépendantes m > 1 qui partagent le même ensemble de variables explicatives et sont donc estimées simultanément :

pour toutes les observations indexées comme i = 1, ... , n et pour toutes les variables dépendantes indexées comme j = 1, ... , m .

Notez que, puisque chaque variable dépendante a son propre ensemble de paramètres de régression à ajuster, d'un point de vue informatique, la régression multivariée générale est simplement une séquence de régressions linéaires multiples standard utilisant les mêmes variables explicatives.

Comparaison avec le modèle linéaire généralisé

Le modèle linéaire général et le modèle linéaire généralisé (GLM) sont deux familles de méthodes statistiques couramment utilisées pour relier un certain nombre de prédicteurs continus et/ou catégoriels à une seule variable de résultat .

La principale différence entre les deux approches est que le modèle linéaire général suppose strictement que les résidus suivront une distribution conditionnellement normale , tandis que le GLM assouplit cette hypothèse et permet une variété d'autres distributions de la famille exponentielle pour les résidus. Il est à noter que le modèle linéaire général est un cas particulier du GLM dans lequel la distribution des résidus suit une distribution conditionnellement normale.

La distribution des résidus dépend largement du type et de la distribution de la variable de résultat ; différents types de variables de résultat conduisent à la variété des modèles au sein de la famille GLM. Les modèles couramment utilisés dans la famille GLM incluent la régression logistique binaire pour les résultats binaires ou dichotomiques, la régression de Poisson pour les résultats de comptage et la régression linéaire pour les résultats continus et normalement distribués. Cela signifie que le GLM peut être considéré comme une famille générale de modèles statistiques ou comme des modèles spécifiques pour des types de résultats spécifiques.

Modèle linéaire général Modèle linéaire généralisé
Méthode d'estimation typique Moindres carrés , meilleure prédiction linéaire sans biais Maximum de vraisemblance ou bayésien
Exemples ANOVA , ANCOVA , régression linéaire la régression linéaire , la régression logistique , la régression de Poisson , la régression gamma, modèle linéaire général
Extensions et méthodes associées MANOVA , MANCOVA , modèle linéaire mixte modèle mixte linéaire généralisé (GLMM), équations d'estimation généralisées (GEE)
Package R et fonction lm() dans le package de statistiques (base R) glm() dans le package de statistiques (base R)
Fonction Matlab mvregress() glmfit()
Procédures SAS PROC GLM , PROC REG PROC GENMOD , PROC LOGISTIC (pour les résultats catégoriels binaires et ordonnés ou non ordonnés)
Commande de statut régresser glm
commande SPSS régression , glm genlin, logistique
Fonction Wolfram Language & Mathematica LinearModelFit[] GeneralizedLinearModelFit[]
EViews commande ls glm

Applications

Une application du modèle linéaire général apparaît dans l'analyse de plusieurs scanners cérébraux dans des expériences scientifiques où Y contient des données de scanners cérébraux, X contient des variables de conception expérimentale et des facteurs de confusion. Elle est généralement testée de manière univariée (généralement appelée masse-univariée dans ce cadre) et est souvent appelée cartographie paramétrique statistique .

Voir également

Remarques

Les références

  • Christensen, Ronald (2002). Réponses d'avion aux questions complexes : La théorie des modèles linéaires (le troisième rédacteur). New York : Springer. ISBN 0-387-95361-2.
  • Wichura, Michael J. (2006). L'approche sans coordonnées des modèles linéaires . Série Cambridge en mathématiques statistiques et probabilistes. Cambridge : Cambridge University Press. p. xiv+199. ISBN 978-0-521-86842-6. MR  2283455 .
  • Rawlings, John O.; Pantula, Sastry G. ; Dickey, David A., éd. (1998). "Analyse de régression appliquée". Textes Springer en statistiques. doi : 10.1007/b98890 . ISBN 0-387-98454-2. Citer le journal nécessite |journal=( aide )