Régression en composantes principales - Principal component regression

En statistique , la régression en composantes principales ( PCR ) est une technique d' analyse de régression basée sur l' analyse en composantes principales (ACP). Plus spécifiquement, la PCR est utilisée pour estimer les coefficients de régression inconnus dans un modèle de régression linéaire standard .

Dans la PCR, au lieu de régresser directement la variable dépendante sur les variables explicatives, les principales composantes des variables explicatives sont utilisées comme régresseurs . On n'utilise généralement qu'un sous-ensemble de tous les composants principaux pour la régression, faisant de la PCR une sorte de procédure régularisée et également un type d' estimateur de retrait .

Souvent, les composantes principales avec des variances plus élevées (celles basées sur des vecteurs propres correspondant aux valeurs propres plus élevées de la matrice de variance-covariance de l' échantillon des variables explicatives) sont sélectionnées comme régresseurs. Cependant, aux fins de prédire le résultat, les principales composantes avec de faibles variances peuvent également être importantes, voire plus importantes dans certains cas.

Une utilisation majeure de la PCR consiste à surmonter le problème de la multicolinéarité qui se pose lorsque deux ou plusieurs des variables explicatives sont proches de la colinéarité . La PCR peut convenablement traiter de telles situations en excluant certaines des composantes principales à faible variance dans l'étape de régression. De plus, en régressant généralement uniquement sur un sous-ensemble de tous les composants principaux, la PCR peut entraîner une réduction de dimension en abaissant considérablement le nombre effectif de paramètres caractérisant le modèle sous-jacent. Cela peut être particulièrement utile dans les contextes avec des covariables de grande dimension . De plus, grâce à une sélection appropriée des principaux composants à utiliser pour la régression, la PCR peut conduire à une prédiction efficace du résultat sur la base du modèle supposé.

Le principe

La méthode PCR peut être globalement divisée en trois étapes principales:

1. Effectuez une ACP sur la matrice de données observées pour les variables explicatives afin d'obtenir les composants principaux, puis sélectionnez (généralement) un sous-ensemble, sur la base de certains critères appropriés, des composants principaux ainsi obtenus pour une utilisation ultérieure.
2. Maintenant, régressez le vecteur observé des résultats sur les composantes principales sélectionnées en tant que covariables, en utilisant la régression des moindres carrés ordinaires (régression linéaire ) pour obtenir un vecteur des coefficients de régression estimés (avec une dimension égale au nombre de composantes principales sélectionnées).
3. Transformez maintenant ce vecteur à l'échelle des covariables réelles, en utilisant les chargements PCA sélectionnés (les vecteurs propres correspondant aux composantes principales sélectionnées) pour obtenir l' estimateur PCR final (avec une dimension égale au nombre total de covariables) pour estimer le coefficients de régression caractérisant le modèle d'origine.

Détails de la méthode

Représentation des données: Soit désignent le vecteur des résultats observés et désignent le correspondant matrice de données de covariables observées lorsque, et désignent la taille de l'observé échantillon et le nombre de covariables respectivement, avec . Chacune des lignes de désigne un ensemble d'observations pour la covariable dimensionnelle et l'entrée respective de désigne le résultat observé correspondant.

Prétraitement des données: Supposons que chacune des colonnes de a déjà été centrée de manière à ce qu'elles aient toutes des moyennes empiriques nulles . Cette étape de centrage est cruciale (au moins pour les colonnes de ) car la PCR implique l'utilisation de PCA sur et PCA est sensible au centrage des données.

Modèle sous-jacent: Après le centrage, le modèle de régression linéaire standard de Gauss – Markov pour on peut être représenté par: où désigne le vecteur de paramètre inconnu des coefficients de régression et désigne le vecteur d'erreurs aléatoires avec et pour un paramètre de variance inconnu

Objectif: Le principal objectif est d'obtenir un estimateur efficace du paramètre , basé sur les données. Une approche fréquemment utilisée pour cela est la régression des moindres carrés ordinaires qui, en supposant que le rang de colonne est complet , donne l' estimateur sans biais : de . La PCR est une autre technique qui peut être utilisée dans le même but d'estimation .

Étape PCA: la PCR commence par effectuer une PCA sur la matrice de données centrée . Pour cela, désignons la décomposition en valeur singulière de où, en désignant les valeurs singulières non négatives de , tandis que les colonnes de et sont toutes deux des ensembles orthonormés de vecteurs désignant respectivement les vecteurs singuliers gauche et droit de .

Les composantes principales: donne une décomposition spectrale de où avec désignant les valeurs propres non négatives (également appelées valeurs principales ) de , tandis que les colonnes de désignent l'ensemble orthonormé correspondant de vecteurs propres. Ensuite, et désignent respectivement le composant principal et la direction du composant principal (ou chargement PCA ) correspondant à la plus grande valeur principale pour chacun .

Covariables dérivées: Pour tout , désignons la matrice avec des colonnes orthonormées constituées des premières colonnes de . Soit la matrice ayant les premières composantes principales comme colonnes. peut être considérée comme la matrice de données obtenue en utilisant les covariables transformées au lieu d'utiliser les covariables d'origine .

L'estimateur PCR: Soit désignent le vecteur des coefficients de régression estimés obtenus par les moindres carrés ordinaires régression du vecteur de réponse de la matrice de données . Alors, pour tout , l'estimateur PCR final de base sur l' utilisation des premières composantes principales est donnée par: .

Caractéristiques fondamentales et applications de l'estimateur PCR

Deux propriétés de base

Le processus d'ajustement pour obtenir l'estimateur PCR implique la régression du vecteur de réponse sur la matrice de données dérivée qui a des colonnes orthogonales pour l'une quelconque puisque les composantes principales sont orthogonales les unes par rapport aux autres. Ainsi, dans l'étape de régression, effectuer conjointement une régression linéaire multiple sur les composantes principales sélectionnées comme covariables équivaut à effectuer des régressions linéaires simples indépendantes (ou des régressions univariées) séparément sur chacune des composantes principales sélectionnées comme covariable.

Lorsque toutes les composantes principales sont sélectionnées pour la régression de sorte que , alors l'estimateur PCR est équivalent à l' estimateur des moindres carrés ordinaires . Ainsi, . Cela se voit facilement du fait que et aussi en observant qu'il s'agit d'une matrice orthogonale .

Réduction de la variance

Pour tout , la variance de est donnée par

En particulier:

Par conséquent, pour tout ce que nous avons:

Ainsi, pour tout ce que nous avons:

où indique qu'une matrice symétrique carrée est définie non négative . Par conséquent, toute forme linéaire donnée de l'estimateur PCR a une variance plus faible que celle de la même forme linéaire de l'estimateur des moindres carrés ordinaires.

Aborder la multicolinéarité

En multicollinéarité , deux ou plusieurs des covariables sont fortement corrélées , de sorte que l'une peut être prédite linéairement à partir des autres avec un degré de précision non négligeable. Par conséquent, les colonnes de la matrice de données qui correspondent aux observations de ces covariables ont tendance à devenir linéairement dépendantes et, par conséquent, à devenir déficientes en rang, perdant toute leur structure de rangs de colonne. Plus quantitativement, une ou plusieurs des plus petites valeurs propres de se rapprochent ou deviennent exactement égales à dans de telles situations. Les expressions de variance ci-dessus indiquent que ces petites valeurs propres ont l' effet d'inflation maximal sur la variance de l'estimateur des moindres carrés, déstabilisant ainsi considérablement l'estimateur lorsqu'elles sont proches de . Ce problème peut être résolu efficacement en utilisant un estimateur PCR obtenu en excluant les composantes principales correspondant à ces petites valeurs propres.

Réduction dimensionnelle

La PCR peut également être utilisée pour effectuer une réduction de dimension . Pour voir cela, désignons toute matrice ayant des colonnes orthonormées, pour tout Supposons maintenant que nous voulons approcher chacune des observations de covariables par la transformation linéaire de rang pour certains .

Ensuite, on peut montrer que

est minimisée au niveau de la matrice avec les premières directions des composantes principales sous forme de colonnes, et les covariables dimensionnelles dérivées correspondantes. Ainsi, les composantes principales dimensionnelles fournissent la meilleure approximation linéaire du rang de la matrice de données observée .

L' erreur de reconstruction correspondante est donnée par:

Ainsi, toute réduction de dimension potentielle peut être obtenue en choisissant , le nombre de composants principaux à utiliser, par un seuillage approprié sur la somme cumulée des valeurs propres de . Etant donné que les valeurs propres plus petites ne contribuent pas de manière significative à la somme cumulée, les composantes principales correspondantes peuvent continuer à être supprimées tant que la limite de seuil souhaitée n'est pas dépassée. Les mêmes critères peuvent également être utilisés pour résoudre le problème de la multicolinéarité par lequel les composantes principales correspondant aux valeurs propres plus petites peuvent être ignorées tant que la limite de seuil est maintenue.

Effet de régularisation

Étant donné que l'estimateur PCR n'utilise généralement qu'un sous-ensemble de tous les composants principaux pour la régression, il peut être considéré comme une sorte de procédure régularisée . Plus spécifiquement, pour tout , l'estimateur PCR désigne la solution régularisée du problème de minimisation contrainte suivant :

La contrainte peut être écrite de manière équivalente:

où:

Ainsi, lorsque seul un sous-ensemble propre de toutes les composantes principales est sélectionné pour la régression, l'estimateur PCR ainsi obtenu est basé sur une forme dure de régularisation qui contraint la solution résultante à l' espace des colonnes des directions des composantes principales sélectionnées, et la restreint par conséquent. être orthogonal aux directions exclues.

Optimalité de la PCR parmi une classe d'estimateurs régularisés

Compte tenu du problème de minimisation contrainte tel que défini ci-dessus, considérons la version généralisée suivante de celui-ci:

où, désigne toute matrice de rang de colonne complète d'ordre avec .

Soit la solution correspondante. Ainsi

Ensuite, le choix optimal de la matrice de restriction pour laquelle l'estimateur correspondant réalise l'erreur de prédiction minimale est donné par:

De toute évidence, l'estimateur optimal résultant est alors simplement donné par l'estimateur PCR basé sur les premières composantes principales.

Efficacité

Puisque l'estimateur des moindres carrés ordinaires est sans biais pour , nous avons

où, MSE désigne l' erreur quadratique moyenne . Maintenant, si pour certains , nous avons en plus:, alors le correspondant est également sans biais pour et donc

Nous avons déjà vu que

ce qui implique alors:

pour ce particulier . Ainsi, dans ce cas, le correspondant serait un estimateur plus efficace de par rapport à , basé sur l'utilisation de l'erreur quadratique moyenne comme critère de performance. De plus, toute forme linéaire donnée du correspondant aurait également une erreur quadratique moyenne inférieure à celle de la même forme linéaire de .

Supposons maintenant que pour un donné . Ensuite , le correspondant est biaisé pour . Cependant, depuis

il est toujours possible que , en particulier si elle est telle que les composantes principales exclues correspondent aux valeurs propres plus petites, ce qui entraîne un biais plus faible .

Afin d'assurer une estimation et des performances de prédiction efficaces de la PCR en tant qu'estimateur de , Park (1981) propose la ligne directrice suivante pour sélectionner les principales composantes à utiliser pour la régression: Abandonner la composante principale si et seulement si Mise en œuvre pratique de cette directive bien sûr nécessite des estimations pour les paramètres inconnus du modèle et . En général, ils peuvent être estimés à l'aide des estimations des moindres carrés sans restriction obtenues à partir du modèle complet d'origine. Park (1981) fournit cependant un ensemble d'estimations légèrement modifié qui peut être mieux adapté à cette fin.

Contrairement aux critères basés sur la somme cumulée des valeurs propres de , qui est probablement plus adapté pour résoudre le problème de multicolinéarité et pour effectuer une réduction de dimension, les critères ci-dessus tentent en fait d'améliorer l'efficacité de prédiction et d'estimation de l'estimateur PCR en impliquant à la fois le résultat ainsi que les covariables dans le processus de sélection des principales composantes à utiliser dans l'étape de régression. Des approches alternatives ayant des objectifs similaires incluent la sélection des composants principaux sur la base de la validation croisée ou des critères C p de Mallow . Souvent, les principaux composants sont également sélectionnés en fonction de leur degré d' association avec le résultat.

Effet de rétrécissement de la PCR

En général, la PCR est essentiellement un estimateur de retrait qui conserve généralement les composantes principales de variance élevée (correspondant aux valeurs propres plus élevées de ) comme covariables dans le modèle et rejette les composantes de faible variance restantes (correspondant aux valeurs propres inférieures de ). Ainsi, il exerce un effet de retrait discret sur les composantes de faible variance annulant complètement leur contribution dans le modèle d'origine. En revanche, l' estimateur de régression de crête exerce un effet de rétrécissement progressif via le paramètre de régularisation (ou le paramètre de réglage) intrinsèquement impliqué dans sa construction. Bien qu'il n'élimine complètement aucun des composants, il exerce un effet de retrait sur tous de manière continue de sorte que l'étendue du retrait est plus élevée pour les composants à faible variance et plus faible pour les composants à forte variance. Frank et Friedman (1993) concluent qu'aux fins de la prédiction proprement dite, l'estimateur de crête, en raison de son effet de retrait régulier, est peut-être un meilleur choix que l'estimateur PCR ayant un effet de retrait discret.

De plus, les principales composantes sont obtenues à partir de la décomposition propre de qui implique les observations pour les variables explicatives uniquement. Par conséquent, l'estimateur PCR résultant de l'utilisation de ces composantes principales comme covariables ne doit pas nécessairement avoir une performance prédictive satisfaisante pour le résultat. Un estimateur quelque peu similaire qui tente de résoudre ce problème par sa construction même est l' estimateur des moindres carrés partiels (PLS). Semblable à la PCR, PLS utilise également des covariables dérivées de dimensions inférieures. Cependant, contrairement à la PCR, les covariables dérivées pour PLS sont obtenues en utilisant à la fois le résultat et les covariables. Alors que la PCR cherche les directions de variance élevée dans l'espace des covariables, PLS recherche les directions dans l'espace des covariables qui sont les plus utiles pour la prédiction du résultat.

Récemment, une variante de la PCR classique connue sous le nom de PCR supervisée a été proposée par Bair, Hastie, Paul et Tibshirani (2006). Dans un esprit similaire à celui du PLS, il tente d'obtenir des covariables dérivées de dimensions inférieures basées sur un critère qui implique à la fois le résultat et les covariables. La méthode commence par effectuer un ensemble de régressions linéaires simples (ou régressions univariées) dans lesquelles le vecteur de résultat est régressé séparément sur chacune des covariables prises une à la fois. Ensuite, pour certains , les premières covariables qui s'avèrent être les plus corrélées avec le résultat (sur la base du degré de signification des coefficients de régression estimés correspondants) sont sélectionnées pour une utilisation ultérieure. Une PCR conventionnelle, comme décrit précédemment, est alors réalisée, mais elle est désormais basée uniquement sur la matrice de données correspondant aux observations pour les covariables sélectionnées. Le nombre de covariables utilisées: et le nombre subséquent de composantes principales utilisées: sont généralement sélectionnés par validation croisée .

Généralisation aux paramètres du noyau

La méthode PCR classique telle que décrite ci-dessus est basée sur l'ACP classique et considère un modèle de régression linéaire pour prédire le résultat basé sur les covariables. Cependant, il peut être facilement généralisé à un paramètre de machine de noyau dans lequel la fonction de régression n'a pas nécessairement besoin d'être linéaire dans les covariables, mais au lieu de cela, elle peut appartenir à l' espace de Hilbert du noyau de reproduction associé à tout arbitraire (éventuellement non linéaire ), symétrique positif- noyau défini . Le modèle de régression linéaire s'avère être un cas particulier de ce paramètre lorsque la fonction noyau est choisie comme noyau linéaire .

En général, dans le cadre de la configuration de la machine du noyau , le vecteur des covariables est d'abord mappé dans un espace de caractéristiques de grande dimension (potentiellement infini ) caractérisé par la fonction de noyau choisie. La cartographie ainsi obtenue est connue sous le nom de carte de caractéristiques et chacune de ses coordonnées , également appelées éléments de caractéristique , correspond à une caractéristique (peut être linéaire ou non linéaire ) des covariables. La fonction de régression est alors supposée être une combinaison linéaire de ces éléments caractéristiques . Ainsi, le modèle de régression sous - jacent dans le réglage de la machine du noyau est essentiellement un modèle de régression linéaire, étant entendu qu'au lieu de l'ensemble original de covariables, les prédicteurs sont maintenant donnés par le vecteur (de dimension potentiellement infinie ) des éléments caractéristiques obtenus en transformant le les covariables réelles à l'aide de la carte des caractéristiques .

Cependant, l' astuce du noyau nous permet en fait d'opérer dans l' espace des fonctionnalités sans jamais calculer explicitement la carte des fonctionnalités . Il s'avère qu'il suffit de calculer les produits internes par paires parmi les cartes de caractéristiques pour les vecteurs de covariables observés et ces produits internes sont simplement donnés par les valeurs de la fonction noyau évaluées aux paires correspondantes de vecteurs de covariables. Les produits internes par paires ainsi obtenus peuvent donc être représentés sous la forme d'une matrice définie symétrique non négative également connue sous le nom de matrice de noyau .

La PCR dans le réglage de la machine du noyau peut maintenant être implémentée en centrant d'abord de manière appropriée cette matrice de noyau (K, par exemple) par rapport à l' espace des fonctionnalités , puis en effectuant une PCA du noyau sur la matrice de noyau centrée (K ', par exemple) par laquelle une composition eigend de K ' Est obtenu. La PCR du noyau procède ensuite en sélectionnant (généralement) un sous-ensemble de tous les vecteurs propres ainsi obtenus, puis en effectuant une régression linéaire standard du vecteur de résultat sur ces vecteurs propres sélectionnés . Les vecteurs propres à utiliser pour la régression sont généralement sélectionnés à l'aide de la validation croisée . Les coefficients de régression estimés (ayant la même dimension que le nombre de vecteurs propres sélectionnés) ainsi que les vecteurs propres sélectionnés correspondants sont ensuite utilisés pour prédire le résultat d'une observation future. En apprentissage automatique , cette technique est également connue sous le nom de régression spectrale .

Clairement, la PCR du noyau a un effet de retrait discret sur les vecteurs propres de K ', assez similaire à l'effet de retrait discret de la PCR classique sur les composants principaux, comme discuté précédemment. Cependant, la carte de caractéristiques associée au noyau choisi pourrait potentiellement être de dimension infinie, et par conséquent, les composants principaux correspondants et les directions des composants principaux pourraient également être de dimension infinie. Par conséquent, ces quantités sont souvent pratiquement insolubles dans le cadre du réglage de la machine du noyau. Kernel PCR fonctionne essentiellement autour de ce problème en considérant une double formulation équivalente basée sur l'utilisation de la décomposition spectrale de la matrice de noyau associée. Dans le modèle de régression linéaire (qui correspond au choix de la fonction noyau comme noyau linéaire), cela revient à considérer une décomposition spectrale de la matrice noyau correspondante puis à régresser le vecteur de résultat sur un sous-ensemble sélectionné des vecteurs propres de celui-ci . On peut facilement montrer que cela revient à régresser le vecteur de résultat sur les composantes principales correspondantes (qui sont de dimension finie dans ce cas), telles que définies dans le contexte de la PCR classique. Ainsi, pour le noyau linéaire, la PCR noyau basée sur une double formulation est exactement équivalente à la PCR classique basée sur une formulation primale. Cependant, pour les noyaux arbitraires (et éventuellement non linéaires), cette formulation primale peut devenir intraitable en raison de la dimensionnalité infinie de la carte de caractéristiques associée. Ainsi, la PCR classique devient pratiquement irréalisable dans ce cas, mais la PCR du noyau basée sur la double formulation reste toujours valide et évolutive en termes de calcul.

Voir également

Les références

Lectures complémentaires