Moindres carrés - Least squares

Le résultat de l'ajustement d'un ensemble de points de données avec une fonction quadratique
Ajustement conique d'un ensemble de points en utilisant l'approximation des moindres carrés

La méthode des moindres carrés est une approche standard dans l'analyse de régression pour approcher la solution de systèmes surdéterminés (ensembles d'équations dans lesquelles il y a plus d'équations que d'inconnues) en minimisant la somme des carrés des résidus obtenus dans les résultats de chaque équation. .

L'application la plus importante est l'ajustement des données . Le meilleur ajustement au sens des moindres carrés minimise la somme des carrés des résidus (un résidu étant : la différence entre une valeur observée et la valeur ajustée fournie par un modèle). Lorsque le problème présente des incertitudes substantielles dans la variable indépendante (la variable x ), alors les méthodes de régression simple et des moindres carrés posent des problèmes ; dans de tels cas, la méthodologie requise pour ajuster les modèles d'erreurs dans les variables peut être considérée à la place de celle des moindres carrés.

Les problèmes des moindres carrés se répartissent en deux catégories : les moindres carrés linéaires ou ordinaires et les moindres carrés non linéaires , selon que les résidus sont linéaires ou non dans toutes les inconnues. Le problème des moindres carrés linéaires se pose dans l' analyse de régression statistique ; il a une solution fermée . Le problème non linéaire est généralement résolu par raffinement itératif ; à chaque itération, le système est approximé par un système linéaire, et donc le calcul de base est similaire dans les deux cas.

Les moindres carrés polynomiaux décrivent la variance d'une prédiction de la variable dépendante en fonction de la variable indépendante et des écarts par rapport à la courbe ajustée.

Lorsque les observations proviennent d'une famille exponentielle avec une identité car ses statistiques naturelles suffisantes et les conditions douces sont satisfaites (par exemple pour les distributions normale, exponentielle, de Poisson et binomiale), les estimations des moindres carrés standardisées et les estimations de maximum de vraisemblance sont identiques. La méthode des moindres carrés peut également être dérivée comme une méthode d' estimateur des moments .

La discussion suivante est principalement présentée en termes de fonctions linéaires , mais l'utilisation des moindres carrés est valide et pratique pour des familles de fonctions plus générales. De plus, en appliquant de manière itérative une approximation quadratique locale à la vraisemblance (via l' information de Fisher ), la méthode des moindres carrés peut être utilisée pour ajuster un modèle linéaire généralisé .

La méthode des moindres carrés a été officiellement découverte et publiée par Adrien-Marie Legendre (1805), bien qu'elle soit généralement également attribuée à Carl Friedrich Gauss (1795) qui a contribué à des avancées théoriques importantes sur la méthode et l'a peut-être déjà utilisée dans son travail.

Histoire

Fondateur

La méthode des moindres carrés est née des domaines de l' astronomie et de la géodésie , alors que les scientifiques et les mathématiciens cherchaient à apporter des solutions aux défis de la navigation dans les océans de la Terre pendant l' ère de l'exploration . La description précise du comportement des corps célestes était la clé pour permettre aux navires de naviguer en haute mer, où les marins ne pouvaient plus compter sur les observations terrestres pour la navigation.

La méthode est l'aboutissement de plusieurs avancées qui ont eu lieu au cours du XVIIIe siècle :

  • La combinaison de différentes observations comme étant la meilleure estimation de la vraie valeur ; les erreurs diminuent avec l'agrégation plutôt qu'elles n'augmentent, peut-être exprimé pour la première fois par Roger Cotes en 1722.
  • La combinaison de différentes observations prises dans les mêmes conditions contrairement au simple fait de faire de son mieux pour observer et enregistrer une seule observation avec précision. L'approche était connue sous le nom de méthode des moyennes. Cette approche a notamment été utilisée par Tobias Mayer lors de l'étude des librations de la Lune en 1750, et par Pierre-Simon Laplace dans son ouvrage expliquant les différences de mouvement de Jupiter et de Saturne en 1788.
  • La combinaison de différentes observations prises dans différentes conditions. La méthode est devenue connue sous le nom de méthode du moindre écart absolu. Elle fut notamment interprétée par Roger Joseph Boscovich dans son ouvrage sur la forme de la terre en 1757 et par Pierre-Simon Laplace pour le même problème en 1799.
  • Le développement d'un critère qui peut être évalué pour déterminer quand la solution avec l'erreur minimale a été atteinte. Laplace a essayé de spécifier une forme mathématique de la densité de probabilité des erreurs et de définir une méthode d'estimation qui minimise l'erreur d'estimation. À cette fin, Laplace a utilisé une distribution exponentielle symétrique à deux faces que nous appelons maintenant distribution de Laplace pour modéliser la distribution d'erreur, et a utilisé la somme de l'écart absolu comme erreur d'estimation. Il a estimé qu'il s'agissait des hypothèses les plus simples qu'il pouvait faire, et il avait espéré obtenir la moyenne arithmétique comme la meilleure estimation. Au lieu de cela, son estimateur était la médiane postérieure.

La méthode

Le premier exposé clair et concis de la méthode des moindres carrés a été publié par Legendre en 1805. La technique est décrite comme une procédure algébrique pour ajuster des équations linéaires à des données et Legendre démontre la nouvelle méthode en analysant les mêmes données que Laplace pour la forme de La terre. Moins de dix ans après la publication de Legendre, la méthode des moindres carrés avait été adoptée comme outil standard en astronomie et en géodésie en France, en Italie et en Prusse, ce qui constitue une acceptation extraordinairement rapide d'une technique scientifique.

En 1809, Carl Friedrich Gauss publia sa méthode de calcul des orbites des corps célestes. Dans cet ouvrage, il prétendait être en possession de la méthode des moindres carrés depuis 1795. Cela entraîna naturellement un différend prioritaire avec Legendre. Cependant, au crédit de Gauss, il est allé au-delà de Legendre et a réussi à relier la méthode des moindres carrés aux principes de probabilité et à la distribution normale . Il avait réussi à compléter le programme de Laplace consistant à spécifier une forme mathématique de la densité de probabilité des observations, en fonction d'un nombre fini de paramètres inconnus, et à définir une méthode d'estimation qui minimise l'erreur d'estimation. Gauss a montré que la moyenne arithmétique est en effet la meilleure estimation du paramètre de localisation en modifiant à la fois la densité de probabilité et la méthode d'estimation. Il a ensuite renversé le problème en demandant quelle forme devrait avoir la densité et quelle méthode d'estimation devrait être utilisée pour obtenir la moyenne arithmétique comme estimation du paramètre de localisation. Dans cette tentative, il a inventé la distribution normale.

Une première démonstration de la force de la méthode de Gauss est venue lorsqu'elle a été utilisée pour prédire l'emplacement futur de l'astéroïde récemment découvert Cérès . Le 1er janvier 1801, l'astronome italien Giuseppe Piazzi a découvert Cérès et a pu suivre sa trajectoire pendant 40 jours avant de se perdre dans l'éclat du soleil. Sur la base de ces données, les astronomes ont souhaité déterminer l'emplacement de Cérès après son émergence de derrière le soleil sans résoudre les équations non linéaires compliquées du mouvement planétaire de Kepler . Les seules prédictions qui ont permis à l'astronome hongrois Franz Xaver von Zach de déplacer Cérès ont été celles réalisées par Gauss, 24 ans, à l'aide de l'analyse des moindres carrés.

En 1810, après avoir lu l'ouvrage de Gauss, Laplace, après avoir démontré le théorème central limite , l'a utilisé pour justifier sur un large échantillon la méthode des moindres carrés et la distribution normale. En 1822, Gauss a pu affirmer que l'approche des moindres carrés de l'analyse de régression est optimale en ce sens que dans un modèle linéaire où les erreurs ont une moyenne de zéro, ne sont pas corrélées et ont des variances égales, le meilleur estimateur linéaire sans biais de les coefficients est l'estimateur des moindres carrés. Ce résultat est connu sous le nom de théorème de Gauss-Markov .

L'idée de l'analyse des moindres carrés a également été formulée indépendamment par l'Américain Robert Adrain en 1808. Au cours des deux siècles suivants, les chercheurs en théorie des erreurs et en statistiques ont trouvé de nombreuses façons différentes de mettre en œuvre les moindres carrés.

Énoncé du problème

L'objectif consiste à ajuster les paramètres d'une fonction de modèle pour s'adapter au mieux à un ensemble de données. Un ensemble de données simple se compose de n points (paires de données) , i = 1, …, n , où est une variable indépendante et est une variable dépendante dont la valeur est trouvée par observation. La fonction de modèle a la forme , où m paramètres ajustables sont contenus dans le vecteur . L'objectif est de trouver les valeurs des paramètres du modèle qui correspondent « le mieux » aux données. L'ajustement d'un modèle à un point de données est mesuré par son résiduel , défini comme la différence entre la valeur observée de la variable dépendante et la valeur prédite par le modèle :

Les résidus sont tracés par rapport aux valeurs correspondantes . Les fluctuations aléatoires indiquent qu'un modèle linéaire est approprié.

La méthode des moindres carrés trouve les valeurs optimales des paramètres en minimisant la somme des carrés des résidus , :

Un exemple de modèle en deux dimensions est celui de la ligne droite. En désignant l'ordonnée à l'origine as et la pente , la fonction de modèle est donnée par . Voir les moindres carrés linéaires pour un exemple entièrement élaboré de ce modèle.

Un point de données peut être constitué de plusieurs variables indépendantes. Par exemple, lors de l'ajustement d'un plan à un ensemble de mesures de hauteur, le plan est fonction de deux variables indépendantes , disons x et z . Dans le cas le plus général, il peut y avoir une ou plusieurs variables indépendantes et une ou plusieurs variables dépendantes à chaque point de données.

À droite se trouve un graphique résiduel illustrant les fluctuations aléatoires de , indiquant qu'un modèle linéaire est approprié. est une variable aléatoire indépendante.  

Les résidus sont tracés par rapport aux valeurs correspondantes . La forme parabolique des fluctuations indique qu'un modèle parabolique est approprié.

Si les points résiduels avaient une forme quelconque et ne fluctuaient pas de manière aléatoire, un modèle linéaire ne serait pas approprié. Par exemple, si le graphique résiduel avait une forme parabolique comme vu à droite, un modèle parabolique serait approprié pour les données. Les résidus d'un modèle parabolique peuvent être calculés via .

Limites

Cette formulation de régression ne prend en compte que les erreurs d'observation dans la variable dépendante (mais l'autre régression des moindres carrés totaux peut tenir compte des erreurs dans les deux variables). Il existe deux contextes assez différents avec des implications différentes :

  • Régression pour la prédiction. Ici, un modèle est ajusté pour fournir une règle de prédiction à appliquer dans une situation similaire à laquelle les données utilisées pour l'ajustement s'appliquent. Ici, les variables dépendantes correspondant à une telle application future seraient sujettes aux mêmes types d'erreurs d'observation que celles des données utilisées pour l'ajustement. Il est donc logiquement cohérent d'utiliser la règle de prédiction des moindres carrés pour de telles données.
  • Régression pour l'ajustement d'une "vraie relation". Dans l' analyse de régression standard qui conduit à un ajustement par les moindres carrés, il existe une hypothèse implicite selon laquelle les erreurs dans la variable indépendante sont nulles ou strictement contrôlées de manière à être négligeables. Lorsque les erreurs sur la variable indépendante sont non négligeables, des modèles d'erreur de mesure peuvent être utilisés ; de telles méthodes peuvent conduire à des estimations de paramètres , à des tests d'hypothèses et à des intervalles de confiance qui prennent en compte la présence d'erreurs d'observation dans les variables indépendantes. Une approche alternative consiste à ajuster un modèle par les moindres carrés totaux ; cela peut être considéré comme une approche pragmatique pour équilibrer les effets des différentes sources d'erreur dans la formulation d'une fonction objectif à utiliser dans l'ajustement du modèle.

Résoudre le problème des moindres carrés

Le minimum de la somme des carrés est trouvé en mettant le gradient à zéro. Puisque le modèle contient m paramètres, il existe m équations de gradient :

et depuis , les équations de gradient deviennent

Les équations de gradient s'appliquent à tous les problèmes des moindres carrés. Chaque problème particulier nécessite des expressions particulières pour le modèle et ses dérivées partielles.

moindres carrés linéaires

Un modèle de régression est un modèle linéaire lorsque le modèle comprend une combinaison linéaire des paramètres, c'est-à-dire,

où la fonction est fonction de .

En laissant et en plaçant les variables indépendantes et dépendantes dans des matrices et , respectivement, nous pouvons calculer les moindres carrés de la manière suivante. Notez que c'est l'ensemble de toutes les données.

Trouver le minimum peut être atteint en réglant le gradient de la perte à zéro et en résolvant

Enfin, en réglant le gradient de la perte à zéro et en résolvant pour nous obtenons :

moindres carrés non linéaires

Il existe, dans certains cas, une solution fermée à un problème des moindres carrés non linéaires - mais en général, il n'y en a pas. Dans le cas de l'absence de solution fermée, des algorithmes numériques sont utilisés pour trouver la valeur des paramètres qui minimise l'objectif. La plupart des algorithmes impliquent de choisir des valeurs initiales pour les paramètres. Ensuite, les paramètres sont affinés de manière itérative, c'est-à-dire que les valeurs sont obtenues par approximations successives :

où un exposant k est un nombre d'itérations, et le vecteur d'incréments est appelé vecteur de décalage. Dans certains algorithmes couramment utilisés, à chaque itération le modèle peut être linéarisé par approximation à un développement en série de Taylor du premier ordre sur :

Le Jacobien J est fonction des constantes, de la variable indépendante et des paramètres, il change donc d'une itération à l'autre. Les résidus sont donnés par

Pour minimiser la somme des carrés de , l'équation du gradient est mise à zéro et résolue pour :

qui, au réarrangement, deviennent m équations linéaires simultanées, les équations normales :

Les équations normales sont écrites en notation matricielle sous la forme

Ce sont les équations de définition de l' algorithme de Gauss-Newton .

Différences entre les moindres carrés linéaires et non linéaires

  • La fonction modèle, f , en LLSQ (moins carrés linéaires) est une combinaison linéaire de paramètres de la forme Le modèle peut représenter une droite, une parabole ou toute autre combinaison linéaire de fonctions. Dans NLLSQ (moins carrés non linéaires), les paramètres apparaissent sous forme de fonctions, telles que et ainsi de suite. Si les dérivées sont soit constantes, soit ne dépendent que des valeurs de la variable indépendante, le modèle est linéaire dans les paramètres. Sinon, le modèle est non linéaire.
  • Besoin de valeurs initiales pour les paramètres pour trouver la solution à un problème NLLSQ ; LLSQ n'en a pas besoin.
  • Les algorithmes de solution pour NLLSQ nécessitent souvent que le Jacobien puisse être calculé de manière similaire à LLSQ. Les expressions analytiques des dérivées partielles peuvent être compliquées. S'il est impossible d'obtenir des expressions analytiques, soit les dérivées partielles doivent être calculées par approximation numérique, soit une estimation doit être faite du Jacobien, souvent via des différences finies .
  • La non-convergence (échec de l'algorithme à trouver un minimum) est un phénomène courant en NLLSQ.
  • LLSQ est globalement concave, donc la non-convergence n'est pas un problème.
  • La résolution de NLLSQ est généralement un processus itératif qui doit être terminé lorsqu'un critère de convergence est satisfait. Les solutions LLSQ peuvent être calculées à l'aide de méthodes directes, bien que les problèmes avec un grand nombre de paramètres soient généralement résolus avec des méthodes itératives, telles que la méthode de Gauss-Seidel .
  • Dans LLSQ, la solution est unique, mais dans NLLSQ, il peut y avoir plusieurs minima dans la somme des carrés.
  • À condition que les erreurs ne soient pas corrélées avec les variables prédictives, LLSQ donne des estimations non biaisées, mais même dans cette condition, les estimations NLLSQ sont généralement biaisées.

Ces différences doivent être prises en compte chaque fois que la solution à un problème des moindres carrés non linéaires est recherchée.

Exemple

Prenons un exemple simple tiré de la physique. Un ressort doit obéir à la loi de Hooke qui stipule que l'extension d'un ressort y est proportionnelle à la force, F , qui lui est appliquée.

constitue le modèle, où F est la variable indépendante. Afin d'estimer la constante de force , k , nous effectuons une série de n mesures avec différentes forces pour produire un ensemble de données, , où y i est une extension de ressort mesurée. Chaque observation expérimentale contiendra une erreur, et nous pouvons donc spécifier un modèle empirique pour nos observations,

Il existe de nombreuses méthodes que nous pouvons utiliser pour estimer le paramètre inconnu k . Étant donné que les n équations des m variables de nos données comprennent un système surdéterminé avec une inconnue et n équations, nous estimons k à l' aide des moindres carrés. La somme des carrés à minimiser est

L'estimation des moindres carrés de la constante de force, k , est donnée par

Nous supposons que l'application d'une force provoque l'expansion du ressort. Après avoir dérivé la constante de force par l'ajustement des moindres carrés, nous prédisons l'extension à partir de la loi de Hooke.

Quantification de l'incertitude

Dans un calcul des moindres carrés avec des poids unitaires, ou en régression linéaire, la variance sur le j ème paramètre, noté , est généralement estimée avec

où la vraie variance d'erreur σ 2 est remplacée par une estimation, la statistique chi-carré réduite , basée sur la valeur minimisée de la somme des carrés résiduelle (fonction objectif), S . Le dénominateur, n  −  m , est le nombre de degrés de liberté statistiques ; voir degrés de liberté effectifs pour les généralisations. C est la matrice de covariance .

Tests statistiques

Si la distribution de probabilité des paramètres est connue ou si une approximation asymptotique est faite, des limites de confiance peuvent être trouvées. De même, des tests statistiques sur les résidus peuvent être effectués si la distribution de probabilité des résidus est connue ou supposée. Nous pouvons dériver la distribution de probabilité de toute combinaison linéaire des variables dépendantes si la distribution de probabilité des erreurs expérimentales est connue ou supposée. Il est facile de déduire en supposant que les erreurs suivent une distribution normale, ce qui implique par conséquent que les estimations des paramètres et les résidus seront également distribués normalement en fonction des valeurs des variables indépendantes.

Il est nécessaire de faire des hypothèses sur la nature des erreurs expérimentales pour tester les résultats statistiquement. Une hypothèse courante est que les erreurs appartiennent à une distribution normale. Le théorème central limite soutient l'idée qu'il s'agit d'une bonne approximation dans de nombreux cas.

  • Le théorème de Gauss-Markov . Dans un modèle linéaire dans lequel les erreurs ont une espérance nulle conditionnelle aux variables indépendantes, sont non corrélées et ont des variances égales , le meilleur estimateur linéaire sans biais de toute combinaison linéaire des observations est son estimateur par les moindres carrés. « Meilleur » signifie que les estimateurs par les moindres carrés des paramètres ont une variance minimale. L'hypothèse d'égalité de variance est valable lorsque les erreurs appartiennent toutes à la même distribution.
  • Si les erreurs appartiennent à une distribution normale, les estimateurs des moindres carrés sont également les estimateurs du maximum de vraisemblance dans un modèle linéaire.

Cependant, supposons que les erreurs ne soient pas normalement distribuées. Dans ce cas, un théorème central limite implique souvent néanmoins que les estimations des paramètres seront approximativement normalement distribuées tant que l'échantillon est raisonnablement grand. Pour cette raison, étant donné la propriété importante que la moyenne d'erreur est indépendante des variables indépendantes, la distribution du terme d'erreur n'est pas un problème important dans l'analyse de régression. Plus précisément, il n'est généralement pas important que le terme d'erreur suive une distribution normale.

moindres carrés pondérés

Effet d'« éventail » de l'hétéroscédasticité

Un cas particulier de moindres carrés généralisés appelés moindres carrés pondérés se produit lorsque toutes les entrées hors diagonale de Ω (la matrice de corrélation des résidus) sont nulles ; les variances des observations (le long de la diagonale de la matrice de covariance) peuvent encore être inégales ( hétéroscédasticité ). En termes plus simples, l' hétéroscédasticité se produit lorsque la variance de dépend de la valeur de laquelle le tracé des résidus crée un effet de "panning out" vers des valeurs plus grandes , comme le montre le tracé des résidus à droite. D'autre part, l' homoscédasticité suppose que la variance de et est égale.   

Relation avec les composants principaux

La première composante principale de la moyenne d'un ensemble de points peut être représentée par la ligne qui se rapproche le plus des points de données (telle que mesurée par la distance au carré de l'approche la plus proche, c'est-à-dire perpendiculaire à la ligne). En revanche, les moindres carrés linéaires essaient de minimiser la distance dans la direction uniquement. Ainsi, bien que les deux utilisent une métrique d'erreur similaire, les moindres carrés linéaires sont une méthode qui traite préférentiellement une dimension des données, tandis que l'ACP traite toutes les dimensions de la même manière.

Relation avec la théorie de la mesure

La statisticienne remarquable Sara van de Geer a utilisé la théorie des processus empiriques et la dimension de Vapnik-Chervonenkis pour prouver qu'un estimateur des moindres carrés peut être interprété comme une mesure sur l'espace des fonctions carrées intégrables .

Régularisation

Régularisation de Tikhonov

Dans certains contextes, une version régularisée de la solution des moindres carrés peut être préférable. La régularisation de Tikhonov (ou régression de crête ) ajoute une contrainte qui , la norme L 2 du vecteur de paramètres, n'est pas supérieure à une valeur donnée. De manière équivalente, il peut résoudre une minimisation sans contrainte de la pénalité des moindres carrés avec addition, où est une constante (c'est la forme lagrangienne du problème contraint). Dans un contexte bayésien , cela équivaut à placer une moyenne nulle a priori normalement distribuée sur le vecteur de paramètre.

Méthode au lasso

Une autre version régularisée des moindres carrés est le Lasso (opérateur de retrait et de sélection le moins absolu), qui utilise la contrainte selon laquelle , la norme L 1 du vecteur de paramètre, n'est pas supérieure à une valeur donnée. (Comme ci-dessus, cela équivaut à une minimisation sans contrainte de la pénalité des moindres carrés avec ajout.) Dans un contexte bayésien , cela équivaut à placer une distribution a priori de Laplace à moyenne nulle sur le vecteur de paramètres. Le problème d'optimisation peut être résolu en utilisant la programmation quadratique ou des méthodes d' optimisation convexe plus générales , ainsi que par des algorithmes spécifiques tels que l' algorithme de régression du moindre angle .

L'une des principales différences entre le lasso et la régression de crête est que dans la régression de crête, lorsque la pénalité est augmentée, tous les paramètres sont réduits tout en restant non nuls, tandis qu'au lasso, l'augmentation de la pénalité entraînera de plus en plus de paramètres. poussé à zéro. Il s'agit d'un avantage du Lasso par rapport à la régression de crête, car le fait de ramener les paramètres à zéro désélectionne les entités de la régression. Ainsi, Lasso sélectionne automatiquement les fonctionnalités les plus pertinentes et supprime les autres, tandis que la régression Ridge ne supprime jamais complètement les fonctionnalités. Certaines techniques de sélection de caractéristiques sont développées sur la base du LASSO dont Bolasso qui amorce les échantillons, et FeaLect qui analyse les coefficients de régression correspondant aux différentes valeurs de pour noter toutes les caractéristiques.

La formulation L 1 -régularisée est utile dans certains contextes en raison de sa tendance à préférer des solutions où plus de paramètres sont nuls, ce qui donne des solutions qui dépendent de moins de variables. Pour cette raison, le Lasso et ses variantes sont fondamentaux dans le domaine de la détection compressée . Une extension de cette approche est la régularisation élastique nette .

Voir également

Les références

Lectures complémentaires

Liens externes