Résidu studentisé - Studentized residual

En statistique , un résidu étudiant est le quotient résultant de la division d'un résidu par une estimation de son écart type . Il est une forme de l' étudiant t de -statistic , avec l'estimation d'erreur variant entre les points.

Il s'agit d'une technique importante dans la détection des valeurs aberrantes . Il est parmi plusieurs nommés en l'honneur de William Sealey Gosset , qui a écrit sous le pseudonyme Student . Diviser une statistique par un écart-type d'échantillon est appelé étudiant, par analogie avec la normalisation et la normalisation .

Motivation

La principale raison de l'étudiant est que, dans l'analyse de régression d'une distribution multivariée , les variances des résidus à différentes valeurs de variable d'entrée peuvent différer, même si les variances des erreurs à ces différentes valeurs de variable d'entrée sont égales. Le problème est la différence entre les erreurs et les résidus dans les statistiques , en particulier le comportement des résidus dans les régressions.

Considérons le modèle de régression linéaire simple

Étant donné un échantillon aléatoire ( X i Y i ), i  = 1, ...,  n , chaque paire ( X i Y i ) satisfait

où les erreurs sont indépendantes et ont toutes la même variance . Les résidus ne sont pas les vraies erreurs, mais des estimations , basées sur les données observables. Lorsque la méthode des moindres carrés est utilisée pour estimer et , alors les résidus , contrairement aux erreurs , ne peuvent pas être indépendants puisqu'ils satisfont aux deux contraintes

et

(Ici, ε i est la i ème erreur et est le i ème résidu.)

Les résidus, contrairement aux erreurs, n'ont pas tous la même variance: la variance diminue à mesure que la valeur x correspondante s'éloigne de la valeur x moyenne . Ce n'est pas une caractéristique des données elles-mêmes, mais de la régression qui ajuste mieux les valeurs aux extrémités du domaine. Elle se reflète également dans les fonctions d'influence de divers points de données sur les coefficients de régression : les points finaux ont plus d'influence. Cela peut également être vu parce que les résidus aux extrémités dépendent fortement de la pente d'une droite ajustée, tandis que les résidus au milieu sont relativement insensibles à la pente. Le fait que les variances des résidus diffèrent, même si les variances des vraies erreurs sont toutes égales les unes aux autres, est la principale raison de la nécessité de l'étudiant.

Il ne s'agit pas simplement de savoir si les paramètres de population (moyenne et écart-type) sont inconnus - c'est que les régressions donnent des distributions résiduelles différentes à différents points de données, contrairement aux estimateurs ponctuels de distributions univariées , qui partagent une distribution commune pour les résidus.

Contexte

Pour ce modèle simple, la matrice de conception est

et la matrice de chapeau H est la matrice de la projection orthogonale sur l'espace des colonnes de la matrice de conception:

L' effet de levier h ii est la i ème entrée diagonale dans la matrice de chapeau. La variance du i ème résidu est

Dans le cas où la matrice de conception X n'a que deux colonnes (comme dans l'exemple ci-dessus), cela est égal à

Dans le cas d'une moyenne arithmétique , la matrice de conception X n'a qu'une seule colonne (un vecteur de uns ), et c'est simplement:

Calcul

Compte tenu des définitions ci-dessus, le résidu Studentisé est alors

h ii est l' effet de levier , où est une estimation appropriée de σ (voir ci-dessous).

Dans le cas d'une moyenne, c'est égal à:

Studentisation interne et externe

L'estimation habituelle de σ 2 est le résidu étudiant interne

m est le nombre de paramètres dans le modèle (2 dans notre exemple).

Mais si le i  ème cas est suspecté d'être d'une taille improbable, il ne serait pas non plus distribué normalement. Il est donc prudent d'exclure la i  ème observation du processus d'estimation de la variance lorsque l'on considère si le i  ème cas peut être une valeur aberrante, et d'utiliser à la place le résidu étudiant externe , qui est

en fonction de tous les résidus , à l' exception du suspect i  e résiduel. Soulignons ici que pour le suspect, les i sont calculés sans  le cas i .

Si l'estimation σ 2 inclut le i  ème cas, alors on l'appelle le résidu étudiant interne , (également appelé résidu normalisé ). Si l'estimation est utilisée à la place, à l'exception de la i  ème cas, il est alors appelé le studentisés externe , .

Distribution

Si les erreurs sont indépendantes et normalement distribuées avec la valeur attendue 0 et la variance σ 2 , alors la distribution de probabilité du i ème résidu étudiant externe est une distribution t de Student avec n  -  m  - 1 degrés de liberté , et peut aller de à .

D'autre part, les résidus étudiés en interne sont dans la plage , où ν = n  -  m est le nombre de degrés de liberté résiduels. Si t i représente le résidu étudiant en interne, et en supposant à nouveau que les erreurs sont des variables gaussiennes indépendantes à distribution identique, alors:

t est une variable aléatoire distribuée comme la distribution t de Student avec ν  - 1 degrés de liberté. En fait, cela implique que t i 2 / ν suit la distribution bêta B (1/2, ( ν  - 1) / 2). La distribution ci-dessus est parfois appelée distribution tau ; il a été dérivé pour la première fois par Thompson en 1935.

Lorsque ν = 3, les résidus étudiés en interne sont uniformément répartis entre et . S'il n'y a qu'un seul degré de liberté résiduel, la formule ci-dessus pour la distribution des résidus étudiés en interne ne s'applique pas. Dans ce cas, les t i sont tous soit +1 soit -1, avec 50% de chance pour chacun.

L'écart-type de la distribution des résidus étudiés en interne est toujours 1, mais cela n'implique pas que l'écart-type de tous les t i d'une expérience particulière soit de 1. Par exemple, les résidus étudiés en interne lors de l'ajustement d'une ligne droite passant par ( 0, 0) aux points (1, 4), (2, -1), (2, -1) sont , et l'écart type de ceux-ci n'est pas 1.

Notez que toute paire de résiduels étudiés t i et t j (où ), ne sont PAS iid Ils ont la même distribution, mais ne sont pas indépendants en raison des contraintes sur les résidus devant faire la somme de 0 et les avoir orthogonaux à la matrice de conception .

Implémentations logicielles

De nombreux programmes et packages de statistiques, tels que R , Python , etc., incluent des implémentations de Studentized résiduel.

Langue / programme Fonction Remarques
R rstandard(model, ...) étudiée en interne. Voir [2]
R rstudent(model, ...) étudiée en externe. Voir [3]


Voir également

Références

Lectures complémentaires