Ecart moyen absolu - Average absolute deviation

L' écart absolu moyen ( AAD ) d'un ensemble de données est la moyenne des écarts absolus par rapport à un point central . Il s'agit d'une statistique récapitulative de la dispersion ou de la variabilité statistique . Dans la forme générale, le point central peut être une moyenne , une médiane , un mode ou le résultat de toute autre mesure de tendance centrale ou de toute valeur de référence liée à l'ensemble de données donné. L'AAD comprend l' écart absolu moyen et l' écart absolu médian (tous deux abrégés en MAD ).

Mesures de dispersion

Plusieurs mesures de dispersion statistique sont définies en termes d'écart absolu. Le terme « écart absolu moyen » n'identifie pas de manière unique une mesure de la dispersion statistique , car plusieurs mesures peuvent être utilisées pour mesurer les écarts absolus, et plusieurs mesures de tendance centrale peuvent également être utilisées. Ainsi, pour identifier de manière unique l'écart absolu, il est nécessaire de spécifier à la fois la mesure de l'écart et la mesure de la tendance centrale. Malheureusement, la littérature statistique n'a pas encore adopté de notation standard, car tant l' écart absolu moyen autour de la moyenne que l' écart absolu médian autour de la médiane ont été désignés par leurs initiales « MAD » dans la littérature, ce qui peut prêter à confusion, puisque en général, ils peuvent avoir des valeurs considérablement différentes les unes des autres.

Déviation absolue moyenne autour d'un point central

L'écart absolu moyen d'un ensemble { x ₁ , x ₂ , ..., x _n } est

{\frac {1}{n}}\sum _{i=1}^{n}|x_{i}-m(X)|.

Le choix de la mesure de tendance centrale, , a un effet marqué sur la valeur de l'écart moyen. Par exemple, pour l'ensemble de données {2, 2, 3, 4, 14} : ${\style d'affichage m(X)}$

Mesure de tendance centrale ${\style d'affichage m(X)}$	Signifie une déviation absolue
Moyenne = 5	${\style d'affichage {\frac {\|2-5\|+\|2-5\|+\|3-5\|+\|4-5\|+\|14-5\|}{5}}=3,6}$
Médiane = 3	${\style d'affichage {\frac {\|2-3\|+\|2-3\|+\|3-3\|+\|4-3\|+\|14-3\|}{5}}=2,8}$
Mode = 2	${\style d'affichage {\frac {\|2-2\|+\|2-2\|+\|3-2\|+\|4-2\|+\|14-2\|}{5}}=3.0}$

L'écart absolu moyen par rapport à la médiane est inférieur ou égal à l'écart absolu moyen par rapport à la moyenne. En fait, l'écart absolu moyen par rapport à la médiane est toujours inférieur ou égal à l'écart absolu moyen par rapport à tout autre nombre fixe.

L'écart absolu moyen par rapport à la moyenne est inférieur ou égal à l' écart type ; une façon de le prouver repose sur l'inégalité de Jensen .

Preuve

L'inégalité de Jensen est , où φ est une fonction convexe, ce qui implique pour que:

\varphi \left(\mathbb {E} [Y]\right)\leq \mathbb {E} \left[\varphi (Y)\right]

Y=\vert X-\mu \vert

\mathbb {E} \left(|X-\mu \right|)^{2}\leq \mathbb {E} \left(|X-\mu |^{2}\right)

\mathbb {E} \left(|X-\mu \right|)^{2}\leq \operatorname {Var} (X)

Puisque les deux côtés sont positifs et que la racine carrée est une fonction monotone croissante dans le domaine positif :

\mathbb {E} \left(|X-\mu \right|)\leq {\sqrt {\operatorname {Var} (X)}}

Pour un cas général de cette déclaration, voir l'inégalité de Hölder .

Pour la distribution normale , le rapport de l' écart absolu moyen à l' écart type est . Ainsi, si X est une variable aléatoire normalement distribuée avec une valeur attendue 0 alors, voir Geary (1935) : ${\sqrt {2/\pi }}=0.79788456\ldots$

w={\frac {E|X|}{\sqrt {E(X^{2})}}}={\sqrt {\frac {2}{\pi }}}.

En d'autres termes, pour une distribution normale, l'écart absolu moyen est d'environ 0,8 fois l'écart type. Cependant, les mesures dans l'échantillon fournissent des valeurs du rapport écart moyen moyen / écart type pour un échantillon gaussien donné n avec les bornes suivantes : , avec un biais pour n petit . $w_{n}\in [0,1]$

Écart absolu moyen autour de la moyenne

L' écart absolu moyen (MAD), également appelé « écart moyen » ou parfois « écart absolu moyen », est la moyenne des écarts absolus des données autour de la moyenne des données : la distance moyenne (absolue) par rapport à la moyenne. « Déviation moyenne absolue » peut se référer soit à cet usage, soit à la forme générale par rapport à un point central spécifié (voir ci-dessus).

MAD a été proposé pour être utilisé à la place de l' écart type car il correspond mieux à la vie réelle. Parce que le MAD est une mesure de variabilité plus simple que l' écart type , il peut être utile dans l'enseignement scolaire.

La précision des prévisions de cette méthode est très étroitement liée à la méthode de l' erreur quadratique moyenne (MSE) qui n'est que l'erreur quadratique moyenne des prévisions. Bien que ces méthodes soient très étroitement liées, MAD est plus couramment utilisée car elle est à la fois plus facile à calculer (en évitant la mise au carré) et plus facile à comprendre.

Écart absolu moyen autour de la médiane

L' écart absolu médian (MAD median) est la médiane de l'écart absolu par rapport à la médiane . C'est un estimateur robuste de la dispersion .

La médiane MAD offre une mesure directe de l'échelle d'une variable aléatoire autour de sa médiane

D_{\text{med}}=E|X-{\text{median}}|

Il s'agit de l' estimateur du maximum de vraisemblance du paramètre d'échelle de la distribution de Laplace . Pour la distribution normale, nous avons . Puisque la médiane minimise la distance absolue moyenne, nous avons et . ${\style d'affichage b}$ $D_{\text{mean}}=\sigma {\sqrt {2/\pi }}\approx 0.797884\sigma$ $D_{\text{med}}\leq D_{\text{mean}}$ $D_{\text{med}}=\operatorname {erf} ^{-1}(1/2)\sigma \approx 0.67449\sigma$

En utilisant la fonction de dispersion générale, Habib (2011) a défini MAD sur médiane comme

D_{\text{med}}=E|X-{\text{median}}|=2\operatorname {Cov} (X,I_{O})

où la fonction indicatrice est

\mathbf {I} _{O}:={\begin{cases}1&{\text{if }}x>{\text{median}},\\0&{\text{autrement}}.\ fin{cas}}

Cette représentation permet d'obtenir des coefficients de corrélation médians MAD.

Pour l'exemple {2, 2, 3, 4, 14} : 3 est la médiane, donc les écarts absolus par rapport à la médiane sont {1, 1, 0, 1, 11} (réorganisés comme {0, 1, 1, 1 , 11}) avec une médiane de 1, dans ce cas non affectée par la valeur de la valeur aberrante 14, donc l'écart absolu médian (également appelé MAD) est de 1.

Écart absolu maximal

L' écart absolu maximum autour d'un point arbitraire est le maximum des écarts absolus d'un échantillon par rapport à ce point. Bien qu'il ne s'agisse pas strictement d'une mesure de la tendance centrale, l'écart absolu maximum peut être trouvé en utilisant la formule de l'écart absolu moyen comme ci-dessus avec , où est le maximum de l' échantillon . ${\style d'affichage m(X)=\max(X)}$ ${\style d'affichage \max(X)}$

Minimisation

Les mesures de dispersion statistique dérivées de l'écart absolu caractérisent diverses mesures de tendance centrale comme minimisant la dispersion : La médiane est la mesure de tendance centrale la plus associée à l'écart absolu. Certains paramètres de localisation peuvent être comparés comme suit :

Statistiques de norme L ² : la moyenne minimise l' erreur quadratique moyenne
Statistiques de la norme L ¹ : la médiane minimisel'écart absolu moyen ,
L ^∞ norme statistiques: le milieu de gamme réduit le maximum de l' écart absolu
garni L ^∞ norme statistiques: par exemple, la midhinge (moyenne des premier et troisième quartiles ) qui minimise la moyenne écart absolu de la répartition ensemble, minimise également le maximum de l' écart absolu de la distribution après que le haut et le bas de 25% ont été ébarbé .

Estimation

L'écart absolu moyen d'un échantillon est un estimateur biaisé de l'écart absolu moyen de la population. Pour que l'écart absolu soit un estimateur sans biais, la valeur attendue (moyenne) de tous les écarts absolus de l'échantillon doit être égale à l'écart absolu de la population. Cependant, ce n'est pas le cas. Pour la population 1,2,3, l'écart absolu de la population par rapport à la médiane et l'écart absolu de la population par rapport à la moyenne sont de 2/3. La moyenne de tous les écarts absolus de l'échantillon par rapport à la moyenne de taille 3 qui peuvent être tirés de la population est de 44/81, tandis que la moyenne de tous les écarts absolus de l'échantillon par rapport à la médiane est de 4/9. Par conséquent, l'écart absolu est un estimateur biaisé.

Cependant, cet argument est basé sur la notion d'impartialité moyenne. Chaque mesure de localisation a sa propre forme d'absence de biais (voir l'entrée sur l' estimateur biaisé ). La forme pertinente d'impartialité ici est l'impartialité médiane.

Voir également

Les références

Liens externes

Avantages de l'écart absolu moyen

Languages

In other projects