Données ordinales - Ordinal data

Les données ordinales sont un type de données statistique catégorique où les variables ont des catégories naturelles et ordonnées et les distances entre les catégories ne sont pas connues. Ces données existent sur une échelle ordinale , l'un des quatre niveaux de mesure décrits par SS Stevens en 1946. L'échelle ordinale se distingue de l' échelle nominale par un classement . Il diffère également de l' échelle d'intervalle et de l' échelle de rapport en n'ayant pas de largeurs de catégorie qui représentent des incréments égaux de l'attribut sous-jacent.

Exemples de données ordinales

Un exemple bien connu de données ordinales est l' échelle de Likert . Voici un exemple d'échelle de Likert :

Comme	Comme un peu	Neutre	N'aime pas assez	Ne pas aimer
1	2	3	4	5

Des exemples de données ordinales sont souvent trouvés dans les questionnaires : par exemple, la question de l'enquête « Votre état de santé général est-il mauvais, raisonnable, bon ou excellent ? peuvent avoir ces réponses codées respectivement comme 1, 2, 3 et 4. Parfois, les données sur une échelle d'intervalle ou une échelle de rapport sont regroupées sur une échelle ordinale : par exemple, les personnes dont le revenu est connu peuvent être regroupées dans les catégories de revenu 0 $ à 19 999 $ , 20 000 $ à 39 999 $, 40 000 $ à 59 999 $, ..., qui pourraient alors être codés comme 1, 2, 3, 4, .... D'autres exemples de données ordinales incluent le statut socio-économique, les grades militaires et les notes alphabétiques pour les cours.

Façons d'analyser des données ordinales

L'analyse des données ordinales nécessite un ensemble d'analyses différent des autres variables qualitatives. Ces méthodes intègrent l'ordre naturel des variables afin d'éviter les pertes de puissance. Le calcul de la moyenne d'un échantillon de données ordinales est déconseillé ; d'autres mesures de tendance centrale, y compris la médiane ou le mode, sont généralement plus appropriées.

Général

Stevens (1946) a fait valoir que, parce que l'hypothèse d'une distance égale entre les catégories ne tient pas pour les données ordinales, l'utilisation de moyennes et d'écarts-types pour la description des distributions ordinales et des statistiques inférentielles basées sur les moyennes et les écarts-types n'était pas appropriée. Au lieu de cela, des mesures positionnelles comme la médiane et les centiles, en plus des statistiques descriptives appropriées pour les données nominales (nombre de cas, mode, corrélation d'éventualité), devraient être utilisées. Les méthodes non paramétriques ont été proposées comme les procédures les plus appropriées pour les statistiques inférentielles impliquant des données ordinales, en particulier celles développées pour l'analyse de mesures classées. Cependant, l'utilisation de statistiques paramétriques pour les données ordinales peut être autorisée avec certaines réserves pour tirer parti de la plus grande gamme de procédures statistiques disponibles.

Statistiques univariées

Au lieu des moyennes et des écarts types, les statistiques univariées appropriées pour les données ordinales incluent la médiane, d'autres centiles (tels que les quartiles et les déciles) et l'écart de quartile. Les tests à un échantillon pour les données ordinales comprennent le test à un échantillon de Kolmogorov-Smirnov , le test d'analyse à un échantillon et le test de point de changement.

Statistiques bivariées

Au lieu de tester les différences de moyennes avec des tests t , les différences de distributions de données ordinales de deux échantillons indépendants peuvent être testées avec des tests de Mann-Whitney , des séries , Smirnov et des rangs signés . Le test pour deux échantillons apparentés ou appariés comprend le test des signes et le test des rangs signés de Wilcoxon . L'analyse de la variance avec les rangs et le test de Jonckheere pour les alternatives ordonnées peuvent être effectués avec des données ordinales au lieu d'échantillons indépendants ANOVA . Les tests pour plus de deux échantillons apparentés comprennent l' analyse bidirectionnelle de la variance de Friedman par rangs et le test de Page pour les alternatives ordonnées . Les mesures de corrélation appropriées pour deux variables d'échelle ordinale incluent tau , gamma , r _s et d _yx /d _{xy de} Kendall .

Applications de régression

Les données ordinales peuvent être considérées comme une variable quantitative. En régression logistique , l'équation

logit[P(Y=1)]=\alpha +\beta _{1}c+\beta _{2}x

est le modèle et c prend les niveaux assignés de l'échelle catégorielle. Dans l'analyse de régression , les résultats ( variables dépendantes ) qui sont des variables ordinales peuvent être prédits à l'aide d'une variante de la régression ordinale , telle que logit ordonné ou probit ordonné .

Dans l'analyse de régression/corrélation multiple, les données ordinales peuvent être prises en compte à l'aide de polynômes de puissance et par la normalisation des scores et des rangs.

Tendances linéaires

Les tendances linéaires sont également utilisées pour trouver des associations entre les données ordinales et d'autres variables catégorielles, normalement dans des tableaux de contingence . Une corrélation r est trouvée entre les variables où r est compris entre -1 et 1. Pour tester la tendance, une statistique de test :

M^{2}=(n-1)r^{2}

est utilisé où n est la taille de l'échantillon.

R peut être trouvé en laissant être les scores des lignes et les scores des colonnes. Soit la moyenne des scores de la ligne tandis que . Alors est la probabilité de ligne marginale et est la probabilité de colonne marginale. R est calculé par : $u_{1}\leq u_{2}\leq ...\leq u_{I}$ $v_{1}\leq v_{2}\leq ...\leq v_{I}$ ${\bar {u}}\ =\sum _{i}u_{i}p_{i+}$ ${\bar {v}}\ =\sum _{j}v_{j}p_{j+}.$ ${\style d'affichage p_{i+}}$ ${\style d'affichage p_{+j}}$

r={\frac {\sum _{i,j}\left(u_{i}-{\bar {u}}\ \right)\left(v_{j}-{\bar {v} }\ \right)p_{ij}}{\sqrt {\left\lbrack \sum _{i}(u_{i}-{\bar {u}}\ \right)^{2}p_{i+}\ rbrack \lbrack \sum _{j}(v_{j}-{\bar {v}}\ )^{2}p_{+j}\rbrack }}}

Méthodes de classification

Des méthodes de classification ont également été développées pour les données ordinales. Les données sont divisées en différentes catégories de sorte que chaque observation est similaire aux autres. La dispersion est mesurée et minimisée dans chaque groupe pour maximiser les résultats de la classification. La fonction de dispersion est utilisée en théorie de l'information .

Modèles statistiques pour données ordinales

Il existe plusieurs modèles différents qui peuvent être utilisés pour décrire la structure des données ordinales. Quatre grandes classes de modèles sont décrites ci-dessous, chacune étant définie pour une variable aléatoire , avec des niveaux indexés par . ${\style d'affichage Y}$ $k=1,2,\dots ,q$

Notez que dans les définitions de modèle ci-dessous, les valeurs de et ne seront pas les mêmes pour tous les modèles pour le même ensemble de données, mais la notation est utilisée pour comparer la structure des différents modèles. $\mu _{k}$ $\mathbf {\beta }$

Modèle de cotes proportionnelles

Le modèle le plus couramment utilisé pour les données ordinales est le modèle de cotes proportionnelles, défini par l' endroit où les paramètres décrivent la distribution de base des données ordinales, sont les covariables et sont les coefficients décrivant les effets des covariables. $\log \left[{\frac {\Pr(Y\leq k)}{Pr(Y>k)}}\right]=\log \left[{\frac {\Pr(Y\leq k )}{1-\Pr(Y\leq k)}}\right]=\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$ $\mu _{k}$ $\mathbf {x}$ $\mathbf {\beta }$

Ce modèle peut être généralisé en définissant le modèle en utilisant au lieu de , ce qui rendrait le modèle adapté aux données nominales (dans lesquelles les catégories n'ont pas d'ordre naturel) ainsi qu'aux données ordinales. Cependant, cette généralisation peut rendre beaucoup plus difficile l'ajustement du modèle aux données. $\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$ $\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$

Modèle logit de catégorie de base

Le modèle de catégorie de base est défini par $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\mathbf {\beta } _{k }^{T}\mathbf {x}$

Ce modèle n'impose pas d'ordre sur les catégories et peut donc être appliqué aux données nominales ainsi qu'aux données ordinales.

Modèle stéréotypé commandé

Le modèle de stéréotype ordonné est défini par l' endroit où les paramètres de score sont contraints de telle sorte que . $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\phi _{k}\mathbf { \beta } ^{T}\mathbf {x}$ $0=\phi _{1}\leq \phi _{2}\leq \dots \leq \phi _{q}=1$

Il s'agit d'un modèle plus parcimonieux et plus spécialisé que le modèle logit de catégorie de base : peut être considéré comme similaire à . $\phi _{k}\mathbf {\beta }$ $\mathbf {\beta } _{k}$

Le modèle stéréotypé non ordonné a la même forme que le modèle stéréotypé ordonné, mais sans l'ordre imposé à . Ce modèle peut être appliqué à des données nominales. $\phi _{k}$

Notez que les scores ajustés, , indiquent à quel point il est facile de distinguer les différents niveaux de . Si alors cela indique que l'ensemble actuel de données pour les covariables ne fournit pas beaucoup d'informations pour distinguer les niveaux et , mais cela n'implique pas nécessairement que les valeurs réelles et sont éloignées. Et si les valeurs des covariables changent, alors pour ces nouvelles données, les scores ajustés et pourraient alors être très éloignés. ${\hat {\phi }}_{k}$ ${\style d'affichage Y}$ ${\hat {\phi }}_{k}\approx {\hat {\phi }}_{k-1}$ $\mathbf {x}$ ${\style d'affichage k}$ ${\style d'affichage k-1}$ ${\style d'affichage k}$ ${\style d'affichage k-1}$ ${\hat {\phi }}_{k}$ ${\hat {\phi }}_{k-1}$

Modèle logit à catégories adjacentes

Le modèle des catégories adjacentes est défini par bien que la forme la plus courante, désignée dans Agresti (2010) sous le nom de « forme des cotes proportionnelles », soit définie par $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } _ {k}^{T}\mathbf {x}$ $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } ^ {T}\mathbf {x}$

Ce modèle ne peut être appliqué qu'à des données ordinales, car la modélisation des probabilités de passage d'une catégorie à la catégorie suivante implique qu'il existe un ordre de ces catégories.

Le modèle logit des catégories adjacentes peut être considéré comme un cas particulier du modèle logit des catégories de base, où . Le modèle logit des catégories adjacentes peut également être considéré comme un cas particulier du modèle stéréotypé ordonné, où , c'est-à-dire les distances entre les sont définies à l'avance, plutôt que d'être estimées sur la base des données. $\mathbf {\beta } _{k}=\mathbf {\beta } (k-1)$ $\phi _{k}\propto k-1$ $\phi _{k}$

Comparaisons entre les modèles

Le modèle à cotes proportionnelles a une structure très différente des trois autres modèles, ainsi qu'une signification sous-jacente différente. A noter que la taille de la catégorie de référence dans le modèle à cotes proportionnelles varie avec , puisque est comparée à , alors que dans les autres modèles la taille de la catégorie de référence reste fixe, comme est comparée à ou . ${\style d'affichage k}$ $Y\leq k$ ${\style d'affichage Y>k}$ ${\style d'affichage Y=k}$ ${\style d'affichage Y=1}$ ${\style d'affichage Y=k+1}$

Différentes fonctions de liaison

Il existe des variantes de tous les modèles qui utilisent des fonctions de lien différentes, comme le lien probit ou le lien log-log complémentaire.

Visualisation et affichage

Les données ordinales peuvent être visualisées de plusieurs manières différentes. Les visualisations courantes sont le graphique à barres ou un graphique à secteurs . Les tableaux peuvent également être utiles pour afficher des données et des fréquences ordinales. Les tracés en mosaïque peuvent être utilisés pour montrer la relation entre une variable ordinale et une variable nominale ou ordinale. Un graphique en relief (un graphique linéaire qui montre le classement relatif des éléments d'un moment à l'autre) est également approprié pour les données ordinales.

Une gradation de couleur ou de niveaux de gris peut être utilisée pour représenter la nature ordonnée des données. Une échelle unidirectionnelle, telle que des fourchettes de revenus, peut être représentée par un graphique à barres où l'augmentation (ou la diminution) de la saturation ou de la luminosité d'une seule couleur indique un revenu plus élevé (ou plus faible). La distribution ordinale d'une variable mesurée sur une échelle à double sens, telle qu'une échelle de Likert, pourrait également être illustrée en couleur dans un graphique à barres empilées. Une couleur neutre (blanc ou gris) peut être utilisée pour le point médian (zéro ou neutre) avec des couleurs contrastées utilisées dans les directions opposées à partir du point médian, où une saturation ou une obscurité croissante des couleurs pourrait indiquer des catégories à une distance croissante du point médian. Les cartes choroplèthes utilisent également des nuances de couleur ou de niveaux de gris pour afficher les données ordinales.

Exemple de graphique à barres d'opinion sur les dépenses de défense.

Exemple de tracé d'opinion sur les dépenses de défense par parti politique.

Exemple de mosaïque d'opinions sur les dépenses de défense par parti politique.

Exemple de graphique à barres empilées d'opinion sur les dépenses de défense par parti politique.

Applications

L'utilisation de données ordinales peut être trouvée dans la plupart des domaines de recherche où des données catégorielles sont générées. Les environnements où les données ordinales sont souvent collectées incluent les sciences sociales et comportementales et les environnements gouvernementaux et commerciaux où les mesures sont collectées auprès des personnes par observation, tests ou questionnaires . Certains contextes courants pour la collecte de données ordinales comprennent la recherche par sondage ; et les tests d' intelligence , d' aptitude et de personnalité .

Le calcul de la "taille de l'effet" (delta d de Cliff ) à l'aide de données ordinales a été recommandé comme mesure de dominance statistique. {Cliff, N. (1993). Statistiques de dominance : analyses ordinales pour répondre à des questions ordinales. Bulletin psychologique, 114, 494-509.}

Voir également

Liste des analyses de données catégorielles

Les références

Lectures complémentaires

Agresti, Alain (2010). Analyse des données catégorielles ordinales (2e éd.). Hoboken, New Jersey : Wiley. ISBN 978-0470082898.

Languages

In other projects