Fiabilité inter-juges - Inter-rater reliability

Dans les statistiques, la fiabilité interévaluateurs (aussi appelé par divers noms similaires, tels que l' accord interévaluateurs , la concordance interévaluateurs , la fiabilité inter-observateurs , etc.) est le degré d'accord entre les observateurs indépendants qui évaluent, code, ou évaluer le même phénomène.

En revanche, la fiabilité intra-évaluateur est un score de la cohérence des évaluations données par la même personne dans plusieurs instances. Par exemple, le correcteur ne doit pas laisser des éléments comme la fatigue influencer sa notation vers la fin, ou laisser un bon papier influencer la notation du prochain papier. Le correcteur ne doit pas comparer les papiers entre eux, mais ils doivent noter chaque papier en fonction de la norme.

La fiabilité inter-évaluateur et intra-évaluateur sont des aspects de la validité du test . Leur évaluation est utile pour affiner les outils fournis aux juges humains, par exemple, en déterminant si une échelle particulière est appropriée pour mesurer une variable particulière. Si plusieurs évaluateurs ne sont pas d'accord, soit l'échelle est défectueuse, soit les évaluateurs doivent être recyclés.

Il existe un certain nombre de statistiques qui peuvent être utilisées pour déterminer la fiabilité inter-évaluateurs. Différentes statistiques sont appropriées pour différents types de mesure. Certaines options sont probabilité conjointe d'accord, de Cohen kappa , la pi de Scott et lié kappa de Fleiss , la corrélation interévaluateurs, coefficient de corrélation de concordance , la corrélation intra-classe , et alpha de Krippendorff .

Concept

Il existe plusieurs définitions opérationnelles de la « fiabilité inter-évaluateurs », reflétant différents points de vue sur ce qu'est un accord fiable entre les évaluateurs. Il existe trois définitions opérationnelles de l'accord :

  1. Les évaluateurs fiables sont d'accord avec l'évaluation "officielle" d'une performance.
  2. Les évaluateurs fiables s'entendent sur les notes exactes à attribuer.
  3. Les évaluateurs fiables s'entendent sur les performances les meilleures et celles qui sont pires.

Ceux-ci se combinent avec deux définitions opérationnelles du comportement :

  1. Les évaluateurs fiables sont des automates, se comportant comme des « machines d'évaluation ». Cette catégorie comprend l'évaluation des essais par ordinateur. Ce comportement peut être évalué par la théorie de la généralisabilité .
  2. Les évaluateurs fiables se comportent comme des témoins indépendants. Ils démontrent leur indépendance en étant légèrement en désaccord. Ce comportement peut être évalué par le modèle de Rasch .

Statistiques

Probabilité conjointe d'accord

La probabilité conjointe d'accord est la mesure la plus simple et la moins robuste. Il est estimé comme le pourcentage de fois où les évaluateurs sont d'accord dans un système de notation nominal ou catégoriel. Il ne tient pas compte du fait qu'un accord peut se produire uniquement sur la base du hasard. La question se pose de savoir s'il est nécessaire ou non de « corriger » l'accord fortuit ; certains suggèrent que, dans tous les cas, un tel ajustement devrait être basé sur un modèle explicite de la façon dont le hasard et l'erreur affectent les décisions des évaluateurs.

Lorsque le nombre de catégories utilisées est petit (par exemple 2 ou 3), la probabilité pour 2 évaluateurs d'être d'accord par pur hasard augmente considérablement. En effet, les deux évaluateurs doivent se limiter au nombre limité d'options disponibles, ce qui impacte le taux d'accord global, et pas nécessairement leur propension à un accord « intrinsèque » (un accord est considéré comme « intrinsèque » s'il n'est pas dû au hasard).

Par conséquent, la probabilité conjointe d'accord restera élevée même en l'absence d'accord « intrinsèque » entre les évaluateurs. On s'attend à ce qu'un coefficient de fiabilité inter-évaluateur utile (a) soit proche de 0, lorsqu'il n'y a pas de concordance « intrinsèque », et (b) augmente à mesure que le taux de concordance « intrinsèque » s'améliore. La plupart des coefficients de concordance corrigés au hasard atteignent le premier objectif. Cependant, le deuxième objectif n'est pas atteint par de nombreuses mesures connues corrigées par le hasard.

Statistiques Kappa

Quatre séries de recommandations pour interpréter le niveau d'accord entre évaluateurs

Kappa est un moyen de mesurer la concordance ou la fiabilité, en corrigeant la fréquence à laquelle les notes peuvent concorder par hasard. Le kappa de Cohen, qui fonctionne pour deux évaluateurs, et le kappa de Fleiss, une adaptation qui fonctionne pour un nombre fixe d'évaluateurs, améliorent la probabilité conjointe dans la mesure où ils prennent en compte le degré d'accord auquel on pourrait s'attendre par hasard. Les versions originales souffraient du même problème que la probabilité conjointe en ce qu'elles traitent les données comme nominales et supposent que les évaluations n'ont pas d'ordre naturel ; si les données ont effectivement un rang (niveau ordinal de mesure), alors cette information n'est pas pleinement prise en compte dans les mesures.

Les extensions ultérieures de l'approche comprenaient des versions qui pouvaient gérer le « crédit partiel » et les échelles ordinales. Ces extensions convergent avec la famille des corrélations intra-classes (ICC), il existe donc une manière conceptuellement liée d'estimer la fiabilité pour chaque niveau de mesure du nominal (kappa) à l'ordinal (ordinal kappa ou ICC - hypothèses d'étirement) à l'intervalle (ICC , ou kappa ordinal - traitant l'échelle d'intervalle comme ordinale) et le rapport (ICC). Il existe également des variantes qui peuvent examiner l'accord des évaluateurs sur un ensemble d'éléments (par exemple, deux enquêteurs sont-ils d'accord sur les scores de dépression pour tous les éléments du même entretien semi-structuré pour un cas ?) ainsi que les évaluateurs x cas (p. ex., dans quelle mesure deux évaluateurs ou plus s'entendent-ils pour savoir si 30 cas ont un diagnostic de dépression, oui/non — une variable nominale).

Kappa est similaire à un coefficient de corrélation en ce sens qu'il ne peut pas dépasser +1,0 ou en dessous de -1,0. Parce qu'il est utilisé comme mesure de l'accord, seules des valeurs positives seraient attendues dans la plupart des situations ; des valeurs négatives indiqueraient un désaccord systématique. Kappa ne peut atteindre des valeurs très élevées que lorsque les deux accords sont bons et que le taux de la condition cible est proche de 50 % (car il inclut le taux de base dans le calcul des probabilités conjointes). Plusieurs autorités ont proposé des « règles empiriques » pour interpréter le niveau d'accord, dont beaucoup sont d'accord dans l'essentiel même si les mots ne sont pas identiques.

Coefficients de corrélation

Soit Pearson « s , le τ de Kendall ou Spearman » s peut être utilisé pour mesurer la corrélation entre les paires noteurs en utilisant une échelle qui est ordonnée. Pearson suppose que l'échelle de notation est continue; Les statistiques de Kendall et Spearman supposent seulement qu'il est ordinal. Si plus de deux évaluateurs sont observés, un niveau moyen d' un accord pour le groupe peut être calculé comme la moyenne des , τ , ou les valeurs de chaque paire possible de noteurs.

Coefficient de corrélation intra-classe

Une autre façon d'effectuer des tests de fiabilité consiste à utiliser le coefficient de corrélation intra-classe (ICC). Il existe plusieurs types de ceci et l'un est défini comme "la proportion de variance d'une observation due à la variabilité entre les sujets dans les scores réels". La plage de l'ICC peut être comprise entre 0,0 et 1,0 (une première définition de l'ICC pourrait être comprise entre -1 et +1). L'ICC sera élevé lorsqu'il y a peu de variation entre les scores attribués à chaque élément par les évaluateurs, par exemple si tous les évaluateurs attribuent des scores identiques ou similaires à chacun des éléments. L'ICC est une amélioration par rapport à Pearson et Spearman , car il prend en compte les différences de notation pour les segments individuels, ainsi que la corrélation entre les évaluateurs.

Limites de l'accord

Parcelle de Bland–Altman

Une autre approche de l'accord (utile lorsqu'il n'y a que deux évaluateurs et que l'échelle est continue) consiste à calculer les différences entre chaque paire d'observations des deux évaluateurs. La moyenne de ces différences est appelée biais et l'intervalle de référence (moyenne ± 1,96 ×  écart-type ) est appelé limites d'accord . Les limites d'accord donnent un aperçu de l'ampleur de la variation aléatoire pouvant influencer les cotes.

Si les évaluateurs ont tendance à être d'accord, les différences entre les observations des évaluateurs seront proches de zéro. Si un évaluateur est généralement supérieur ou inférieur à l'autre d'un montant constant, le biais sera différent de zéro. Si les évaluateurs ont tendance à être en désaccord, mais sans tendance constante d'une évaluation plus élevée que l'autre, la moyenne sera proche de zéro. Des limites de confiance (généralement 95 %) peuvent être calculées à la fois pour le biais et pour chacune des limites d'accord.

Il existe plusieurs formules qui peuvent être utilisées pour calculer les limites d'accord. La formule simple, qui a été donnée dans le paragraphe précédent et qui fonctionne bien pour une taille d'échantillon supérieure à 60, est

Pour des tailles d'échantillon plus petites, une autre simplification courante est

Cependant, la formule la plus précise (qui s'applique à toutes les tailles d'échantillon) est

Bland et Altman ont développé cette idée en représentant graphiquement la différence de chaque point, la différence moyenne et les limites d'accord sur la verticale par rapport à la moyenne des deux notes sur l'horizontale. Le graphique de Bland-Altman qui en résulte montre non seulement le degré d'accord global, mais aussi si l'accord est lié à la valeur sous-jacente de l'élément. Par exemple, deux évaluateurs peuvent être d'accord pour estimer la taille de petits éléments, mais ne pas être d'accord sur les éléments plus gros.

Lorsqu'on compare deux méthodes de mesure, il est non seulement intéressant d'estimer à la fois le biais et les limites d'accord entre les deux méthodes (accord inter-juges), mais aussi d'évaluer ces caractéristiques pour chaque méthode en elle-même. Il se peut très bien que l'accord entre deux méthodes soit faible simplement parce que l'une des méthodes a de larges limites d'accord tandis que l'autre a des limites étroites. Dans ce cas, la méthode avec les limites d'accord étroites serait supérieure d'un point de vue statistique, tandis que des considérations pratiques ou autres pourraient modifier cette appréciation. Ce qui constitue des limites d'accord étroites ou larges ou un biais grand ou petit est une question d'évaluation pratique dans chaque cas.

L'alpha de Krippendorff

L' alpha de Krippendorff est une statistique polyvalente qui évalue l'accord obtenu entre les observateurs qui catégorisent, évaluent ou mesurent un ensemble donné d'objets en termes de valeurs d'une variable. Il généralise plusieurs coefficients d'accord spécialisés en acceptant n'importe quel nombre d'observateurs, étant applicable aux niveaux de mesure nominaux, ordinaux, d'intervalle et de rapport, étant capable de gérer les données manquantes et étant corrigé pour les petites tailles d'échantillon.

Alpha a émergé dans l'analyse de contenu où les unités textuelles sont classées par des codeurs qualifiés et est utilisé dans le conseil et la recherche par sondage où les experts codent les données d'entretiens ouverts en termes analysables, en psychométrie où les attributs individuels sont testés par plusieurs méthodes, dans les études d'observation où les événements non structurés sont enregistrés pour une analyse ultérieure, et en linguistique informatique où les textes sont annotés pour diverses qualités syntaxiques et sémantiques.

Désaccord

Pour toute tâche dans laquelle plusieurs évaluateurs sont utiles, les évaluateurs sont censés être en désaccord sur la cible observée. En revanche, les situations impliquant une mesure sans ambiguïté, telles que des tâches de comptage simples (par exemple, le nombre de clients potentiels entrant dans un magasin), ne nécessitent souvent pas plus d'une personne pour effectuer la mesure.

Les mesures impliquant une ambiguïté dans les caractéristiques d'intérêt dans la cible d'évaluation sont généralement améliorées avec plusieurs évaluateurs formés. De telles tâches de mesure impliquent souvent un jugement subjectif de la qualité. Les exemples incluent les évaluations de la « manière de chevet du médecin », l'évaluation de la crédibilité des témoins par un jury et les compétences de présentation d'un conférencier.

La variation entre les évaluateurs dans les procédures de mesure et la variabilité dans l'interprétation des résultats de mesure sont deux exemples de sources de variance d'erreur dans l'évaluation des mesures. Des directives clairement énoncées pour le rendu des évaluations sont nécessaires pour la fiabilité dans des scénarios de mesure ambigus ou difficiles.

Sans directives de notation, les évaluations sont de plus en plus affectées par le biais de l'expérimentateur , c'est-à-dire une tendance des valeurs d'évaluation à dériver vers ce qui est attendu par l'évaluateur. Au cours des processus impliquant des mesures répétées, la correction de la dérive de l' évaluateur peut être traitée par un recyclage périodique pour s'assurer que les évaluateurs comprennent les directives et les objectifs de mesure.

Voir également

Les références

Lectures complémentaires

Liens externes