MÉTÉORE - METEOR

METEOR ( Metric for Evaluation of Translation with Explicit ORdering ) est une métrique pour l' évaluation de la sortie de traduction automatique . La métrique est basée sur la moyenne harmonique de la précision et du rappel de l'unigramme , le rappel étant pondéré plus haut que la précision. Il possède également plusieurs fonctionnalités que l'on ne trouve pas dans d'autres métriques, telles que la recherche de racines et la correspondance de synonymie , ainsi que la correspondance de mots exacte standard. La métrique a été conçue pour résoudre certains des problèmes rencontrés dans la métrique BLEU plus populaire , et produire également une bonne corrélation avec le jugement humain au niveau de la phrase ou du segment. Cela diffère de la métrique BLEU en ce que BLEU cherche une corrélation au niveau du corpus.

Exemple d'alignement (a).

Des résultats ont été présentés qui donnent une corrélation allant jusqu'à 0,964 avec le jugement humain au niveau du corpus, par rapport à l'atteinte de 0,817 de l' BLEU sur le même ensemble de données. Au niveau de la peine, la corrélation maximale avec le jugement humain obtenue était de 0,403.

Exemple d'alignement (b).

Algorithme

Comme avec BLEU , l'unité de base d'évaluation est la phrase, l'algorithme crée d'abord un alignement (voir illustrations) entre deux phrases , la chaîne de traduction candidate et la chaîne de traduction de référence. L' alignement est un ensemble de correspondances entre des unigrammes . Un mappage peut être considéré comme une ligne entre un unigramme dans une chaîne et un unigramme dans une autre chaîne. Les contraintes sont les suivantes ; chaque unigramme dans la traduction candidate doit correspondre à zéro ou à un unigramme dans la référence. Les mappages sont sélectionnés pour produire un alignement tel que défini ci-dessus. S'il y a deux alignements avec le même nombre de mappages, l'alignement est choisi avec le moins de croix , c'est-à-dire avec moins d' intersections de deux mappages. À partir des deux alignements indiqués, l'alignement (a) serait sélectionné à ce stade. Les étapes sont exécutées consécutivement et chaque étape n'ajoute à l'alignement que les unigrammes qui n'ont pas été mis en correspondance lors des étapes précédentes. Une fois l'alignement final calculé, le score est calculé comme suit : La précision de l'unigramme P est calculée comme :

Exemples de paires de mots qui seront mappés par chaque module
Module Candidat Référence Correspondre
Exact Bien Bien Oui
Stemmer Des biens Bien Oui
Synonymie bien Bien Oui

m est le nombre d'unigrammes dans la traduction candidate qui se trouvent également dans la traduction de référence, et est le nombre d'unigrammes dans la traduction candidate. Le rappel d'unigramme R est calculé comme :

m est comme ci-dessus, et est le nombre d'unigrammes dans la traduction de référence. La précision et le rappel sont combinés à l'aide de la moyenne harmonique de la manière suivante, le rappel étant pondéré 9 fois plus que la précision :

Les mesures qui ont été introduites jusqu'à présent ne tiennent compte que de la congruence par rapport à des mots isolés, mais pas par rapport aux segments plus larges qui apparaissent à la fois dans la référence et dans la phrase candidate. Afin de les prendre en compte, des correspondances de n- grammes plus longues sont utilisées pour calculer une pénalité p pour l'alignement. Plus il y a de mappages qui ne sont pas adjacents dans la référence et la phrase candidate, plus la pénalité sera élevée.

Afin de calculer cette pénalité, les unigrammes sont regroupés dans le moins de morceaux possible , où un morceau est défini comme un ensemble d'unigrammes adjacents dans l'hypothèse et dans la référence. Plus les mappages adjacents entre le candidat et la référence sont longs, moins il y a de morceaux. Une traduction identique à la référence ne donnera qu'un seul morceau. La pénalité p est calculée comme suit,

c est le nombre de morceaux et le nombre d'unigrammes qui ont été mappés. Le score final pour un segment est calculé comme M ci-dessous. La pénalité a pour effet de réduire le jusqu'à 50% s'il n'y a pas de bigramme ou de correspondances plus longues.

Pour calculer un score sur un corpus entier , ou une collection de segments, les valeurs agrégées de P , R et p sont prises puis combinées à l'aide de la même formule. L'algorithme fonctionne également pour comparer une traduction candidate à plusieurs traductions de référence. Dans ce cas, l'algorithme compare le candidat à chacune des références et sélectionne le score le plus élevé.

Exemples

Référence les chat Sam au les tapis
Hypothèse au les tapis Sam les chat
But
Fmoy
Peine
Fragmentation
Référence les chat Sam au les tapis
Hypothèse les chat Sam au les tapis
But
Fmoy
Peine
Fragmentation
Référence les chat Sam au les tapis
Hypothèse les chat a été Sam au les tapis
But
Fmoy
Peine
Fragmentation

Voir également

Remarques

  1. ^ Banerjee, S. et Lavie, A. (2005)

Les références

  • Banerjee, S. et Lavie, A. (2005) "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments" dans Actes de l'atelier sur les mesures d'évaluation intrinsèques et extrinsèques pour la MT et/ou la synthèse à la 43e réunion annuelle de l'Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, juin 2005
  • Lavie, A., Sagae, K. et Jayaraman, S. (2004) "L'importance du rappel dans les métriques automatiques pour l'évaluation de la TA" dans les Actes de l'AMTA 2004, Washington DC. septembre 2004

Liens externes