Traduction automatique - Machine translation

  (Redirigé de MOLTO )

La traduction automatique , parfois désignée par l'abréviation MT (à ne pas confondre avec la traduction assistée par ordinateur, la traduction humaine assistée par ordinateur ou la traduction interactive ), est un sous-domaine de la linguistique informatique qui étudie l'utilisation de logiciels pour traduire du texte ou de la parole d'une langue à une autre.

À un niveau de base, MT effectue une substitution mécanique des mots dans une langue par des mots dans une autre, mais cela seul produit rarement une bonne traduction car la reconnaissance de phrases entières et de leurs homologues les plus proches dans la langue cible est nécessaire. Tous les mots d'une langue n'ont pas des mots équivalents dans une autre langue, et de nombreux mots ont plus d'une signification.

La résolution de ce problème avec des techniques statistiques et neuronales de corpus est un domaine en pleine croissance qui conduit à de meilleures traductions, à gérer les différences de typologie linguistique , la traduction des idiomes et l'isolement des anomalies.

Les logiciels de traduction automatique actuels permettent souvent une personnalisation par domaine ou profession (comme les bulletins météorologiques ), améliorant ainsi la production en limitant la portée des substitutions autorisées. Cette technique est particulièrement efficace dans les domaines où un langage formel ou formulé est utilisé. Il s'ensuit que la traduction automatique de documents gouvernementaux et juridiques produit plus facilement une sortie utilisable qu'une conversation ou un texte moins normalisé.

Une meilleure qualité de sortie peut également être obtenue par une intervention humaine: par exemple, certains systèmes sont capables de traduire plus précisément si l'utilisateur a identifié sans ambiguïté quels mots du texte sont des noms propres. Avec l'aide de ces techniques, MT s'est avérée utile comme outil pour aider les traducteurs humains et, dans un nombre très limité de cas, peut même produire des résultats qui peuvent être utilisés tels quels (par exemple, des rapports météorologiques).

Les progrès et le potentiel de la traduction automatique ont été beaucoup débattus au cours de son histoire. Depuis les années 1950, un certain nombre de chercheurs, en premier lieu et notamment Yehoshua Bar-Hillel , ont remis en question la possibilité de réaliser une traduction automatique entièrement automatique de haute qualité.

Histoire

Origines

Les origines de la traduction automatique remontent au travail d' Al-Kindi , un cryptographe arabe du IXe siècle qui a développé des techniques de traduction systémique de la langue, y compris la cryptanalyse , l' analyse de fréquence et les probabilités et statistiques , qui sont utilisées dans la traduction automatique moderne. L'idée de la traduction automatique est apparue plus tard au 17e siècle. En 1629, René Descartes proposa un langage universel, avec des idées équivalentes dans différentes langues partageant un symbole.

L'idée d'utiliser des ordinateurs numériques pour la traduction des langues naturelles a été proposée dès 1946 par l'Angleterre AD Booth et Warren Weaver à la Rockefeller Foundation au même moment. "Le mémorandum rédigé par Warren Weaver en 1949 est peut-être la publication la plus influente des premiers jours de la traduction automatique." D'autres ont suivi. Une démonstration a été faite en 1954 sur la machine APEXC au Birkbeck College ( Université de Londres ) d'une traduction rudimentaire de l'anglais vers le français. Plusieurs articles sur le sujet ont été publiés à l'époque, et même des articles dans des revues populaires (par exemple un article de Cleave et Zacharov dans le numéro de septembre 1955 de Wireless World ). Une application similaire, également lancée au Birkbeck College à l'époque, consistait à lire et à composer des textes en braille par ordinateur.

Années 1950

Le premier chercheur dans le domaine, Yehoshua Bar-Hillel, a commencé ses recherches au MIT (1951). Une équipe de recherche MT de l'Université de Georgetown a suivi (1951) avec une démonstration publique de son système d' expérimentation Georgetown-IBM en 1954. Des programmes de recherche MT ont surgi au Japon et en Russie (1955), et la première conférence MT a eu lieu à Londres (1956).

David G. Hays "a écrit sur le traitement du langage assisté par ordinateur dès 1957" et "a été chef de projet sur la linguistique computationnelle à Rand de 1955 à 1968".

1960-1975

Les chercheurs ont continué à rejoindre le domaine lorsque l'Association for Machine Translation and Computational Linguistics a été créée aux États-Unis (1962) et la National Academy of Sciences a formé le Automatic Language Processing Advisory Committee (ALPAC) pour étudier la MT (1964). Cependant, les progrès réels ont été beaucoup plus lents, et après le rapport de l' ALPAC (1966), qui a constaté que la recherche de dix ans n'avait pas répondu aux attentes, le financement a été considérablement réduit. Selon un rapport de 1972 du directeur de la recherche et de l'ingénierie de défense (DDR & E), la faisabilité de la MT à grande échelle a été rétablie par le succès du système Logos MT dans la traduction des manuels militaires en vietnamien pendant ce conflit.

L'Institut français du textile a également utilisé MT pour traduire des résumés de et vers le français, l'anglais, l'allemand et l'espagnol (1970); L'Université Brigham Young a lancé un projet de traduction de textes mormons par traduction automatique (1971).

1975 et au-delà

SYSTRAN , qui «a été le pionnier du domaine dans le cadre de contrats du gouvernement américain» dans les années 1960, a été utilisé par Xerox pour traduire des manuels techniques (1978). À partir de la fin des années 80, à mesure que la puissance de calcul augmentait et devenait moins chère, un plus grand intérêt s'est manifesté pour les modèles statistiques pour la traduction automatique . La MT est devenue plus populaire après l'avènement des ordinateurs. Le premier système d'implémentation de SYSTRAN a été mis en place en 1988 par le service en ligne de la Poste française appelé Minitel. Diverses sociétés de MT ont également été lancées, dont Trados (1984), qui a été la première à développer et commercialiser une technologie de mémoire de traduction (1989). Le premier système commercial de MT pour le russe / anglais / allemand-ukrainien a été développé à l'Université d'État de Kharkov (1991).

En 1998, «pour aussi peu que 29,95 $», on pouvait «acheter un programme de traduction dans un sens entre l'anglais et une langue européenne majeure de votre choix» pour fonctionner sur un PC.

MT sur le Web a commencé avec SYSTRAN, offrant la traduction gratuite de petits textes (1996), puis en fournissant cela via AltaVista Babelfish, qui a accumulé 500 000 demandes par jour (1997). Le deuxième service de traduction gratuit sur le Web était GlobaLink de Lernout & Hauspie . Atlantic Magazine écrivait en 1998 que «Babelfish de Systran et Comprende de GlobaLink» géraient «Ne comptez pas dessus» avec une «performance compétente».

Franz Josef Och (futur responsable du développement de la traduction chez Google) a remporté le concours speed MT de la DARPA (2003). Parmi les autres innovations au cours de cette période, citons MOSES, le moteur de traduction statistique open source (2007), un service de traduction de texte / SMS pour mobiles au Japon (2008) et un téléphone mobile avec une fonctionnalité de traduction vocale intégrée pour l'anglais. , Japonais et chinois (2009). Récemment, Google a annoncé que Google Translate traduit à peu près suffisamment de texte pour remplir 1 million de livres en une journée (2012).

Processus de traduction

Le processus de traduction humaine peut être décrit comme:

  1. Décoder la signification du texte source ; et
  2. RE- codant ce sens dans la langue cible.

Derrière cette procédure ostensiblement simple se cache une opération cognitive complexe . Pour décoder le sens du texte source dans son intégralité, le traducteur doit interpréter et analyser toutes les caractéristiques du texte, un processus qui nécessite une connaissance approfondie de la grammaire , de la sémantique , de la syntaxe , des idiomes , etc., de la langue source , ainsi que la culture de ses locuteurs. Le traducteur a besoin des mêmes connaissances approfondies pour recoder le sens dans la langue cible.

C'est là que réside le défi de la traduction automatique: comment programmer un ordinateur qui "comprendra" un texte comme le fait une personne, et qui "créera" un nouveau texte dans la langue cible qui sonne comme s'il avait été écrit par une personne . À moins d'être aidé par une «base de connaissances», la MT ne fournit qu'une approximation générale, quoique imparfaite, du texte original, en obtenant «l'essentiel» (un processus appelé «gisting»). Cela suffit à de nombreuses fins, y compris pour utiliser au mieux le temps limité et coûteux d'un traducteur humain, réservé aux cas dans lesquels une précision totale est indispensable.

Approches

Pyramide de Bernard Vauquois montrant les profondeurs comparatives de la représentation intermédiaire, traduction automatique interlinguale au sommet, suivie d'une traduction par transfert, puis directe.

La traduction automatique peut utiliser une méthode basée sur des règles linguistiques , ce qui signifie que les mots seront traduits de manière linguistique - les mots les plus appropriés (oralement) de la langue cible remplaceront ceux de la langue source.

On fait souvent valoir que le succès de la traduction automatique exige que le problème de la compréhension du langage naturel soit d'abord résolu.

Généralement, les méthodes basées sur des règles analysent un texte, créant généralement une représentation symbolique intermédiaire à partir de laquelle le texte dans la langue cible est généré. Selon la nature de la représentation intermédiaire, une approche est qualifiée de traduction automatique interlinguale ou de traduction automatique par transfert . Ces méthodes nécessitent des lexiques étendus avec des informations morphologiques , syntaxiques et sémantiques , et de grands ensembles de règles.

Avec suffisamment de données, les programmes de traduction automatique fonctionnent souvent assez bien pour qu'un locuteur natif d'une langue puisse avoir la signification approximative de ce qui est écrit par l'autre locuteur natif. La difficulté est d'obtenir suffisamment de données du bon type pour prendre en charge la méthode particulière. Par exemple, le vaste corpus multilingue de données nécessaires au fonctionnement des méthodes statistiques n'est pas nécessaire pour les méthodes basées sur la grammaire. Mais alors, les méthodes de grammaire ont besoin d'un linguiste qualifié pour concevoir soigneusement la grammaire qu'elles utilisent.

Pour traduire entre des langues étroitement liées, la technique appelée traduction automatique basée sur des règles peut être utilisée.

Basé sur des règles

Le paradigme de la traduction automatique basée sur des règles comprend la traduction automatique basée sur le transfert, la traduction automatique interlinguale et les paradigmes de traduction automatique basés sur un dictionnaire. Ce type de traduction est principalement utilisé dans la création de dictionnaires et de programmes de grammaire. Contrairement à d'autres méthodes, RBMT implique plus d'informations sur la linguistique des langues source et cible, en utilisant les règles morphologiques et syntaxiques et l'analyse sémantique des deux langues. L'approche de base consiste à relier la structure de la phrase d'entrée à la structure de la phrase de sortie en utilisant un analyseur et un analyseur pour la langue source, un générateur pour la langue cible et un lexique de transfert pour la traduction réelle. Le plus gros inconvénient de RBMT est que tout doit être rendu explicite: la variation orthographique et les entrées erronées doivent faire partie de l'analyseur de la langue source pour y faire face, et des règles de sélection lexicale doivent être écrites pour toutes les instances d'ambiguïté. L'adaptation à de nouveaux domaines en soi n'est pas si difficile, car la grammaire de base est la même dans tous les domaines, et l'ajustement spécifique au domaine est limité à l'ajustement de la sélection lexicale.

Traduction automatique basée sur les transferts

La traduction automatique basée sur le transfert est similaire à la traduction automatique interlinguale en ce qu'elle crée une traduction à partir d'une représentation intermédiaire qui simule le sens de la phrase originale. Contrairement à la MT interlinguale, elle dépend en partie de la paire de langues impliquée dans la traduction.

Interlingue

La traduction automatique interlinguale est un exemple d'approches de traduction automatique basées sur des règles. Dans cette approche, la langue source, c'est-à-dire le texte à traduire, se transforme en une langue interlinguale, c'est-à-dire en une représentation «linguistique neutre» indépendante de toute langue. La langue cible est ensuite générée à partir de l' interlingua . L'un des principaux avantages de ce système est que l'interlingua devient plus précieux à mesure que le nombre de langues cibles dans lesquelles il peut être transformé augmente. Cependant, le seul système de traduction automatique interlinguistique rendu opérationnel au niveau commercial est le système KANT (Nyberg et Mitamura, 1992), qui est conçu pour traduire l'anglais technique Caterpillar (CTE) dans d'autres langues.

Basé sur un dictionnaire

La traduction automatique peut utiliser une méthode basée sur des entrées de dictionnaire , ce qui signifie que les mots seront traduits tels quels par un dictionnaire.

Statistique

La traduction automatique statistique tente de générer des traductions en utilisant des méthodes statistiques basées sur des corpus de textes bilingues, comme le corpus du hansard canadien , le dossier anglais-français du parlement canadien et EUROPARL , le dossier du Parlement européen . Lorsque de tels corpus sont disponibles, de bons résultats peuvent être obtenus en traduisant des textes similaires, mais ces corpus sont encore rares pour de nombreuses paires de langues. Le premier logiciel de traduction automatique statistique a été CANDIDE d' IBM . Google a utilisé SYSTRAN pendant plusieurs années, mais est passé à une méthode de traduction statistique en octobre 2007. En 2005, Google a amélioré ses capacités de traduction interne en utilisant environ 200 milliards de mots provenant de documents des Nations Unies pour former son système; précision de la traduction améliorée. Google Translate et des programmes de traduction statistique similaires fonctionnent en détectant des modèles dans des centaines de millions de documents qui ont déjà été traduits par des humains et en faisant des suppositions intelligentes basées sur les résultats. En général, plus il y a de documents traduits par l'homme disponibles dans une langue donnée, plus il est probable que la traduction soit de bonne qualité. Les nouvelles approches de la traduction automatique statistique telles que METIS II et PRESEMT utilisent une taille de corpus minimale et se concentrent plutôt sur la dérivation de la structure syntaxique par la reconnaissance de formes. Avec un développement ultérieur, cela peut permettre à la traduction automatique statistique de fonctionner à partir d'un corpus de texte monolingue. La plus grande chute de SMT inclut sa dépendance à d'énormes quantités de textes parallèles, ses problèmes avec les langues riches en morphologie (en particulier avec la traduction dans de telles langues) et son incapacité à corriger les erreurs de singleton.

Basé sur des exemples

L'approche de traduction automatique basée sur des exemples (EBMT) a été proposée par Makoto Nagao en 1984. La traduction automatique basée sur des exemples est basée sur l'idée de l'analogie. Dans cette approche, le corpus utilisé est celui qui contient des textes déjà traduits. Étant donné une phrase à traduire, des phrases de ce corpus sont sélectionnées qui contiennent des composants sous-sententiels similaires. Les phrases similaires sont ensuite utilisées pour traduire les composants sous-sententiels de la phrase originale dans la langue cible, et ces phrases sont rassemblées pour former une traduction complète.

MT hybride

La traduction automatique hybride (HMT) tire parti des atouts des méthodologies de traduction statistiques et basées sur des règles. Plusieurs organisations MT revendiquent une approche hybride qui utilise à la fois des règles et des statistiques. Les approches diffèrent de plusieurs manières:

  • Règles post-traitées par les statistiques : les traductions sont effectuées à l'aide d'un moteur basé sur des règles. Les statistiques sont ensuite utilisées pour tenter d'ajuster / corriger la sortie du moteur de règles.
  • Statistiques guidées par des règles : les règles sont utilisées pour prétraiter les données afin de mieux guider le moteur statistique. Les règles sont également utilisées pour post-traiter la sortie statistique afin d'exécuter des fonctions telles que la normalisation. Cette approche a beaucoup plus de puissance, de flexibilité et de contrôle lors de la traduction. Il offre également un contrôle étendu sur la manière dont le contenu est traité à la fois pendant la pré-traduction (par exemple le balisage du contenu et les termes non traduisibles) et après la traduction (par exemple les corrections et ajustements après la traduction).

Plus récemment, avec l'avènement de Neural MT, une nouvelle version de la traduction automatique hybride voit le jour, combinant les avantages des règles, de la traduction automatique statistique et neuronale. L'approche permet de bénéficier du pré et du post-traitement dans un flux de travail guidé par des règles ainsi que de bénéficier de NMT et SMT. L'inconvénient est la complexité inhérente qui rend l'approche appropriée uniquement pour des cas d'utilisation spécifiques. L'un des promoteurs de cette approche pour les cas d'utilisation complexes est Omniscien Technologies.

Neural MT

Une approche basée sur l' apprentissage en profondeur de la MT, la traduction automatique neuronale a fait des progrès rapides ces dernières années, et Google a annoncé que ses services de traduction utilisent désormais cette technologie de préférence à ses méthodes statistiques précédentes. L'équipe Microsoft a atteint la parité humaine sur WMT-2017 en 2018 et il s'agissait d'une étape historique.

Problèmes majeurs

La traduction automatique peut produire des phrases incompréhensibles.
Chinois cassé "沒有 Bro" issu de la traduction automatique à Bali, en Indonésie . La phrase chinoise brisée ressemble à "il n'existe pas d'entrée" ou "n'est pas encore entré"

Désambiguïsation

L'homonymie au sens des mots consiste à trouver une traduction appropriée lorsqu'un mot peut avoir plus d'un sens. Le problème a été soulevé pour la première fois dans les années 1950 par Yehoshua Bar-Hillel . Il a souligné que sans une "encyclopédie universelle", une machine ne serait jamais capable de distinguer les deux sens d'un mot. Aujourd'hui, il existe de nombreuses approches conçues pour surmonter ce problème. Ils peuvent être approximativement divisés en approches «superficielles» et en approches «profondes».

Les approches superficielles ne supposent aucune connaissance du texte. Ils appliquent simplement des méthodes statistiques aux mots entourant le mot ambigu. Les approches profondes supposent une connaissance approfondie du mot. Jusqu'à présent, les approches peu profondes ont été plus fructueuses.

Claude Piron , traducteur de longue date pour les Nations Unies et l' Organisation mondiale de la santé , a écrit que la traduction automatique, à son meilleur, automatise la partie la plus facile du travail d'un traducteur; la partie la plus difficile et la plus longue consiste généralement à effectuer des recherches approfondies pour résoudre les ambiguïtés dans le texte source , que les exigences grammaticales et lexicales de la langue cible nécessitent d'être résolues:

Pourquoi un traducteur a-t-il besoin d'une journée de travail pour traduire cinq pages, et non une heure ou deux? ..... Environ 90% d'un texte moyen correspond à ces conditions simples. Mais malheureusement, il y a les 10% restants. C'est cette partie qui nécessite six heures [de plus] de travail. Il y a des ambiguïtés à résoudre. Par exemple, l'auteur du texte source, un médecin australien, a cité l'exemple d'une épidémie qui a été déclarée pendant la Seconde Guerre mondiale dans un «camp de prisonniers de guerre japonais». Parlait-il d'un camp américain avec des prisonniers japonais ou d'un camp japonais avec des prisonniers américains? L'anglais a deux sens. Il faut donc faire des recherches, peut-être dans la mesure d'un coup de fil vers l'Australie.

L'approche profonde idéale exigerait que le logiciel de traduction fasse lui-même toutes les recherches nécessaires pour ce genre de désambiguïsation; mais cela nécessiterait un degré d' IA plus élevé que celui qui a encore été atteint. Une approche superficielle qui devinerait simplement le sens de la phrase anglaise ambiguë mentionnée par Piron (basée peut-être sur le type de camp de prisonniers de guerre le plus souvent mentionné dans un corpus donné) aurait une chance raisonnable de se tromper équitablement. souvent. Une approche superficielle qui consiste à "interroger l'utilisateur sur chaque ambiguïté", selon l'estimation de Piron, n'automatiserait qu'environ 25% du travail d'un traducteur professionnel, laissant les 75% plus difficiles encore à faire par un humain.

Discours non standard

L'un des principaux écueils de MT est son incapacité à traduire une langue non standard avec la même précision que la langue standard. La MT heuristique ou statistique prend des entrées de diverses sources sous la forme standard d'un langage. La traduction basée sur des règles, par nature, n'inclut pas les usages non standard courants. Cela provoque des erreurs de traduction à partir d'une source vernaculaire ou dans une langue familière. Les limitations de la traduction à partir de discours occasionnels posent des problèmes lors de l'utilisation de la traduction automatique sur les appareils mobiles.

Entités nommées

Dans l' extraction d'informations , les entités nommées, au sens strict, désignent des entités concrètes ou abstraites du monde réel telles que des personnes, des organisations, des entreprises et des lieux qui ont un nom propre: George Washington, Chicago, Microsoft. Il fait également référence à des expressions de temps, d'espace et de quantité telles que le 1er juillet 2011, 500 $.

Dans la phrase «Smith est le président de Fabrionix», Smith et Fabrionix sont des entités nommées, et peuvent être davantage qualifiés via leur prénom ou d'autres informations; «président» ne l'est pas, puisque Smith aurait pu auparavant occuper un autre poste chez Fabrionix, par exemple celui de vice-président. Le terme désignateur rigide est ce qui définit ces usages pour l'analyse en traduction automatique statistique.

Les entités nommées doivent d'abord être identifiées dans le texte; sinon, ils peuvent être traduits par erreur comme des noms communs, ce qui n'affecterait probablement pas le classement BLEU de la traduction mais modifierait la lisibilité humaine du texte. Ils peuvent être omis de la traduction de sortie, ce qui aurait également des implications sur la lisibilité et le message du texte.

La translittération comprend la recherche des lettres dans la langue cible qui correspondent le plus au nom dans la langue source. Ceci, cependant, a été cité comme aggravant parfois la qualité de la traduction. Pour «Californie du Sud», le premier mot doit être traduit directement, tandis que le second doit être translittéré. Les machines translittèrent souvent les deux parce qu'elles les traitaient comme une seule entité. Des mots comme ceux-ci sont difficiles à traiter pour les traducteurs automatiques, même ceux avec un composant de translittération.

Utilisation d'une liste «ne pas traduire», qui a le même objectif final - la translittération par opposition à la traduction. repose toujours sur l'identification correcte des entités nommées.

Une troisième approche est un modèle basé sur les classes. Les entités nommées sont remplacées par un jeton pour représenter leur «classe»; «Ted» et «Erica» seraient tous deux remplacés par un jeton de classe «personne». Ensuite, la distribution statistique et l'utilisation des noms de personne en général peuvent être analysées au lieu de regarder les distributions de «Ted» et «Erica» individuellement, de sorte que la probabilité d'un nom donné dans une langue spécifique n'affecte pas la probabilité assignée d'un Traduction. Une étude de Stanford sur l'amélioration de ce domaine de traduction donne des exemples selon lesquels différentes probabilités seront attribuées à "David va se promener" et "Ankit va se promener" pour l'anglais comme langue cible en raison du nombre différent d'occurrences pour chaque nom dans les données d'entraînement. Un résultat frustrant de la même étude de Stanford (et d'autres tentatives pour améliorer la traduction de la reconnaissance nommée) est que, souvent, une diminution des scores BLEU pour la traduction résultera de l'inclusion de méthodes pour la traduction d'entités nommées.

Les expressions «boire du thé avec du lait» et «boire du thé avec Molly» sont quelque peu liées.

Traduction à partir de sources multiparallèles

Un travail a été fait dans l'utilisation de corpus multiparallèles , c'est-à-dire un corps de texte qui a été traduit en 3 langues ou plus. En utilisant ces méthodes, un texte qui a été traduit en 2 langues ou plus peut être utilisé en combinaison pour fournir une traduction plus précise dans une troisième langue que si une seule de ces langues sources était utilisée seule.

Ontologies en MT

Une ontologie est une représentation formelle de la connaissance qui inclut les concepts (tels que les objets, les processus, etc.) dans un domaine et certaines relations entre eux. Si les informations stockées sont de nature linguistique, on peut parler de lexique. En NLP , les ontologies peuvent être utilisées comme source de connaissances pour les systèmes de traduction automatique. Avec l'accès à une large base de connaissances, les systèmes peuvent être activés pour résoudre de nombreuses ambiguïtés (en particulier lexicales) par eux-mêmes. Dans les exemples classiques suivants, en tant qu'humains, nous sommes capables d'interpréter la phrase prépositionnelle en fonction du contexte car nous utilisons notre connaissance du monde, stockée dans nos lexiques:

"J'ai vu un homme / une étoile / une molécule avec un microscope / un télescope / des jumelles."

Au départ, un système de traduction automatique ne serait pas en mesure de différencier les significations car la syntaxe ne change pas. Cependant, avec une ontologie suffisamment large comme source de connaissances, les interprétations possibles de mots ambigus dans un contexte spécifique peuvent être réduites. D' autres domaines d'utilisation pour les ontologies dans la PNL comprennent la recherche d'information , l' extraction de l' information et du texte summarization .

Construire des ontologies

L'ontologie générée pour le système de traduction automatique basé sur les connaissances PANGLOSS en 1993 peut servir d'exemple de la manière dont une ontologie à des fins de NLP peut être compilée:

  • Une ontologie à grande échelle est nécessaire pour faciliter l'analyse des modules actifs du système de traduction automatique.
  • Dans l'exemple de PANGLOSS, environ 50 000 nœuds étaient destinés à être subsumés sous la plus petite région supérieure (abstraite) construite manuellement de l'ontologie. En raison de sa taille, il a dû être créé automatiquement.
  • L'objectif était de fusionner les deux ressources LDOCE en ligne et WordNet pour combiner les avantages des deux: définitions concises de Longman, et relations sémantiques permettant une taxonomisation semi-automatique vers l'ontologie de WordNet.
    • Un algorithme de correspondance de définition a été créé pour fusionner automatiquement les significations correctes des mots ambigus entre les deux ressources en ligne, sur la base des mots que les définitions de ces significations ont en commun dans LDOCE et WordNet. En utilisant une matrice de similarité , l'algorithme a fourni des correspondances entre les significations, y compris un facteur de confiance. Cependant, cet algorithme à lui seul ne correspondait pas correctement à toutes les significations.
    • Un deuxième algorithme de correspondance de hiérarchie a donc été créé qui utilise les hiérarchies taxonomiques trouvées dans WordNet (hiérarchies profondes) et partiellement dans LDOCE (hiérarchies plates). Cela fonctionne en faisant d'abord correspondre des significations non ambiguës, puis en limitant l'espace de recherche aux seuls ancêtres et descendants respectifs de ces significations correspondantes. Ainsi, l'algorithme correspondait à des significations localement non ambiguës (par exemple, alors que le mot sceau en tant que tel est ambigu, il n'y a qu'une seule signification de «sceau» dans la sous - hiérarchie animale ).
  • Les deux algorithmes se complétaient et ont aidé à construire une ontologie à grande échelle pour le système de traduction automatique. Les hiérarchies WordNet, associées aux définitions correspondantes de LDOCE, étaient subordonnées à la région supérieure de l'ontologie . En conséquence, le système PANGLOSS MT a pu utiliser cette base de connaissances, principalement dans son élément de génération.

Applications

Bien qu'aucun système n'offre le Saint Graal de la traduction automatique de haute qualité entièrement automatique de texte illimité, de nombreux systèmes entièrement automatisés produisent des résultats raisonnables. La qualité de la traduction automatique est considérablement améliorée si le domaine est restreint et contrôlé.

Malgré leurs limitations inhérentes, les programmes MT sont utilisés dans le monde entier. La Commission européenne est probablement le plus grand utilisateur institutionnel . Le projet MOLTO , par exemple, coordonné par l' Université de Göteborg , a reçu plus de 2,375 millions d'euros de soutien de projet de l'UE pour créer un outil de traduction fiable qui couvre la majorité des langues de l'UE. Le développement ultérieur des systèmes de TA intervient à un moment où les réductions budgétaires dans la traduction humaine peuvent accroître la dépendance de l'UE vis-à-vis de programmes de TA fiables. La Commission européenne a contribué 3,072 millions d'euros (via son programme ISA) pour la création de MT @ EC, un programme de traduction automatique statistique adapté aux besoins administratifs de l'UE, pour remplacer un ancien système de traduction automatique fondé sur des règles.

En 2005, Google a affirmé que des résultats prometteurs avaient été obtenus à l'aide d'un moteur de traduction automatique statistique propriétaire. Le moteur de traduction statistique utilisé dans les outils linguistiques de Google pour l'arabe <-> anglais et chinois <-> anglais avait un score global de 0,4281 sur le score BLEU-4 d'IBM final de 0,3954 (été 2006) lors de tests menés par le National Institut des normes et de la technologie.

Avec l'accent mis récemment sur le terrorisme, les sources militaires aux États-Unis ont investi des sommes importantes dans l'ingénierie du langage naturel. In-Q-Tel (un fonds de capital- risque, largement financé par la US Intelligence Community, pour stimuler les nouvelles technologies grâce à des entrepreneurs du secteur privé) a fait naître des sociétés comme Language Weaver . Actuellement, la communauté militaire s'intéresse à la traduction et au traitement de langues comme l' arabe , le pashto et le dari . Dans ces langues, l'accent est mis sur les phrases clés et la communication rapide entre les militaires et les civils grâce à l'utilisation d'applications de téléphonie mobile. Le Bureau des technologies de traitement de l'information de la DARPA héberge des programmes tels que TIDES et Babylon Translator . L'US Air Force a attribué un contrat d'un million de dollars pour développer une technologie de traduction linguistique.

L'essor notable des réseaux sociaux sur le Web au cours des dernières années a créé un autre créneau pour l'application de logiciels de traduction automatique - dans des utilitaires tels que Facebook, ou des clients de messagerie instantanée tels que Skype, GoogleTalk, MSN Messenger, etc. - permettant aux utilisateurs de parler différentes langues pour communiquer entre elles. Des applications de traduction automatique ont également été publiées pour la plupart des appareils mobiles, y compris les téléphones mobiles, les ordinateurs de poche, les PDA, etc. En raison de leur portabilité, ces instruments sont devenus des outils de traduction mobiles permettant la mise en réseau d'entreprise mobile entre des partenaires parlant différentes langues, ou faciliter à la fois l'apprentissage des langues étrangères et les voyages non accompagnés dans des pays étrangers sans avoir besoin de l'intermédiation d'un traducteur humain.

Bien qu'elle ait été qualifiée de concurrent indigne de la traduction humaine en 1966 par le Comité consultatif sur le traitement automatisé du langage mis en place par le gouvernement des États-Unis, la qualité de la traduction automatique a maintenant été améliorée à des niveaux tels que son application dans la collaboration en ligne et dans le domaine médical font l’objet d’une enquête. L'application de cette technologie dans des milieux médicaux où les traducteurs humains sont absents est un autre sujet de recherche, mais des difficultés surgissent en raison de l'importance de traductions précises dans les diagnostics médicaux.

Évaluation

De nombreux facteurs affectent la manière dont les systèmes de traduction automatique sont évalués. Ces facteurs comprennent l'utilisation prévue de la traduction, la nature du logiciel de traduction automatique et la nature du processus de traduction.

Différents programmes peuvent bien fonctionner à des fins différentes. Par exemple, la traduction automatique statistique (SMT) surpasse généralement la traduction automatique basée sur des exemples (EBMT), mais les chercheurs ont constaté que lors de l'évaluation de la traduction anglais-français, EBMT fonctionne mieux. Le même concept s'applique aux documents techniques, qui peuvent être plus facilement traduits par SMT en raison de leur langage formel.

Dans certaines applications, cependant, par exemple, des descriptions de produits écrites dans une langue contrôlée , un système de traduction automatique basé sur un dictionnaire a produit des traductions satisfaisantes qui ne nécessitent aucune intervention humaine, sauf pour un contrôle de qualité.

Il existe différents moyens pour évaluer la qualité de sortie des systèmes de traduction automatique. Le plus ancien est l'utilisation de juges humains pour évaluer la qualité d'une traduction. Même si l'évaluation humaine prend du temps, elle reste la méthode la plus fiable pour comparer différents systèmes tels que les systèmes basés sur des règles et les systèmes statistiques. Les moyens automatisés d'évaluation comprennent BLEU , NIST , METEOR et LEPOR .

S'appuyer exclusivement sur une traduction automatique non éditée ignore le fait que la communication en langage humain est intégrée au contexte et qu'il faut une personne pour comprendre le contexte du texte original avec un degré raisonnable de probabilité. Il est certainement vrai que même les traductions purement humaines sont sujettes à l'erreur. Par conséquent, pour garantir qu'une traduction générée automatiquement sera utile à un être humain et qu'une traduction de qualité publiable est obtenue, ces traductions doivent être révisées et éditées par un être humain. Feu Claude Piron a écrit que la traduction automatique, à son meilleur, automatise la partie la plus facile du travail d'un traducteur; la partie la plus difficile et la plus longue consiste généralement à faire des recherches approfondies pour résoudre les ambiguïtés dans le texte source , que les exigences grammaticales et lexicales de la langue cible nécessitent d'être résolues. Une telle recherche est un prélude nécessaire à la pré-édition nécessaire afin de fournir une entrée pour un logiciel de traduction automatique de sorte que la sortie ne soit pas dénuée de sens .

En plus des problèmes de désambiguïsation, une précision moindre peut se produire en raison de différents niveaux de données d'apprentissage pour les programmes de traduction automatique. La traduction automatique basée sur des exemples et des statistiques repose sur une vaste gamme d'exemples de phrases réelles comme base de traduction, et lorsque trop ou trop peu de phrases sont analysées, la précision est compromise. Les chercheurs ont constaté que lorsqu'un programme est formé sur 203 529 paires de phrases, la précision diminue en fait. Le niveau optimal de données d'entraînement semble être un peu plus de 100 000 phrases, peut-être parce que, à mesure que les données d'entraînement augmentent, le nombre de phrases possibles augmente, ce qui rend plus difficile la recherche d'une correspondance de traduction exacte.

Utiliser la traduction automatique comme outil pédagogique

Bien que la précision de la traduction automatique ait suscité des inquiétudes, le Dr Ana Nino de l'Université de Manchester a étudié certains des avantages de l'utilisation de la traduction automatique en classe. Une de ces méthodes pédagogiques est appelée «MT comme mauvais modèle». La MT en tant que mauvais modèle oblige l'apprenant de la langue à identifier les incohérences ou les aspects incorrects d'une traduction; à son tour, l'individu possédera (espérons-le) une meilleure compréhension de la langue. Le Dr Nino cite que cet outil pédagogique a été mis en œuvre à la fin des années 1980. À la fin de divers semestres, le Dr Nino a pu obtenir les résultats de l'enquête d'étudiants qui avaient utilisé la MT comme un mauvais modèle (ainsi que d'autres modèles.) Dans une très grande majorité, les étudiants ont estimé qu'ils avaient observé une amélioration de la compréhension, une recherche lexicale et une augmentation confiance dans leur langue cible.

Traduction automatique et langues des signes

Au début des années 2000, les options de traduction automatique entre les langues parlées et signées étaient très limitées. Il était communément admis que les personnes sourdes pouvaient faire appel à des traducteurs traditionnels. Cependant, le stress, l'intonation, la hauteur et le timing sont transmis de manière très différente dans les langues parlées par rapport aux langues des signes. Par conséquent, une personne sourde peut mal interpréter ou devenir confuse au sujet du sens d'un texte écrit basé sur une langue parlée.

Les chercheurs Zhao et al. (2000), a développé un prototype appelé TEAM (traduction de l'anglais vers l'ASL par machine) qui a complété les traductions de l'anglais vers l' American Sign Language (ASL). Le programme analysera d'abord les aspects syntaxiques, grammaticaux et morphologiques du texte anglais. Suite à cette étape, le programme a accédé à un synthétiseur de signes, qui a agi comme un dictionnaire pour ASL. Ce synthétiseur abritait le processus à suivre pour compléter les signes ASL, ainsi que la signification de ces signes. Une fois que tout le texte est analysé et que les signes nécessaires pour terminer la traduction sont localisés dans le synthétiseur, un humain généré par ordinateur est apparu et utilisait ASL pour signer le texte anglais à l'utilisateur.

droits d'auteur

Seules les œuvres qui sont d' origine sont soumis à des droits d' auteur protection, de sorte que certains chercheurs affirment que les résultats de la traduction automatique ne sont pas le droit à la protection du droit d'auteur parce que MT ne comporte pas la créativité . Le droit d'auteur en cause concerne une œuvre dérivée ; l'auteur de l' œuvre originale dans la langue d'origine ne perd pas ses droits lorsqu'une œuvre est traduite: un traducteur doit avoir l'autorisation de publier une traduction.

Voir également

Remarques

Lectures complémentaires

Liens externes