Traduction automatique interlinguale - Interlingual machine translation

Figure 1. Démonstration des langues utilisées dans le processus de traduction en utilisant une langue relais .

La traduction automatique interlinguale est l'une des approches classiques de la traduction automatique . Dans cette approche, la langue source, c'est-à-dire le texte à traduire, est transformée en un interlingua, c'est-à-dire une représentation abstraite indépendante de la langue. La langue cible est ensuite générée à partir de l'interlingua. Dans le paradigme de la traduction automatique basée sur des règles, l'approche interlinguistique est une alternative à l' approche directe et à l' approche de transfert .

Dans l'approche directe, les mots sont traduits directement sans passer par une représentation supplémentaire. Dans l'approche de transfert, la langue source est transformée en une représentation abstraite, moins spécifique à la langue. Les règles linguistiques qui sont spécifiques à la paire de langues transforment alors la représentation de la langue source en une représentation abstraite de la langue cible et à partir de là, la phrase cible est générée.

L'approche interlinguale de la traduction automatique présente des avantages et des inconvénients. Les avantages sont qu'il nécessite moins de composants afin de relier chaque langue source à chaque langue cible, il faut moins de composants pour ajouter un nouveau langage, il prend en charge les paraphrases de l'entrée dans la langue d'origine, il permet à la fois aux analyseurs et aux générateurs d'être écrit par des développeurs de systèmes monolingues, et il gère des langues très différentes les unes des autres (par exemple l'anglais et l'arabe). L'inconvénient évident est que la définition d'un interlingua est difficile et peut-être même impossible pour un domaine plus large. Le contexte idéal pour la traduction automatique interlinguale est donc la traduction automatique multilingue dans un domaine très spécifique.

Histoire

Les premières idées sur la traduction automatique interlinguale sont apparues au 17ème siècle avec Descartes et Leibniz , qui ont proposé des théories sur la façon de créer des dictionnaires en utilisant des codes numériques universels. D'autres, comme Cave Beck , Athanasius Kircher et Johann Joachim Becher ont travaillé sur le développement d'un langage universel sans ambiguïté basé sur les principes de la logique et des iconographes. En 1668, John Wilkins a décrit son interlingua dans son "Essai vers un vrai caractère et un langage philosophique". Aux XVIIIe et XIXe siècles, de nombreuses propositions de langues internationales «universelles» ont été développées, la plus connue étant l’ espéranto .

Cela dit, l'application de l'idée d'un langage universel à la traduction automatique n'apparaît dans aucune des premières approches significatives. Au lieu de cela, le travail a commencé sur des paires de langues. Cependant, dans les années 50 et 60, des chercheurs de Cambridge dirigés par Margaret Masterman , de Leningrad par Nikolai Andreev et de Milan par Silvio Ceccato ont commencé à travailler dans ce domaine. L'idée a été largement discutée par le philosophe israélien Yehoshua Bar-Hillel en 1969.

Au cours des années 1970, des recherches remarquables ont été effectuées à Grenoble par des chercheurs qui tentaient de traduire des textes de physique et de mathématiques du russe vers le français , et au Texas, un projet similaire (METAL) était en cours pour le russe vers l' anglais . Les premiers systèmes de MT interlingues ont également été construits à Stanford dans les années 1970 par Roger Schank et Yorick Wilks ; le premier est devenu la base d'un système commercial de transfert de fonds, et le code du second est conservé au Computer Museum de Boston en tant que premier système de traduction automatique interlinguistique.

Dans les années 80, une pertinence renouvelée a été donnée aux approches de la traduction automatique basées sur l'interlingua et la connaissance en général, avec de nombreuses recherches en cours sur le terrain. Le facteur unissant dans cette recherche était qu'une traduction de haute qualité exigeait d'abandonner l'idée d'exiger une compréhension totale du texte. Au lieu de cela, la traduction devrait être basée sur les connaissances linguistiques et le domaine spécifique dans lequel le système serait utilisé. Les recherches les plus importantes de cette époque ont été effectuées sur la traduction en langue distribuée (DLT) à Utrecht , qui a fonctionné avec une version modifiée de l' espéranto , et le système Fujitsu au Japon.

Contour

Figure 2. a) Graphique de traduction requis pour la traduction automatique directe ou par transfert (12 dictionnaires sont nécessaires); b) Graphique de traduction requis lors de l'utilisation d'une langue de pont (seuls 8 modules de traduction sont nécessaires).

Dans cette méthode de traduction, l'interlingua peut être pensé comme un moyen de décrire l'analyse d'un texte écrit dans une langue source de telle sorte qu'il soit possible de convertir ses caractéristiques morphologiques, syntaxiques, sémantiques (et même pragmatiques), c'est-à-dire " signifiant "dans une langue cible . Cet interlingua est capable de décrire toutes les caractéristiques de toutes les langues à traduire, au lieu de simplement traduire d'une langue à une autre.

Figure 3: Graphique de traduction utilisant deux interlingues.

Parfois, deux interlingues sont utilisées dans la traduction. Il est possible que l'un des deux couvre davantage les caractéristiques de la langue source et que l'autre possède davantage les caractéristiques de la langue cible. La traduction procède ensuite en convertissant les phrases de la première langue en phrases plus proches de la langue cible en deux étapes. Le système peut également être mis en place de telle sorte que le deuxième interlingua utilise un vocabulaire plus spécifique, plus proche ou plus aligné avec la langue cible, ce qui pourrait améliorer la qualité de la traduction.

Le système mentionné ci-dessus est basé sur l'idée d'utiliser la proximité linguistique pour améliorer la qualité de la traduction d'un texte dans une langue originale vers de nombreuses autres langues structurellement similaires à partir d'une seule analyse originale. Ce principe est également utilisé dans la traduction automatique pivot , où une langue naturelle est utilisée comme un «pont» entre deux langues plus éloignées. Par exemple, dans le cas de la traduction vers l' anglais depuis l' ukrainien en utilisant le russe comme langue intermédiaire.

Processus de traduction

Dans les systèmes de traduction automatique interlinguale, il existe deux composantes monolingues: l' analyse de la langue source et de l'interlingue, et la génération de l'interlingua et de la langue cible. Il faut cependant distinguer les systèmes interlinguaux utilisant uniquement des méthodes syntaxiques (par exemple les systèmes développés dans les années 1970 dans les universités de Grenoble et du Texas) et ceux basés sur l' intelligence artificielle (à partir de 1987 au Japon et la recherche dans les universités de Californie du Sud. et Carnegie Mellon). Le premier type de système correspond à celui décrit dans la figure 1. tandis que les autres types seraient approximés par le diagramme de la figure 4.

Les ressources suivantes sont nécessaires à un système de traduction automatique interlinguistique:

Figure 4. Traduction automatique dans un système basé sur la connaissance.
  • Dictionnaires (ou lexiques) d'analyse et de génération (spécifiques au domaine et aux langues concernées).
  • Un lexique conceptuel (spécifique au domaine), qui est la base de connaissances sur les événements et les entités connus dans le domaine.
  • Un ensemble de règles de projection (spécifiques au domaine et aux langues).
  • Grammaires pour l'analyse et la génération des langues concernées.

L'un des problèmes des systèmes de traduction automatique basés sur les connaissances est qu'il devient impossible de créer des bases de données pour des domaines plus vastes que des domaines très spécifiques. Un autre est que le traitement de ces bases de données est très coûteux en calcul.

Efficacité

L'un des principaux avantages de cette stratégie est qu'elle offre un moyen économique de créer des systèmes de traduction multilingues. Avec un interlingua, il devient inutile de créer une paire de traductions entre chaque paire de langues du système. Ainsi au lieu de créer des paires de langues, où est le nombre de langues dans le système, il suffit de faire des paires entre les langues et l'interlingua.

Le principal inconvénient de cette stratégie est la difficulté de créer un interlingua adéquat. Il doit être à la fois abstrait et indépendant des langues source et cible. Plus il y a de langues ajoutées au système de traduction, et plus elles sont différentes, plus l'interlingua doit être puissant pour exprimer toutes les directions de traduction possibles. Un autre problème est qu'il est difficile d'extraire du sens des textes dans les langues d'origine pour créer la représentation intermédiaire.

Systèmes de traduction automatique interlinguaux existants

Voir également

Remarques

  1. ^ Abdel Monem, A., Shaalan, K., Rafea, A., Baraka, H., Génération de texte arabe dans un cadre de traduction automatique de parole à parole multilingue , traduction automatique, Springer, Pays-Bas, 20 (4): 205– 258, décembre 2008.
  2. ^ Bogdan Babych, Anthony Hartley, et Serge Sharoff (2007) "La traduction de langues sous-ressources: comparant le transfert direct contre la traduction de pivot ". Actes du MT Summit XI, 10-14 septembre 2007, Copenhague, Danemark . pages 29 à 35

Liens externes