Désambiguïsation du sens des mots - Word-sense disambiguation

La désambiguïsation du sens des mots ( WSD ) est un problème ouvert en linguistique informatique qui consiste à identifier le sens d'un mot utilisé dans une phrase . La solution à ce problème a un impact sur d'autres écrits liés à l'informatique, tels que le discours , l'amélioration de la pertinence des moteurs de recherche , la résolution des anaphores , la cohérence et l' inférence .

En raison du fait que le langage naturel nécessite le reflet de la réalité neurologique, telle que façonnée par les capacités fournies par les réseaux neuronaux du cerveau , l'informatique a eu un défi à long terme pour développer la capacité des ordinateurs à effectuer le traitement du langage naturel et l'apprentissage automatique .

De nombreuses techniques ont été étudiées, y compris des méthodes basées sur des dictionnaires qui utilisent les connaissances codées dans des ressources lexicales, des méthodes d' apprentissage automatique supervisé dans lesquelles un classificateur est formé pour chaque mot distinct sur un corpus d'exemples annotés manuellement et des méthodes complètement non supervisées qui regroupent occurrences de mots, induisant ainsi le sens des mots. Parmi celles-ci, les approches d'apprentissage supervisé ont été les algorithmes les plus réussis à ce jour.

La précision des algorithmes actuels est difficile à affirmer sans une foule de mises en garde. En anglais, la précision au niveau du gros grain ( homographe ) est systématiquement supérieure à 90 %, certaines méthodes sur des homographes particuliers atteignant plus de 96 %. Sur des distinctions de sens plus fines, des précisions maximales de 59,1 % à 69,0 % ont été rapportées dans des exercices d'évaluation (SemEval-2007, Senseval-2), où la précision de base de l'algorithme le plus simple possible de toujours choisir le sens le plus fréquent était de 51,4 %. et 57 %, respectivement.

À propos de la désambiguïsation du sens des mots

La désambiguïsation nécessite deux entrées strictes : un dictionnaire pour spécifier les sens qui doivent être désambiguïsés et un corpus de données linguistiques à désambiguïser (dans certaines méthodes, un corpus d'apprentissage d'exemples de langue est également requis). La tâche WSD a deux variantes : « échantillon lexical » (désambiguïsation des occurrences d'un petit échantillon de mots cibles préalablement sélectionnés) et « tous les mots » (désambiguïsation de tous les mots dans un texte courant). La tâche « Tous les mots » est généralement considérée comme une forme d'évaluation plus réaliste, mais le corpus est plus coûteux à produire car les annotateurs humains doivent lire les définitions de chaque mot de la séquence à chaque fois qu'ils doivent porter un jugement sur le marquage, plutôt qu'une seule fois. pour un bloc d'instances pour le même mot cible.

Histoire

WSD a été formulé pour la première fois en tant que tâche informatique distincte au début de la traduction automatique dans les années 1940, ce qui en fait l'un des problèmes les plus anciens de la linguistique informatique. Warren Weaver a d' abord introduit le problème dans un contexte informatique dans son mémorandum de 1949 sur la traduction. Plus tard, Bar-Hillel (1960) a soutenu que le WSD ne pouvait pas être résolu par « un ordinateur électronique » en raison de la nécessité en général de modéliser toutes les connaissances du monde.

Dans les années 1970, WSD était une sous-tâche des systèmes d'interprétation sémantique développés dans le domaine de l'intelligence artificielle, en commençant par la sémantique des préférences de Wilks . Cependant, comme les systèmes WSD étaient à l'époque largement basés sur des règles et codés à la main, ils étaient sujets à un goulot d'étranglement pour l'acquisition de connaissances.

Dans les années 1980, des ressources lexicales à grande échelle, telles que l' Oxford Advanced Learner's Dictionary of Current English (OALD), sont devenues disponibles : le codage manuel a été remplacé par des connaissances extraites automatiquement de ces ressources, mais la désambiguïsation était toujours basée sur la connaissance ou sur le dictionnaire. .

Dans les années 1990, la révolution statistique a fait progresser la linguistique informatique et le WSD est devenu un problème de paradigme sur lequel appliquer des techniques d'apprentissage automatique supervisé.

Les années 2000 ont vu les techniques supervisées atteindre un plateau en précision, et donc l'attention s'est déplacée vers les sens à grain plus grossier, l' adaptation de domaine , les systèmes basés sur des corpus semi-supervisés et non supervisés, les combinaisons de différentes méthodes et le retour des systèmes basés sur la connaissance via le graphe. -méthodes basées. Pourtant, les systèmes supervisés continuent de fonctionner de manière optimale.

Des difficultés

Différences entre les dictionnaires

Un problème avec la désambiguïsation du sens des mots est de décider quels sont les sens, car différents dictionnaires et thésaurus fourniront différentes divisions de mots en sens. Certains chercheurs ont suggéré de choisir un dictionnaire particulier et d'utiliser son ensemble de sens pour traiter ce problème. En général, cependant, les résultats de la recherche utilisant des distinctions larges dans les sens ont été bien meilleurs que ceux utilisant des distinctions étroites. La plupart des chercheurs continuent de travailler sur le WSD à grain fin .

La plupart des recherches dans le domaine du WSD sont effectuées en utilisant WordNet comme inventaire de référence pour l'anglais. WordNet est un lexique informatique qui code les concepts sous forme d' ensembles de synonymes (par exemple, le concept de voiture est codé comme { voiture, auto, automobile, machine, automobile }). D'autres ressources utilisées à des fins de désambiguïsation comprennent le Thésaurus de Roget et Wikipédia . Plus récemment, BabelNet , un dictionnaire encyclopédique multilingue, a été utilisé pour le WSD multilingue.

Marquage des parties du discours

Dans n'importe quel test réel, il a été prouvé que l'étiquetage des parties du discours et l' étiquetage des sens étaient très étroitement liés, chacun créant potentiellement des contraintes pour l'autre. La question de savoir si ces tâches doivent être maintenues ensemble ou découplées n'est toujours pas résolue à l'unanimité, mais récemment, les scientifiques ont tendance à tester ces choses séparément (par exemple, dans les compétitions Senseval/ SemEval , des parties du discours sont fournies comme entrée pour le texte à lever).

Les deux balisages des parties du discours WSM impliquent de lever l'ambiguïté ou de baliser avec des mots. Cependant, les algorithmes utilisés pour l'un ont tendance à ne pas bien fonctionner pour l'autre, principalement parce que la partie du discours d'un mot est principalement déterminée par les un à trois mots immédiatement adjacents, alors que le sens d'un mot peut être déterminé par des mots plus éloignés. . Le taux de réussite des algorithmes d'étiquetage de parties de discours est actuellement beaucoup plus élevé que celui de WSD, l'état de l'art étant d'environ 96 % de précision ou mieux, contre moins de 75 % de précision dans la désambiguïsation du sens des mots avec l' apprentissage supervisé . Ces chiffres sont typiques de l'anglais et peuvent être très différents de ceux des autres langues.

Variance entre juges

Un autre problème est la variance entre les juges . Les systèmes WSD sont normalement testés en comparant leurs résultats sur une tâche à ceux d'un humain. Cependant, s'il est relativement facile d'attribuer des parties du discours à un texte, il s'est avéré beaucoup plus difficile d'entraîner les gens à marquer des sens. Alors que les utilisateurs peuvent mémoriser toutes les parties possibles du discours qu'un mot peut prendre, il est souvent impossible pour les individus de mémoriser tous les sens qu'un mot peut prendre. De plus, les humains ne sont pas d'accord sur la tâche à accomplir - donnez une liste de sens et de phrases, et les humains ne seront pas toujours d'accord sur quel mot appartient à quel sens.

Comme la performance humaine sert de norme, il s'agit d'une limite supérieure pour les performances de l'ordinateur. Les performances humaines, cependant, sont bien meilleures sur les distinctions grossières que sur les distinctions fines , c'est donc encore une fois pourquoi la recherche sur les distinctions grossières a été mise à l'épreuve dans les récents exercices d'évaluation WSD.

Pragmatique

Certains chercheurs en IA comme Douglas Lenat soutiennent qu'on ne peut pas analyser le sens des mots sans une certaine forme d' ontologie du sens commun . Cette question linguistique est appelée pragmatique . Comme convenu par les chercheurs, pour identifier correctement le sens des mots, il faut connaître les faits de bon sens. De plus, le bon sens est parfois nécessaire pour lever l'ambiguïté de tels mots comme les pronoms en cas d' anaphores ou de cataphores dans le texte.

Inventaire de sens et dépendance aux tâches des algorithmes

Un inventaire des sens indépendant de la tâche n'est pas un concept cohérent : chaque tâche nécessite sa propre division du sens des mots en sens pertinents pour la tâche. De plus, des algorithmes complètement différents peuvent être requis par différentes applications. En traduction automatique, le problème prend la forme d'une sélection de mots cibles. Les « sens » sont des mots dans la langue cible, qui correspondent souvent à des distinctions significatives de sens dans la langue source (« banque » pourrait se traduire par le français « banque », c'est-à-dire « banque financière » ou « rive », c'est-à-dire, 'bord de rivière'). En recherche documentaire, un inventaire des sens n'est pas forcément nécessaire, car il suffit de savoir qu'un mot est utilisé dans le même sens dans la requête et dans un document récupéré ; quel sens c'est, est sans importance.

Discrétion des sens

Enfin, la notion même de « sens des mots » est glissante et controversée. La plupart des gens peuvent s'accorder sur les distinctions au niveau de l' homographe à grain grossier (par exemple, le stylo comme instrument d'écriture ou boîtier), mais descendent d'un niveau à la polysémie à grain fin , et des désaccords surviennent. Par exemple, dans Senseval-2, qui utilisait des distinctions de sens à grain fin, les annotateurs humains n'étaient d'accord que dans 85 % des occurrences de mots. Le sens des mots est en principe infiniment variable et contextuel. Il ne se divise pas facilement en sous-sens distincts ou discrets. Les lexicographes découvrent fréquemment dans les corpus des significations de mots lâches et qui se chevauchent, et des significations standard ou conventionnelles étendues, modulées et exploitées d'une variété déconcertante de façons. L'art de la lexicographie est de généraliser du corpus à des définitions qui évoquent et expliquent toute la gamme de sens d'un mot, donnant l'impression que les mots se comportent bien sémantiquement. Cependant, il n'est pas du tout clair si ces mêmes distinctions de sens sont applicables dans les applications informatiques , car les décisions des lexicographes sont généralement motivées par d'autres considérations. En 2009, une tâche – nommée substitution lexicale – a été proposée comme solution possible au problème de la discrétion du sens. La tâche consiste à fournir un substitut à un mot dans un contexte qui préserve le sens du mot original (potentiellement, les substituts peuvent être choisis dans le lexique complet de la langue cible, surmontant ainsi la discrétion).

Approches et méthodes

Il existe deux approches principales du WSD – les approches profondes et les approches superficielles.

Les approches profondes supposent l'accès à un ensemble complet de connaissances mondiales . Ces approches ne sont généralement pas considérées comme très fructueuses dans la pratique, principalement parce qu'un tel corpus de connaissances n'existe pas dans un format lisible par ordinateur, en dehors de domaines très limités. De plus, en raison de la longue tradition en linguistique informatique , d'essayer de telles approches en termes de connaissances codées et dans certains cas, il peut être difficile de faire la distinction entre les connaissances impliquées dans la connaissance linguistique ou mondiale. La première tentative fut celle de Margaret Masterman et de ses collègues, à la Cambridge Language Research Unit en Angleterre, dans les années 1950. Cette tentative a utilisé comme données une version sur carte perforée du Thésaurus de Roget et ses "têtes" numérotées, comme indicateur de sujets et a recherché des répétitions dans le texte, en utilisant un algorithme d'intersection défini. Il n'a pas eu beaucoup de succès, mais avait des relations étroites avec des travaux ultérieurs, en particulier l'optimisation de l'apprentissage automatique d'une méthode de thésaurus par Yarowsky dans les années 1990.

Les approches superficielles n'essaient pas de comprendre le texte, mais considèrent plutôt les mots qui l'entourent. Ces règles peuvent être dérivées automatiquement par l'ordinateur, à l'aide d'un corpus d'apprentissage de mots étiquetés avec leur sens des mots. Cette approche, bien que théoriquement pas aussi puissante que les approches profondes, donne des résultats supérieurs dans la pratique, en raison de la connaissance limitée du monde de l'ordinateur.

Il existe quatre approches conventionnelles du WSD :

Presque toutes ces approches fonctionnent en définissant une fenêtre de n mots de contenu autour de chaque mot à désambiguïser dans le corpus, et en analysant statistiquement ces n mots environnants. Deux approches superficielles utilisées pour former puis lever l'ambiguïté sont les classificateurs naïfs de Bayes et les arbres de décision . Dans des recherches récentes, les méthodes basées sur le noyau telles que les machines à vecteurs de support ont montré des performances supérieures en apprentissage supervisé . Les approches basées sur les graphes ont également beaucoup attiré l'attention de la communauté des chercheurs et atteignent actuellement des performances proches de l'état de l'art.

Méthodes basées sur des dictionnaires et des connaissances

L' algorithme Lesk est la méthode séminale basée sur un dictionnaire. Il est basé sur l'hypothèse que les mots utilisés ensemble dans le texte sont liés les uns aux autres et que la relation peut être observée dans les définitions des mots et leurs sens. Deux mots (ou plus) sont désambiguïsés en trouvant la paire de sens du dictionnaire avec le plus grand chevauchement de mots dans leurs définitions du dictionnaire. Par exemple, lors de la désambiguïsation des mots dans « pomme de pin », les définitions des sens appropriés incluent à la fois les mots à feuilles persistantes et arbre (au moins dans un dictionnaire). Une approche similaire recherche le chemin le plus court entre deux mots : le deuxième mot est recherché itérativement parmi les définitions de chaque variante sémantique du premier mot, puis parmi les définitions de chaque variante sémantique de chaque mot dans les définitions précédentes et ainsi de suite. Enfin, le premier mot est désambigu en sélectionnant la variante sémantique qui minimise la distance du premier au deuxième mot.

Une alternative à l'utilisation des définitions est de considérer la relation générale entre les sens des mots et de calculer la similarité sémantique de chaque paire de sens de mots sur la base d'une base de connaissances lexicale donnée telle que WordNet . Des méthodes basées sur des graphiques rappelant la diffusion de la recherche sur l' activation des premiers jours de la recherche sur l'IA ont été appliquées avec un certain succès. Il a été démontré que des approches plus complexes basées sur des graphes fonctionnent presque aussi bien que les méthodes supervisées, voire les surpassent dans des domaines spécifiques. Récemment, il a été rapporté que des mesures de connectivité de graphes simples , telles que le degré , effectuent des WSD de pointe en présence d'une base de connaissances lexicales suffisamment riche. En outre, il a été démontré que le transfert automatique de connaissances sous la forme de relations sémantiques de Wikipedia vers WordNet renforce les méthodes simples basées sur les connaissances, leur permettant de rivaliser avec les meilleurs systèmes supervisés et même de les surpasser dans un cadre spécifique à un domaine.

L'utilisation de préférences de sélection (ou restrictions de sélection) est également utile, par exemple, sachant que l'on cuisine généralement des aliments, on peut lever l'ambiguïté du mot basse dans "Je cuisine des basses" (c'est-à-dire que ce n'est pas un instrument de musique).

Méthodes supervisées

Les méthodes supervisées sont basées sur l'hypothèse que le contexte peut fournir suffisamment de preuves à lui seul pour lever l'ambiguïté des mots (par conséquent, le bon sens et le raisonnement sont jugés inutiles). Tous les algorithmes d'apprentissage automatique en cours ont probablement été appliqués à WSD, y compris les techniques associées telles que la sélection de fonctionnalités , l'optimisation des paramètres et l' apprentissage d'ensemble . Les machines à vecteurs de support et l' apprentissage basé sur la mémoire se sont avérés être les approches les plus réussies, à ce jour, probablement parce qu'elles peuvent faire face à la grande dimensionnalité de l'espace des caractéristiques. Cependant, ces méthodes supervisées sont soumises à un nouveau goulot d'étranglement d'acquisition de connaissances car elles reposent sur des quantités substantielles de corpus étiquetés manuellement pour la formation, qui sont laborieuses et coûteuses à créer.

Méthodes semi-supervisées

En raison du manque de données d'apprentissage, de nombreux algorithmes de désambiguïsation du sens des mots utilisent un apprentissage semi-supervisé , qui permet à la fois des données étiquetées et non étiquetées. L' algorithme de Yarowsky était un exemple précoce d'un tel algorithme. Il utilise les propriétés « Un sens par collocation » et « Un sens par discours » des langues humaines pour la désambiguïsation du sens des mots. D'après l'observation, les mots ont tendance à n'avoir qu'un seul sens dans la plupart des discours et dans une collocation donnée.

L' approche d' amorçage commence à partir d'une petite quantité de données de départ pour chaque mot : soit des exemples d'apprentissage marqués manuellement, soit un petit nombre de règles de décision infaillibles (par exemple, « jouer » dans le contexte de « basse » indique presque toujours l'instrument de musique). Les graines sont utilisées pour former un classificateur initial , en utilisant n'importe quelle méthode supervisée. Ce classifieur est ensuite utilisé sur la partie non étiquetée du corpus pour extraire un ensemble d'apprentissage plus large, dans lequel seules les classifications les plus fiables sont incluses. Le processus se répète, chaque nouveau classificateur étant entraîné sur un corpus d'entraînement de plus en plus grand, jusqu'à ce que tout le corpus soit consommé, ou jusqu'à ce qu'un nombre maximal donné d'itérations soit atteint.

D'autres techniques semi-supervisées utilisent de grandes quantités de corpus non étiquetés pour fournir des informations de cooccurrence qui complètent les corpus étiquetés. Ces techniques ont le potentiel d'aider à l'adaptation de modèles supervisés à différents domaines.

De plus, un mot ambigu dans une langue est souvent traduit en différents mots dans une seconde langue selon le sens du mot. Des corpus bilingues alignés sur des mots ont été utilisés pour déduire des distinctions de sens interlingues, une sorte de système semi-supervisé.

Méthodes non supervisées

L'apprentissage non supervisé est le plus grand défi pour les chercheurs en WSD. L'hypothèse sous-jacente est que des sens similaires se produisent dans des contextes similaires, et donc les sens peuvent être induits à partir du texte en regroupant les occurrences de mots en utilisant une certaine mesure de similitude de contexte, une tâche appelée induction ou discrimination du sens des mots . Ensuite, les nouvelles occurrences du mot peuvent être classées dans les groupes/sens induits les plus proches. Les performances ont été inférieures à celles des autres méthodes décrites ci-dessus, mais les comparaisons sont difficiles car les sens induits doivent être mappés sur un dictionnaire connu des sens des mots. Si un mappage à un ensemble de sens du dictionnaire n'est pas souhaité, des évaluations basées sur des clusters (y compris des mesures d'entropie et de pureté) peuvent être effectuées. Alternativement, les méthodes d'induction du sens des mots peuvent être testées et comparées au sein d'une application. Par exemple, il a été démontré que l'induction du sens des mots améliore le regroupement des résultats de recherche sur le Web en augmentant la qualité des groupes de résultats et le degré de diversification des listes de résultats. On espère que l'apprentissage non supervisé surmontera le goulot d'étranglement de l' acquisition des connaissances, car ils ne dépendent pas d'un effort manuel.

Représenter des mots en tenant compte de leur contexte à l'aide de vecteurs denses de taille fixe ( word embeddings ) est devenu l'un des blocs les plus fondamentaux dans plusieurs systèmes NLP. Même si la plupart des techniques traditionnelles d'intégration de mots associent des mots à significations multiples en une seule représentation vectorielle, elles peuvent toujours être utilisées pour améliorer le WSD. En plus des techniques d'inclusion de mots, les bases de données lexicales (par exemple, WordNet , ConceptNet , BabelNet ) peuvent également aider les systèmes non supervisés à mapper les mots et leur sens en tant que dictionnaires. Certaines techniques qui combinent des bases de données lexicales et des incorporations de mots sont présentées dans AutoExtend et l'annotation au sens le plus approprié (MSSA). Dans AutoExtend, ils présentent une méthode qui découple une représentation d'entrée d'objet en ses propriétés, telles que les mots et leur sens des mots. AutoExtend utilise une structure graphique pour mapper des objets mots (par exemple du texte) et non-mots (par exemple des synsets dans WordNet ) en tant que nœuds et la relation entre les nœuds en tant que bords. Les relations (bords) dans AutoExtend peuvent exprimer l'addition ou la similitude entre ses nœuds. Le premier capture l'intuition derrière le calcul de décalage, tandis que le second définit la similitude entre deux nœuds. Dans MSSA, un système de désambiguïsation non supervisé utilise la similitude entre les sens des mots dans une fenêtre de contexte fixe pour sélectionner le sens de mot le plus approprié à l'aide d'un modèle d'intégration de mots pré-entraîné et de WordNet . Pour chaque fenêtre contextuelle, MSSA calcule le centroïde de chaque définition de sens de mot en faisant la moyenne des vecteurs de mots de ses mots dans les gloses de WordNet (c. Ces centroïdes sont ensuite utilisés pour sélectionner le sens du mot avec la plus grande similitude d'un mot cible avec ses voisins immédiatement adjacents (c'est-à-dire les mots prédécesseur et successeur). Une fois que tous les mots ont été annotés et désambiguïsés, ils peuvent être utilisés comme corpus d'apprentissage dans n'importe quelle technique d'incorporation de mots standard. Dans sa version améliorée, MSSA peut utiliser des plongements de sens des mots pour répéter son processus de désambiguïsation de manière itérative.

Autres approches

D'autres approches peuvent varier différemment dans leurs méthodes :

Autres langues

  • Hindi  : Le manque de ressources lexicales en hindi a entravé les performances des modèles supervisés de WSD, tandis que les modèles non supervisés souffrent d'une morphologie étendue. Une solution possible à ce problème est la conception d'un modèle WSD au moyen de corpus parallèles . La création du Hindi WordNet a ouvert la voie à plusieurs méthodes supervisées qui ont fait leurs preuves pour produire une plus grande précision dans la désambiguïsation des noms.

Obstacles locaux et résumé

Le goulot d'étranglement de l'acquisition des connaissances est peut-être l'obstacle majeur à la résolution du problème de WSD. Les méthodes non supervisées reposent sur la connaissance du sens des mots, qui n'est que peu formulée dans les dictionnaires et les bases de données lexicales. Les méthodes supervisées dépendent de manière cruciale de l'existence d'exemples annotés manuellement pour chaque sens de mot, une condition qui ne peut jusqu'à présent être remplie que pour une poignée de mots à des fins de test, comme cela est fait dans les exercices de Senseval .

L'une des tendances les plus prometteuses de la recherche WSD consiste à utiliser le plus grand corpus jamais accessible, le World Wide Web , pour acquérir automatiquement des informations lexicales. WSD a été traditionnellement compris comme une technologie d'ingénierie linguistique intermédiaire qui pourrait améliorer des applications telles que la recherche d'informations (IR). Dans ce cas, cependant, l'inverse est également vrai : les moteurs de recherche Web mettent en œuvre des techniques IR simples et robustes qui peuvent exploiter avec succès le Web pour obtenir des informations à utiliser dans WSD. Le manque historique de données d'apprentissage a provoqué l'apparition de nouveaux algorithmes et techniques, comme décrit dans Acquisition automatique de corpus étiquetés sens .

Sources de connaissances externes

La connaissance est une composante fondamentale du WSD. Les sources de connaissances fournissent des données essentielles pour associer les sens aux mots. Ils peuvent aller de corpus de textes, non étiquetés ou annotés avec le sens des mots, à des dictionnaires lisibles par machine, des thésaurus, des glossaires, des ontologies, etc. Ils peuvent être classés comme suit :

Structuré :

  1. Dictionnaires lisibles par machine (MRD)
  2. Les ontologies
  3. Thésaurus

Non structuré :

  1. Ressources de colocalisation
  2. D' autres ressources (telles que les listes de fréquence des mots , stoplists , étiquettes de domaine, etc.)
  3. Corpus : corpus bruts et corpus annotés sens

Évaluation

Comparer et évaluer différents systèmes WSD est extrêmement difficile, en raison des différents ensembles de tests, inventaires de sens et ressources de connaissances adoptés. Avant l'organisation de campagnes d'évaluation spécifiques, la plupart des systèmes étaient évalués sur des ensembles de données internes, souvent à petite échelle . Afin de tester son algorithme, les développeurs devraient passer leur temps à annoter toutes les occurrences de mots. Et comparer des méthodes même sur un même corpus n'est pas éligible s'il existe des inventaires de sens différents.

Afin de définir des ensembles de données et des procédures d'évaluation communs, des campagnes d'évaluation publiques ont été organisées. Senseval (maintenant rebaptisé SemEval ) est un concours international de désambiguïsation du sens des mots, organisé tous les trois ans depuis 1998 : Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), et son successeur, SemEval (2007) . L'objectif du concours est d'organiser différentes conférences, de préparer et d'annoter à la main des corpus pour tester des systèmes, d'effectuer une évaluation comparative des systèmes WSD dans plusieurs types de tâches, y compris tous les mots et l'échantillon lexical WSD pour différentes langues, et, plus récemment , de nouvelles tâches telles que l'étiquetage de rôle sémantique , le gloss WSD, la substitution lexicale , etc. Les systèmes soumis à évaluation à ces concours intègrent généralement des techniques différentes et combinent souvent des méthodes encadrées et basées sur la connaissance (notamment pour éviter les mauvaises performances faute d'exemples d'entraînement) .

Au cours des dernières années 2007-2012 , les choix de tâches d'évaluation WSD se sont multipliés et le critère d'évaluation de WSD a radicalement changé en fonction de la variante de la tâche d'évaluation WSD. Ci-dessous énumère la variété des tâches WSD :

Choix de conception des tâches

Au fur et à mesure que la technologie évolue, les tâches de désambiguïsation Word Sense (WSD) se développent dans différentes saveurs vers diverses directions de recherche et pour plus de langues :

  • Les tâches d'évaluation WSD monolingues classiques utilisent WordNet comme inventaire de sens et sont largement basées sur une classification supervisée / semi-supervisée avec les corpus annotés manuellement :
    • L'anglais classique WSD utilise Princeton WordNet comme inventaire de détection et l'entrée de classification principale est normalement basée sur le corpus SemCor .
    • WSD classique pour d'autres langues utilise leur WordNet respectif comme inventaires de sens et corpus annotés de sens étiquetés dans leurs langues respectives. Souvent, les chercheurs exploitent également le corpus SemCor et alignent les bitextes avec l'anglais comme langue source.
  • La tâche d'évaluation du WSD multilingue est également axée sur le WSD dans 2 langues ou plus simultanément. Contrairement aux tâches WSD multilingues, au lieu de fournir des exemples annotés manuellement pour chaque sens d'un nom polysémique, l'inventaire des sens est construit sur la base de corpus parallèles, par exemple le corpus Europarl.
  • Les tâches d'évaluation du WSD multilingue se sont concentrées sur le WSD dans 2 langues ou plus simultanément, en utilisant leurs WordNets respectifs comme inventaires de sens ou BabelNet comme inventaire de sens multilingue. Il a évolué à partir des tâches d'évaluation de la traduction WSD qui ont eu lieu dans Senseval-2. Une approche courante consiste à effectuer un WSD monolingue, puis à mapper les sens de la langue source dans les traductions des mots cibles correspondants.
  • La tâche d'induction et de désambiguïsation du sens des mots est une évaluation de tâche combinée où l'inventaire des sens est d'abord induit à partir d'un ensemble de données d' apprentissage fixe , composé de mots polysémiques et de la phrase dans laquelle ils se sont produits, puis WSD est effectué sur un ensemble de données de test différent .

Logiciel

  • Babelfy, un système unifié de pointe pour la désambiguïsation du sens des mots et la liaison d'entités multilingues
  • API BabelNet, une API Java pour la désambiguïsation du sens des mots multilingue basée sur la connaissance dans 6 langues différentes à l'aide du réseau sémantique BabelNet
  • WordNet::SenseRelate, un projet qui inclut des systèmes open source gratuits pour la désambiguïsation du sens des mots et la désambiguïsation du sens des échantillons lexicaux
  • UKB : Graph Base WSD, une collection de programmes pour effectuer une désambiguïsation du sens des mots basée sur des graphiques et une similarité/relation lexicale à l'aide d'une base de connaissances lexicales préexistante
  • pyWSD, implémentations python des technologies Word Sense Disambiguation (WSD)

Voir également

Remarques

Ouvrages cités

Liens externes et suggestions de lecture