Désambiguïsation du sens des mots - Word-sense disambiguation
La désambiguïsation du sens des mots ( WSD ) est un problème ouvert en linguistique informatique qui consiste à identifier le sens d'un mot utilisé dans une phrase . La solution à ce problème a un impact sur d'autres écrits liés à l'informatique, tels que le discours , l'amélioration de la pertinence des moteurs de recherche , la résolution des anaphores , la cohérence et l' inférence .
En raison du fait que le langage naturel nécessite le reflet de la réalité neurologique, telle que façonnée par les capacités fournies par les réseaux neuronaux du cerveau , l'informatique a eu un défi à long terme pour développer la capacité des ordinateurs à effectuer le traitement du langage naturel et l'apprentissage automatique .
De nombreuses techniques ont été étudiées, y compris des méthodes basées sur des dictionnaires qui utilisent les connaissances codées dans des ressources lexicales, des méthodes d' apprentissage automatique supervisé dans lesquelles un classificateur est formé pour chaque mot distinct sur un corpus d'exemples annotés manuellement et des méthodes complètement non supervisées qui regroupent occurrences de mots, induisant ainsi le sens des mots. Parmi celles-ci, les approches d'apprentissage supervisé ont été les algorithmes les plus réussis à ce jour.
La précision des algorithmes actuels est difficile à affirmer sans une foule de mises en garde. En anglais, la précision au niveau du gros grain ( homographe ) est systématiquement supérieure à 90 %, certaines méthodes sur des homographes particuliers atteignant plus de 96 %. Sur des distinctions de sens plus fines, des précisions maximales de 59,1 % à 69,0 % ont été rapportées dans des exercices d'évaluation (SemEval-2007, Senseval-2), où la précision de base de l'algorithme le plus simple possible de toujours choisir le sens le plus fréquent était de 51,4 %. et 57 %, respectivement.
À propos de la désambiguïsation du sens des mots
La désambiguïsation nécessite deux entrées strictes : un dictionnaire pour spécifier les sens qui doivent être désambiguïsés et un corpus de données linguistiques à désambiguïser (dans certaines méthodes, un corpus d'apprentissage d'exemples de langue est également requis). La tâche WSD a deux variantes : « échantillon lexical » (désambiguïsation des occurrences d'un petit échantillon de mots cibles préalablement sélectionnés) et « tous les mots » (désambiguïsation de tous les mots dans un texte courant). La tâche « Tous les mots » est généralement considérée comme une forme d'évaluation plus réaliste, mais le corpus est plus coûteux à produire car les annotateurs humains doivent lire les définitions de chaque mot de la séquence à chaque fois qu'ils doivent porter un jugement sur le marquage, plutôt qu'une seule fois. pour un bloc d'instances pour le même mot cible.
Histoire
WSD a été formulé pour la première fois en tant que tâche informatique distincte au début de la traduction automatique dans les années 1940, ce qui en fait l'un des problèmes les plus anciens de la linguistique informatique. Warren Weaver a d' abord introduit le problème dans un contexte informatique dans son mémorandum de 1949 sur la traduction. Plus tard, Bar-Hillel (1960) a soutenu que le WSD ne pouvait pas être résolu par « un ordinateur électronique » en raison de la nécessité en général de modéliser toutes les connaissances du monde.
Dans les années 1970, WSD était une sous-tâche des systèmes d'interprétation sémantique développés dans le domaine de l'intelligence artificielle, en commençant par la sémantique des préférences de Wilks . Cependant, comme les systèmes WSD étaient à l'époque largement basés sur des règles et codés à la main, ils étaient sujets à un goulot d'étranglement pour l'acquisition de connaissances.
Dans les années 1980, des ressources lexicales à grande échelle, telles que l' Oxford Advanced Learner's Dictionary of Current English (OALD), sont devenues disponibles : le codage manuel a été remplacé par des connaissances extraites automatiquement de ces ressources, mais la désambiguïsation était toujours basée sur la connaissance ou sur le dictionnaire. .
Dans les années 1990, la révolution statistique a fait progresser la linguistique informatique et le WSD est devenu un problème de paradigme sur lequel appliquer des techniques d'apprentissage automatique supervisé.
Les années 2000 ont vu les techniques supervisées atteindre un plateau en précision, et donc l'attention s'est déplacée vers les sens à grain plus grossier, l' adaptation de domaine , les systèmes basés sur des corpus semi-supervisés et non supervisés, les combinaisons de différentes méthodes et le retour des systèmes basés sur la connaissance via le graphe. -méthodes basées. Pourtant, les systèmes supervisés continuent de fonctionner de manière optimale.
Des difficultés
Différences entre les dictionnaires
Un problème avec la désambiguïsation du sens des mots est de décider quels sont les sens, car différents dictionnaires et thésaurus fourniront différentes divisions de mots en sens. Certains chercheurs ont suggéré de choisir un dictionnaire particulier et d'utiliser son ensemble de sens pour traiter ce problème. En général, cependant, les résultats de la recherche utilisant des distinctions larges dans les sens ont été bien meilleurs que ceux utilisant des distinctions étroites. La plupart des chercheurs continuent de travailler sur le WSD à grain fin .
La plupart des recherches dans le domaine du WSD sont effectuées en utilisant WordNet comme inventaire de référence pour l'anglais. WordNet est un lexique informatique qui code les concepts sous forme d' ensembles de synonymes (par exemple, le concept de voiture est codé comme { voiture, auto, automobile, machine, automobile }). D'autres ressources utilisées à des fins de désambiguïsation comprennent le Thésaurus de Roget et Wikipédia . Plus récemment, BabelNet , un dictionnaire encyclopédique multilingue, a été utilisé pour le WSD multilingue.
Marquage des parties du discours
Dans n'importe quel test réel, il a été prouvé que l'étiquetage des parties du discours et l' étiquetage des sens étaient très étroitement liés, chacun créant potentiellement des contraintes pour l'autre. La question de savoir si ces tâches doivent être maintenues ensemble ou découplées n'est toujours pas résolue à l'unanimité, mais récemment, les scientifiques ont tendance à tester ces choses séparément (par exemple, dans les compétitions Senseval/ SemEval , des parties du discours sont fournies comme entrée pour le texte à lever).
Les deux balisages des parties du discours WSM impliquent de lever l'ambiguïté ou de baliser avec des mots. Cependant, les algorithmes utilisés pour l'un ont tendance à ne pas bien fonctionner pour l'autre, principalement parce que la partie du discours d'un mot est principalement déterminée par les un à trois mots immédiatement adjacents, alors que le sens d'un mot peut être déterminé par des mots plus éloignés. . Le taux de réussite des algorithmes d'étiquetage de parties de discours est actuellement beaucoup plus élevé que celui de WSD, l'état de l'art étant d'environ 96 % de précision ou mieux, contre moins de 75 % de précision dans la désambiguïsation du sens des mots avec l' apprentissage supervisé . Ces chiffres sont typiques de l'anglais et peuvent être très différents de ceux des autres langues.
Variance entre juges
Un autre problème est la variance entre les juges . Les systèmes WSD sont normalement testés en comparant leurs résultats sur une tâche à ceux d'un humain. Cependant, s'il est relativement facile d'attribuer des parties du discours à un texte, il s'est avéré beaucoup plus difficile d'entraîner les gens à marquer des sens. Alors que les utilisateurs peuvent mémoriser toutes les parties possibles du discours qu'un mot peut prendre, il est souvent impossible pour les individus de mémoriser tous les sens qu'un mot peut prendre. De plus, les humains ne sont pas d'accord sur la tâche à accomplir - donnez une liste de sens et de phrases, et les humains ne seront pas toujours d'accord sur quel mot appartient à quel sens.
Comme la performance humaine sert de norme, il s'agit d'une limite supérieure pour les performances de l'ordinateur. Les performances humaines, cependant, sont bien meilleures sur les distinctions grossières que sur les distinctions fines , c'est donc encore une fois pourquoi la recherche sur les distinctions grossières a été mise à l'épreuve dans les récents exercices d'évaluation WSD.
Pragmatique
Certains chercheurs en IA comme Douglas Lenat soutiennent qu'on ne peut pas analyser le sens des mots sans une certaine forme d' ontologie du sens commun . Cette question linguistique est appelée pragmatique . Comme convenu par les chercheurs, pour identifier correctement le sens des mots, il faut connaître les faits de bon sens. De plus, le bon sens est parfois nécessaire pour lever l'ambiguïté de tels mots comme les pronoms en cas d' anaphores ou de cataphores dans le texte.
Inventaire de sens et dépendance aux tâches des algorithmes
Un inventaire des sens indépendant de la tâche n'est pas un concept cohérent : chaque tâche nécessite sa propre division du sens des mots en sens pertinents pour la tâche. De plus, des algorithmes complètement différents peuvent être requis par différentes applications. En traduction automatique, le problème prend la forme d'une sélection de mots cibles. Les « sens » sont des mots dans la langue cible, qui correspondent souvent à des distinctions significatives de sens dans la langue source (« banque » pourrait se traduire par le français « banque », c'est-à-dire « banque financière » ou « rive », c'est-à-dire, 'bord de rivière'). En recherche documentaire, un inventaire des sens n'est pas forcément nécessaire, car il suffit de savoir qu'un mot est utilisé dans le même sens dans la requête et dans un document récupéré ; quel sens c'est, est sans importance.
Discrétion des sens
Enfin, la notion même de « sens des mots » est glissante et controversée. La plupart des gens peuvent s'accorder sur les distinctions au niveau de l' homographe à grain grossier (par exemple, le stylo comme instrument d'écriture ou boîtier), mais descendent d'un niveau à la polysémie à grain fin , et des désaccords surviennent. Par exemple, dans Senseval-2, qui utilisait des distinctions de sens à grain fin, les annotateurs humains n'étaient d'accord que dans 85 % des occurrences de mots. Le sens des mots est en principe infiniment variable et contextuel. Il ne se divise pas facilement en sous-sens distincts ou discrets. Les lexicographes découvrent fréquemment dans les corpus des significations de mots lâches et qui se chevauchent, et des significations standard ou conventionnelles étendues, modulées et exploitées d'une variété déconcertante de façons. L'art de la lexicographie est de généraliser du corpus à des définitions qui évoquent et expliquent toute la gamme de sens d'un mot, donnant l'impression que les mots se comportent bien sémantiquement. Cependant, il n'est pas du tout clair si ces mêmes distinctions de sens sont applicables dans les applications informatiques , car les décisions des lexicographes sont généralement motivées par d'autres considérations. En 2009, une tâche – nommée substitution lexicale – a été proposée comme solution possible au problème de la discrétion du sens. La tâche consiste à fournir un substitut à un mot dans un contexte qui préserve le sens du mot original (potentiellement, les substituts peuvent être choisis dans le lexique complet de la langue cible, surmontant ainsi la discrétion).
Approches et méthodes
Il existe deux approches principales du WSD – les approches profondes et les approches superficielles.
Les approches profondes supposent l'accès à un ensemble complet de connaissances mondiales . Ces approches ne sont généralement pas considérées comme très fructueuses dans la pratique, principalement parce qu'un tel corpus de connaissances n'existe pas dans un format lisible par ordinateur, en dehors de domaines très limités. De plus, en raison de la longue tradition en linguistique informatique , d'essayer de telles approches en termes de connaissances codées et dans certains cas, il peut être difficile de faire la distinction entre les connaissances impliquées dans la connaissance linguistique ou mondiale. La première tentative fut celle de Margaret Masterman et de ses collègues, à la Cambridge Language Research Unit en Angleterre, dans les années 1950. Cette tentative a utilisé comme données une version sur carte perforée du Thésaurus de Roget et ses "têtes" numérotées, comme indicateur de sujets et a recherché des répétitions dans le texte, en utilisant un algorithme d'intersection défini. Il n'a pas eu beaucoup de succès, mais avait des relations étroites avec des travaux ultérieurs, en particulier l'optimisation de l'apprentissage automatique d'une méthode de thésaurus par Yarowsky dans les années 1990.
Les approches superficielles n'essaient pas de comprendre le texte, mais considèrent plutôt les mots qui l'entourent. Ces règles peuvent être dérivées automatiquement par l'ordinateur, à l'aide d'un corpus d'apprentissage de mots étiquetés avec leur sens des mots. Cette approche, bien que théoriquement pas aussi puissante que les approches profondes, donne des résultats supérieurs dans la pratique, en raison de la connaissance limitée du monde de l'ordinateur.
Il existe quatre approches conventionnelles du WSD :
- Dictionnaire - et méthodes basées sur les connaissances : elles reposent principalement sur des dictionnaires, des thésaurus et des bases de connaissances lexicales , sans utiliser de preuves de corpus.
- Méthodes semi-supervisées ou minimalement supervisées : elles utilisent une source secondaire de connaissances telle qu'un petit corpus annoté en tant que données de départ dans un processus d'amorçage, ou un corpus bilingue aligné sur des mots.
- Méthodes supervisées : elles utilisent des corpus annotés par le sens pour s'entraîner.
- Méthodes non supervisées : Ces méthodes évitent (presque) complètement les informations externes et fonctionnent directement à partir de corpus bruts non annotés. Ces méthodes sont également connues sous le nom de discrimination du sens des mots .
Presque toutes ces approches fonctionnent en définissant une fenêtre de n mots de contenu autour de chaque mot à désambiguïser dans le corpus, et en analysant statistiquement ces n mots environnants. Deux approches superficielles utilisées pour former puis lever l'ambiguïté sont les classificateurs naïfs de Bayes et les arbres de décision . Dans des recherches récentes, les méthodes basées sur le noyau telles que les machines à vecteurs de support ont montré des performances supérieures en apprentissage supervisé . Les approches basées sur les graphes ont également beaucoup attiré l'attention de la communauté des chercheurs et atteignent actuellement des performances proches de l'état de l'art.
Méthodes basées sur des dictionnaires et des connaissances
L' algorithme Lesk est la méthode séminale basée sur un dictionnaire. Il est basé sur l'hypothèse que les mots utilisés ensemble dans le texte sont liés les uns aux autres et que la relation peut être observée dans les définitions des mots et leurs sens. Deux mots (ou plus) sont désambiguïsés en trouvant la paire de sens du dictionnaire avec le plus grand chevauchement de mots dans leurs définitions du dictionnaire. Par exemple, lors de la désambiguïsation des mots dans « pomme de pin », les définitions des sens appropriés incluent à la fois les mots à feuilles persistantes et arbre (au moins dans un dictionnaire). Une approche similaire recherche le chemin le plus court entre deux mots : le deuxième mot est recherché itérativement parmi les définitions de chaque variante sémantique du premier mot, puis parmi les définitions de chaque variante sémantique de chaque mot dans les définitions précédentes et ainsi de suite. Enfin, le premier mot est désambigu en sélectionnant la variante sémantique qui minimise la distance du premier au deuxième mot.
Une alternative à l'utilisation des définitions est de considérer la relation générale entre les sens des mots et de calculer la similarité sémantique de chaque paire de sens de mots sur la base d'une base de connaissances lexicale donnée telle que WordNet . Des méthodes basées sur des graphiques rappelant la diffusion de la recherche sur l' activation des premiers jours de la recherche sur l'IA ont été appliquées avec un certain succès. Il a été démontré que des approches plus complexes basées sur des graphes fonctionnent presque aussi bien que les méthodes supervisées, voire les surpassent dans des domaines spécifiques. Récemment, il a été rapporté que des mesures de connectivité de graphes simples , telles que le degré , effectuent des WSD de pointe en présence d'une base de connaissances lexicales suffisamment riche. En outre, il a été démontré que le transfert automatique de connaissances sous la forme de relations sémantiques de Wikipedia vers WordNet renforce les méthodes simples basées sur les connaissances, leur permettant de rivaliser avec les meilleurs systèmes supervisés et même de les surpasser dans un cadre spécifique à un domaine.
L'utilisation de préférences de sélection (ou restrictions de sélection) est également utile, par exemple, sachant que l'on cuisine généralement des aliments, on peut lever l'ambiguïté du mot basse dans "Je cuisine des basses" (c'est-à-dire que ce n'est pas un instrument de musique).
Méthodes supervisées
Les méthodes supervisées sont basées sur l'hypothèse que le contexte peut fournir suffisamment de preuves à lui seul pour lever l'ambiguïté des mots (par conséquent, le bon sens et le raisonnement sont jugés inutiles). Tous les algorithmes d'apprentissage automatique en cours ont probablement été appliqués à WSD, y compris les techniques associées telles que la sélection de fonctionnalités , l'optimisation des paramètres et l' apprentissage d'ensemble . Les machines à vecteurs de support et l' apprentissage basé sur la mémoire se sont avérés être les approches les plus réussies, à ce jour, probablement parce qu'elles peuvent faire face à la grande dimensionnalité de l'espace des caractéristiques. Cependant, ces méthodes supervisées sont soumises à un nouveau goulot d'étranglement d'acquisition de connaissances car elles reposent sur des quantités substantielles de corpus étiquetés manuellement pour la formation, qui sont laborieuses et coûteuses à créer.
Méthodes semi-supervisées
En raison du manque de données d'apprentissage, de nombreux algorithmes de désambiguïsation du sens des mots utilisent un apprentissage semi-supervisé , qui permet à la fois des données étiquetées et non étiquetées. L' algorithme de Yarowsky était un exemple précoce d'un tel algorithme. Il utilise les propriétés « Un sens par collocation » et « Un sens par discours » des langues humaines pour la désambiguïsation du sens des mots. D'après l'observation, les mots ont tendance à n'avoir qu'un seul sens dans la plupart des discours et dans une collocation donnée.
L' approche d' amorçage commence à partir d'une petite quantité de données de départ pour chaque mot : soit des exemples d'apprentissage marqués manuellement, soit un petit nombre de règles de décision infaillibles (par exemple, « jouer » dans le contexte de « basse » indique presque toujours l'instrument de musique). Les graines sont utilisées pour former un classificateur initial , en utilisant n'importe quelle méthode supervisée. Ce classifieur est ensuite utilisé sur la partie non étiquetée du corpus pour extraire un ensemble d'apprentissage plus large, dans lequel seules les classifications les plus fiables sont incluses. Le processus se répète, chaque nouveau classificateur étant entraîné sur un corpus d'entraînement de plus en plus grand, jusqu'à ce que tout le corpus soit consommé, ou jusqu'à ce qu'un nombre maximal donné d'itérations soit atteint.
D'autres techniques semi-supervisées utilisent de grandes quantités de corpus non étiquetés pour fournir des informations de cooccurrence qui complètent les corpus étiquetés. Ces techniques ont le potentiel d'aider à l'adaptation de modèles supervisés à différents domaines.
De plus, un mot ambigu dans une langue est souvent traduit en différents mots dans une seconde langue selon le sens du mot. Des corpus bilingues alignés sur des mots ont été utilisés pour déduire des distinctions de sens interlingues, une sorte de système semi-supervisé.
Méthodes non supervisées
L'apprentissage non supervisé est le plus grand défi pour les chercheurs en WSD. L'hypothèse sous-jacente est que des sens similaires se produisent dans des contextes similaires, et donc les sens peuvent être induits à partir du texte en regroupant les occurrences de mots en utilisant une certaine mesure de similitude de contexte, une tâche appelée induction ou discrimination du sens des mots . Ensuite, les nouvelles occurrences du mot peuvent être classées dans les groupes/sens induits les plus proches. Les performances ont été inférieures à celles des autres méthodes décrites ci-dessus, mais les comparaisons sont difficiles car les sens induits doivent être mappés sur un dictionnaire connu des sens des mots. Si un mappage à un ensemble de sens du dictionnaire n'est pas souhaité, des évaluations basées sur des clusters (y compris des mesures d'entropie et de pureté) peuvent être effectuées. Alternativement, les méthodes d'induction du sens des mots peuvent être testées et comparées au sein d'une application. Par exemple, il a été démontré que l'induction du sens des mots améliore le regroupement des résultats de recherche sur le Web en augmentant la qualité des groupes de résultats et le degré de diversification des listes de résultats. On espère que l'apprentissage non supervisé surmontera le goulot d'étranglement de l' acquisition des connaissances, car ils ne dépendent pas d'un effort manuel.
Représenter des mots en tenant compte de leur contexte à l'aide de vecteurs denses de taille fixe ( word embeddings ) est devenu l'un des blocs les plus fondamentaux dans plusieurs systèmes NLP. Même si la plupart des techniques traditionnelles d'intégration de mots associent des mots à significations multiples en une seule représentation vectorielle, elles peuvent toujours être utilisées pour améliorer le WSD. En plus des techniques d'inclusion de mots, les bases de données lexicales (par exemple, WordNet , ConceptNet , BabelNet ) peuvent également aider les systèmes non supervisés à mapper les mots et leur sens en tant que dictionnaires. Certaines techniques qui combinent des bases de données lexicales et des incorporations de mots sont présentées dans AutoExtend et l'annotation au sens le plus approprié (MSSA). Dans AutoExtend, ils présentent une méthode qui découple une représentation d'entrée d'objet en ses propriétés, telles que les mots et leur sens des mots. AutoExtend utilise une structure graphique pour mapper des objets mots (par exemple du texte) et non-mots (par exemple des synsets dans WordNet ) en tant que nœuds et la relation entre les nœuds en tant que bords. Les relations (bords) dans AutoExtend peuvent exprimer l'addition ou la similitude entre ses nœuds. Le premier capture l'intuition derrière le calcul de décalage, tandis que le second définit la similitude entre deux nœuds. Dans MSSA, un système de désambiguïsation non supervisé utilise la similitude entre les sens des mots dans une fenêtre de contexte fixe pour sélectionner le sens de mot le plus approprié à l'aide d'un modèle d'intégration de mots pré-entraîné et de WordNet . Pour chaque fenêtre contextuelle, MSSA calcule le centroïde de chaque définition de sens de mot en faisant la moyenne des vecteurs de mots de ses mots dans les gloses de WordNet (c. Ces centroïdes sont ensuite utilisés pour sélectionner le sens du mot avec la plus grande similitude d'un mot cible avec ses voisins immédiatement adjacents (c'est-à-dire les mots prédécesseur et successeur). Une fois que tous les mots ont été annotés et désambiguïsés, ils peuvent être utilisés comme corpus d'apprentissage dans n'importe quelle technique d'incorporation de mots standard. Dans sa version améliorée, MSSA peut utiliser des plongements de sens des mots pour répéter son processus de désambiguïsation de manière itérative.
Autres approches
D'autres approches peuvent varier différemment dans leurs méthodes :
- Désambiguïsation basée sur le domaine ;
- Identification des sens dominants des mots ;
- WSD utilisant des preuves translingues.
- Solution WSD dans la NLU indépendante du langage de John Ball combinant Patom Theory [1] et RRG (Role and Reference Grammar)
- Inférence de type dans les grammaires basées sur les contraintes
Autres langues
- Hindi : Le manque de ressources lexicales en hindi a entravé les performances des modèles supervisés de WSD, tandis que les modèles non supervisés souffrent d'une morphologie étendue. Une solution possible à ce problème est la conception d'un modèle WSD au moyen de corpus parallèles . La création du Hindi WordNet a ouvert la voie à plusieurs méthodes supervisées qui ont fait leurs preuves pour produire une plus grande précision dans la désambiguïsation des noms.
Obstacles locaux et résumé
Le goulot d'étranglement de l'acquisition des connaissances est peut-être l'obstacle majeur à la résolution du problème de WSD. Les méthodes non supervisées reposent sur la connaissance du sens des mots, qui n'est que peu formulée dans les dictionnaires et les bases de données lexicales. Les méthodes supervisées dépendent de manière cruciale de l'existence d'exemples annotés manuellement pour chaque sens de mot, une condition qui ne peut jusqu'à présent être remplie que pour une poignée de mots à des fins de test, comme cela est fait dans les exercices de Senseval .
L'une des tendances les plus prometteuses de la recherche WSD consiste à utiliser le plus grand corpus jamais accessible, le World Wide Web , pour acquérir automatiquement des informations lexicales. WSD a été traditionnellement compris comme une technologie d'ingénierie linguistique intermédiaire qui pourrait améliorer des applications telles que la recherche d'informations (IR). Dans ce cas, cependant, l'inverse est également vrai : les moteurs de recherche Web mettent en œuvre des techniques IR simples et robustes qui peuvent exploiter avec succès le Web pour obtenir des informations à utiliser dans WSD. Le manque historique de données d'apprentissage a provoqué l'apparition de nouveaux algorithmes et techniques, comme décrit dans Acquisition automatique de corpus étiquetés sens .
Sources de connaissances externes
La connaissance est une composante fondamentale du WSD. Les sources de connaissances fournissent des données essentielles pour associer les sens aux mots. Ils peuvent aller de corpus de textes, non étiquetés ou annotés avec le sens des mots, à des dictionnaires lisibles par machine, des thésaurus, des glossaires, des ontologies, etc. Ils peuvent être classés comme suit :
Structuré :
Non structuré :
- Ressources de colocalisation
- D' autres ressources (telles que les listes de fréquence des mots , stoplists , étiquettes de domaine, etc.)
- Corpus : corpus bruts et corpus annotés sens
Évaluation
Comparer et évaluer différents systèmes WSD est extrêmement difficile, en raison des différents ensembles de tests, inventaires de sens et ressources de connaissances adoptés. Avant l'organisation de campagnes d'évaluation spécifiques, la plupart des systèmes étaient évalués sur des ensembles de données internes, souvent à petite échelle . Afin de tester son algorithme, les développeurs devraient passer leur temps à annoter toutes les occurrences de mots. Et comparer des méthodes même sur un même corpus n'est pas éligible s'il existe des inventaires de sens différents.
Afin de définir des ensembles de données et des procédures d'évaluation communs, des campagnes d'évaluation publiques ont été organisées. Senseval (maintenant rebaptisé SemEval ) est un concours international de désambiguïsation du sens des mots, organisé tous les trois ans depuis 1998 : Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), et son successeur, SemEval (2007) . L'objectif du concours est d'organiser différentes conférences, de préparer et d'annoter à la main des corpus pour tester des systèmes, d'effectuer une évaluation comparative des systèmes WSD dans plusieurs types de tâches, y compris tous les mots et l'échantillon lexical WSD pour différentes langues, et, plus récemment , de nouvelles tâches telles que l'étiquetage de rôle sémantique , le gloss WSD, la substitution lexicale , etc. Les systèmes soumis à évaluation à ces concours intègrent généralement des techniques différentes et combinent souvent des méthodes encadrées et basées sur la connaissance (notamment pour éviter les mauvaises performances faute d'exemples d'entraînement) .
Au cours des dernières années 2007-2012 , les choix de tâches d'évaluation WSD se sont multipliés et le critère d'évaluation de WSD a radicalement changé en fonction de la variante de la tâche d'évaluation WSD. Ci-dessous énumère la variété des tâches WSD :
Choix de conception des tâches
Au fur et à mesure que la technologie évolue, les tâches de désambiguïsation Word Sense (WSD) se développent dans différentes saveurs vers diverses directions de recherche et pour plus de langues :
-
Les tâches d'évaluation WSD monolingues classiques utilisent WordNet comme inventaire de sens et sont largement basées sur une classification supervisée / semi-supervisée avec les corpus annotés manuellement :
- L'anglais classique WSD utilise Princeton WordNet comme inventaire de détection et l'entrée de classification principale est normalement basée sur le corpus SemCor .
- WSD classique pour d'autres langues utilise leur WordNet respectif comme inventaires de sens et corpus annotés de sens étiquetés dans leurs langues respectives. Souvent, les chercheurs exploitent également le corpus SemCor et alignent les bitextes avec l'anglais comme langue source.
- La tâche d'évaluation du WSD multilingue est également axée sur le WSD dans 2 langues ou plus simultanément. Contrairement aux tâches WSD multilingues, au lieu de fournir des exemples annotés manuellement pour chaque sens d'un nom polysémique, l'inventaire des sens est construit sur la base de corpus parallèles, par exemple le corpus Europarl.
- Les tâches d'évaluation du WSD multilingue se sont concentrées sur le WSD dans 2 langues ou plus simultanément, en utilisant leurs WordNets respectifs comme inventaires de sens ou BabelNet comme inventaire de sens multilingue. Il a évolué à partir des tâches d'évaluation de la traduction WSD qui ont eu lieu dans Senseval-2. Une approche courante consiste à effectuer un WSD monolingue, puis à mapper les sens de la langue source dans les traductions des mots cibles correspondants.
- La tâche d'induction et de désambiguïsation du sens des mots est une évaluation de tâche combinée où l'inventaire des sens est d'abord induit à partir d'un ensemble de données d' apprentissage fixe , composé de mots polysémiques et de la phrase dans laquelle ils se sont produits, puis WSD est effectué sur un ensemble de données de test différent .
Logiciel
- Babelfy, un système unifié de pointe pour la désambiguïsation du sens des mots et la liaison d'entités multilingues
- API BabelNet, une API Java pour la désambiguïsation du sens des mots multilingue basée sur la connaissance dans 6 langues différentes à l'aide du réseau sémantique BabelNet
- WordNet::SenseRelate, un projet qui inclut des systèmes open source gratuits pour la désambiguïsation du sens des mots et la désambiguïsation du sens des échantillons lexicaux
- UKB : Graph Base WSD, une collection de programmes pour effectuer une désambiguïsation du sens des mots basée sur des graphiques et une similarité/relation lexicale à l'aide d'une base de connaissances lexicales préexistante
- pyWSD, implémentations python des technologies Word Sense Disambiguation (WSD)
Voir également
- Ambiguïté
- Langage naturel contrôlé
- Liaison d'entités
- Algorithme de Lesk
- Substitution lexicale
- Marquage des parties du discours
- Polysémie
- Semeval
- Unification sémantique
- Interprétation judiciaire
- Désambiguïsation des limites de la phrase
- Ambiguïté syntaxique
- Sens des mots
- Induction du sens des mots
Remarques
Ouvrages cités
- Agirre, E. ; Lopez de Lacalle, A.; Soroa, A. (2009). « WSD basé sur la connaissance sur des domaines spécifiques : plus performant que le WSD supervisé générique » (PDF) . Proc. de l'IJCAI .
- Agirre, E. ; M. Stevenson. 2006. Sources de connaissances pour le WSD. Dans Word Sense Désambiguïsation : Algorithmes et Applications , E. Agirre et P. Edmonds, Eds. Springer, New York, NY.
- Bar-Hillel, Y. (1964). Langue et informations . Reading, MA : Addison-Wesley.
- Buitelaar, P.; B. Magnini, C. Strapparava et P. Vossen. 2006. WSD spécifique au domaine. Dans Word Sense Désambiguïsation : Algorithmes et Applications, E. Agirre et P. Edmonds, Eds. Springer, New York, NY.
- Chan, YS; HT Ng. 2005. Mise à l'échelle de la désambiguïsation du sens des mots via des textes parallèles. Dans Actes de la 20e Conférence nationale sur l'intelligence artificielle (AAAI, Pittsburgh, PA).
- Edmonds, P. 2000. Conception d'une tâche pour SENSEVAL-2 . Technologie. Remarque. Université de Brighton, Brighton. Royaume-Uni
- Fellbaum, Christiane (1997). "Analyse d'une tâche d'écriture". Proc. de l'atelier ANLP-97 sur le balisage de texte avec la sémantique lexicale : pourquoi, quoi et comment ? Washington DC, États-Unis .
- Gliozzo, A.; B. Magnini et C. Strapparava. 2004. Estimation de la pertinence du domaine non supervisée pour la désambiguïsation du sens des mots . Dans Actes de la Conférence de 2004 sur les méthodes empiriques dans le traitement du langage naturel (EMNLP, Barcelone, Espagne).
- Idé, N.; T. Erjavec, D. Tufis. 2002. Discrimination des sens avec des corpus parallèles . Dans Actes de l'atelier ACL sur la désambiguïsation du sens des mots : succès récents et orientations futures (Philadelphie, PA).
- Kilgarriff, A. 1997. Je ne crois pas au sens des mots . Calcul. Humain. 31(2), p. 91-113.
- Kilgarriff, A.; G. Grefenstette. 2003. Introduction au numéro spécial sur le Web comme corpus . Linguistique computationnelle 29(3), pp. 333-347
- Kilgarriff, Adam ; Joseph Rosenzweig, English Senseval : rapport et résultats mai-juin 2000, Université de Brighton
- Lapata, M. ; et F. Keller. 2007. Une approche de recherche d'informations pour le classement des sens . Dans Actes de la conférence sur la technologie du langage humain de la section nord-américaine de l'Association for Computational Linguistics (HLT-NAACL, Rochester, NY).
- Lenat, D. "Les ordinateurs contre le bon sens" . Récupéré le 2008-12-10 . (GoogleTachTalks sur YouTube)
- Lénat, D.; RV Guha. 1989. Construire de grands systèmes basés sur la connaissance, Addison-Wesley
- Lesk; M. 1986. Désambiguïsation automatique du sens à l'aide de dictionnaires lisibles par machine : Comment distinguer une pomme de pin d'un cornet de crème glacée . En Proc. de SIGDOC-86 : 5e Conférence internationale sur la documentation des systèmes, Toronto, Canada.
- Litkowski, KC 2005. Lexiques et dictionnaires informatiques. Dans Encyclopaedia of Language and Linguistics (2e éd.), KR Brown, éd. Elsevier Publishers, Oxford, Royaume-Uni
- Magnini, B; G. Cavaglià. 2000. Intégration des codes de domaine dans WordNet. Dans Actes de la 2e Conférence sur les ressources linguistiques et l'évaluation (LREC, Athènes, Grèce).
- McCarthy, D.; R. Koeling, J. Weeds, J. Carroll. 2007. Acquisition non supervisée des sens prédominants des mots . Linguistique informatique 33(4) : 553–590.
- McCarthy, D.; R. Navigli. 2009. The English Lexical Substitution Task , Language Resources and Evaluation, 43(2), Springer.
- Mihalcea, R. 2007. Utilisation de Wikipedia pour la désambiguïsation automatique du sens des mots . En Proc. du chapitre nord-américain de l'Association for Computational Linguistics (NAACL 2007), Rochester, avril 2007.
- Mohamed, S; G. Hirst. 2006. Détermination de la dominance du sens des mots à l'aide d'un thésaurus . Dans Actes de la 11e conférence sur le chapitre européen de l'Association for Computational Linguistics (EACL, Trento, Italie).
- Navigli, R. 2006. Un regroupement significatif des sens aide à améliorer les performances de désambiguïsation du sens des mots . Proc. de la 44e réunion annuelle de l'Association for Computational Linguistics conjointement avec la 21e Conférence internationale sur la linguistique informatique (COLING-ACL 2006), Sydney, Australie.
- Navigli, R.; A. Di Marco. Regroupement et diversification des résultats de recherche sur le Web grâce à l'induction du sens des mots basée sur des graphiques . Linguistique computationnelle, 39(3), MIT Press, 2013, pp. 709-754.
- Navigli, R.; G. Crisafulli. Induire Word Senses pour améliorer le regroupement des résultats de recherche sur le Web . Proc. de la 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachusetts, USA.
- Navigli, R.; M. Lapata. Une étude expérimentale de la connectivité graphique pour la désambiguïsation du sens des mots non supervisée . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010.
- Navigli, R.; K. Litkowski, O. Hargraves. 2007. SemEval-2007 Tâche 07 : Tâche de tous les mots en anglais à grain grossier . Proc. de l'atelier Semeval-2007 ( SemEval ), lors de la 45e réunion annuelle de l'Association for Computational Linguistics (ACL 2007), Prague, République tchèque.
- Navigli, R.;P. Velardi. 2005. Interconnexions sémantiques structurelles : une approche fondée sur les connaissances pour la désambiguïsation du sens des mots . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27 (7).
- Palmer, M. ; O. Babko-Malaya et HT Dang. 2004. Différentes granularités de sens pour différentes applications . Dans Actes du 2e atelier sur les systèmes évolutifs de compréhension du langage naturel dans HLT/NAACL (Boston, MA).
- Ponzetto, SP; R. Navigli. Désambiguïsation Word Sense riche en connaissances rivalisant avec les systèmes supervisés . En Proc. de la 48e réunion annuelle de l'Association for Computational Linguistics (ACL), 2010.
- Pradhan, S.; E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Tâche 17 : Échantillon lexical anglais, SRL et tous les mots . Proc. de l'atelier Semeval-2007 (SEMEVAL), lors de la 45e réunion annuelle de l'Association for Computational Linguistics (ACL 2007), Prague, République tchèque.
- Schütze, H. 1998. Discrimination automatique du sens des mots . Linguistique computationnelle, 24 (1) : 97-123.
- Neige, R.; S. Prakash, D. Jurafsky, AY Ng. 2007. Apprendre à fusionner les sens des mots , Actes de la conférence conjointe 2007 sur les méthodes empiriques dans le traitement du langage naturel et l'apprentissage numérique du langage naturel (EMNLP-CoNLL).
- Snyder, B. ; M. Palmer. 2004. La tâche de tous les mots en anglais . En Proc. du 3e Atelier international sur l'évaluation des systèmes pour l'analyse sémantique du texte (Senseval-3), Barcelone, Espagne.
- Tisserand, Warren (1949). "Traduction" (PDF) . À Locke, WN ; Booth, AD (éd.). Traduction automatique des langues : quatorze essais . Cambridge, MA : MIT Press.
- Wilks, Y.; B. Slator, L. Guthrie. 1996. Mots électriques : dictionnaires, ordinateurs et significations. Cambridge, MA : MIT Press.
- Yarowsky, D. Désambiguïsation du sens des mots à l'aide de modèles statistiques des catégories de Roget formés sur de grands corpus . En Proc. de la 14e conférence sur la linguistique informatique (COLING), 1992.
- Yarowsky, D. 1995. Désambiguïsation du sens des mots non supervisée rivalisant avec les méthodes supervisées . En Proc. de la 33e réunion annuelle de l'Association for Computational Linguistics.
Liens externes et suggestions de lecture
- Computational Linguistics Numéro spécial sur la désambiguïsation du sens des mots (1998)
- Exercices d'évaluation pour la désambiguïsation Word Sense Les références standard de facto pour les systèmes WSD.
- Roberto Navigli. Désambiguïsation Word Sense: A Survey , ACM Computing Surveys, 41(2), 2009, pp. 1-69. Un état de l'art actualisé du domaine.
- Désambiguïsation du sens des mots telle que définie dans Scholarpedia
- Désambiguïsation Word Sense: L'état de l'art (PDF) Un aperçu complet Par le professeur Nancy Ide et Jean Véronis (1998).
- Tutoriel sur la désambiguïsation Word Sense , par Rada Mihalcea et Ted Pedersen (2005).
- Eh bien, eh bien, eh bien ... Word Sense Disambiguation with Google n-Grams , par Craig Trim (2013).
- Word Sense Disambiguation: Algorithms and Applications , édité par Eneko Agirre et Philip Edmonds (2006), Springer. Couvre l'ensemble du domaine avec des chapitres rédigés par des chercheurs de premier plan. www.wsdbook.org site du livre
- Bar-Hillel, Yehoshua. 1964. Langue et information. New York : Addison-Wesley.
- Edmonds, Philip et Adam Kilgarriff. 2002. Introduction au numéro spécial sur l'évaluation des systèmes de désambiguïsation du sens des mots. Journal of Natural Language Engineering, 8(4):279-291.
- Edmonds, Philippe. 2005. Désambiguïsation lexicale. L'Encyclopédie Elsevier de la langue et de la linguistique, 2e édition, éd. par Keith Brown, 607–23. Oxford : Elsevier.
- Ide, Nancy & Jean Véronis. 1998. Désambiguïsation du sens des mots : l'état de l'art. Linguistique computationnelle, 24(1):1-40.
- Jurafsky, Daniel et James H. Martin. 2000. Traitement de la parole et du langage. New Jersey, États-Unis : Prentice Hall.
- Litkowski, KC 2005. Lexiques et dictionnaires informatiques. Dans Encyclopaedia of Language and Linguistics (2e éd.), KR Brown, éd. Elsevier Publishers, Oxford, Royaume-Uni, 753-761.
- Manning, Christopher D. & Hinrich Schütze. 1999. Fondements du traitement statistique du langage naturel. Cambridge, MA : MIT Press. Fondements du traitement statistique du langage naturel
- Mihalcea, Rada. 2007. Désambiguïsation du sens des mots. Encyclopédie de l'apprentissage automatique. Springer-Verlag.
- Resnik, Philip et David Yarowsky. 2000. Systèmes de distinction et sens distinctifs : Nouvelles méthodes d'évaluation pour la désambiguïsation du sens des mots, Natural Language Engineering, 5(2) :113-133. [2]
- Yarowsky, David. 2001. Désambiguïsation du sens des mots. Manuel de traitement automatique du langage naturel, éd. par Dale et al., 629-654. New-York : Marcel Dekker.