Collocation - Collocation

En linguistique de corpus , une collocation est une série de mots ou de termes qui coexistent plus souvent que prévu par hasard. En phraséologie , une collocation est un type de phrasé compositionnel , ce qui signifie qu'il peut être compris à partir des mots qui le composent. Cela contraste avec un idiome , où le sens du tout ne peut être déduit de ses parties, et peut être complètement indépendant.

Un exemple de collocation phraséologique, telle que proposée par Michael Halliday , est l'expression thé fort . Alors que le même sens pourrait être véhiculé par le thé puissant à peu près équivalent , cette expression est considérée comme excessive et maladroite par les anglophones. Inversement, une expression correspondante en technologie, ordinateur puissant, est préférée à ordinateur puissant .

Il existe environ six types principaux de collocations : adjectif + nom, nom + nom (comme les noms collectifs ), verbe + nom, adverbe + adjectif, verbes + phrase prépositionnelle ( verbes à particule ) et verbe + adverbe.

L'extraction de collocations est une technique informatique qui trouve des collocations dans un document ou un corpus, à l'aide de divers éléments de linguistique informatique ressemblant à l'exploration de données .

Définition étendue

Les collocations sont des expressions partiellement ou totalement fixes qui s'établissent par une utilisation répétée en fonction du contexte. Des termes tels que « clair comme du cristal », « encadrement intermédiaire », « famille nucléaire » et « chirurgie esthétique » sont des exemples de paires de mots colocalisés.

Les collocations peuvent être dans une relation syntaxique (telle que verbe-objet : 'faire' et 'décision'), relation lexicale (telle que l' antonymie ), ou elles peuvent n'être dans aucune relation définie linguistiquement. La connaissance des collocations est vitale pour l'utilisation compétente d'une langue : une phrase grammaticalement correcte apparaîtra comme gênante si les préférences de collocation sont violées. Cela fait de la collocation un domaine intéressant pour l'enseignement des langues.

Les linguistes du corpus spécifient un mot clé en contexte ( KWIC ) et identifient les mots qui l'entourent immédiatement. Cela donne une idée de la façon dont les mots sont utilisés.

Le traitement des collocations fait intervenir un certain nombre de paramètres, dont le plus important est la mesure d'association , qui évalue si la co-occurrence est purement fortuite ou statistiquement significative . En raison de la nature non aléatoire de la langue, la plupart des collocations sont classées comme significatives et les scores d'association sont simplement utilisés pour classer les résultats. Les mesures d'association couramment utilisées comprennent l'information mutuelle , les scores t et la log-vraisemblance .

Plutôt que de sélectionner une seule définition, Gledhill propose que la collocation implique au moins trois perspectives différentes : (i) la cooccurrence, une vue statistique, qui voit la collocation comme l'apparition récurrente dans un texte d'un nœud et de ses cooccurrences, (ii) la construction , qui voit la collocation soit comme une corrélation entre un lexème et un modèle lexico-grammatical, soit comme une relation entre une base et ses partenaires collocatifs et (iii) l'expression, une vision pragmatique de la collocation en tant qu'unité d'expression conventionnelle, quelle que soit sa forme . Ces différentes perspectives contrastent avec la manière habituelle de présenter la collocation dans les études phraséologiques. Traditionnellement, la collocation est expliquée en fonction des trois perspectives à la fois, dans un continuum :

'Combinaison libre' ↔ 'Collocation liée' ↔ 'Idiom gelé'

Dans les dictionnaires

En 1933, le deuxième rapport intérimaire de Harold Palmer sur les collocations en anglais soulignait l'importance de la collocation en tant que clé de la production d'une langue à consonance naturelle, pour quiconque apprend une langue étrangère . Ainsi, à partir des années 1940, les informations sur les combinaisons de mots récurrentes sont devenues une caractéristique standard des dictionnaires d'apprenants unilingues . Au fur et à mesure que ces dictionnaires sont devenus « moins centrés sur les mots et plus centrés sur les phrases », une plus grande attention a été accordée à la collocation. Cette tendance a été soutenue, dès le début du 21e siècle, par la disponibilité de corpus de textes volumineux et de logiciels intelligents d' interrogation de corpus , permettant de rendre compte de manière plus systématique de la collocation dans les dictionnaires. À l'aide de ces outils, des dictionnaires tels que le Macmillan English Dictionary et le Longman Dictionary of Contemporary English ont inclus des boîtes ou des panneaux avec des listes de collocations fréquentes.

Il existe également un certain nombre de dictionnaires spécialisés consacrés à la description des collocations fréquentes dans une langue. Ceux-ci incluent (pour l'espagnol) Redes : Diccionario combinatorio del español contemporaneo (2004), (pour le français) Le Robert : Dictionnaire des combinaisons de mots (2007) et (pour l'anglais) le LTP Dictionary of Selected Collocations (1997) et le Macmillan Dictionnaire des collocations (2010).

Collocation statistiquement significative

Le test t de Student peut être utilisé pour déterminer si l'occurrence d'une collocation dans un corpus est statistiquement significative. Pour un bigramme , soit la probabilité inconditionnelle d'occurrence de dans un corpus de taille , et soit la probabilité inconditionnelle d'occurrence de dans le corpus. Ensuite, le score t pour le bigramme est calculé comme suit :

où est la moyenne d'échantillon de l'occurrence de , est le nombre d'occurrences de , est la probabilité de sous l'hypothèse nulle que et apparaissent indépendamment dans le texte, et est la variance de l'échantillon. Avec un grand , le test t est équivalent à un test z .

Voir également

Les références

Liens externes