Enquête sur l'utilisation de l'anglais - Survey of English Usage

L' Enquête sur l'utilisation de l'anglais a été le premier centre de recherche en Europe à effectuer des recherches avec des corpus . L'enquête est basée au Département de langue et littérature anglaises de l' University College de Londres .

Histoire

L'Enquête sur l'utilisation de l'anglais a été fondée en 1959 par Randolph Quirk . De nombreux linguistes bien connus ont passé du temps à faire des recherches à l'Enquête, notamment Bas Aarts, Valerie Adams, John Algeo, Dwight Bolinger, Noël Burton-Roberts, David Crystal , Derek Davy, Jan Firbas, Sidney Greenbaum , Liliane Haegeman, Robert Ilson, Ruth Kempson, Geoffrey Leech , Jan Rusiecki, Jan Svartvik et Joe Taglicht. Le directeur actuel est Bas Aarts.

Le Survey Corpus original était antérieur à l'informatique moderne. Il a été enregistré sur des bandes bobine à bobine, transcrit sur papier, classé dans des classeurs et indexé sur des fiches papier. Les transcriptions ont été annotées avec une annotation prosodique et paralinguistique détaillée développée par Crystal et Quirk (1964). Des jeux de fiches en papier ont été annotés manuellement pour les structures grammaticales et classés, ainsi, par exemple, toutes les phrases nominales pouvaient être trouvées dans le classeur de phrases nominales de l'Enquête. Naturellement, les recherches de corpus nécessitaient une visite à l'Enquête.

Ce corpus est maintenant plus largement connu sous le nom de London-Lund Corpus (LLC), car il était de la responsabilité de collègues de Lund, en Suède, d'informatiser le corpus. Trente-quatre des textes parlés ont été publiés sous forme de livre sous le titre Svartvik and Quirk (1980), et le corpus a servi de base au célèbre livre A Comprehensive Grammar of the English Language (Quirk et al. 1985).

Les recherches en cours

Construire des corpus

En 1988, Sidney Greenbaum proposa un nouveau projet, ICE , International Corpus of English . ICE devait être un projet international, mené dans des centres de recherche du monde entier, pour compiler des corpus de variétés anglaises où l'anglais était la première ou la deuxième langue officielle. Les textes ICE contiendraient l'anglais parlé et écrit dans un échantillon équilibré d'un million de mots par composant afin que ces échantillons puissent être comparés de diverses manières. Le projet ICE se poursuit dans le monde entier jusqu'à nos jours.

ICE-GB , la composante britannique de l'ICE, a été compilée lors de l'enquête. ICE-GB a été annoté à un niveau très détaillé, y compris la construction d'une analyse grammaticale complète (parse) pour chaque phrase du corpus. La première version d'ICE-GB a eu lieu en 1998. ICE-GB a été distribué avec un logiciel de recherche et d'exploration du corpus analysé appelé ICECUP. La version 2 d'ICE-GB est maintenant sortie et est disponible sur CD.

En plus des variétés contrastées d'anglais, de nombreux chercheurs s'intéressent au développement et à l'évolution du langage au fil du temps. Un projet récent du Survey a entrepris l'analyse d'une grande sélection (400 000 mots) de la partie parlée de la LLC d'une manière directement comparable à ICE-GB, formant un nouveau corpus diachronique de 800 000 mots, appelé le corpus diachronique du présent. Anglais parlé de jour ( DCPSE ). Le DCPSE est maintenant publié et est disponible sur CD à partir de l'Enquête.

Ces deux corpus constituent la plus grande collection de données de langue anglaise parlée analysées, corrigées et transcrites orthographiquement au monde, avec plus d'un million de mots d'anglais parlé sous cette forme.

Explorer les corpus

Les corpus analysés sont de grandes bases de données contenant des arborescences grammaticales détaillées. L'une des conséquences de la constitution de vastes collections de données linguistiques précieuses est un besoin urgent de méthodes et d'outils pour aider les chercheurs et les autres utilisateurs à en tirer le meilleur parti. Ainsi, parallèlement à l'analyse des données en langage naturel, l'équipe Survey a mené des recherches et développements d'outils logiciels pour aider les linguistes à utiliser ces corpus. La plate-forme de recherche ICECUP utilise une représentation de requête grammaticale intuitive appelée Fuzzy Tree Fragments (FTF) pour rechercher des corpus analysés.

Recherche linguistique avec corpus

En plus de distribuer des corpus et des outils à la communauté de recherche en linguistique de corpus , le SEU mène des recherches en langue anglaise. Les projets récents incluent des recherches sur la phrase nominale anglaise, la subordination en anglais parlé et écrit et la phrase verbale anglaise. L'enquête fournit également un soutien aux doctorants qui effectuent des recherches sur des corpus de langue anglaise.

Les références

Liens externes