Programme de jugement de similarité automatisé - Automated Similarity Judgment Program

Programme de jugement de similarité automatisé
Producteur Institut Max Planck pour la science de l'histoire humaine (Allemagne)
Langues Anglais
Accès
Coût Libérer
Couverture
Disciplines Linguistique comparative quantitative
Liens
Site Internet http://asjp.clld.org

Le programme de jugement automatisé de similarité ( ASJP ) est un projet collaboratif appliquant des approches informatiques à la linguistique comparée à l' aide d'une base de données de listes de mots. La base de données est en accès libre et se compose de 40 listes de vocabulaire de base pour plus de la moitié des langues du monde. Il est en constante expansion. En plus des isolats et des langues des groupes généalogiques démontrés, la base de données comprend des pidgins , des créoles , des langues mixtes et des langues construites . Les mots de la base de données sont transcrits dans une orthographe standard simplifiée ( code ASJP ). La base de données a été utilisée pour estimer les dates auxquelles les familles linguistiques ont divergé en langues filles par une méthode liée mais toujours différente de la glottochronologie , pour déterminer la patrie ( Urheimat ) d'une proto-langue , pour étudier le symbolisme sonore , pour évaluer différentes phylogénétiques méthodes et plusieurs autres objectifs.

ASJP n'est pas largement accepté parmi les linguistes historiques comme une méthode adéquate pour établir ou évaluer les relations entre les familles de langues.

Il fait partie du projet Cross-Linguistic Linked Data hébergé par l' Institut Max Planck pour la science de l'histoire humaine .

Histoire

Objectifs initiaux

ASJP a été développé à l'origine comme un moyen d'évaluer objectivement la similitude de mots ayant le même sens dans différentes langues, dans le but ultime de classer les langues par ordinateur, sur la base des similitudes lexicales observées. Dans le premier article de l'ASJP, deux mots sémantiquement identiques provenant de langues comparées étaient jugés similaires s'ils montraient au moins deux segments sonores identiques. La similarité entre les deux langues a été calculée en pourcentage du nombre total de mots comparés jugés similaires. Cette méthode a été appliquée à des listes de mots de 100 éléments pour 250 langues de familles linguistiques comprenant l' austroasiatique , l' indo-européen , le maya et le muskogean .

Consortium ASJP

Le Consortium ASJP, fondé vers 2008, est venu impliquer environ 25 linguistes professionnels et autres parties intéressées travaillant comme transcripteurs bénévoles et/ou apportant une aide au projet par d'autres moyens. La principale force motrice derrière la fondation du consortium était Cecil H. Brown. Søren Wichmann est la commissaire quotidienne du projet. Un troisième membre central du consortium est Eric W. Holman, qui a créé la plupart des logiciels utilisés dans le projet.

Listes de mots plus courtes

Alors que les listes de mots utilisées étaient à l'origine basées sur la liste Swadesh de 100 éléments , il a été statistiquement déterminé qu'un sous-ensemble de 40 des 100 éléments produisait des résultats de classification tout aussi bons sinon légèrement meilleurs que la liste entière. Ainsi, par la suite, les listes de mots rassemblées ne contiennent que 40 éléments (ou moins, lorsque les attestations pour certains font défaut).

Distance de Levenshtein

Dans des articles publiés depuis 2008, l'ASJP a utilisé un programme de jugement de similarité basé sur la distance de Levenshtein (LD). Cette approche s'est avérée produire de meilleurs résultats de classification mesurés par rapport à l'opinion d'experts que la méthode utilisée initialement. LD est défini comme le nombre minimum de changements successifs nécessaires pour convertir un mot en un autre, où chaque changement est l'insertion, la suppression ou la substitution d'un symbole. Dans l'approche de Levenshtein, les différences de longueur de mot peuvent être corrigées en divisant LD par le nombre de symboles du plus long des deux mots comparés. Cela produit une LD normalisée (LDN). Un LDN divisé (LDND) entre les deux langues est calculé en divisant le LDN moyen pour toutes les paires de mots impliquant le même sens par le LDN moyen pour toutes les paires de mots impliquant des sens différents. Cette seconde normalisation est destinée à corriger la similitude fortuite.

Liste de mots

L'ASJP utilise la liste de 40 mots suivante. Elle est similaire à la liste Swadesh-Yakhontov , mais présente quelques différences.

Parties du corps
  • œil
  • oreille
  • nez
  • langue
  • dent
  • main
  • le genou
  • du sang
  • OS
  • sein (femme)
  • le foie
  • peau
Animaux et plantes
  • pou
  • chien
  • poisson (nom)
  • corne (partie animale)
  • arbre
  • feuille
Personnes
  • personne
  • nom (nom)
La nature
  • soleil
  • Star
  • l'eau
  • Feu
  • calcul
  • chemin
  • Montagne
  • nuit (heure sombre)
Verbes et adjectifs
  • boire (verbe)
  • mourir
  • voir
  • écouter
  • venir
  • Nouveau
  • complet
Chiffres et pronoms
  • une
  • deux
  • je
  • tu
  • nous

Code ASJP

La version ASJP de 2016 utilise les symboles suivants pour encoder les phonèmes : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G ! c'est-à-dire E 3 auo

Ils représentent 7 voyelles et 34 consonnes, toutes présentes sur le clavier QWERTY standard.

Sons représentés par ASJPcode
Code ASJP La description IPA
je voyelle avant haute, arrondie et non arrondie je, , y,
e voyelle médiane antérieure, arrondie et non arrondie e,
E voyelle basse antérieure, arrondie et non arrondie a, , , , œ
3 voyelle centrale haute et moyenne, arrondie et non arrondie , ɘ, , , , ,
une voyelle basse centrale, non arrondie ??
vous voyelle arrière haute, arrondie et non arrondie , tu
o voyelle du milieu et du bas du dos, arrondies et non arrondies , , , o, , ɒ
p arrêt bilabial sourd et fricatif p,
b stop bilabial voisé et fricative b,
m nasale bilabiale m
F fricative labiodentaire sourde F
v fricative labiodentaire sonore v
8 fricative dentaire sourde et sonore ,
4 nasale dentaire non
t arrêt alvéolaire sans voix t
arrêt alvéolaire sonore
s fricative alvéolaire sourde s
z fricative alvéolaire voisée z
c affriquée alvéolaire sourde et sonore ts, dz
m nasale alvéolaire sourde et sonore m
S fricative postvéolaire sans voix ??
Z fricative postvéolaire sonore ??
C affriquée palato-alvéolaire sourde
j affriquée palato-alvéolaire sonore
T arrêt palatal sourd et sonore c,
5 nasale palatine ??
k arrêt vélaire sans voix k
g arrêt vélaire sonore ??
X fricative vélaire sourde et sonore x,
N vélaire nasale ??
q arrêt uvulaire sans voix q
g arrêt uvulaire sonore ??
X fricative uvulaire sourde et sonore, fricative pharyngée sourde et sonore , , , ʕ
7 arrêt de glotte sans voix ??
h fricative glottale sourde et voisée h,
je latéral alvéolaire sonore approximatif je
L tous les autres latéraux , ,
w approximant sonore bilabial-vélaire w
oui approximatif palatal j
r trille apico-alvéolaire sonore et toutes les variétés de « r-sons » r, , etc.
! toutes les variétés de « sons de clic » , , , ǂ

Voir également

Les références

Sources

Liens externes