Fréquence des lettres arabes - Arabic letter frequency

La fréquence des lettres dans le texte a souvent été étudiée pour une utilisation en cryptanalyse , et en analyse de fréquence en particulier.

Aucune langue n'a une distribution de fréquence de lettre exacte, car tous les auteurs écrivent légèrement différemment. En règle générale, les textes dans différentes langues utilisant l' écriture arabe (par exemple l' arabe , le turc ottoman , le persan et l' ourdou ) auront des fréquences de lettres différentes, le plus évidemment dans le cas des lettres qui ne sont utilisées que dans certaines langues (par exemple les lettres persanes پ, چ , گ, qui ne sont pas utilisés pour écrire en arabe).

Les méthodes d'encodage des lettres les plus fréquentes avec les symboles les plus courts ont été mises au point par les codes télégraphiques et sont utilisées dans les techniques modernes de compression de données telles que le codage de Huffman .

Qu'est-ce qui est compté dans le texte arabe d'entrée?

L'alphabet arabe se compose de 28 lettres primaires, ce sont les lettres 1 à 28 dans le tableau 1. Les huit lettres modifiées énumérées aux positions 29 à 36 dans le même tableau sont utilisées de la même manière. Si ces 8 formes modifiées sont repliées dans la liste principale en fonction de la forme ou de la similitude phonétique, le résultat est alors comme indiqué dans le tableau 2. Pour une analyse de fréquence précise, chacune des 36 lettres du tableau 1 obtient sa fréquence comptée indépendamment.

L'ordre de l'alphabet indiqué dans les tableaux est plus logique que celui utilisé par la norme Unicode .

Figure 1: Caractères arabes pouvant être produits à l'aide du clavier à lettres arabes Intellark .
Tableau 1: L'alphabet arabe. Les lettres 1 à 28 sont les lettres principales. Les lettres 29 à 36 sont les lettres modifiées.
Tableau 2: L'alphabet arabe, avec des lettres modifiées regroupées dans leurs formes primaires.
Distribution de fréquence des lettres pour les lettres comptées: données d'histogramme triées sur la valeur Unicode
Distribution de fréquence des lettres pour les lettres comptées: données d'histogramme triées par fréquence

Bien que l'ensemble complet des caractères arabes comprenne une dizaine de signes diacritiques comme le montre la figure 1, l'analyse de fréquence des caractères arabes ne concerne que le calcul de la fréquence des lettres de l'alphabet indiquée dans le tableau 2.

Sources avec plus de cinq millions de lettres

Les célèbres sources arabes suivantes sont utilisées pour générer une quantité acceptable de données sur lesquelles les statistiques de fréquence sont menées.

  • Les sept premiers volumes de la série البداية والنهاية ( Le début et la fin ) d' Ibn Kathir , avec 2 855 pages, 1 096 047 mots, 4 326 031 lettres.
  • Le livre de الرحيق المختوم ( Le nectar scellé ) d'Almubarakfuri, avec 284 pages, contenant 134 662 mots, contenant 553 740 lettres.
  • Le livre de تحفة العروسين ( Le chef-d'œuvre des épouses ) d'Al-shuri, avec 239 pages, contenant 66 550 mots, contenant 242 361 lettres.

Collectivement, ces sources totalisent 3 378 pages, 1 297 259 mots et 5 122 132 lettres.

Les graphiques suivants montrent la distribution de fréquence des lettres pour les lettres comptées; La figure 2 montre des données d'histogramme triées sur la valeur Unicode . La figure 3 montre des données d'histogramme triées par fréquence.

Lettre Fréquence relative en langue arabe
ء 0,2% 0,2
 
ؤ 0,05% 0,05
 
ئ 0,18% 0,18
 
ا 12,5% 12,5
 
آ 0,1% 0,1
 
أ 3% 3
 
إ 1% 1
 
ب 4,5% 4,5
 
É 3,2% 3.2
 
Ê 0,8% 0,8
 
ث 1,1% 1.1
 
ج 1,8% 1,8
 
Í 0,8% 0,8
 
Î 0,9% 0,9
 
د 2,5% 2,5
 
ذ 0,8% 0,8
 
ر 4,1% 4.1
 
ز 0,4% 0,4
 
س 2,3% 2,3
 
ش 0,7% 0,7
 
ص 0,9% 0,9
 
ض 0,4% 0,4
 
Ø 0,5% 0,5
 
ظ 0,1% 0,1
 
ع 3,9% 3,9
 
غ 0,3% 0,3
 
ف 2,7% 2,7
 
ق 2,6% 2.6
 
ك 1,9% 1,9
 
ل 12% 12
 
م 6,3% 6,3
 
ن 6,4% 6,4
 
ه 5% 5
 
و 5,8% 5,8
 
ى 1% 1
 
ي 6,2% 6.2
 

Les références

Liens externes