Propriété de caractère Unicode - Unicode character property

La norme Unicode attribue diverses propriétés à chaque caractère Unicode et point de code .

Les propriétés peuvent être utilisées pour gérer les caractères (points de code) dans les processus, comme le saut de ligne, le sens du script de droite à gauche ou l'application de contrôles. Certaines « propriétés de caractère » sont également définies pour les points de code qui n'ont aucun caractère attribué et les points de code qui sont étiquetés comme « <pas un caractère> ». Les propriétés des caractères sont décrites dans l'annexe standard #44.

Les propriétés ont des niveaux de force : normatif, informatif, contributif ou provisoire. Pour simplifier la spécification, une propriété de caractère peut être attribuée en spécifiant une plage continue de points de code qui ont la même propriété.

Éléments sémantiques

Les propriétés sont affichées dans l'ordre suivant :

[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
  • 'alias' = nom corrigé
  • 'bc' = catégorie bidi (bidirectionnelle) [L, R etc]
  • 'bm' = bidi en miroir [N ou Y]
  • 'cc' = classe de combinaison [position du diacritique]
  • décomposition = lettre + diacritique, ligature XY, exposant X, police X, X initial, X médian, X final, X isolé, X vertical, etc.
  • 'gc' = catégorie générale [lettre, symbole, chiffre, ponctuation, comportement de la casse, etc.]
  • 'nv' = valeur numérique [d'un chiffre]

Nom

Un caractère Unicode se voit attribuer un nom unique (na). Le nom est composé des lettres majuscules A–Z, des chiffres 0–9, - (trait d'union-moins) et <espace>. Certaines séquences sont exclues : les noms commençant par un espace ou un tiret, les noms se terminant par un espace ou un tiret, des espaces ou des tirets répétés et l'espace après le tiret ne sont pas autorisés. Le nom est garanti unique au sein d'Unicode et peut être utilisé pour identifier un point de code et son caractère. Les caractères idéographiques, au nombre de dizaines de milliers, sont nommés dans le motif " cjk unified ideograph - hhhh ". Par exemple, U+4E00 CJK UNIFIED IDEOGRAPH-4E00 . Les caractères de mise en forme sont également nommés : U+00A0 NO-BREAK SPACE .  

Les classes de point de code suivantes n'ont pas de Nom (na="") : Contrôles (Catégorie générale : Cc), Usage privé (Co), Substitut (Cs), Non-caractères (Cn) et Réservé (Cn). Ils peuvent être référencés, de manière informelle, par un méta-nom générique ou spécifique, appelé "Code Point Labels": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <substitut>. Étant donné que ces étiquettes contiennent des crochets <>, elles ne peuvent jamais apparaître comme un nom, ce qui évite toute confusion.

Noms de la version 1.0

Dans la version 2.0 d'Unicode, de nombreux noms ont été modifiés. Dès lors, la règle "un nom ne changera jamais" est entrée en vigueur, y compris l'utilisation stricte (normative) des noms d'alias. Les noms de version 1.0 désaffectés ont été déplacés vers la propriété Alias, pour assurer une certaine compatibilité descendante.

Alias ​​du nom du personnage

À partir de la version Unicode 2.0, le nom publié pour un point de code ne changera jamais. Par conséquent, dans le cas d'un nom de personnage mal orthographié ou si le nom de personnage est complètement faux ou très trompeur, un alias de nom de personnage formel peut être attribué au personnage, et cet alias peut être utilisé par les applications à la place du nom de personnage défectueux réel. . Par exemple, U + FE18 PRÉSENTATION FORMULAIRE POUR VERTICAL BLANC DROIT LENTICULAIRE BRAKCET l'alias de nom de caractère « PRÉSENTATION FORMULAIRE POUR VERTICAL BLANC DROIT LENTICULAIRE BRIDE » afin d'atténuer la faute d' orthographe de « support » comme « brakcet » au nom de caractère réel; U + A015 YI WU SYLLABE l'alias de nom de personnage « YI SYLLABE ITÉRATION MARK » parce que , contrairement au nom du caractère , il ne dispose pas d' une valeur syllabique fixe.

En plus des alias de noms de caractères qui sont des corrections de noms de caractères défectueux, certains caractères se voient attribuer des alias qui sont des noms alternatifs ou des abréviations. Cinq types d'alias de noms de caractères sont définis dans la norme Unicode :

  • Correction : corrections pour les noms de caractères mal orthographiés ou gravement incorrects ;
  • Contrôle : noms ISO 6429 pour les fonctions de contrôle C0 et C1 (qui ne sont pas affectés par des noms de caractères dans la norme Unicode) ;
  • Alternative : noms alternatifs pour certains caractères de format (uniquement U+FEFF "ZERO WIDTH NO-BREAK SPACE" qui a l'alias "BYTE ORDER MARK");
  • Figment : étiquettes documentées pour certaines fonctions du code de contrôle C1 qui ne sont pas des noms réels dans aucune norme ;
  • Abréviation : abréviations ou acronymes pour les codes de contrôle, les caractères de format, les espaces et les sélecteurs de variantes.

Tous les alias de noms de caractères formels suivent les règles des noms de caractères autorisés et sont garantis uniques à la fois dans l'alias de noms de caractères et dans les espaces de noms de caractères (pour cette raison, le nom ISO 6429 "BELL" n'est pas défini comme alias pour U +0007 car U+1F514 est nommé "BELL").

Depuis la version Unicode 12.1, vingt-huit alias de noms de caractères formels sont définis comme des corrections pour les noms de caractères défectueux. Ceux-ci sont énumérés ci - dessous .

En dehors de ces noms normatifs, des noms informels peuvent être affichés dans les tableaux de codes Unicode. Ce sont d'autres noms couramment utilisés pour un caractère et ne doivent pas être limités aux lettres A à Z, aux chiffres 0 à 9, - (trait d'union-moins) et <espace>. Ces noms informels ne sont pas garantis comme étant uniques et peuvent être modifiés ou supprimés dans les versions ultérieures de la norme.

Catégorie générale

Chaque point de code se voit attribuer une valeur pour la catégorie générale. Il s'agit de l'une des propriétés de caractère qui sont également définies pour les points de code non attribués et les points de code qui sont définis « pas un caractère ».

Catégorie générale ( propriété de caractère Unicode )
Valeur Catégorie Majeure, mineure Type de base Caractère attribué Compte
(à partir de 14.0)
Remarques
 
L, lettre ; LC, lettre casse (Lu, Ll et Lt uniquement)
Lu Lettre majuscule Graphique Personnage 1 831
Ll Lettre, minuscule Graphique Personnage 2 227
Lieutenant Lettre, casse de titre Graphique Personnage 31 Ligatures contenant majuscule suivie par des lettres minuscules (par exemple, Dž , Lj , nj et Dz )
Lm Lettre, modificateur Graphique Personnage 334 Une lettre modificatrice
Tiens Lettre, autre Graphique Personnage 127 333 Un idéogramme ou une lettre dans un alphabet unicase
M, Marc
Mn Marque, sans espacement Graphique Personnage 1 950
Mc Marque, espacement combinant Graphique Personnage 445
Moi Marc, ci-joint Graphique Personnage 13
N, nombre
nd Nombre, chiffre décimal Graphique Personnage 660 Tous ceux-ci, et seulement ceux-ci, ont un type numérique = De
NL Chiffre, lettre Graphique Personnage 236 Chiffres composés de lettres ou de symboles semblables à des lettres (par exemple, des chiffres romains )
Non Nombre, autre Graphique Personnage 895 Par exemple, les fractions vulgaires , les chiffres en exposant et en indice
P, Ponctuation
ordinateur Ponctuation, connecteur Graphique Personnage dix Comprend un trait de soulignement "_"
PD Ponctuation, tiret Graphique Personnage 26 Comprend plusieurs traits d' union
PS Ponctuation, ouvert Graphique Personnage 79 Ouverture support caractères
Pe Ponctuation, fermer Graphique Personnage 77 Caractères crochets fermants
Pi Ponctuation, citation initiale Graphique Personnage 12 guillemet ouvrant . N'inclut pas le guillemet ASCII "neutre". Peut se comporter comme Ps ou Pe selon l'utilisation
Pf Ponctuation, citation finale Graphique Personnage dix guillemet fermant. Peut se comporter comme Ps ou Pe selon l'utilisation
Ponctuation, autre Graphique Personnage 605
S, symbole
SM Symbole, maths Graphique Personnage 948 Les symboles mathématiques (par exemple, + , - , = , x , ÷ , , ε , ). N'inclut pas les parenthèses et les crochets, qui appartiennent aux catégories Ps et Pe. Ne comprend pas non plus ! , * , - , ou / , qui, malgré une utilisation fréquente comme opérateurs mathématiques, sont principalement considérés comme de la "ponctuation".
Sc Symbole, devise Graphique Personnage 63 Symboles monétaires
Sk Symbole, modificateur Graphique Personnage 125
Donc Symbole, autre Graphique Personnage 6 605
Z, Séparateur
Zs Séparateur, espace Graphique Personnage 17 Inclut l'espace, mais pas TAB , CR ou LF , qui sont Cc
Zl Séparateur, ligne Format Personnage 1 Seulement U+2028 SEPARATEUR DE LIGNE (LSEP)
Zp Séparateur, paragraphe Format Personnage 1 Uniquement U+2029 SÉPARATEUR DE PARAGRAPHES (PSEP)
C, Autre
Cc Autre, contrôle Contrôler Personnage 65 (ne changera jamais) Pas de nom, <contrôle>
Cf. Autre, format Format Personnage 163 Comprend le trait d'union souple , les caractères de contrôle de jonction ( zwnj et zwj ), les caractères de contrôle pour prendre en charge le texte bidirectionnel et les caractères de balise de langue
Cs Autre, substitut Substitut Non (uniquement utilisé en UTF-16 ) 2 048 (ne changera jamais) Pas de nom, <substitut>
Co Autre, usage privé Usage privé Caractère (mais aucune interprétation spécifiée) 137 468 au total (ne changera jamais) ( 6 400 en BMP , 131 068 dans les avions 15-16 ) Pas de nom, <usage privé>
Cn Autre, non attribué Non-caractère Pas 66 (ne changera jamais) Sans nom, <noncharacter>
Réservé Pas 829 768 Pas de nom, <réservé>

Ponctuation

Les caractères ont des propriétés distinctes pour indiquer qu'ils sont un caractère de ponctuation . Les propriétés ont toutes des valeurs Oui/Non : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .

Espace blanc

L'espace blanc est un concept couramment utilisé pour un effet typographique. Fondamentalement, il couvre les caractères invisibles qui ont un effet d'espacement dans le texte rendu. Il comprend des espaces , des tabulations et de nouvelles commandes de mise en forme de ligne. En Unicode, un tel caractère a le jeu de propriétés "WSpace=yes". Dans la version 14.0, il y a 25 caractères d'espacement.

Nom Point de code Boîte de largeur Peut casser ? En
IDN ?
Scénario Bloquer
Catégorie générale
Remarques
tabulation de caractères U+0009 9 Oui Non Commun Latin de base Autre,
contrôle
HT, Tabulation horizontale . Entité HTML/XML nommée : &Tab;, LaTeX : '\tab'
saut de ligne U+000A dix est un saut de ligne Commun Latin de base Autre,
contrôle
LF, saut de ligne . Entité nommée HTML/XML :&NewLine;
tabulation en ligne U+000B 11 est un saut de ligne Commun Latin de base Autre,
contrôle
VT, onglet vertical
flux de formulaire U+000C 12 est un saut de ligne Commun Latin de base Autre,
contrôle
FF, saut de page
retour chariot U+000D 13 est un saut de ligne Commun Latin de base Autre,
contrôle
CR, retour chariot
espacer U+0020 32 Oui Non Commun Latin de base Séparateur,
espace
Le plus courant (espace ASCII normal)
ligne suivante U+0085 133 est un saut de ligne Commun
Supplément Latin-1
Autre,
contrôle
NEL, ligne suivante
espace sans pause U+00A0 160   Non Non Commun
Supplément Latin-1
Séparateur,
espace
Espace insécable : identique à U+0020, mais pas un point où une ligne peut être cassée. Entité nommée HTML/XML : &nbsp;, LaTeX : '\ '
marque espace ogham U+1680 5760 Oui Non Ogham Ogham Séparateur,
espace
Utilisé pour la séparation entre les mots dans le texte Ogham . Normalement, une ligne verticale dans du texte vertical ou une ligne horizontale dans du texte horizontal, mais peut également être un espace vide dans les polices "sans tige". Nécessite une police Ogham.
en quad U+2000 8192   Oui Non Commun
Ponctuation générale
Séparateur,
espace
Largeur d'un fr . U+2002 est canoniquement équivalent à ce caractère ; U+2002 est préférable.
em quad U+2001 8193 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Aussi connu sous le nom de « quad de mouton ». Largeur d'un em . U+2003 est canoniquement équivalent à ce caractère ; U+2003 est préférable.
dans l'espace U+2002 8194 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Aussi connu sous le nom de "noix". Largeur d'un fr . U+2000 En Quad est canoniquement équivalent à ce caractère ; U+2002 est préférable. Entité nommée HTML/XML : &ensp;, LaTeX : '\enspace'
em espace U+2003 8195 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Aussi connu sous le nom de « mouton ». Largeur d'un em . U+2001 Em Quad est canoniquement équivalent à ce personnage ; U+2003 est préférable. Entité nommée HTML/XML : &emsp;, LaTeX : '\quad'
espace de trois par em U+2004 8196 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Aussi appelé "espace épais". Un tiers d'em de large. Entité nommée HTML/XML :&emsp13;
espace de quatre per-em U+2005 8197 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Également connu sous le nom de « espace intermédiaire ». Un quart d'em de large. Entité nommée HTML/XML :&emsp14;
espace de six per-em U+2006 8198 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Un sixième d'em de large. En typographie informatique, parfois assimilée à U+2009.
espace chiffre U+2007 8199 Non Non Commun
Ponctuation générale
Séparateur,
espace
L'espace des personnages . Dans les polices avec des chiffres à espacement fixe, égale à la largeur d'un chiffre. Entité nommée HTML/XML :&numsp;
espace de ponctuation U+2008 8200 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Aussi large que la ponctuation étroite d'une police, c'est-à-dire la largeur d'avance du point ou de la virgule. Entité nommée HTML/XML :&puncsp;
espace mince U+2009 8201 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Espace mince ; un cinquième (parfois un sixième) d'un em de large. Recommandé pour une utilisation comme séparateur de milliers pour les mesures effectuées avec des unités SI . Contrairement à U+2002 à U+2008, sa largeur peut être ajustée dans la composition. Entité nommée HTML/XML :&thinsp; ; LaTeX : '\,'
espace cheveux U+200A 8202 Oui Non Commun
Ponctuation générale
Séparateur,
espace
Plus mince qu'un espace mince. Entité nommée HTML/XML : &hairsp;( ne fonctionne pas dans tous les navigateurs)
séparateur de ligne U+2028 8232 est un saut de ligne Commun
Ponctuation générale
Séparateur,
ligne
séparateur de paragraphe U+2029 8233 est un saut de ligne Commun
Ponctuation générale
Séparateur,
paragraphe
espace étroit sans pause U+202F 8239 Non Non Commun
Ponctuation générale
Séparateur,
espace
Espace étroit sans interruption . Fonction similaire à U+00A0 No-Break Space. Lorsqu'il est utilisé avec le mongol, sa largeur est généralement un tiers de l'espace normal ; dans d'autres contextes, sa largeur ressemble parfois à celle du Thin Space (U+2009).
espace mathématique moyen U+205F 8287 Oui Non Commun
Ponctuation générale
Séparateur,
espace
MMSP. Utilisé dans les formules mathématiques. Quatre huitièmes d'un em. En typographie mathématique, les largeurs des espaces sont généralement données en multiples entiers d'un dix-huitième d'em, et 4/18 em peut être utilisé dans plusieurs situations, par exemple entre le a et le + et entre le + et le b dans le expression a + b . Entité nommée HTML/XML :&MediumSpace;
espace idéographique U+3000 12288   Oui Non Commun Symboles CJK
et
ponctuation
Séparateur,
espace
Aussi large qu'une cellule de caractère CJK ( pleine largeur ). Utilisé, par exemple, en tai tou .
 Nom  Point de code Boîte de largeur Peut casser ? En
IDN ?
Scénario Bloquer
Catégorie générale
Remarques
séparateur de voyelles mongoles U+180E 6158 Oui Non mongol mongol Autre,
Format
MVS. Un caractère d'espace étroit, utilisé en mongol pour que les deux derniers caractères d'un mot prennent des formes différentes. Il n'est plus classé comme caractère espace (c'est-à-dire dans la catégorie Zs) dans Unicode 6.3.0, même s'il l'était dans les versions précédentes de la norme.
espace de largeur nulle U+200B 8203 Oui Non ?
Ponctuation générale
Autre,
Format
ZWSP, espace de largeur zéro . Utilisé pour indiquer les limites des mots aux systèmes de traitement de texte lors de l'utilisation de scripts qui n'utilisent pas d'espacement explicite. Il est similaire au trait d'union souple , à la différence que ce dernier est utilisé pour indiquer les limites des syllabes et devrait afficher un trait d'union visible lorsque la ligne est interrompue. Entité nommée HTML/XML :&ZeroWidthSpace;
non-adhérent de largeur nulle U+200C 8204 ?? Oui Dépendant du contexte ?
Ponctuation générale
Autre,
Format
ZWNJ, non-menuisier de largeur zéro . Lorsqu'il est placé entre deux caractères qui seraient autrement connectés, un ZWNJ les fait imprimer dans leurs formes finale et initiale, respectivement. Entité nommée HTML/XML :&zwnj;
menuisier largeur zéro U+200D 8205 ?? Oui Dépendant du contexte ?
Ponctuation générale
Autre,
Format
ZWJ, menuisier sans largeur . Lorsqu'il est placé entre deux caractères qui ne seraient pas connectés autrement, un ZWJ les fait imprimer dans leurs formes connectées. Peut également être utilisé pour afficher des formulaires de jointure isolément. Selon qu'une ligature ou un conjoint est attendu par défaut, peut soit induire (comme dans emoji et en cinghalais ) soit supprimer (comme dans Devanagari ) la substitution avec un seul glyphe, tout en permettant l'utilisation de formes de jonction individuelles (contrairement à ZWNJ). Entité nommée HTML/XML :&zwj;
menuisier de mots U+2060 8288 ?? Non Non ?
Ponctuation générale
Autre,
Format
WJ, menuisier de mots . Similaire à U+200B, mais pas un point auquel une ligne peut être rompue. Entité nommée HTML/XML :&NoBreak;
espace insécable de largeur nulle U+FEFF 65279  Non Non ? Formes de
présentation arabe
-B
Autre,
Format
Espace insécable de largeur zéro . Utilisé principalement comme marque d'ordre d'octet . L'utilisation comme indication de non-rupture est déconseillée à partir d'Unicode 3.2 ; voir U+2060 à la place.


Autres caractéristiques générales

Idéographique, alphabétique, non-caractère.

Combinant la classe

Quelques codes courants :

0 = lettre d'espacement, symbole ou modificateur (par exemple a, (, ʰ)
1 = superposition
6 = lecture Han (marques de lecture diacritiques CJK)
7 = noukta (diacritique noukta dans les scripts Brahmique )
8 = marques d'harmonisation des kana
9 = virama

10–199 = différentes classes de positions fixes

Marques qui s'attachent à la lettre de base :

200 = attaché en bas à gauche
202 = attaché directement en dessous (par exemple cédille sur ç)
204 = attaché en bas à droite
208 = attaché à gauche
210 = attaché à droite
212 = attaché en haut à gauche
214 = attaché directement au-dessus
216 = attaché en haut à droite

Marques qui ne s'attachent pas à la lettre de base :

218 = en bas à gauche
220 = directement en dessous (par exemple anneau sur n̥)
222 = en bas à droite
224 = gauche
226 = droit
228 = en haut à gauche
230 = ci-dessus (ex. accent aigu sur á)
232 = en haut à droite
233 = double en dessous (sous-tend deux bases)
234 = double au-dessus (prolonge deux bases)
240 = indice iota (seulement ce diacritique grec)

Propriétés liées à l'affichage

Façonnage, largeur.

Écriture bidirectionnelle

Six propriétés de caractère concernent l'écriture bidirectionnelle : Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket et Bidi_Paired_Bracket_Type.

L'une des principales fonctionnalités d'Unicode est la prise en charge de l' affichage de texte bidirectionnel ( Bidi ) de droite à gauche (R-à-L) et de gauche à droite (L-à-R). L'algorithme bidirectionnel Unicode UAX9 décrit le processus de présentation de texte avec des directions de script modifiées. Par exemple, il permet une citation hébraïque dans un texte anglais. Le Bidi_Character_Type marque le comportement d'un personnage en écriture directionnelle. Pour remplacer une direction, Unicode a défini des caractères de contrôle de formatage spéciaux ( Bidi-Control ). Ces caractères peuvent imposer une direction et, par définition, n'affectent que l'écriture bidirectionnelle.

Chaque point de code a une propriété appelée Bidi_Class . Il définit son comportement dans un texte bidirectionnel tel qu'interprété par l'algorithme :

Type de caractère bidirectionnel ( propriété de caractère Unicode Bidi_Class)
Taper La description Force Directionnalité Portée générale Caractère Bidi_Control
L De gauche à droite Fort De gauche à droite La plupart des caractères alphabétiques et syllabiques, caractères chinois, chiffres non européens ou non arabes, caractère LRM, ... U+200E MARQUE GAUCHE-DROITE (LRM)
R De droite à gauche Fort R à G Adlam, Hébreu, Mandaique, Mende Kikakui, N'Ko, Samaritain, écritures anciennes comme Kharoshthi et Nabataean, caractère RLM, ... U+200F MARQUE DE DROITE A GAUCHE (RLM)
AL Lettre arabe Fort R à G Alphabets arabe, hanifi rohingya, sogdien, syriaque et thaana, et la plupart des signes de ponctuation spécifiques à ces écritures, caractère ALM, ... U+061C LETTRE ARABE MARQUE (ALM)
FR Numéro européen Faible Chiffres européens, chiffres arabes-indiens orientaux, nombres d'épactes coptes, ...
ES Séparateur européen Faible signe plus , signe moins , ...
HE Terminateur de numéro européen Faible signe de degré , symboles monétaires, ...
UN nombre arabe Faible Chiffres arabes-indiens, séparateurs décimaux et milliers arabes, chiffres Rumi, chiffres Hanifi Rohingya, ...
CS Séparateur de nombre commun Faible deux - points , virgule , point , espace sans interruption , ...
NSM Marque de non-espacement Faible Caractères dans les catégories générales Marque, sans espacement, et Marque, englobant (Mn, Me)
NE Limite neutre Faible Ignorables par défaut, non-caractères, caractères de contrôle autres que ceux explicitement donnés d'autres types
B Séparateur de paragraphe Neutre séparateur de paragraphe , fonctions de saut de ligne appropriées, détermination de paragraphe de protocole de niveau supérieur
S Séparateur de segments Neutre Onglets
WS Espace blanc Neutre l' espace , l' espace de la figure , le séparateur de ligne , saut de page , les parties de bloc Ponctuation générale (ensemble plus petit que le espaces Unicode liste)
AU Autres neutres Neutre Tous les autres caractères, y compris le caractère de remplacement d'objet
LRE Intégration de gauche à droite Explicite De gauche à droite Caractère LRE uniquement U+202A INTÉGRATION DE GAUCHE À DROITE (LRE)
LRO Dérogation de gauche à droite Explicite De gauche à droite Caractère LRO uniquement U+202D OVERRIDE GAUCHE-DROITE (LRO)
RLE Intégration de droite à gauche Explicite R à G Caractère RLE uniquement U+202B INTÉGRATION DE DROITE À GAUCHE (RLE)
RLR Dérogation de droite à gauche Explicite R à G Caractère RLO uniquement U+202E DÉPLACEMENT DE DROITE À GAUCHE (RLO)
PDF Format directionnel pop Explicite Caractère PDF uniquement FORMATAGE DIRECTIONNEL POP U+202C (PDF)
LRI Isoler de gauche à droite Explicite De gauche à droite Caractère LRI uniquement U+2066 ISOLAT GAUCHE-DROITE (LRI)
RLI Isoler de droite à gauche Explicite R à G Caractère RLI uniquement U+2067 ISOLAT DE DROITE A GAUCHE (RLI)
FSI Premier isolat fort Explicite Caractère FSI uniquement U+2068 PREMIER ISOLAT FORT (FSI)
PDI Isolat directionnel pop Explicite Caractère PDI uniquement U+2069 POP ISOLAT DIRECTIONNEL (PDI)
Remarques
1. ^ Algorithme bidirectionnel Unicode (UAX#9) , à partir de la version Unicode 12.0
2. ^ Types de caractères bidirectionnels possibles pour la propriété de caractère : Bidi_Class ou 'type'
3. ^ Caractères Bidi_Control : Douze caractères de mise en forme Bidi_Control sont définis. Ils sont invisibles et n'ont aucun effet en dehors de la directivité. Neuf d'entre eux ont un type BiDi unique et prioritaire qui est utilisé par l'algorithme. Leur type est également leur acronyme (par exemple, le caractère 'LRE' a le type BiDi 'LRE').

Dans des situations normales, l'algorithme peut déterminer la direction d'un texte par cette propriété de caractère. Pour contrôler des situations Bidi plus complexes, par exemple lorsqu'un texte anglais a une citation en hébreu, des options supplémentaires sont ajoutées à Unicode. Douze caractères ont la propriété Bidi_Control=Yes : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM et RLO comme indiqué dans le tableau. Ce sont des caractères de contrôle de formatage invisibles, utilisés uniquement par l'algorithme et sans effet en dehors du formatage bidirectionnel. Malgré leur nom, ce sont des caractères de formatage, pas des caractères de contrôle, et ont la catégorie générale "Autre, format (Cf)" dans la définition Unicode.

Fondamentalement, l'algorithme détermine une séquence de caractères avec le même type de direction forte (R-to-L ou L-to-R), en tenant compte d'un dépassement par les commandes spéciales Bidi. Les chaînes de nombres (types faibles) se voient attribuer une direction en fonction de leur environnement fort, tout comme les caractères neutres. Enfin, les caractères sont affichés dans le sens d'une chaîne.

Deux propriétés de caractère sont pertinentes pour déterminer une image miroir d'un glyphe dans un texte bidirectionnel : Bidi_Mirrored=Yes indique que le glyphe doit être mis en miroir lorsqu'il est écrit R-to-L. La propriété Bidi_Mirroring_Glyph=U+ hhhh peut alors pointer sur le caractère en miroir. Par exemple, les crochets "()" sont reflétés de cette façon. La mise en forme d'écritures cursives telles que l'arabe et la mise en miroir de glyphes ayant une direction ne font pas partie de l'algorithme.

Enveloppe

La valeur Case est Normative en Unicode. Cela concerne les scripts avec des lettres majuscules (alias majuscule, majuscule) et minuscules (alias petites, minuscules). La différence de cas se produit dans les scripts Adlam, arménien, cherokee, copte, cyrillique, deseret, glagolitique, grec, khutsuri et mkhedruli, géorgien, latin, medefaidrin, vieux hongrois, osage, vithkuqi et warang citi.

(supérieur, inférieur, titre, pliage - à la fois simple et complet)

Valeurs et types numériques

Décimal

Les caractères sont classés avec un type numérique . Les caractères tels que les fractions, les indices, les exposants, les chiffres romains, les numérateurs de devises, les nombres encerclés et les chiffres spécifiques aux scripts sont de type numérique. Ils ont une valeur numérique qui peut être décimale, y compris zéro et négatifs, ou une fraction vulgaire. S'il n'y a pas une telle valeur, comme pour la plupart des caractères, le type numérique est "Aucun".

Les caractères qui ont une valeur numérique sont séparés en trois groupes : Décimal (De), Chiffre (Di) et Numérique (Nu, c'est-à-dire tous les autres). « Decimal » signifie que le caractère est un chiffre décimal simple. Seuls les caractères faisant partie d'une plage codée contiguë 0..9 ont le type numérique Decimal. D'autres chiffres, comme les exposants, ont un type numérique Chiffre. Tous les caractères numériques comme les fractions et les chiffres romains se terminent par le type « Numeric ». L'effet recherché est qu'un simple analyseur peut utiliser ces valeurs numériques décimales, sans être distrait par, par exemple, un exposant numérique ou une fraction. Soixante-treize idéogrammes CJC qui représentent un nombre, y compris ceux utilisés pour la comptabilité, sont de type numérique.

D'un autre côté, les caractères qui pourraient avoir une valeur numérique comme seconde signification sont toujours marqués de type numérique "Aucun", et n'ont pas de valeur numérique (""). Par exemple, les lettres latines peuvent être utilisées dans la numérotation des paragraphes comme "II.A.1.b", mais les lettres "I", "A" et "b" ne sont pas numériques (tapez "Aucun") et n'ont aucune valeur numérique.

Type numérique  ( propriété de caractère Unicode )
Type numérique Code A une valeur numérique Exemple Remarques
Non numérique None Non
  • UNE
  • X  (latin)
  • !
  • ??
  • ??
  • ??
Valeur numérique="NaN"
Décimal De Oui
  • 0
  • 1
  • 9
  • 6  (Devanagari 6)
  • 6  (Kannada 6)
  • 𝟨  (Mathématiques, style sans empattement)
Chiffre droit ( racine décimale ). Correspond dans les deux sens à la catégorie générale =Nd
Chiffre Di Oui
  • ¹  (superscript)
  • ??
  •  (chiffres avec arrêt complet)
Décimal, mais dans un contexte typographique
Numérique Nu Oui
  • ??
  •  (nombre Tamil dix)
  •  (chiffre romain)
  •  (nombre Han 6)
Valeur numérique, mais pas de base décimale
une. ^ "Section 4.6 : Valeur numérique" (PDF) . La norme Unicode . Consortium Unicode. septembre 2021.
b. ^ "Types numériques dérivés Unicode 14.0" . Base de données de caractères Unicode . Consortium Unicode. 2021-03-08.

Chiffres hexadécimaux

Les caractères hexadécimaux sont ceux de la série avec des valeurs hexadécimales 0...9ABCDEF (seize caractères, valeur décimale 0-15). La propriété de caractère Hex_Digit est définie sur Oui lorsqu'un personnage fait partie d'une telle série :

Caractères en Unicode marqués Hex_Digit=Yes
0123456789ABCDEF Latin de base, majuscules Aussi ASCII_Hex_Digit=Yes
0123456789abcdef Latin de base, lettres minuscules Aussi ASCII_Hex_Digit=Yes
0123456789ABCDEF Formes pleine chasse , majuscules
0123456789abcdef Formes pleine chasse, lettres minuscules
une. ^ "Unicode 14.0 UCD : PropList.txt" . 2021-08-12 . Récupéré le 2020-03-12 .

Quarante-quatre caractères sont marqués comme Hex_Digit. Ceux du bloc Basic Latin sont également marqués comme ASCII_Hex_Digit .

Unicode n'a pas de caractères séparés pour les valeurs hexadécimales. Une conséquence est que lors de l'utilisation de caractères normaux, il n'est pas possible de déterminer si une valeur hexadécimale est voulue, ou même si une valeur est voulue du tout. Cela devrait être déterminé à un niveau supérieur, par exemple en ajoutant "0x" à un nombre hexadécimal ou par contexte. La seule caractéristique est qu'Unicode peut noter qu'une séquence peut ou non être une valeur hexadécimale.

Bloquer

Un bloc est une plage contiguë de points de code au nom unique. Il est identifié par son premier et son dernier point de code. Les blocs ne se chevauchent pas . Un bloc peut contenir des points de code qui sont réservés, et non attribué , etc. Chaque caractère qui est attribué, a une seule valeur « nom du bloc » des 320 noms attribués de la version Unicode 14.0 points de code non assignés à l' extérieur d'un bloc existant, ont le valeur par défaut "No_block".

Avion Gamme de blocs Nom du bloc Points de code Personnages assignés Scénarios
 0 BMP U+0000..U+007F Latin de base 128 128 Latin (52 caractères), Commun (76 caractères)
 0 BMP U+0080..U+00FF Supplément Latin-1 128 128 Latin (64 caractères), Commun (64 caractères)
 0 BMP U+0100..U+017F Latin étendu-A 128 128 Latin
 0 BMP U+0180..U+024F Latin étendu-B 208 208 Latin
 0 BMP U+0250..U+02AF Extensions IPA 96 96 Latin
 0 BMP U+02B0..U+02FF Espacement des lettres modificatrices 80 80 Bopomofo (2 caractères), Latin (14 caractères), Commun (64 caractères)
 0 BMP U+0300..U+036F Combinaison de signes diacritiques 112 112 Hérité
 0 BMP U+0370..U+03FF grec et copte 144 135 Copte (14 caractères), Grec (117 caractères), Commun (4 caractères)
 0 BMP U+0400..U+04FF cyrillique 256 256 Cyrillique (254 caractères), Hérité (2 caractères)
 0 BMP U+0500..U+052F Supplément cyrillique 48 48 cyrillique
 0 BMP U+0530..U+058F arménien 96 91 arménien
 0 BMP U+0590..U+05FF hébreu 112 88 hébreu
 0 BMP U+0600..U+06FF arabe 256 256 Arabe (238 caractères), Commun (6 caractères), Hérité (12 caractères)
 0 BMP U+0700..U+074F syriaque 80 77 syriaque
 0 BMP U+0750..U+077F Supplément arabe 48 48 arabe
 0 BMP U+0780..U+07BF Thaana 64 50 Thaana
 0 BMP U+07C0..U+07FF Nko 64 62 Nko
 0 BMP U+0800..U+083F samaritain 64 61 samaritain
 0 BMP U+0840..U+085F Mandaique 32 29 Mandaique
 0 BMP U+0860..U+086F Supplément syriaque 16 11 syriaque
 0 BMP U+0870..U+089F Arabe étendu-B 48 41 arabe
 0 BMP U+08A0..U+08FF Arabe étendu-A 96 96 Arabe (95 caractères), Commun (1 caractère)
 0 BMP U+0900..U+097F Devanagari 128 128 Devanagari (122 caractères), Commun (2 caractères), Hérité (4 caractères)
 0 BMP U+0980..U+09FF bengali 128 96 bengali
 0 BMP U+0A00..U+0A7F Gurmukhi 128 80 Gurmukhi
 0 BMP U+0A80..U+0AFF gujarati 128 91 gujarati
 0 BMP U+0B00..U+0B7F Oriya 128 91 Oriya
 0 BMP U+0B80..U+0BFF Tamil 128 72 Tamil
 0 BMP U+0C00..U+0C7F Telugu 128 100 Telugu
 0 BMP U+0C80..U+0CFF Kannada 128 90 Kannada
 0 BMP U+0D00..U+0D7F malayalam 128 118 malayalam
 0 BMP U+0D80..U+0DFF Cinghalais 128 91 Cinghalais
 0 BMP U+0E00..U+0E7F thaïlandais 128 87 Thaï (86 caractères), Commun (1 caractère)
 0 BMP U+0E80..U+0EFF Lao 128 82 Lao
 0 BMP U+0F00..U+0FFF Tibétain 256 211 Tibétain (207 caractères), Commun (4 caractères)
 0 BMP U+1000..U+109F Birmanie 160 160 Birmanie
 0 BMP U+10A0..U+10FF géorgien 96 88 Géorgien (87 caractères), Commun (1 caractère)
 0 BMP U+1100..U+11FF Hangul Jamo 256 256 Hangul
 0 BMP U+1200..U+137F éthiopien 384 358 éthiopien
 0 BMP U+1380..U+139F Supplément éthiopien 32 26 éthiopien
 0 BMP U+13A0..U+13FF Cherokee 96 92 Cherokee
 0 BMP U+1400..U+167F SYLLABE AUTOCHTONE CANADIENNE UNIFIÉE 640 640 Autochtone canadien
 0 BMP U+1680..U+169F Ogham 32 29 Ogham
 0 BMP U+16A0..U+16FF Runique 96 89 Runique (86 caractères), Commun (3 caractères)
 0 BMP U+1700..U+171F Tagalog 32 23 Tagalog
 0 BMP U+1720..U+173F Hanunoo 32 23 Hanunoo (21 caractères), Commun (2 caractères)
 0 BMP U+1740..U+175F Buhid 32 20 Buhid
 0 BMP U+1760..U+177F Tagbanwa 32 18 Tagbanwa
 0 BMP U+1780..U+17FF Khmer 128 114 Khmer
 0 BMP U+1800..U+18AF mongol 176 158 Mongol (155 caractères), Commun (3 caractères)
 0 BMP U+18B0..U+18FF SYLLABE AUTOCHTONE CANADIENNE UNIFIÉE ÉLARGIE 80 70 Autochtone canadien
 0 BMP U+1900..U+194F Limbu 80 68 Limbu
 0 BMP U+1950..U+197F Tai Le 48 35 Tai Le
 0 BMP U+1980..U+19DF Nouveau Tai Lue 96 83 Nouveau Tai Lue
 0 BMP U+19E0..U+19FF Symboles Khmers 32 32 Khmer
 0 BMP U+1A00..U+1A1F Buginais 32 30 Buginais
 0 BMP U+1A20..U+1AAF Tai Tham 144 127 Tai Tham
 0 BMP U+1AB0..U+1AFF Combinaison de marques diacritiques étendues 80 31 Hérité
 0 BMP U+1B00..U+1B7F Balinais 128 124 Balinais
 0 BMP U+1B80..U+1BBF sundanais 64 64 sundanais
 0 BMP U+1BC0..U+1BFF Batak 64 56 Batak
 0 BMP U+1C00..U+1C4F Lepcha 80 74 Lepcha
 0 BMP U+1C50..U+1C7F Ol Chiki 48 48 Ol Chiki
 0 BMP U+1C80..U+1C8F Cyrillique étendu-C 16 9 cyrillique
 0 BMP U+1C90..U+1CBF Géorgien étendu 48 46 géorgien
 0 BMP U+1CC0..U+1CCF Supplément sundanais 16 8 sundanais
 0 BMP U+1CD0..U+1CFF Extensions védiques 48 43 Commun (16 caractères), Hérité (27 caractères)
 0 BMP U+1D00..U+1D7F Extensions phonétiques 128 128 Cyrillique (2 caractères), grec (15 caractères), latin (111 caractères)
 0 BMP U+1D80..U+1DBF Supplément sur les extensions phonétiques 64 64 Grec (1 caractère), Latin (63 caractères)
 0 BMP U+1DC0..U+1DFF Supplément sur la combinaison des signes diacritiques 64 64 Hérité
 0 BMP U+1E00..U+1EFF Latin étendu supplémentaire 256 256 Latin
 0 BMP U+1F00..U+1FFF Grec étendu 256 233 grec
 0 BMP U+2000..U+206F Ponctuation générale 112 111 Commun (109 caractères), Hérité (2 caractères)
 0 BMP U+2070..U+209F Exposants et indices 48 42 Latin (15 caractères), Commun (27 caractères)
 0 BMP U+20A0..U+20CF Symboles monétaires 48 33 Commun
 0 BMP U+20D0..U+20FF Combinaison de signes diacritiques pour les symboles 48 33 Hérité
 0 BMP U+2100..U+214F Symboles en forme de lettre 80 80 Grec (1 caractère), Latin (4 caractères), Commun (75 caractères)
 0 BMP U+2150..U+218F Formulaires de nombre 64 60 Latin (41 caractères), Commun (19 caractères)
 0 BMP U+2190..U+21FF Flèches 112 112 Commun
 0 BMP U+2200..U+22FF Opérateurs mathématiques 256 256 Commun
 0 BMP U+2300..U+23FF Divers Technique 256 256 Commun
 0 BMP U+2400..U+243F Images de contrôle 64 39 Commun
 0 BMP U+2440..U+245F Reconnaissance optique de caractères 32 11 Commun
 0 BMP U+2460..U+24FF Alphanumériques inclus 160 160 Commun
 0 BMP U+2500..U+257F Dessin de la boîte 128 128 Commun
 0 BMP U+2580..U+259F Éléments de bloc 32 32 Commun
 0 BMP U+25A0..U+25FF Formes géométriques 96 96 Commun
 0 BMP U+2600..U+26FF Symboles divers 256 256 Commun
 0 BMP U+2700..U+27BF Symboles 192 192 Commun
 0 BMP U+27C0..U+27EF Divers symboles mathématiques-A 48 48 Commun
 0 BMP U+27F0..U+27FF Flèches supplémentaires-A 16 16 Commun
 0 BMP U+2800..U+28FF Modèles en braille 256 256 Braille
 0 BMP U+2900..U+297F Flèches supplémentaires-B 128 128 Commun
 0 BMP U+2980..U+29FF Divers symboles mathématiques-B 128 128 Commun
 0 BMP U+2A00..U+2AFF Opérateurs mathématiques supplémentaires 256 256 Commun
 0 BMP U+2B00..U+2BFF Divers symboles et flèches 256 253 Commun
 0 BMP U+2C00..U+2C5F glagolitique 96 96 glagolitique
 0 BMP U+2C60..U+2C7F Latin étendu-C 32 32 Latin
 0 BMP U+2C80..U+2CFF Copte 128 123 Copte
 0 BMP U+2D00..U+2D2F Supplément géorgien 48 40 géorgien
 0 BMP U+2D30..U+2D7F Tifinagh 80 59 Tifinagh
 0 BMP U+2D80..U+2DDF Éthiopien étendu 96 79 éthiopien
 0 BMP U+2DE0..U+2DFF Cyrillique étendu-A 32 32 cyrillique
 0 BMP U+2E00..U+2E7F Ponctuation supplémentaire 128 94 Commun
 0 BMP U+2E80..U+2EFF Supplément CJK Radicaux 128 115 Han
 0 BMP U+2F00..U+2FDF Radicaux Kangxi 224 214 Han
 0 BMP U+2FF0..U+2FFF Caractères de description idéographique 16 12 Commun
 0 BMP U+3000..U+303F Symboles CJK et ponctuation 64 64 Han (15 caractères), Hangul (2 caractères), Commun (43 caractères), Hérité (4 caractères)
 0 BMP U+3040..U+309F Hiragana 96 93 Hiragana (89 caractères), Commun (2 caractères), Hérité (2 caractères)
 0 BMP U+30A0..U+30FF Katakana 96 96 Katakana (93 caractères), Commun (3 caractères)
 0 BMP U+3100..U+312F Bopomofo 48 43 Bopomofo
 0 BMP U+3130..U+318F Compatibilité Hangul Jamo 96 94 Hangul
 0 BMP U+3190..U+319F Kanbun 16 16 Commun
 0 BMP U+31A0..U+31BF Bopomofo étendu 32 32 Bopomofo
 0 BMP U+31C0..U+31EF AVC CJC 48 36 Commun
 0 BMP U+31F0..U+31FF Extensions phonétiques katakana 16 16 Katakana
 0 BMP U+3200..U+32FF Lettres et mois CJK joints 256 255 Hangul (62 caractères), Katakana (47 caractères), Commun (146 caractères)
 0 BMP U+3300..U+33FF Compatibilité CJC 256 256 Katakana (88 caractères), Commun (168 caractères)
 0 BMP U+3400..U+4DBF Extension A des idéogrammes unifiés CJK 6 592 6 592 Han
 0 BMP U+4DC0..U+4DFF Symboles de l'hexagramme de Yijing 64 64 Commun
 0 BMP U+4E00..U+9FFF Idéogrammes unifiés CJK 20 992 20 992 Han
 0 BMP U+A000..U+A48F Yi syllabes 1 168 1 165 Yi
 0 BMP U+A490..U+A4CF Radicaux Yi 64 55 Yi
 0 BMP U+A4D0..U+A4FF Lisu 48 48 Lisu
 0 BMP U+A500..U+A63F Vai 320 300 Vai
 0 BMP U+A640..U+A69F Cyrillique étendu-B 96 96 cyrillique
 0 BMP U+A6A0..U+A6FF Bamoun 96 88 Bamoun
 0 BMP U+A700..U+A71F Lettres de ton modificateur 32 32 Commun
 0 BMP U+A720..U+A7FF Latin étendu-D 224 193 Latin (188 caractères), Commun (5 caractères)
 0 BMP U+A800..U+A82F Syloti Nagri 48 45 Syloti Nagri
 0 BMP U+A830..U+A83F Formes courantes de numéros indiciels 16 dix Commun
 0 BMP U+A840..U+A87F Phags-pa 64 56 Phags Pa
 0 BMP U+A880..U+A8DF Saurashtra 96 82 Saurashtra
 0 BMP U+A8E0..U+A8FF Devanagari étendu 32 32 Devanagari
 0 BMP U+A900..U+A92F Kayah Li 48 48 Kayah Li (47 caractères), Commun (1 caractère)
 0 BMP U+A930..U+A95F Rejang 48 37 Rejang
 0 BMP U+A960..U+A97F Hangul Jamo étendu-A 32 29 Hangul
 0 BMP U+A980..U+A9DF Javanais 96 91 Javanais (90 caractères), Commun (1 caractère)
 0 BMP U+A9E0..U+A9FF Myanmar étendu-B 32 31 Birmanie
 0 BMP U+AA00..U+AA5F Cham 96 83 Cham
 0 BMP U+AA60..U+AA7F Myanmar étendu-A 32 32 Birmanie
 0 BMP U+AA80..U+AADF Taï Viet 96 72 Taï Viet
 0 BMP U+AAE0..U+AAFF Extensions Meetei Mayek 32 23 Meetei Mayek
 0 BMP U+AB00..U+AB2F Éthiopien étendu-A 48 32 éthiopien
 0 BMP U+AB30..U+AB6F Latin Etendu-E 64 60 Latin (56 caractères), Grec (1 caractère), Commun (3 caractères)
 0 BMP U+AB70..U+ABBF Supplément Cherokee 80 80 Cherokee
 0 BMP U+ABC0..U+ABFF Meetei Mayek 64 56 Meetei Mayek
 0 BMP U+AC00..U+D7AF Syllabes Hangul 11 184 11 172 Hangul
 0 BMP U+D7B0..U+D7FF Hangul Jamo étendu-B 80 72 Hangul
 0 BMP U+D800..U+DB7F Substituts élevés 896 0 Inconnu
 0 BMP U+DB80..U+DBFF Substituts à usage privé élevé 128 0 Inconnu
 0 BMP U+DC00..U+DFFF Substituts faibles 1 024 0 Inconnu
 0 BMP U+E000..U+F8FF Zone d'utilisation privée 6 400 6 400 Inconnu
 0 BMP U+F900..U+FAFF Idéogrammes de compatibilité CJK 512 472 Han
 0 BMP U+FB00..U+FB4F Formes de présentation alphabétique 80 58 arménien (5 caractères), hébreu (46 caractères), latin (7 caractères)
 0 BMP U+FB50..U+FDFF Formes de présentation en arabe-A 688 631 Arabe (629 caractères), Commun (2 caractères)
 0 BMP U+FE00..U+FE0F Sélecteurs de variantes 16 16 Hérité
 0 BMP U+FE10..U+FE1F Formes verticales 16 dix Commun
 0 BMP U+FE20..U+FE2F Combiner les demi-marques 16 16 Cyrillique (2 caractères), Hérité (14 caractères)
 0 BMP U+FE30..U+FE4F Formulaires de compatibilité CJK 32 32 Commun
 0 BMP U+FE50..U+FE6F Variantes de petite forme 32 26 Commun
 0 BMP U+FE70..U+FEFF Formes de présentation en arabe-B 144 141 Arabe (140 caractères), Commun (1 caractère)
 0 BMP U+FF00..U+FFEF Formulaires demi-chasse et pleine chasse 240 225 Hangul (52 caractères), Katakana (55 caractères), Latin (52 caractères), Commun (66 caractères)
 0 BMP U+FFF0..U+FFFF Promotions 16 5 Commun
 1 SMP U+10000..U+1007F Syllabaire B linéaire 128 88 Linéaire B
 1 SMP U+10080..U+100FF Idéogrammes linéaires B 128 123 Linéaire B
 1 SMP U+10100..U+1013F Nombres égéens 64 57 Commun
 1 SMP U+10140..U+1018F Nombres grecs anciens 80 79 grec
 1 SMP U+10190..U+101CF Symboles Anciens 64 14 Grec (1 caractère), Commun (13 caractères)
 1 SMP U+101D0..U+101FF Disque de Phaistos 48 46 Commun (45 caractères), Hérité (1 caractère)
 1 SMP U+10280..U+1029F Lycien 32 29 Lycien
 1 SMP U+102A0..U+102DF Carian 64 49 Carian
 1 SMP U+102E0..U+102FF Numéros d'épact copte 32 28 Commun (27 caractères), Hérité (1 caractère)
 1 SMP U+10300..U+1032F Italique ancien 48 39 Italique ancien
 1 SMP U+10330..U+1034F gothique 32 27 gothique
 1 SMP U+10350..U+1037F Ancien Permique 48 43 Ancien Permique
 1 SMP U+10380..U+1039F ougaritique 32 31 ougaritique
 1 SMP U+103A0..U+103DF Vieux persan 64 50 Vieux persan
 1 SMP U+10400..U+1044F Déseret 80 80 Déseret
 1 SMP U+10450..U+1047F Shavian 48 48 Shavian
 1 SMP U+10480..U+104AF Osmanya 48 40 Osmanya
 1 SMP U+104B0..U+104FF Osage 80 72 Osage
 1 SMP U+10500..U+1052F Elbasan 48 40 Elbasan
 1 SMP U+10530..U+1056F Albanais du Caucase 64 53 Albanais du Caucase
 1 SMP U+10570..U+105BF Vithkuqi 80 70 Vithkuqi
 1 SMP U+10600..U+1077F Linéaire A 384 341 Linéaire A
 1 SMP U+10780..U+107BF Latin étendu-F 64 57 Latin
 1 SMP U+10800..U+1083F Syllabaire chypriote 64 55 Chypriote
 1 SMP U+10840..U+1085F Araméen impérial 32 31 Araméen impérial
 1 SMP U+10860..U+1087F Palmyrène 32 32 Palmyrène
 1 SMP U+10880..U+108AF nabatéen 48 40 nabatéen
 1 SMP U+108E0..U+108FF Hatran 32 26 Hatran
 1 SMP U+1900..U+1091F phénicien 32 29 phénicien
 1 SMP U+1920..U+1093F Lydien 32 27 Lydien
 1 SMP U+10980..U+1099F Hiéroglyphes méroïtiques 32 32 Hiéroglyphes méroïtiques
 1 SMP U+109A0..U+109FF Cursive méroïtique 96 90 Cursive méroïtique
 1 SMP U+10A00..U+10A5F Kharoshthi 96 68 Kharoshthi
 1 SMP U+10A60..U+10A7F Vieux sud-arabe 32 32 Vieux sud-arabe
 1 SMP U+10A80..U+10A9F Vieux nord-arabe 32 32 Vieux nord-arabe
 1 SMP U+10AC0..U+10AFF manichéen 64 51 manichéen
 1 SMP U+10B00..U+10B3F Avestan 64 61 Avestan
 1 SMP U+10B40..U+10B5F Parthe inscriptionnel 32 30 Parthe inscriptionnel
 1 SMP U+10B60..U+10B7F Pahlavi inscription 32 27 Pahlavi inscription
 1 SMP U+10B80..U+10BAF Psautier Pahlavi 48 29 Psautier Pahlavi
 1 SMP U+10C00..U+10C4F Vieux turc 80 73 Vieux turc
 1 SMP U+10C80..U+10CFF Hongrois ancien 128 108 Hongrois ancien
 1 SMP U+10D00..U+10D3F Rohingya Hanifi 64 50 Rohingya Hanifi
 1 SMP U+10E60..U+10E7F Symboles numéraux Rumi 32 31 arabe
 1 SMP U+10E80..U+10EBF Yézidis 64 47 Yézidis
 1 SMP U+10F00..U+10F2F Vieux Sogdien 48 40 Vieux Sogdien
 1 SMP U+10F30..U+10F6F Sogdien 64 42 Sogdien
 1 SMP U+10F70..U+10FAF Vieux ouïghour 64 26 Vieux ouïghour
 1 SMP U+10FB0..U+10FDF Chorasmienne 48 28 Chorasmienne
 1 SMP U+10FE0..U+10FFF Élymaïque 32 23 Élymaïque
 1 SMP U+11000..U+1107F Brahmi 128 115 Brahmi
 1 SMP U+11080..U+110CF Kaithi 80 68 Kaithi
 1 SMP U+110D0..U+110FF Sora Sompeng 48 35 Sora Sompeng
 1 SMP U+11100..U+1114F Chakma 80 71 Chakma
 1 SMP U+11150..U+1117F Mahajani 48 39 Mahajani
 1 SMP U+11180..U+111DF Sharada 96 96 Sharada
 1 SMP U+111E0..U+111FF Chiffres archaïques cinghalais 32 20 Cinghalais
 1 SMP U+11200..U+1124F Khojki 80 62 Khojki
 1 SMP U+11280..U+112AF Multani 48 38 Multani
 1 SMP U+112B0..U+112FF Khudawadi 80 69 Khudawadi
 1 SMP U+11300..U+1137F Grantha 128 86 Grantha (85 caractères), Hérité (1 caractère)
 1 SMP U+11400..U+1147F Nouvelle 128 97 Nouvelle
 1 SMP U+11480..U+114DF Tirhuta 96 82 Tirhuta
 1 SMP U+11580..U+115FF Siddham 128 92 Siddham
 1 SMP U+11600..U+1165F Modi 96 79 Modi
 1 SMP U+11660..U+1167F Supplément mongol 32 13 mongol
 1 SMP U+11680..U+116CF Takri 80 68 Takri
 1 SMP U+11700..U+1174F Ahom 80 65 Ahom
 1 SMP U+11800..U+1184F Dogra 80 60 Dogra
 1 SMP U+118A0..U+118FF Warang Citi 96 84 Warang Citi
 1 SMP U+11900..U+1195F Plongées Akuru 96 72 Plongées Akuru
 1 SMP U+119A0..U+119FF Nandinagari 96 65 Nandinagari
 1 SMP U+11A00..U+11A4F Place Zanabazar 80 72 Place Zanabazar
 1 SMP U+11A50..U+11AAF Soyombo 96 83 Soyombo
 1 SMP U+11AB0..U+11ABF SYLLABE AUTOCHTONE CANADIENNE UNIFIÉE Étendu-A 16 16 Autochtone canadien
 1 SMP U+11AC0..U+11AFF Pau Cin Hau 64 57 Pau Cin Hau
 1 SMP U+11C00..U+11C6F Bhaïksuki 112 97 Bhaïksuki
 1 SMP U+11C70..U+11CBF Marches 80 68 Marches
 1 SMP U+11D00..U+11D5F Masaram Gondi 96 75 Masaram Gondi
 1 SMP U+11D60..U+11DAF Gunjala Gondi 80 63 Gunjala Gondi
 1 SMP U+11EE0..U+11EFF Makassar 32 25 Makassar
 1 SMP U+11FB0..U+11FBF Supplément Lisu 16 1 Lisu
 1 SMP U+11FC0..U+11FFF Supplément tamoul 64 51 Tamil
 1 SMP U+12000..U+123FF Cunéiforme 1 024 922 Cunéiforme
 1 SMP U+12400..U+1247F Chiffres cunéiformes et ponctuation 128 116 Cunéiforme
 1 SMP U+12480..U+1254F Cunéiforme précoce dynastique 208 196 Cunéiforme
 1 SMP U+12F90..U+12FFF Cypro-Minoen 112 99 Cypro Minoen
 1 SMP U+13000..U+1342F Hiéroglyphes égyptiens 1 072 1 071 Hiéroglyphes égyptiens
 1 SMP U+13430..U+1343F Contrôles du format des hiéroglyphes égyptiens 16 9 Hiéroglyphes égyptiens
 1 SMP U+14400..U+1467F Hiéroglyphes anatoliens 640 583 Hiéroglyphes anatoliens
 1 SMP U+16800..U+16A3F Supplément Bamoun 576 569 Bamoun
 1 SMP U+16A40..U+16A6F Monsieur 48 43 Monsieur
 1 SMP U+16A70..U+16ACF Tangsa 96 89 Tangsa
 1 SMP U+16AD0..U+16AFF Bassa Vah 48 36 Bassa Vah
 1 SMP U+16B00..U+16B8F Pahawh Hmong 144 127 Pahawh Hmong
 1 SMP U+16E40..U+16E9F Médéfaidrine 96 91 Médéfaidrine
 1 SMP U+16F00..U+16F9F Miao 160 149 Miao
 1 SMP U+16FE0..U+16FFF Symboles idéographiques et ponctuation 32 7 Han (4 caractères), Khitan Small Script (1 caractère), Nushu (1 caractère), Tangut (1 caractère)
 1 SMP U+17000..U+187FF Tangut 6 144 6 136 Tangut
 1 SMP U+18800..U+18AFF Composants Tangut 768 768 Tangut
 1 SMP U+18B00..U+18CFF Petite écriture Khitan 512 470 Petite écriture Khitan
 1 SMP U+18D00..U+18D7F Supplément Tangut 128 9 Tangut
 1 SMP U+1AFF0..U+1AFFF Kana étendu-B 16 13 Katakana
 1 SMP U+1B000..U+1B0FF Supplément Kana 256 256 Hiragana (255 caractères), Katakana (1 caractère)
 1 SMP U+1B100..U+1B12F Kana étendu-A 48 35 Hiragana (32 caractères), Katakana (3 caractères)
 1 SMP U+1B130..U+1B16F Petite extension Kana 64 7 Hiragana (3 personnages), Katakana (4 personnages)
 1 SMP U+1B170..U+1B2FF Nushu 400 396 Nüshu
 1 SMP U+1BC00..U+1BC9F Duployan 160 143 Duployan
 1 SMP U+1BCA0..U+1BCAF Commandes de format abrégé 16 4 Commun
 1 SMP U+1CF00..U+1CFCF Notation musicale de Znamenny 208 185 Commun (116 caractères), Hérité (69 caractères)
 1 SMP U+1D000..U+1D0FF Symboles musicaux byzantins 256 246 Commun
 1 SMP U+1D100..U+1D1FF Symboles musicaux 256 233 Commun (211 caractères), Hérité (22 caractères)
 1 SMP U+1D200..U+1D24F Notation musicale grecque antique 80 70 grec
 1 SMP U+1D2E0..U+1D2FF Chiffres mayas 32 20 Commun
 1 SMP U+1D300..U+1D35F Symboles du Tai Xuan Jing 96 87 Commun
 1 SMP U+1D360..U+1D37F Chiffres de la tige de comptage 32 25 Commun
 1 SMP U+1D400..U+1D7FF Symboles alphanumériques mathématiques 1 024 996 Commun
 1 SMP U+1D800..U+1DAAF Sutton SignÉcriture 688 672 SigneEcriture
 1 SMP U+1DF00..U+1DFFF Latin étendu-G 256 31 Latin
 1 SMP U+1E000..U+1E02F Supplément glagolitique 48 38 glagolitique
 1 SMP U+1E100..U+1E14F Nyiakeng Puachue Hmong 80 71 Nyiakeng Puachue Hmong
 1 SMP U+1E290..U+1E2BF Toto 48 31 Toto
 1 SMP U+1E2C0..U+1E2FF Wancho 64 59 Wancho
 1 SMP U+1E7E0..U+1E7FF Éthiopien étendu-B 32 28 éthiopien
 1 SMP U+1E800..U+1E8DF Mende Kikakui 224 213 Mende Kikakui
 1 SMP U+1E900..U+1E95F Adam 96 88 Adam
 1 SMP U+1EC70..U+1ECBF Nombres Indic Siyaq 80 68 Commun
 1 SMP U+1ED00..U+1ED4F Nombres Siyaq Ottomans 80 61 Commun
 1 SMP U+1EE00..U+1EEFF Symboles alphabétiques mathématiques arabes 256 143 arabe
 1 SMP U+1F000..U+1F02F Tuiles de Mahjong 48 44 Commun
 1 SMP U+1F030..U+1F09F Tuiles Domino 112 100 Commun
 1 SMP U+1F0A0..U+1F0FF Jouer aux cartes 96 82 Commun
 1 SMP U+1F100..U+1F1FF Supplément alphanumérique joint 256 200 Commun
 1 SMP U+1F200..U+1F2FF Supplément idéographique joint 256 64 Hiragana (1 caractère), Commun (63 caractères)
 1 SMP U+1F300..U+1F5FF Divers symboles et pictogrammes 768 768 Commun
 1 SMP U+1F600..U+1F64F Émoticônes 80 80 Commun
 1 SMP U+1F650..U+1F67F Symboles ornementaux 48 48 Commun
 1 SMP U+1F680..U+1F6FF Symboles de transport et de carte 128 117 Commun
 1 SMP U+1F700..U+1F77F Symboles alchimiques 128 116 Commun
 1 SMP U+1F780..U+1F7FF Formes géométriques étendues 128 102 Commun
 1 SMP U+1F800..U+1F8FF Flèches supplémentaires-C 256 150 Commun
 1 SMP U+1F900..U+1F9FF Symboles et pictogrammes supplémentaires 256 256 Commun
 1 SMP U+1FA00..U+1FA6F Symboles d'échecs 112 98 Commun
 1 SMP U+1FA70..U+1FAFF Symboles et pictogrammes étendus-A 144 88 Commun
 1 SMP U+1FB00..U+1FBFF Symboles pour l'informatique héritée 256 212 Commun
 2 SIP U+20000..U+2A6DF Extension B des idéogrammes unifiés CJK 42 720 42 720 Han
 2 SIP U+2A700..U+2B73F Extension C des idéogrammes unifiés CJK 4 160 4 153 Han
 2 SIP U+2B740..U+2B81F Extension D des idéogrammes unifiés CJK 224 222 Han
 2 SIP U+2B820..U+2CEAF Extension E des idéogrammes unifiés CJK 5 776 5 762 Han
 2 SIP U+2CEB0..U+2EBEF Extension F des idéogrammes unifiés CJK 7 488 7 473 Han
 2 SIP U+2F800..U+2FA1F Supplément d'idéogrammes de compatibilité CJK 544 542 Han
 3 CONSEIL U+30000..U+3134F Extension G des idéogrammes unifiés CJK 4 944 4 939 Han
14 SSP U+E0000..U+E007F Mots clés 128 97 Commun
14 SSP U+E0100..U+E01EF Supplément Sélecteurs de Variation 240 240 Hérité
15 PUA-A U+F0000..U+FFFFF Zone d'utilisation privée supplémentaire-A 65 536 65 534 Inconnu
16 PUA-B U+10000..U+10FFFF Zone d'utilisation privée supplémentaire-B 65 536 65 534 Inconnu

Scénario

Chaque caractère attribué peut avoir une valeur unique pour sa propriété "Script", indiquant à quel script il appartient. La valeur est un code à quatre lettres dans la plage Aaaa-Zzzz, comme disponible dans ISO 15924, qui est mappé à un système d'écriture . En dehors de la description de l'arrière-plan et de l'utilisation d'un script, Unicode n'utilise pas de connexion entre un script et les langages qui utilisent ce script. Ainsi, « hébreu » fait référence à l'écriture hébraïque, pas à la langue hébraïque.

Le code spécial Zyyy pour "Common" permet une valeur unique pour un caractère qui est utilisé dans plusieurs scripts. Le code Zinh « script hérité », utilisé pour combiner des caractères et certains autres points de code à usage spécial, indique qu'un caractère « hérite » de son identité de script du caractère avec lequel il est combiné. (Unicode utilisait auparavant le code privé Qaai à cette fin.) Le code Zzzz "Inconnu" est utilisé pour tous les caractères qui n'appartiennent pas à un script (c'est-à-dire la valeur par défaut), tels que les symboles et les caractères de formatage. Dans l'ensemble, les caractères d'un même script peuvent être dispersés sur plusieurs blocs, comme les caractères latins . Et l'inverse aussi : plusieurs scripts peuvent être présents dans un seul bloc, par exemple le bloc Letterlike Symbols contient des caractères des scripts latins, grecs et communs.

Lorsque le script est "" (vide), selon Unicode le caractère n'appartient pas à un script. Cela concerne les symboles, car les codes de script ISO existants "Zmth" (notation mathématique), "Zsym" (symbole) et "Zsye" (symbole, variante emoji) ne sont pas utilisés dans Unicode. La propriété "Script" est également vide pour les points de code qui ne sont pas un caractère typographique comme les contrôles, les substituts et les points de code à usage privé.

S'il y a un nom d'alias de script spécifique dans la norme ISO 15924, il est utilisé dans le nom du personnage: U + 0041 A LATINE MAJUSCULE A et U + 05D0 א HÉBRAÏQUE LETTRE ALEF .


ISO 15924 Script en Unicode
Code Nom officiel ISO Directionnalité Alias ​​Unicode Version Personnages Remarques La description
Adlm Adam script de droite à gauche Modifiez ceci sur Wikidata Adam 9.0 88 Ch 19.9
Afak Afaka varie ZZ— Pas en Unicode, la proposition est explorée
Aghb Albanais du Caucase de gauche à droite Modifiez ceci sur Wikidata Albanais du Caucase 7.0 53 Ancien/historique Ch 8.11
Ahom Ahom, Tai Ahom de gauche à droite Modifiez ceci sur Wikidata Ahom 8.0 65 Ancien/historique Ch 15.15
arabe arabe script de droite à gauche Modifiez ceci sur Wikidata arabe 1,0 1 365 Ch 9.2
Aran Arabe (variante Nastaliq) mixte ZZ— Variante typographique de l'arabe ( § arabe )
Armi Araméen impérial script de droite à gauche Modifiez ceci sur Wikidata Araméen impérial 5.2 31 Ancien/historique Ch 10.4
Armer arménien de gauche à droite Modifiez ceci sur Wikidata arménien 1,0 96 Ch 7.6
Avst Avestan script de droite à gauche Modifiez ceci sur Wikidata Avestan 5.2 61 Ancien/historique Ch 10.7
Bali Balinais de gauche à droite Modifiez ceci sur Wikidata Balinais 5.0 124 Ch 17.3
Bamu Bamoun de gauche à droite Modifiez ceci sur Wikidata Bamoun 5.2 657 Ch 19.6
Basse Bassa Vah de gauche à droite Modifiez ceci sur Wikidata Bassa Vah 7.0 36 Ancien/historique Ch 19.7
Batk Batak de gauche à droite Modifiez ceci sur Wikidata Batak 6.0 56 Ch 17.6
Beng bengali (bangla) de gauche à droite Modifiez ceci sur Wikidata bengali 1,0 96 Chapitre 12.2
Bhks Bhaïksuki de gauche à droite Modifiez ceci sur Wikidata Bhaïksuki 9.0 97 Ancien/historique Ch 14.3
Blis Symboles de félicité varie ZZ— Pas en Unicode, la proposition est explorée
Bopo Bopomofo de gauche à droite Modifiez ceci sur Wikidata Bopomofo 1,0 77 Ch 18.3
Brah Brahmi de gauche à droite Modifiez ceci sur Wikidata Brahmi 6.0 115 Ancien/historique Ch 14.1
Brai Braille de gauche à droite Modifiez ceci sur Wikidata Braille 3.0 256 Ch 21.1
Bugi Buginais de gauche à droite Modifiez ceci sur Wikidata Buginais 4.1 30 Ch 17.2
Buhd Buhid de gauche à droite Modifiez ceci sur Wikidata Buhid 3.2 20 Ch 17.1
Cakm Chakma de gauche à droite Modifiez ceci sur Wikidata Chakma 6.1 71 Ch 13.11
Canettes SYLLABE AUTOCHTONE CANADIENNE UNIFIÉE de gauche à droite Modifiez ceci sur Wikidata Autochtone canadien 3.0 726 Ch 20.2
Cari Carian script de gauche à droite, de droite à gauche Modifiez ceci sur Wikidata Carian 5.1 49 Ancien/historique Ch 8.5
Cham Cham de gauche à droite Modifiez ceci sur Wikidata Cham 5.1 83 Ch 16.10
Cher Cherokee de gauche à droite Modifiez ceci sur Wikidata Cherokee 3.0 172 Ch 20.1
Chrs Chorasmienne script de droite à gauche , de haut en bas Modifiez ceci sur Wikidata Chorasmienne 13.0 28 Ancien/historique Ch 10.8
Cirt Cirth varie ZZ- Pas en Unicode
Copte Copte de gauche à droite Modifiez ceci sur Wikidata Copte 1,0 137 Ancien/historique, désunifié du grec en 4.1 Ch 7.3
Cpmn Cypro-Minoen de gauche à droite Cypro Minoen 14,0 99 Ancien/historique Ch 8.4
Cprt syllabaire chypriote script de droite à gauche Modifiez ceci sur Wikidata Chypriote 4.0 55 Ancien/historique Ch 8.3
Cyrl cyrillique de gauche à droite Modifiez ceci sur Wikidata cyrillique 1,0 443 Comprend une variante typographique Old Church Slavonic ( § Cyrs) Ch 7.4
Cyrs Cyrillique (ancienne variante slave d'église) varie ZZ— Variante typographique du cyrillique ( § Cyrl ) Ancien/historique
Deva Devanagari (Nagari) de gauche à droite Modifiez ceci sur Wikidata Devanagari 1,0 154 Ch 12.1
Diak Plongées Akuru de gauche à droite Modifiez ceci sur Wikidata Plongées Akuru 13.0 72 Ancien/historique Ch 15.14
Dogr Dogra de gauche à droite Modifiez ceci sur Wikidata Dogra 11,0 60 Ancien/historique Ch 15.17
Dsrt Déseret (mormon) de gauche à droite Modifiez ceci sur Wikidata Déseret 3.1 80 Ch 20.4
Dupl Sténographie Duployan, Sténographie Duployan de gauche à droite Modifiez ceci sur Wikidata Duployan 7.0 143 Ch 21.6
Égyd démotique égyptienne mixte ZZ- Pas en Unicode
Egyh hiératique égyptien mixte ZZ- Pas en Unicode
Egypte Hiéroglyphes égyptiens script de droite à gauche Modifiez ceci sur Wikidata Hiéroglyphes égyptiens 5.2 1 080 Ancien/historique Ch 11.4
Île d'Elbe Elbasan de gauche à droite Modifiez ceci sur Wikidata Elbasan 7.0 40 Ancien/historique Ch 8.10
Élyme Élymaïque script de droite à gauche Modifiez ceci sur Wikidata Élymaïque 12,0 23 Ancien/historique 10.9
Ethi Éthiopien (Ge'ez) de gauche à droite Modifiez ceci sur Wikidata éthiopien 3.0 523 Ch 19.1
Géok Khutsuri (Asomtavruli et Nuskhuri) de gauche à droite Modifiez ceci sur Wikidata géorgien Unicode regroupe « Khutsori », « Asomtavruli » et « Nuskhuri » en « géorgien » ( § Geok ). Aussi "Mkhedruli" et "Mtavruli" sont 'géorgiens' ( § Geor ) Ch 7.7
Géor Géorgien (Mkhedruli et Mtavruli) de gauche à droite Modifiez ceci sur Wikidata géorgien 1,0 173 En Unicode, inclut également Geok (Nuskhuri) Ch 7.7
Glag glagolitique de gauche à droite Modifiez ceci sur Wikidata glagolitique 4.1 134 Ancien/historique Ch 7.5
Gong Gunjala Gondi de gauche à droite Modifiez ceci sur Wikidata Gunjala Gondi 11,0 63 Ch 13.15
Gonm Masaram Gondi de gauche à droite Modifiez ceci sur Wikidata Masaram Gondi 10,0 75 Ch 13.14
Goth gothique de gauche à droite Modifiez ceci sur Wikidata gothique 3.1 27 Ancien/historique Ch 8.9
Grand-mère Grantha de gauche à droite Modifiez ceci sur Wikidata Grantha 7.0 85 Ancien/historique Chapitre 15.13
grec grec de gauche à droite Modifiez ceci sur Wikidata grec 1,0 518 Directionnalité parfois comme boustrophédon Ch 7.2
Gujr gujarati de gauche à droite Modifiez ceci sur Wikidata gujarati 1,0 91 Ch 12.4
Gourou Gurmukhi de gauche à droite Modifiez ceci sur Wikidata Gurmukhi 1,0 80 Ch 12.3
Hanb Han avec Bopomofo (alias pour Han + Bopomofo) mixte ZZ— Voir § Hani , § Bopo
Pendre Hangul (Hangŭl, Hangeul) de gauche à droite, de haut en bas Modifiez ceci sur Wikidata Hangul 1,0 11 739 Les syllabes hangul relocalisées en 2.0 Ch 18.6
Hani Han (Hanzi, Kanji, Hanja) de haut en bas, colonnes de droite à gauche (historiquement) Han 1,0 94 215 Ch 18.1
Hano Hanunoo (Hanunoo) de gauche à droite, de bas en haut Modifiez ceci sur Wikidata Hanunoo 3.2 21 Ch 17.1
Hans Han (variante simplifiée) varie ZZ— Sous-ensemble de Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant Han (variante traditionnelle) varie ZZ— Sous-ensemble du § Hani
Hatr Hatran script de droite à gauche Modifiez ceci sur Wikidata Hatran 8.0 26 Ancien/historique Ch 10.12
Hébr hébreu script de droite à gauche Modifiez ceci sur Wikidata hébreu 1,0 134 Ch 9.1
Hira Hiragana de haut en bas, de gauche à droite Modifiez ceci sur Wikidata Hiragana 1,0 380 Ch 18.4
Hluw Hiéroglyphes anatoliens (hiéroglyphes luwiens, hiéroglyphes hittites) de gauche à droite Modifiez ceci sur Wikidata Hiéroglyphes anatoliens 8.0 583 Ancien/historique Ch 11.6
Hmng Pahawh Hmong de gauche à droite Modifiez ceci sur Wikidata Pahawh Hmong 7.0 127 Ch 16.11
Hmnp Nyiakeng Puachue Hmong de gauche à droite Modifiez ceci sur Wikidata Nyiakeng Puachue Hmong 12,0 71 Ch 16.12
Hrkt Syllabaires japonais (alias pour Hiragana + Katakana) de haut en bas, de gauche à droite Modifiez ceci sur Wikidata Katakana ou Hiragana Voir § Hira , § Kana Ch 18.4
Suspendu Vieux hongrois (runique hongrois) script de droite à gauche Modifiez ceci sur Wikidata Hongrois ancien 8.0 108 Ancien/historique Ch 8.8
Indices Indus (Harappé) mixte ZZ— Pas en Unicode, la proposition est explorée
Italie Italique ancien (étrusque, osque, etc.) script de droite à gauche , de gauche à droite Modifiez ceci sur Wikidata Italique ancien 3.1 39 Ancien/historique Ch 8.6
Jamo Jamo (alias pour le sous-ensemble Jamo de Hangul) varie ZZ— Sous-ensemble de § Hang
Java Javanais de gauche à droite Modifiez ceci sur Wikidata Javanais 5.2 90 Ch 17.4
Japon Japonais (alias pour Han + Hiragana + Katakana) varie ZZ— Voir § Hani , § Hira et § Kana
Jurc Jürchen de gauche à droite ZZ- Pas en Unicode
Kali Kayah Li de gauche à droite Modifiez ceci sur Wikidata Kayah Li 5.1 47 Ch 16.9
Kana Katakana de haut en bas, de gauche à droite Modifiez ceci sur Wikidata Katakana 1,0 320 Ch 18.4
Khar Kharoshthi script de droite à gauche Modifiez ceci sur Wikidata Kharoshthi 4.1 68 Ancien/historique Ch 14.2
Khmr Khmer de gauche à droite Modifiez ceci sur Wikidata Khmer 3.0 146 Ch 16.4
Khôj Khojki de gauche à droite Modifiez ceci sur Wikidata Khojki 7.0 62 Ancien/historique Ch 15.7
Kitl Grande écriture Khitan de gauche à droite ZZ- Pas en Unicode
Trousses petit script Khitan de haut en bas Modifiez ceci sur Wikidata Petite écriture Khitan 13.0 471 Ancien/historique Ch 18.12
Knda Kannada de gauche à droite Modifiez ceci sur Wikidata Kannada 1,0 90 Ch 12.8
Koré Coréen (alias pour Hangul + Han) de gauche à droite ZZ— Voir § Hani , § Hang
Kpel Kpelle de gauche à droite ZZ— Pas en Unicode, la proposition est explorée
Kthi Kaithi de gauche à droite Modifiez ceci sur Wikidata Kaithi 5.2 68 Ancien/historique Ch 15.2
Lana Tai Tham (Lanna) de gauche à droite Modifiez ceci sur Wikidata Tai Tham 5.2 127 Ch 16.7
Laoo Lao de gauche à droite Modifiez ceci sur Wikidata Lao 1,0 82 Ch 16.2
Latf Latin (variante Fraktur) varie ZZ— Variante typographique du latin ( § Latn )
Latg Latin (variante gaélique) de gauche à droite ZZ— Variante typographique du latin ( § Latn )
Latn Latin de gauche à droite Modifiez ceci sur Wikidata Latin 1,0 1 475 Voir aussi : écriture latine en Unicode Ch 7.1
Leke Leke de gauche à droite ZZ- Pas en Unicode
Lepc Lepcha (Róng) de gauche à droite Modifiez ceci sur Wikidata Lepcha 5.1 74 Ch 13.12
Membre Limbu de gauche à droite Modifiez ceci sur Wikidata Limbu 4.0 68 Ch 13.6
Lina Linéaire A de gauche à droite Modifiez ceci sur Wikidata Linéaire A 7.0 341 Ancien/historique Ch 8.1
Linb Linéaire B de gauche à droite Modifiez ceci sur Wikidata Linéaire B 4.0 211 Ancien/historique Ch 8.2
Lisu Lisu (Fraser) de gauche à droite Modifiez ceci sur Wikidata Lisu 5.2 49 Ch 18.9
Loma Loma de gauche à droite ZZ— Pas en Unicode, la proposition est explorée
Lyci Lycien de gauche à droite Modifiez ceci sur Wikidata Lycien 5.1 29 Ancien/historique Ch 8.5
Lydie Lydien script de droite à gauche Modifiez ceci sur Wikidata Lydien 5.1 27 Ancien/historique Ch 8.5
Mahj Mahajani de gauche à droite Modifiez ceci sur Wikidata Mahajani 7.0 39 Ancien/historique Ch 15.6
Maka Makassar de gauche à droite Modifiez ceci sur Wikidata Makassar 11,0 25 Ancien/historique Ch 17.8
Mand Mandaique, Mandéen script de droite à gauche Modifiez ceci sur Wikidata Mandaique 6.0 29 Ch 9.5
Mani manichéen script de droite à gauche Modifiez ceci sur Wikidata manichéen 7.0 51 Ancien/historique Ch 10.5
Marc Marches de gauche à droite Modifiez ceci sur Wikidata Marches 9.0 68 Ancien/historique Ch 14.5
Maya Hiéroglyphes mayas mixte ZZ- Pas en Unicode
Medf Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) de gauche à droite, de gauche à droite Modifiez ceci sur Wikidata Médéfaidrine 11,0 91 Ch 19.10
Réparer Mende Kikakui script de droite à gauche Modifiez ceci sur Wikidata Mende Kikakui 7.0 213 Ch 19.8
Merc Cursive méroïtique script de droite à gauche Modifiez ceci sur Wikidata Cursive méroïtique 6.1 90 Ancien/historique Ch 11.5
Méro Hiéroglyphes méroïtiques script de droite à gauche Modifiez ceci sur Wikidata Hiéroglyphes méroïtiques 6.1 32 Ancien/historique Ch 11.5
Mlym malayalam de gauche à droite Modifiez ceci sur Wikidata malayalam 1,0 118 Ch 12.9
Modi Modi, Moḍī de gauche à droite Modifiez ceci sur Wikidata Modi 7.0 79 Ancien/historique Chapitre 15.11
Mong mongol de haut en bas, de gauche à droite Modifiez ceci sur Wikidata mongol 3.0 168 Mong comprend des scripts clairs et mandchous Ch 13,5
Lune Lune (code lunaire, script lunaire, type lunaire) mixte ZZ— Pas en Unicode, la proposition est explorée
Mrou Monsieur, Monsieur de gauche à droite Modifiez ceci sur Wikidata Monsieur 7.0 43 Ch 13.8
Mtei Meitei Mayek (Meithei, Meetei) de gauche à droite Modifiez ceci sur Wikidata Meetei Mayek 5.2 79 Ch 13.7
Mult Multani de gauche à droite Modifiez ceci sur Wikidata Multani 8.0 38 Ancien/historique 15.9
Mymr Myanmar (birman) de gauche à droite Modifiez ceci sur Wikidata Birmanie 3.0 223 Ch 16.3
Nand Nandinagari de gauche à droite Modifiez ceci sur Wikidata Nandinagari 12,0 65 Ancien/historique Ch 15.12
Narb Ancien Arabe du Nord (Ancien Arabe du Nord) bon script à gauche , de droite à gauche de script Modifiez ceci sur Wikidata Vieux nord-arabe 7.0 32 Ancien/historique Ch 10.1
Nbat nabatéen script de droite à gauche Modifiez ceci sur Wikidata nabatéen 7.0 40 Ancien/historique 10.10
Nouvelle Newa, Newar, Newari, Népalais lipi de gauche à droite Modifiez ceci sur Wikidata Nouvelle 9.0 97 Ch 13.3
Nkdb Naxi Dongba (na²¹ɕi³³ to³³ba²¹, Nakhi Tomba) de gauche à droite ZZ- Pas en Unicode
Nkgb Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) de gauche à droite ZZ— Pas en Unicode, la proposition est explorée
Nkoo N'Ko script de droite à gauche Modifiez ceci sur Wikidata Nko 5.0 62 Ch 19.4
Nshu Nüshu de haut en bas Modifiez ceci sur Wikidata Nushu 10,0 397 Ch 18.8
Ogam Ogham de bas en haut, de gauche à droite Modifiez ceci sur Wikidata Ogham 3.0 29 Ancien/historique Ch 8.14
Olck Ol Chiki (Ol Cemet', Ol, Santali) de gauche à droite Modifiez ceci sur Wikidata Ol Chiki 5.1 48 Ch 13.10
Orkh Vieux turc, runique Orkhon script de droite à gauche Modifiez ceci sur Wikidata Vieux turc 5.2 73 Ancien/historique Ch 14.8
Orya Oriya (Odia) de gauche à droite Modifiez ceci sur Wikidata Oriya 1,0 91 Ch 12.5
Osge Osage de gauche à droite Modifiez ceci sur Wikidata Osage 9.0 72 Ch 20.3
Osma Osmanya de gauche à droite Modifiez ceci sur Wikidata Osmanya 4.0 40 Ch 19.2
Ougr Vieux ouïghour mixte Vieux ouïghour 14,0 26 Ancien/historique Ch 14.11
Paume Palmyrène script de droite à gauche Modifiez ceci sur Wikidata Palmyrène 7.0 32 Ancien/historique 10.11
Pauc Pau Cin Hau de gauche à droite Modifiez ceci sur Wikidata Pau Cin Hau 7.0 57 Ch 16.13
Pcun Proto-Cuneiforme de gauche à droite ZZ- Pas en Unicode
Pelm Proto-Élamite de gauche à droite ZZ- Pas en Unicode
Permanente Ancien Permique de gauche à droite Modifiez ceci sur Wikidata Ancien Permique 7.0 43 Ancien/historique Ch 8.13
Phag Phags-pa de haut en bas Modifiez ceci sur Wikidata Phags-pa 5.0 56 Ancien/historique Ch 14.4
Phli Pahlavi inscription script de droite à gauche Modifiez ceci sur Wikidata Pahlavi inscription 5.2 27 Ancien/historique Ch 10.6
Phlp Psautier Pahlavi script de droite à gauche Modifiez ceci sur Wikidata Psautier Pahlavi 7.0 29 Ancien/historique Ch 10.6
Phlv Réserver Pahlavi mixte ZZ- Pas en Unicode
Phnx phénicien script de droite à gauche Modifiez ceci sur Wikidata phénicien 5.0 29 Ancien/historique 10.3
Piqd Klingon (KLI pIqaD) de gauche à droite Modifiez ceci sur Wikidata ZZ— Rejeté pour inclusion dans Unicode
Plrd Miao (Pollard) de gauche à droite Modifiez ceci sur Wikidata Miao 6.1 149 Ch 18.10
Prti Parthe inscriptionnel script de droite à gauche Modifiez ceci sur Wikidata Parthe inscriptionnel 5.2 30 Ancien/historique Ch 10.6
Psin Proto-sinaïtique mixte ZZ- Pas en Unicode
Qaaa-Qabx Réservé à un usage privé (gamme) ZZ- Pas en Unicode
Ranj Ranjana de gauche à droite ZZ- Pas en Unicode
Rjng Rejang (Redjang, Kaganga) de gauche à droite Modifiez ceci sur Wikidata Rejang 5.1 37 Ch 17.5
Rohg Rohingya Hanifi script de droite à gauche Modifiez ceci sur Wikidata Rohingya Hanifi 11,0 50 Ch 16.14
Roro Rongorongo mixte ZZ— Pas en Unicode, la proposition est explorée
Coureur Runique de gauche à droite, boustrophédon Modifiez ceci sur Wikidata Runique 3.0 86 Ancien/historique Ch 8.7
Samr samaritain script de droite à gauche , de haut en bas Modifiez ceci sur Wikidata samaritain 5.2 61 Ch 9.4
Sara Sarati mixte ZZ- Pas en Unicode
Sarb Vieux sud-arabe script de droite à gauche Modifiez ceci sur Wikidata Vieux sud-arabe 5.2 32 Ancien/historique 10.2
Saur Saurashtra de gauche à droite Modifiez ceci sur Wikidata Saurashtra 5.1 82 Ch 13.13
Sgnw SigneEcriture de haut en bas Modifiez ceci sur Wikidata SigneEcriture 8.0 672 Ch 21.7
Shaw Shavian (Shaw) de gauche à droite Modifiez ceci sur Wikidata Shavian 4.0 48 Ch 8.15
Déchiqueter Sharada, āradā de gauche à droite Modifiez ceci sur Wikidata Sharada 6.1 96 Ch 15.3
Shui Shuishu de gauche à droite ZZ- Pas en Unicode
Sidd Siddham, Siddhaṃ, Siddhamātṛkā de gauche à droite Modifiez ceci sur Wikidata Siddham 7.0 92 Ancien/historique Ch 15.5
Sind Khudawadi, Sindhi de gauche à droite Modifiez ceci sur Wikidata Khudawadi 7.0 69 Ch 15.8
Sinh Cinghalais de gauche à droite Modifiez ceci sur Wikidata Cinghalais 3.0 111 Ch 13.2
Sogd Sogdien écriture horizontale et verticale dans les écritures d'Asie de l'Est , de haut en bas Modifiez ceci sur Wikidata Sogdien 11,0 42 Ancien/historique Ch 14.10
Alors allez Vieux Sogdien script de droite à gauche Modifiez ceci sur Wikidata Vieux Sogdien 11,0 40 Ancien/historique Ch 14.9
Sora Sora Sompeng de gauche à droite Modifiez ceci sur Wikidata Sora Sompeng 6.1 35 Chapitre 15.16
Soyo Soyombo de gauche à droite Modifiez ceci sur Wikidata Soyombo 10,0 83 Ancien/historique Ch 14.7
Soleil sundanais de gauche à droite Modifiez ceci sur Wikidata sundanais 5.1 72 Ch 17.7
Sylo Syloti Nagri de gauche à droite Modifiez ceci sur Wikidata Syloti Nagri 4.1 45 Ancien/historique Ch 15.1
Syrc syriaque script de droite à gauche Modifiez ceci sur Wikidata syriaque 3.0 88 Comprend les variantes typographiques Estrangelo ( § Syre ), Western ( § Syrj ) et Eastern ( § Syrn ) Ch 9.3
Syre syriaque (variante Estrangelo) mixte ZZ— Variante typographique du syriaque ( § Syrc )
Syrj syriaque (variante occidentale) mixte ZZ— Variante typographique du syriaque ( § Syrc )
Syrn syriaque (variante orientale) mixte ZZ— Variante typographique du syriaque ( § Syrc )
Tagb Tagbanwa de gauche à droite Modifiez ceci sur Wikidata Tagbanwa 3.2 18 Ch 17.1
Takr Takri, Ṭākrī, Ṭāṅkrī de gauche à droite Modifiez ceci sur Wikidata Takri 6.1 68 Ch 15.4
Conte Tai Le de gauche à droite Modifiez ceci sur Wikidata Tai Le 4.0 35 Ch 16,5
Talou Nouveau Tai Lue de gauche à droite Modifiez ceci sur Wikidata Nouveau Tai Lue 4.1 83 Ch 16.6
Taml Tamil de gauche à droite Modifiez ceci sur Wikidata Tamil 1,0 123 Ch 12.6
Soie Tangut de haut en bas, colonnes de droite à gauche, de gauche à droite Modifiez ceci sur Wikidata Tangut 9.0 6 914 Ancien/historique Ch 18.11
Tavt Taï Viet de gauche à droite Modifiez ceci sur Wikidata Taï Viet 5.2 72 Ch 16.8
Télou Telugu de gauche à droite Modifiez ceci sur Wikidata Telugu 1,0 100 Ch 12.7
Teng Tengwar de gauche à droite ZZ- Pas en Unicode
Tfng Tifinagh (berbère) de gauche à droite Modifiez ceci sur Wikidata Tifinagh 4.1 59 Ch 19.3
Tglg Tagalog (Baybayin, Alibata) de gauche à droite Modifiez ceci sur Wikidata Tagalog 3.2 23 Ch 17.1
Thaa Thaana script de droite à gauche Modifiez ceci sur Wikidata Thaana 3.0 50 Ch 13.1
thaïlandais thaïlandais de gauche à droite Modifiez ceci sur Wikidata thaïlandais 1,0 86 Ch 16.1
Tibt Tibétain de gauche à droite Modifiez ceci sur Wikidata Tibétain 2.0 207 Ajouté en 1.0, supprimé en 1.1 et réintroduit en 2.0 Ch 13.4
Tirh Tirhuta de gauche à droite Modifiez ceci sur Wikidata Tirhuta 7.0 82 Chapitre 15.10
Tnsa Tangsa de gauche à droite Tangsa 14,0 89 Ch 13.18
Toto Toto de gauche à droite Toto 14,0 31 Ch 13.17
Ougar ougaritique de gauche à droite Modifiez ceci sur Wikidata ougaritique 4.0 31 Ancien/historique Ch 11.2
Vaii Vai de gauche à droite Modifiez ceci sur Wikidata Vai 5.1 300 Ch 19.5
Viège Discours visible de gauche à droite ZZ- Pas en Unicode
Vith Vithkuqi de gauche à droite Vithkuqi 14,0 70 Ancien/historique Ch 8.12
Wara Warang Citi (Varang Kshiti) de gauche à droite Modifiez ceci sur Wikidata Warang Citi 7.0 84 Ch 13.9
OMS Wancho de gauche à droite Modifiez ceci sur Wikidata Wancho 12,0 59 Ch 13.16
Wolé Woleai mixte ZZ— Pas en Unicode, la proposition est explorée
Xpeo Vieux persan de gauche à droite Modifiez ceci sur Wikidata Vieux persan 4.1 50 Ancien/historique Ch 11.3
Xsux Cunéiforme, suméro-akkadien de gauche à droite Modifiez ceci sur Wikidata Cunéiforme 5.0 1 234 Ancien/historique Ch 11.1
Yezi Yézidis script de droite à gauche Modifiez ceci sur Wikidata Yézidis 13.0 47 Ancien/historique Ch 9.6
Yiii Yi de gauche à droite Modifiez ceci sur Wikidata Yi 3.0 1 220 Ch 18.7
Zanb Place Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, écriture carrée horizontale) de gauche à droite Modifiez ceci sur Wikidata Place Zanabazar 10,0 72 Ancien/historique Ch 14.6
Zinh Code pour le script hérité Hérité 657
Zmois Notation mathématique ZZ— Pas un "script" en Unicode
Zsym Symboles ZZ— Pas un "script" en Unicode
Zsye Symboles (variante emoji) ZZ— Pas un "script" en Unicode
Zxxx Code pour les documents non écrits ZZ— Pas un "script" en Unicode
Zyyy Code pour script indéterminé Commun 8 252
Zzzz Code pour le script non codé Inconnu 969 350 En Unicode : tous les autres points de code
Remarques
  1. ^
    Publications ISO 15924 Au 17 février 2021
  2. ^
  3. ^
    Modifications de la norme ISO 15924 (y compris les alias pour Unicode ; à compter du 17 février 2021)
  4. ^
    Unicode version 14.0
  5. ^
  6. ^
    Unicode utilise le "Property Value Alias" (Alias) comme nom de script. Ces noms d'alias font partie d'Unicode et sont publiés à titre informatif à côté de la norme ISO 15924. Un nom de script d'alias peut être utilisé dans un nom de caractère : Palm, Palmyrene → U+10860 𐡠 PALMYRENE LETTER ALEPH .
  7. ^
    En Unicode, l'écriture phénicienne est destinée à la représentation de texte en paléo-hébreu , phénicien archaïque, phénicien , araméen ancien , cursive phénicienne tardive, papyrus phéniciens , hébreu siloé , sceaux hébreux , ammonite , moabite et punique .

Propriétés de normalisation

Décompositions, type de décomposition, classe de combinaison canonique, exclusions de composition, etc.

Âge

L'âge est la version de la norme dans laquelle le point de code a été désigné pour la première fois. Le numéro de version est raccourci à la numérotation major.minor, bien que des numéros de version plus détaillés soient utilisés : les versions 4.0.0 et 4.0.1 sont toutes deux nommées 4.0 comme Age. Compte tenu des versions, Age peut être de la gamme : 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0 , 12,0, 12,1, 13,0 et 14,0. Les valeurs longues pour Age commencent par un V et utilisent un trait de soulignement au lieu d'un point : V1_1, par exemple. Les points de code sans valeur d'âge spécifiquement attribuée ont la valeur « NA », avec la forme longue « Non attribué ».

Obsolète

Une fois qu'un personnage a été défini, il ne sera ni supprimé ni réaffecté. Cependant, un caractère peut être déprécié , ce qui signifie que son "utilisation est fortement déconseillée". Depuis la version 14.0 d'Unicode, les quinze caractères suivants sont obsolètes :

Caractères obsolètes en Unicode
Point de code Le nom du personnage Alternative recommandée Remarques
U+0149 LETTRE MINUSCULE LATINE N PRECEDEE D'APOSTROPHE U+02BC U+006E dans
U+0673 LETTRE ARABE ALEF AVEC ONDULÉE HAMZA CI-DESSOUS U+0627 U+065F ا
U+0F77 SIGNE VOYELLE TIBETAIN VOCALIQUE RR U+0FB2 U+0F81 ??
U+0F79 SIGNE VOYELLE TIBETAIN VOCALIC LL U+0FB3 U+0F81 ??
U+17A3 VOYELLE INDÉPENDANTE KHMER QAQ U+17A2 ??
U+17A4 VOYELLE INDÉPENDANTE KHMER QAA U+17A2 U+17B6 ??
U+206A INHIBLER L'ÉCHANGE SYMÉTRIQUE Rien
U+206B ACTIVER L'ÉCHANGE SYMÉTRIQUE Rien
U+206C INHIBENT LA MISE EN FORME ARABE Rien
U+206D ACTIVER LA MISE EN FORME ARABE Rien
U+206E FORMES DE CHIFFRES NATIONAUX Rien
U+206F FORMES DE CHIFFRE NOMINALES Rien
U+2329 ÉQUERRE VERS LA GAUCHE U+3008 ?? U + 27E8 de MATHEMATIQUE GAUCHE Equerre est recommandé pourutilisation mathématique etautres techniques
U+232A ÉQUERRE VERS LA DROITE U+3009 ?? U + 27E9 de MATHEMATIQUE DROIT Equerre est recommandé pourutilisation mathématique etautres techniques
U+E0001 ÉTIQUETTE DE LANGUE Rien

Limites

La norme Unicode spécifie les propriétés liées aux limites suivantes :

  • Amas de graphèmes
  • Mot
  • Ligne
  • Phrase

Correction des alias de nom Unicode

Personnage Nom Alias
01A2 ?? LETTRE MAJUSCULE LATINE OI LETTRE MAJUSCULE LATINE GHA
01A3 ?? LETTRE MINUSCULE LATINE OI LETTRE MINUSCULE LATINE GHA
0709 ?? SYRIAQUE SUBLINEAIRE COLON BALISE A DROITE SYRIAQUE SUBLINEAIRE COLON BALISE A GAUCHE
0CDE ?? LETTRE KANNADA FA LETTRE KANNADA LLLA
0E9D ?? LETTRE LAO FO TAM LETTRE LAO FO FON
0E9F ?? LETTRE LAO FO CHANTÉE LAO LETTRE FO FAY
0EA3 ?? LETTRE LAO LO LING LAO LETTRE RO
0EA5 ?? LAO LETTRE LO LOOT LETTRE LAO LO
0FD0 ?? TIBETAIN MARK BSKA- SHOG GI MGO RGYAN TIBETAIN MARK BKA- SHOG GI MGO RGYAN
11CE ?? HANGUL JONGSEONG IEUNG-KIYEOK HANGUL JONGSEONG YESIEUNG-KIYEOK
11ED ?? HANGUL JONGSEONG IEUNG-SSANGKIYEOK HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE ?? HANGUL JONGSEONG SSANGIEUNG HANGUL JONGSEONG SSANGYESIEUNG
11EF ?? HANGUL JONGSEONG IEUNG-KHIEUKH HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118 ?? CAPITAL SCRIPT P FONCTION ELLIPTIQUE DE WEIERSTRASS
2448 ?? TABLEAU DE BORD OCR SYMBOLE MICR SUR NOUS
2449 ?? NUMÉRO DE COMPTE CLIENT OCR SYMBOLE MICR TABLEAU DE BORD
2B7A ?? FLÈCHE TRIANGULAIRE VERS LA GAUCHE AVEC DOUBLE COURSE HORIZONTALE FLÈCHE TRIANGLE VERS LA GAUCHE AVEC DOUBLE COURSE VERTICALE
2B7C ?? FLÈCHE TRIANGULAIRE VERS LA DROITE AVEC DOUBLE COURSE HORIZONTALE FLÈCHE TRIANGULAIRE VERS LA DROITE AVEC DOUBLE COURSE VERTICALE
A015 ?? YI SYLLABE WU MARQUE D'ITERATION YI SYLLABE
FE18 ?? FORMULAIRE DE PRESENTATION POUR FIXATION LENTICULAIRE VERTICAL DROIT BLANC FORMULAIRE DE PRESENTATION POUR SUPPORT LENTICULAIRE BLANC DROIT VERTICAL
122D4 ?? SIGNE CUNEIFORME SHIR TENU SIGNE CUNEIFORME NU11 TENU
122D5 ?? SIGNE CUNEIFORME SHIR SUR SHIR BUR SUR BUR SIGNE CUNEIFORME NU11 SUR NU11 BUR SUR BUR
16E56 ?? MEDEFAIDRIN LETTRE MAJUSCULE HP MEDEFAIDRIN LETTRE MAJUSCULE H
16E57 ?? LETTRE MAJUSCULE MEDEFAIDRIN NY LETTRE MAJUSCULE MEDEFAIDRIN NG
16E76 ?? MEDEFAIDRIN LETTRE MINUSCULE HP MEDEFAIDRIN LETTRE MINUSCULE H
16E77 ?? MEDEFAIDRIN LETTRE MINUSCULE NY MEDEFAIDRIN LETTRE MINUSCULE NG
1B001 ?? LETTRE HIRAGANA YE ARCHAIQUE LETTRE HENTAIGANA E-1
1D0C5 ?? SYMBOLE MUSICAL BYZANTIN FHTORA SKLIRON CHROMA VASIS SYMBOLE MUSICAL BYZANTIN FTHORA SKLIRON CHROMA VASIS


Liens externes

Les références

  1. ^ A b c d e "La norme Unicode, Chapitre 4: Propriétés de caractère" (PDF) . Unicode, Inc. Septembre 2021 . Récupéré le 2021-08-15 . Citer le journal nécessite |journal=( aide )
  2. ^ A b c "Unicode standard Annexe # 44: Unicode Base de données de caractère" . La norme Unicode . 2017-06-14.
  3. ^ "UCD: Alias ​​de nom" . Base de données de caractères Unicode . Consortium Unicode. 2019-03-08.
  4. ^ "Normes de conception de caractères - caractères d'espace" . Normes de conception des personnages . Microsoft . 1998-1999. Archivé de l'original le 23 août 2000 . Récupéré le 18-05-2009 .
  5. ^ La norme Unicode 5.0, édition imprimée, p.205
  6. ^ "Ponctuation générale" (PDF) . La norme Unicode 5.1 . Unicode Inc . 1991–2008 . Récupéré le 13-05-2009 .
  7. ^ Sargent, Murray III (2006-08-29). « Encodage de texte presque en clair Unicode des mathématiques (version 2) » . Note technique Unicode #28 . Unicode Inc . p. 19–20 . Récupéré le 19-05-2009 .
  8. ^ Gillam, Richard (2002). Unicode démystifié : guide pratique du programmeur sur la norme de codage . Addison-Wesley. ISBN 0-201-70052-2.
  9. ^ un b Hickson, Ian . "12.5 Références de caractères nommés" . Norme HTML . WHATWG .
  10. ^ Wolfram . "\[NegativeThickSpace]" . Documentation du langage Wolfram .
  11. ^ Wolfram . "\[NegativeMediumSpace]" . Documentation du langage Wolfram .
  12. ^ Wolfram . "\[NegativeThinSpace]" . Documentation du langage Wolfram .
  13. ^ Wolfram . "\[NegativeVeryThinSpace]" . Documentation du langage Wolfram .
  14. ^ Faltstrom, P., éd. (août 2010). "Zéro largeur non-jointure" . Les points de code Unicode et les noms de domaine internationalisés pour les applications (IDNA) . IETF . seconde. A.1. doi : 10.17487/RFC5892 . RFC 5892 . Consulté le 4 septembre 2019 .
  15. ^ Faltstrom, P., éd. (août 2010). "Zero largeur menuisier" . Les points de code Unicode et les noms de domaine internationalisés pour les applications (IDNA) . IETF . seconde. A.2. doi : 10.17487/RFC5892 . RFC 5892 . Consulté le 4 septembre 2019 .
  16. ^ "Annexe standard Unicode #44, Base de données de caractères Unicode" .
  17. ^ un b "Unicode Standard Annex #9: Unicode Bidirectional Algorithm" . La norme Unicode . 2017-05-14.
  18. ^ "Annexe standard Unicode #24: Propriété de script Unicode" . La norme Unicode . 2015-06-01.
  19. ^ A b c d e f g h i "Nouvelles proposées scripts" . Consortium Unicode . 2018-05-25 . Récupéré le 2019-09-12 .
  20. ^ Michael Everson (1997-09-18). "Proposition d'encoder le klingon dans le plan 1 de l'ISO/IEC 10646-2" .
  21. ^ Le Consortium Unicode (2001-08-14). "Procès-verbal approuvé de la réunion conjointe UTC 87 / L2 184" .
  22. ^ "Moyen-Orient-II, Écritures anciennes" (PDF) . 14.0.0. Le Consortium Unicodetitle=Scripts du Moyen-Orient II . Récupéré le 2021-09-15 .
  23. ^ "UCD: Âge Dérivé" . Base de données de caractères Unicode . Consortium Unicode. 2021-07-10.
  24. ^ "Politiques de stabilité de codage de caractères Unicode" . Unicode . Consortium Unicode . 2017-06-23 . Récupéré le 2021-07-25 . Une fois qu'un caractère est encodé, il ne sera ni déplacé ni supprimé.
  25. ^ « 3.4 : Caractères et codage, D13 : Caractère obsolète » (PDF) . La norme Unicode, version 14.0 . Mountain View : Consortium Unicode . 2021-09-14. ISBN 9781936213-290. Récupéré le 2021-09-15 .
  26. ^ "PropList-14.0.0.txt" . Unicode . Consortium Unicode . 2021-08-12 . Récupéré le 2021-09-15 .
  27. ^ "Chapitre 23.3: Caractères de format obsolètes" (PDF) . La norme Unicode, version 13.0 . Mountain View : Consortium Unicode . 2020-03-10. ISBN 9781936213269. Récupéré le 2021-07-25 .
  28. ^ "23.9 : Caractères de balise, utilisation déconseillée pour le balisage linguistique" (PDF) . La norme Unicode, version 13.0 . Mountain View : Consortium Unicode . 2020-03-10. ISBN 9781936213269. Récupéré le 2021-07-25 .