MARC-8 - MARC-8

Le jeu de caractères MARC-8 est une norme MARC utilisée dans les notices de bibliothèque MARC-21 . Les formats MARC sont des normes pour la représentation et la communication d'informations bibliographiques et connexes sous une forme lisible par machine, et ils sont fréquemment utilisés dans les systèmes de bases de données des bibliothèques . L' encodage de caractères maintenant connu sous le nom de MARC-8 a été introduit en 1968 dans le cadre du format MARC. Basée à l'origine sur l' alphabet latin , de 1979 à 1983, l' initiative JACKPHY ​​a élargi le répertoire pour inclure des caractères japonais, arabes, chinois et hébreux (entre autres), avec l'ajout ultérieur d'écritures cyrilliques et grecques. Si un caractère n'est pas représentable dans MARC-8 d'une notice MARC-21, alors UTF-8 doit être utilisé à la place. UTF-8 prend en charge beaucoup plus de caractères que MARC-8, qui est rarement utilisé en dehors des données de bibliothèque.

Détails techniques

MARC-8 utilise une variante de l' encodage ISO-2022 . Il utilise des caractères d'échappement pour représenter des caractères au-delà de la plage de caractères ASCII 7 bits .

Il utilise généralement la même logique BiDi commande en Unicode .

Les caractères de combinaison et les caractères de base sont dans un ordre différent de celui utilisé dans Unicode. Voici quelques exemples. Les caractères de combinaison ne sont pas toujours stockés dans l'ordre inverse de la normalisation Unicode . La norme MARC-21 décrit plus en détail les problèmes de conversion MARC-8 Unicode.

Affiché

Personnage

Unicode

NFD

MARC-8
une une   une
une une   une

Structure du code

Le codage ISO/IEC 2022 spécifie un mappage à deux couches entre les codes de caractères et les caractères affichés. Dans MARC-8, les codes de caractères de la plage graphique ASCII 7 bits (0x20-0x7F) sont appelés codes "G0", tandis que les codes de la plage "haute ASCII" (0xA0-0xFF) sont appelés "G1 " codes. Les jeux de caractères graphiques sont désignés et invoqués au moyen d'une séquence d'échappement à octets multiples constituée du caractère d'échappement, d'une séquence de caractères intermédiaire et d'un caractère final sous la forme ESC I F .

Le tableau suivant montre l'octet intermédiaire après l'octet ESC (hexadécimal 1B) et les caractères ASCII correspondants.

Octets intermédiaires
Ensemble G0 Ensemble G1
SBCS MBCS SBCS MBCS
Norme ISO-2022 28 ( 24 $ 29 ) 24 29 $)
ISO-2022 alternatif (ensembles 63 + 16 supplémentaires) 2C , 24 2C $, 2D - 24 2D $-

Le tableau suivant montre les derniers octets en hexadécimal et les caractères ASCII correspondants après les octets intermédiaires.

Octets finaux
Octets Personnages Nom Taper Commenter
31 1 Chinois, japonais, coréen ( EACC ) MBCS
32 2 Hébreu de base SBCS
33 3 Arabe de base SBCS
34 4 Arabe étendu SBCS
42 B Latin de base ( ASCII ) SBCS
21 45 !E Latin étendu ( ANSEL ) SBCS Le 21(hex) est techniquement un deuxième octet du segment intermédiaire de cette séquence d'échappement.
4E N Cyrillique de base SBCS
51 Q Cyrillique étendu SBCS
53 S Grec de base SBCS

L'EACC est le seul codage multi-octets de MARC-8, il code chaque caractère CJK sur trois octets ASCII.

Par exemple, pour coder le caractère U+4EBA CJK (人), vous aurez besoin des octets suivants

 \x1B\x24\x31\x21\x30\x64

Le \x1B\x24\x31 bascule vers EACC/CJK, et le \x21\x30\x64 correspond au U+4EBA.

Extension d'ensemble personnalisé

En plus des jeux de caractères ISO-2022, les jeux personnalisés suivants sont également disponibles. La désignation de l'octet suit l'octet d'échappement (hexadécimal 1B). Il n'y a pas d'octet intermédiaire.

Octets finaux
Octets Personnages Nom Taper Commenter
62 b Ensemble d'indices SBCS
67 g Ensemble de symboles grecs SBCS Les caractères alpha, bêta et gamma ne sont normalement pas mappés en aller-retour vers Unicode.
70 p Jeu d'exposants SBCS
73 s Latin de base ( ASCII ) SBCS

Les références

  1. ^ "Jeux de caractères : Introduction : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les médias d'échange (Bibliothèque du Congrès)" .
  2. ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .
  3. ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .
  4. ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .

Liens externes