MARC-8 - MARC-8
Le jeu de caractères MARC-8 est une norme MARC utilisée dans les notices de bibliothèque MARC-21 . Les formats MARC sont des normes pour la représentation et la communication d'informations bibliographiques et connexes sous une forme lisible par machine, et ils sont fréquemment utilisés dans les systèmes de bases de données des bibliothèques . L' encodage de caractères maintenant connu sous le nom de MARC-8 a été introduit en 1968 dans le cadre du format MARC. Basée à l'origine sur l' alphabet latin , de 1979 à 1983, l' initiative JACKPHY a élargi le répertoire pour inclure des caractères japonais, arabes, chinois et hébreux (entre autres), avec l'ajout ultérieur d'écritures cyrilliques et grecques. Si un caractère n'est pas représentable dans MARC-8 d'une notice MARC-21, alors UTF-8 doit être utilisé à la place. UTF-8 prend en charge beaucoup plus de caractères que MARC-8, qui est rarement utilisé en dehors des données de bibliothèque.
Détails techniques
MARC-8 utilise une variante de l' encodage ISO-2022 . Il utilise des caractères d'échappement pour représenter des caractères au-delà de la plage de caractères ASCII 7 bits .
Il utilise généralement la même logique BiDi commande en Unicode .
Les caractères de combinaison et les caractères de base sont dans un ordre différent de celui utilisé dans Unicode. Voici quelques exemples. Les caractères de combinaison ne sont pas toujours stockés dans l'ordre inverse de la normalisation Unicode . La norme MARC-21 décrit plus en détail les problèmes de conversion MARC-8 Unicode.
Affiché
Personnage |
Unicode | MARC-8 |
---|---|---|
une | une | une |
une | une | une |
Structure du code
Le codage ISO/IEC 2022 spécifie un mappage à deux couches entre les codes de caractères et les caractères affichés. Dans MARC-8, les codes de caractères de la plage graphique ASCII 7 bits (0x20-0x7F) sont appelés codes "G0", tandis que les codes de la plage "haute ASCII" (0xA0-0xFF) sont appelés "G1 " codes. Les jeux de caractères graphiques sont désignés et invoqués au moyen d'une séquence d'échappement à octets multiples constituée du caractère d'échappement, d'une séquence de caractères intermédiaire et d'un caractère final sous la forme ESC I F .
Le tableau suivant montre l'octet intermédiaire après l'octet ESC (hexadécimal 1B) et les caractères ASCII correspondants.
Ensemble G0 | Ensemble G1 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
Norme ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
ISO-2022 alternatif (ensembles 63 + 16 supplémentaires) | 2C | , | 24 2C | $, | 2D | - | 24 2D | $- |
Le tableau suivant montre les derniers octets en hexadécimal et les caractères ASCII correspondants après les octets intermédiaires.
Octets | Personnages | Nom | Taper | Commenter |
---|---|---|---|---|
31 | 1 | Chinois, japonais, coréen ( EACC ) | MBCS | |
32 | 2 | Hébreu de base | SBCS | |
33 | 3 | Arabe de base | SBCS | |
34 | 4 | Arabe étendu | SBCS | |
42 | B | Latin de base ( ASCII ) | SBCS | |
21 45 | !E | Latin étendu ( ANSEL ) | SBCS | Le 21(hex) est techniquement un deuxième octet du segment intermédiaire de cette séquence d'échappement. |
4E | N | Cyrillique de base | SBCS | |
51 | Q | Cyrillique étendu | SBCS | |
53 | S | Grec de base | SBCS |
L'EACC est le seul codage multi-octets de MARC-8, il code chaque caractère CJK sur trois octets ASCII.
Par exemple, pour coder le caractère U+4EBA CJK (人), vous aurez besoin des octets suivants
\x1B\x24\x31\x21\x30\x64
Le \x1B\x24\x31 bascule vers EACC/CJK, et le \x21\x30\x64 correspond au U+4EBA.
Extension d'ensemble personnalisé
En plus des jeux de caractères ISO-2022, les jeux personnalisés suivants sont également disponibles. La désignation de l'octet suit l'octet d'échappement (hexadécimal 1B). Il n'y a pas d'octet intermédiaire.
Octets | Personnages | Nom | Taper | Commenter |
---|---|---|---|---|
62 | b | Ensemble d'indices | SBCS | |
67 | g | Ensemble de symboles grecs | SBCS | Les caractères alpha, bêta et gamma ne sont normalement pas mappés en aller-retour vers Unicode. |
70 | p | Jeu d'exposants | SBCS | |
73 | s | Latin de base ( ASCII ) | SBCS |
Les références
- ^ "Jeux de caractères : Introduction : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les médias d'échange (Bibliothèque du Congrès)" .
- ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .
- ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .
- ^ "Ensembles de caractères : Environnement de codage MARC-8 : Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange (Bibliothèque du Congrès)" .
Liens externes
- Spécifications MARC 21 pour la structure d'enregistrement, les jeux de caractères et les supports d'échange - La norme MARC-8 officielle telle que maintenue par la Bibliothèque du Congrès des États-Unis