Windows-1252 - Windows-1252

Windows-1252
Windows-1252-infobox.svg
MIME / IANA fenêtres-1252
Pseudo(s) cp1252 ( page de codes 1252)
Langue(s) Fondamentalement, tous pris en charge par ISO/IEC 8859-1, par exemple anglais , irlandais, italien, norvégien, portugais, espagnol, suédois. Plus aussi l'allemand, le finnois, l'islandais, le français, le néerlandais (à l'exception du caractère IJ) et le slovène (à l'exception du caractère č ).
Créé par Microsoft
Standard Norme de codage WHATWG
Classification ASCII étendu , Windows-125x
S'étend ISO 8859-1 (hors contrôles C1)
Transforme / Encode ISO 8859-15

Windows-1252 ou CP-1252 ( page de codes 1252) est un codage de caractères à un octet de l' alphabet latin , utilisé par défaut dans les composants hérités de Microsoft Windows pour l'anglais et de nombreuses langues européennes, notamment l'espagnol, le français et l'allemand.

Il s'agit de l'encodage de caractères à un octet le plus utilisé au monde ( au moins sur les sites Web ). En octobre 2021, 0,3 % de tous les sites Web déclaraient utiliser Windows-1252, mais en même temps 1,2 % utilisaient ISO 8859-1 (alors que seulement 5 des 1000 premiers sites Web), qui selon les normes HTML5 devraient être considérés comme le même encodage. , de sorte que 1,5% des sites Web utilisent effectivement Windows-1252. Les pages déclarées comme US- ASCII comptent également comme ce jeu de caractères. Un sous-ensemble inconnu (mais probablement volumineux) d'autres pages n'utilise que la partie ASCII de l'UTF-8, ou uniquement les codes correspondant à Windows-1252 à partir de leur jeu de caractères déclaré, et pourrait également être compté.

Selon les pays, l'utilisation peut être beaucoup plus élevée que la moyenne mondiale, par exemple pour l'Allemagne, selon l'utilisation du site Web (y compris ISO-8859-1) à 5,6%.

Des détails

Ce codage de caractères est un sur - ensemble de l' ISO 8859-1 en termes de caractères imprimables, mais diffère de l'ISO-8859-1 de l'IANA en utilisant des caractères affichables plutôt que des caractères de contrôle dans la plage 80 à 9F ( hex ). Les caractères supplémentaires notables incluent les guillemets bouclés et tous les caractères imprimables qui sont dans ISO 8859-15 (à des endroits différents de ISO 8859-15). Il est connu de Windows par le numéro de page de code 1252, et par le nom approuvé par l' IANA "windows-1252".

Il est très courant de mal étiqueter le texte Windows-1252 avec l'étiquette de jeu de caractères ISO-8859-1. Un résultat courant était que toutes les guillemets et apostrophes (produits par des « guillemets intelligents » dans les logiciels de traitement de texte) étaient remplacés par des points d'interrogation ou des cases sur les systèmes d'exploitation non Windows, rendant le texte difficile à lire. La plupart des navigateurs Web et des clients de messagerie modernes traitent le jeu de caractères de type de média ISO-8859-1 comme Windows-1252 pour s'adapter à une telle erreur d'étiquetage. Il s'agit désormais d'un comportement standard dans la spécification HTML5, qui exige que les documents annoncés comme ISO-8859-1 soient réellement analysés avec l'encodage Windows-1252.

Historiquement, l'expression « page de code ANSI » était utilisée dans Windows pour désigner les encodages non-DOS ; l'intention était que la plupart d'entre elles soient des normes ANSI telles que ISO-8859-1 . Même si Windows-1252 a été la première page de code et de loin la plus populaire nommée ainsi dans le langage Microsoft Windows, la page de code n'a jamais été une norme ANSI. Microsoft explique : « Le terme ANSI tel qu'il est utilisé pour désigner les pages de codes Windows est une référence historique, mais c'est aujourd'hui un terme impropre qui continue de persister dans la communauté Windows.

Dans les packages LaTeX , CP-1252 est appelé "ansinew".

IBM utilise la page de codes 1252 ( CCSID 1252 et signe euro étendu CCSID 5348) pour Windows-1252.

Il est appelé "WE8MSWIN1252" par Oracle .

Jeu de caractères

Le tableau suivant montre Windows-1252. Chaque caractère est affiché avec son équivalent Unicode basé sur le mappage Unicode.org de Windows-1252 avec le "meilleur ajustement". Les nombres décimaux (stylisés 0123 ) sont le code Alt qui peut être utilisé pour les taper sur les systèmes Windows. Les différences par rapport à la norme ISO-8859-1 sont affichées avec un ombrage plus foncé au-dessus de leurs couleurs de légende.

Fenêtres-1252 (CP1252)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
0_
0
NUL
0000
0
SOH
0001
01
STX
0002
02
ETX
0003
03
EOT
0004
04
ENQ
0005
05
ACK
0006
06
BEL
0007
07
BS
0008
08
HT
0009
09
LF
000A
010
VT
000B
011
FF
000C
012
CR
000D
013
SO
000E
014
SI
000F
015
1_
16
DLE
0010
016
DC1
0011
017
DC2
0012
018
DC3
0013
019
DC4
0014
020
NAK
0015
021
SYN
0016
022
ETB
0017
023
CAN
0018
024
EM
0019
025
SUB
001A
026
ESC
001B
027
FS
001C
028
GS
001D
029
RS
001E
030
NOUS
001F
031
2_
32
SP
0020
32
!
0021
33
"
0022
34
#
0023
35
0024 $ 36

%
0025
37
&
0026
38
'
0027
39
(
0028
40
)
0029
41
*
002A
42
+
002B
43
,
002C
44
-
002D
45
.
002E
46
/
002F
47
3_
48
0
0030
48
1
0031
49
2
0032
50
3
0033
51
4
0034
52
5
0035
53
6
0036
54
7
0037
55
8
0038
56
9
0039
57
:
003A
58
;
003B
59
<
003C
60
=
003D
61
>
003E
62
?
003F
63
4_
64
@
0040
64
A
0041
65
B
0042
66
C
0043
67
D
0044
68
E
0045
69
F
0046
70
G
0047
71
H
0048
72
Je
0049
73
J
004A
74
K
004B
75
L
004C
76
M
004D
77
N
004E
78
O
004F
79
5_
80
P
0050
80
Q
0051
81
R
0052
82
S
0053
83
T
0054
84
U
0055
85
V
0056
86
W
0057
87
X
0058
88
Y
0059
89
Z
005A
90
[
005B
91
\
005C
92
]
005D
93
^
005E
94
_
005F
95
6_
96
`
0060
96
un
0061
97
b
0062
98
c
0063
99
d
0064
100
e
0065
101
f
0066
102
g
0 067
103
h
0068
104
je
0069
105
j
006A
106
k
006B
107
l
006C
108
m
006D
109
n
006E
110
o
006F
111
7_
112
p
0070
112
q
0071
113
r
0 072
114
s
0073
115
t
0074
116
ou
0075
117
v
0 076
118
avec
0077
119
x
0 078
120
et
0079
121
z
007A
122
{
007B
123
|
007C
124
}
007D
125
~
007E
126
DEL
007F
0127
8_
128

20AC
0128
  ,
201A
0130
ƒ
0192
0131

201E
0132

2026
0133

2020
0 134

2021
0135
02C6 0136


ici à 2030
0137
©
0,16 mille
0 138
<
2039
0 139
Œ
0152
0,14 mille
  Ž
017D
0142
 
9_
144
  '
2018
0145
'
2019
0146
"
201C
0147

201D
0148

2022
0149

2013
0150

2014
0151

02DC
0152

2122
0153
š
0161
0 154

203A
0155
œ
0153
0156
  ž
017E
0158
Ÿ
0178
0159
A_
160
NBSP
00A0
0160
¡
00A1
0161
¢
00A2
0162
£
00A3
0163
¤
00A4
0164
¥
00A5
0165
|
00A6
0166
§
00A7
0167
¨
00A8
0168
©
00A9
0169
ª
00AA
0170
«
00AB
0171
¬
00AC
0172
SHY
00AD
0173
®
00AE
0174
¯
00AF
0175
B_
176
°
00B0
0176
±
00B1
0177
²
00B2
0178
³
00B3
0179
´
00B4
0180
μ
00B5
0181

00B6
0182
·
00B7
0183
Ļ
00B8
0184
¹
00B9
0185
º
00BA
0186
»
00BB
0187
¼
00BC
0188
½
00BD
0189
¾
00BE
0190
¿
00BF
0191
C_
192
À
00C0
0192
Á
00C1
0193
Â
00C2
0194
à
00C3
0195
Ä
00C4
0196
Å
00C5
0197
Æ
00C6
0198
Ç
00C7
0199
È
00C8
0200
É
00C9
0201
Ê
00CA
0202
Ë
00CB
0203
Ì
00CC
0204
Í
00CD
0205
Î
00CE
0206
Ï
00CF
0207
D_
208
Ð
00D0
0208
Ñ
00D1
0209
Ò
00D2
0210
Ó
00D3
0211
Ô
00D4
0212
Õ
00D5
0213
Ö
00D6
0214
×
00D7
0215
Ø
00D8
0216
Ù
00D9
0217
Ú
00DA
0218
Û
00dB
0219
Ü
00DC
0220
Ý
00DD
0221
Þ
00DE
0222
ß
00DF
0223
E_
224
à
00E0
0224
á
00E1
0225
â
00E2
0226
ã
00E3
0227
à
00E4
0228
å
00E5
0229
æ
00E6
0230
ç
00E7
0231
è
00E8
0232
é
00E9
0233
ê
00EA
0234
ë
00EB
0235
ì
00EC
0236
í
00ED
0237
î
00EE
0238
ï
00EF
0239
F_
240
ð
00F0
0240
ñ
00F1
0241
ò
00F2
0242
ó
00F3
0243
ô
00F4
0244
õ
00F5
0245
ö
00F6
0246
÷
00F7
0247
ø
00F8
0248
ù
00F9
0249
ú
00FA
0250
û
00FB
0251
ü
00FC
0252
ý
00FD
0253
þ
00FE
0254
ÿ
00FF
0255

  Lettre  Nombre  Ponctuation  symbole  Autre  Indéfini

Selon les informations sur les sites Web de Microsoft et du Consortium Unicode, les positions 81, 8D, 8F, 90 et 9D sont inutilisées ; cependant, l'API Windows les MultiByteToWideCharmappe aux codes de contrôle C1 correspondants . Le mappage « meilleur ajustement » documente également ce comportement.

Histoire

  • La première version de la page de codes 1252 utilisée dans Microsoft Windows 1.0 n'avait pas de positions D7 et F7 définies. Tous les caractères dans les plages 80-9F étaient également indéfinis.
  • La deuxième version, utilisée dans Microsoft Windows 2.0, les positions D7, F7, 91 et 92 avaient été définies.
  • La troisième version, utilisée depuis Microsoft Windows 3.1, avait toutes les positions actuelles définies, à l'exception du signe euro et du Z avec paire de caractères caron .
  • La version finale répertoriée ci-dessus a fait ses débuts dans Microsoft Windows 98 et a été portée sur les anciennes versions de Windows avec la mise à jour du symbole de l'euro.

Extensions OS/2

Le système d' exploitation OS/2 prend en charge un codage par le nom de la page de code 1004 ( CCSID 1004) ou "Windows Extended". Cela correspond principalement à la page de codes 1252, à l'exception de certains caractères de contrôle C0 remplacés par des caractères diacritiques . Les différences par rapport à la norme ISO-8859-1 sont affichées avec un ombrage plus foncé au-dessus de leurs couleurs de légende.

Page de codes 1004 (lignes différentes uniquement)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
0_
0
NUL
0000
SOH
0001
STX
0002
ETX
0003
ˉ
02C9
˘
02D8
˙
02D9
BEL
0007
˚
02DA
HT
0009
˝
02DD
˛
02DB
02C7
CR
000D
SO
000E
SI
000F

Extensions MSDOS [rares]

Il existe une page de codes étendue graphique 1252 rarement utilisée, mais utile, où les codes 0x00 à 0x1f permettent le dessin de la boîte tel qu'il est utilisé dans des applications telles que MSDOS Edit et Codeview. L'une des applications permettant d'utiliser cette page de codes était un utilitaire d'image disque d'installation/récupération d'Intel Corporation de la mi/fin 1995. Ces programmes ont été écrits pour ses machines P6 User Test Program (exemple américain). Il était utilisé exclusivement dans sa région d'alors EMEA (Europe, Moyen-Orient et Afrique). Avec le temps, les programmes ont été modifiés pour utiliser la page de code 850.

Page de code étendue graphique 1252
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
0_
0

25CB

25A0

2191

2193

2192

2190

2551

2550

2554

2557

255A

255D

2591

2592

25BA

25C4
1_
16

2502

2500

250C

2510

2514

2518

251C

2524

2534

252C

2666

253C

2588

2584

2580

25AC

Variante Palm OS

Cette variante de Windows-1252 est utilisée par Palm OS 3.5. Python lui donne l' palmosétiquette.

Page de codes Palm OS (différences par rapport à Windows-1252 ombrées)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UNE _B _C _RÉ _E _F
8_
128

20AC
  ,
201A
ƒ
0192

201E

2026

2020

2021
02C6

2030
©
0160
<
2039
Œ
0152

2666

2663

2665
9_
144

2660
'
2018
'
2019
"
201C

201D

2022

2013

2014

02DC

2122
š
0161
œ
0153
  Ÿ
0178

Voir également

Les références

Liens externes