From: Aguero, Dimitri (dimitri.aguero@fr.unisys.com)
Date: 20/09/2001 - 15:37
Bonsoir,
Je continue mon exploration du monde XML, et du coup, je me suis mis à
reflechir au cas suivant:
Quelques langues asiatiques utilisent plus d'un octet pour encoder un
caractère.
Supposons que nous prenons le Chinois BIG-5 qui en utilise 4, et supposons
que par malheur, un caractère utilisé dans un document XML est composé des
quatre octets suivants (en decimal):
60 65 62 62
Pas de chance, ce caractère correspond exactement à la sequence:
< A > >
ce qui ne manquerait pas de confondre le parser.
Comment fait notre brave XML pour encoder ces documents sans alors tomber
dans le piège des caractères multibytes ?
Est-ce que tout le document XML a chaque caractère encodé sur 4 octets ? Ou
bien on traduit les caractères chinois dans un format special avant de les
stocker dans le document XML ?
Salutations,
Dimitri
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 11:06 UTC
webmaster@xmlfr.org
|