From: Eric van der Vlist (vdv@dyomedea.com)
Date: 20/09/2001 - 16:26
Bonjour,
Aguero, Dimitri wrote:
> Bonsoir,
>
> Je continue mon exploration du monde XML, et du coup, je me suis mis à
> reflechir au cas suivant:
>
> Quelques langues asiatiques utilisent plus d'un octet pour encoder un
> caractère.
> Supposons que nous prenons le Chinois BIG-5 qui en utilise 4, et supposons
> que par malheur, un caractère utilisé dans un document XML est composé des
> quatre octets suivants (en decimal):
>
> 60 65 62 62
>
> Pas de chance, ce caractère correspond exactement à la sequence:
>
> < A > >
>
> ce qui ne manquerait pas de confondre le parser.
>
> Comment fait notre brave XML pour encoder ces documents sans alors tomber
> dans le piège des caractères multibytes ?
>
> Est-ce que tout le document XML a chaque caractère encodé sur 4 octets ? Ou
> bien on traduit les caractères chinois dans un format special avant de les
> stocker dans le document XML ?
Il faut distinguer le document de son "infoset", c'est à dire des
données utiles qu'il contient.
Le document n'est qu'une des multiples représentations possibles d'un
même infoset et c'est le travail du parseur de se débrouiller pour
extraire l'infoset du document.
Au niveau du document, l'encodage est défini dans l'entête XML. Cet
entête a (volontairement) un format très rigide de manière à ce qu'il
puisse servir de repère et permettre au parseur, suivant un algorythme
expliqué dans la recommandation XML 1.0, de "deviner" l'encodage,
quelque soit le nombre d'octets utilisés, pour tous les encodages
supportés par XML.
Dans un même document, un seul encodage peut être utilisé et le problème
ne se pose plus dès que l'entête a pu être analysée. En son absence, le
parseur considère que l'encodage est UTF-8.
Ensuite, au niveau de l'infoset, pour que tout ceci soit transparent
pour les applications, la recommandation conseille l'utilisation d'unicode.
Cordialement,
Eric van der Vlist
>
> Salutations,
> Dimitri
--
See you in Scottsdale, Arizona.
http://xmlconnections.com/xml/xmlfall2001/speakers.asp#evandervlist
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
http://xsltunit.org http://4xt.org http://examplotron.org
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 11:06 UTC
webmaster@xmlfr.org
|