Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.
 Commentaires et questions non techniques.Commentaires et questions techniques.

 
Cliquez ici.

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 20/09/2001 - 16:26


Bonjour,

Aguero, Dimitri wrote:

> Bonsoir,
>
> Je continue mon exploration du monde XML, et du coup, je me suis mis à
> reflechir au cas suivant:
>
> Quelques langues asiatiques utilisent plus d'un octet pour encoder un
> caractère.
> Supposons que nous prenons le Chinois BIG-5 qui en utilise 4, et supposons
> que par malheur, un caractère utilisé dans un document XML est composé des
> quatre octets suivants (en decimal):
>
> 60 65 62 62
>
> Pas de chance, ce caractère correspond exactement à la sequence:
>
> < A > >
>
> ce qui ne manquerait pas de confondre le parser.
>
> Comment fait notre brave XML pour encoder ces documents sans alors tomber
> dans le piège des caractères multibytes ?
>
> Est-ce que tout le document XML a chaque caractère encodé sur 4 octets ? Ou
> bien on traduit les caractères chinois dans un format special avant de les
> stocker dans le document XML ?

Il faut distinguer le document de son "infoset", c'est à dire des
données utiles qu'il contient.

Le document n'est qu'une des multiples représentations possibles d'un
même infoset et c'est le travail du parseur de se débrouiller pour
extraire l'infoset du document.

Au niveau du document, l'encodage est défini dans l'entête XML. Cet
entête a (volontairement) un format très rigide de manière à ce qu'il
puisse servir de repère et permettre au parseur, suivant un algorythme
expliqué dans la recommandation XML 1.0, de "deviner" l'encodage,
quelque soit le nombre d'octets utilisés, pour tous les encodages
supportés par XML.

Dans un même document, un seul encodage peut être utilisé et le problème
ne se pose plus dès que l'entête a pu être analysée. En son absence, le
parseur considère que l'encodage est UTF-8.

Ensuite, au niveau de l'infoset, pour que tout ceci soit transparent
pour les applications, la recommandation conseille l'utilisation d'unicode.

Cordialement,

Eric van der Vlist

>
> Salutations,
> Dimitri

-- 
See you in Scottsdale, Arizona.
      http://xmlconnections.com/xml/xmlfall2001/speakers.asp#evandervlist
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
http://xsltunit.org      http://4xt.org           http://examplotron.org
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie a XML.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a xml-tech-request@xmlfr.org (mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 28/06/2004 - 11:06 UTC

webmaster@xmlfr.org

 

xml tech

Discussions techniques au sujet de XML.

Cette liste est à votre disposition pour discuter en français de tout sujet technique lié à XML.



Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot@online.fr  

Conception, réalisation et hébergement