From: François Yergeau (francois@yergeau.com)
Date: 01/06/2004 - 14:47
Bonjour Eric,
Eric van der Vlist a écrit :
> (X)HTML traite pourtant les espaces de la même manière que les retours à
> la ligne (sauf dans les éléments "pre" ou CSS spécification explicite)
Justement non. La recommendation XHTML 1.1 fut la première à traiter ce
sujet en détails. Cf.
http://www.w3.org/TR/2001/REC-xhtml-modularization-20010410/conformance.html#s_conform_user_agent.
Ça dit notamment (hors <pre> ou équivalent CSS) :
« LINE FEED characters must be converted into one of the following
characters: a SPACE character, a ZERO WIDTH SPACE character (​),
or no character (i.e. removed). The choice of the resulting character is
user agent dependent and is conditioned by the script property of the
characters preceding and following the LINE FEED character. »
Ce paragraphe reflète la pratique établie des navigateurs HTML depuis
qu'ils traitent autre chose que des langues occidentales (milieu des
années 90). Le fait que ce soit « user agent dependent » montre aussi
que ce traitement est du ressort de l'application, pas du processeur XML
ou d'un quelconque validateur en cours de route.
> et c'est également l'attente des développeurs dans la majorité des
> applications que je vois (mais je n'ai pas d'expérience des langues
> asiatiques).
Des développeurs occidentaux, oui. Mais dès que l'application
s'exporte, il faut changer le schéma et reporter le traitement du blanc
au code applicatif lui-même dès lors que les données sont en langue
naturelle.
> Hmmm.... Le nom xs:token est au contraire un faux ami puisqu'il ne
> s'agit pas d'un "jeton" au sens "programmatique" mais d'une chaîne de
> caractères prête à être découpée en jetons parce que l'on a "normalisé"
> les espaces.
Tout à fait vrai, j'ai été un peu vite. Mais il s'agit toujours de
découpage en jetons programmatiques, ce qui ne correspond pas au
découpage en mots (« l'heure » : 2 mots, un jeton; encore pire en
langues asiatiques) et en lignes du texte en langue naturelle.
> mais sur la très grandes majorité des schémas W3C XML Schema
> qui me passent devant les yeux, xs:string est utilisé de manière
> inappropriée uniquement parce que les auteurs ont pensé à tort que les
> espaces étaient interdits dans xs:token (qu'ils ont supposé devoir être
> un "jeton" et non une chaîne prête à être découpée en jetons).
Hmmm, c'est une affirmation risquée. Est-ce qu'au moins certains de ces
auteurs n'ont pas plutôt pensé -- à raison -- que xs:token détruit de
l'information nécessaire au traitement ultérieur du contenu ? Et choisi
xs:string sciemment alors que xs:token aurait été une erreur ?
Cordialement,
--
François
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 30/06/2004 - 08:32 UTC
webmaster@xmlfr.org
|