On jeu, 2005-06-16 at 11:53 +0200, Frédéric Glorieux wrote:
> > D'une manière générale, je ne suis pas partisan de l'utilisation de
> > définitions différentes des types d'éléments en fonction du contexte :
> > ces redéfinitions compliquent beaucoup la compréhension d'un vocabulaire
> > XML. Par contre dans le cas particulier que vous citez, elles semblent
> > assez légitimes.
>
> Où l'on voit que les espaces de noms sont spécifiés depuis longtemps,
> mais qu'il n'est pas si facile de factoriser proprement les sémantiques.
>
> On pourrait voir d'autres cas de ce genre
>
> Un enregistrement DC avec 2 relations obligatoires vers une version pdf,
> et une version html, en utilisant quelque chose comme <dcq:hasFormat
> dc:format="text/html"/> et <dcq:hasFormat dc:format="application/pdf"/>.
>
> Un article xhtml un peut contraint dans le genre
>
> <body>
> <h1/>
> <p class="abstract"/>
> <p class="introduction"/>
> <!-- blocs optionnels répétables -->
> <p class="conclusion"/>
> </body>
Oui, c'est l'utilisation des langages de schéma pour vérifier
l'utilisation des classes HTML (ou des styles OpenOffice ou autres)
serait très intéressante.
Malheureusement, on se heurte là à une des rares limitations de RELAX NG
qui interdit les redéfinitions d'élément dans les patterns "interleave"
qui sont utilisés pour définir les contenus mixes (les algorithmes
actuellement utilisés par le validateurs pourraient exploser si c'était
permis) et cela limite un peu l'intérêt de la chose.
> Cela évite de créer son propre espace de noms ou de générer une
> personnalisation de docbook ou tei pour quelques paragraphes.
>
> > Effectivement et dans ce cas, vous pourriez même exclure les valeurs
> > "fr" et "en" :
> >
> > element record {
> > element dc:title {
> > attribute xml:lang { "fr" }
> > },
> > element dc:title {
> > attribute xml:lang { "en" }
> > },
> > element dc:title {
> > attribute xml:lang { xsd:language - ("fr" | "en") }
> > } *
> > }
>
> Je note le type xsd:language, des outils Relax NG en tirent parti ?
Oui, la plupart sinon tous les outils RNG supportent la bibliothèque de
types de données W3C XML Schema.
> > Pour être tout à fait honnête, il est possible avec W3C XML Schema de
> > vérifier (en utilisant xs:unique) que vous ne répétez pas une valeur de
> > xml:lang et cela est impossible avec RELAX NG.
>
> Là, je pense que l'on peut laisser ça aux règles d'utilisation du
> schéma, les conséquences applicatives sont moins importantes.
Cela dépend sans doute de votre application...
> > PS: RELAX NG et Schematron sont maintenant des standards ISO.
>
> Schematron aussi ? Très intéressant.
>
> J'aurais eu la tentation de laisser la validation conviviale (les
> messages) à une application spécifique.
Schematron peut, dans une certaine mesure, être cette application
spécifique et conviviale!
> > Ou à Schematron qui peut faire ce type de contrôle "métiers" en
> > complément d'une DTD, un schéma W3C XML Schema ou RELAX NG.
>
> Pour le cas initial (titre français, titre anglais, et d'autres si vous
> voulez), cela semble trop important pour ne pas l'inscrire dans un
> langage de schéma.
>
> A schematron, je vois d'autres choses très utiles à demander. Peut-être
> l'avez vous remarqué, mais dans un dictionnaire (ou un catalogue de
> bibliothèque comme ici <http://catalogue.bnf.fr/>), quand vous cherchez
> "Le Rouge et le Noir", ou "Le Capital", vous les trouvez respectivement
> aux lettres "R" et "C". Cela demande à inscrire d'une manière ou d'une
> autre quelque chose comme "Rouge et le Noir (le)", pour éviter les
> listes alphabétiques de titres avec 70% qui commencent par le, la, les,
> un, une... (tradition bibliographique pluri-séculaire, inscrite dans les
> formats MARC depuis les années 70)
>
> J'imagine que cela pourrait faire l'objet d'une feuille schematron
> "warning", avertissant l'auteur que son titre commence par le, la,
> les... sachant que l'on ne peut pas non plus l'interdire, car il y a
> certainement des cas où cela s'impose.
Effectivement.
J'utilise Schematron pour faire des contrôles très variés sur les
articles au format NITF que nous publions sur XMLfr. Cela permet par
exemple de regarder si un même mot n'est pas utilisé dans deux balises
sémantiques différentes (il est rare qu'un même nom soit celui d'une
personne et d'un objet), de regarder s'il y a des caractères de
ponctuations à l'intérieur des balises sémantiques de regarder combien
il y a de balises sémantiques, ...
Tout ces messages sont considérés comme des avertissements et ne
bloquent pas la publication mais ils permettent de détecter pas mal
d'erreurs.
> > Dans ce cas on écrirait :
> >
> > <sch:schema xmlns:sch="http://www.ascc.net/xml/schematron">
> > <sch:pattern name="languages">
> > <sch:rule context="record">
> > <sch:assert test="dc:title[1]/@xml:lang = 'fr'">Le premier élément dc:title doit être en
> > français</sch:assert>
> > <sch:assert test="dc:title[2]/@xml:lang = 'en'">Le deuxième élément dc:title doit être
> > en anglais</sch:assert>
> > </sch:rule>
> > </sch:pattern>
> > </sch:schema>
> >
> > Ce n'est pas plus compliqué et on maîtrise totalement les messages
> > d'erreurs qui sont affichés.
>
> Je note que les messages peuvent être localisés
> <http://www.schematron.com/iso/P27.html>
Oui!
Eric
--
Lisez-moi sur XMLfr.
http://xmlfr.org/index/person/eric+van+der+vlist/
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Received on Thu Jun 16 12:10:01 2005