Nous déplorons habituellement que pour la plupart des traitements de texte, seule la présentation compte ce qui rend aléatoire l'analyse de la structure des documents par nos applications. Prenant le contre-pied de cette constatation, David Slocombe a expliqué à XML Europe 2002 comment la présentation peut au contraire être lue par le convertisseur Exegenix comme une convention universelle pour structurer les documents.
Eric van der Vlist,
Dyomedea (vdv@dyomedea.com).
lundi 27 mai 2002 Les idées qui se cachent derrière l'approche d' Exegenix sont simples: "de la même manière que nous ne nous attendons pas à ce que des gens lisent directement des documents balisés en XML, nous ne devrions pas non plus nous attendre à ce qu'ils en écrivent" et "si des êtres humains peuvent comprendre la structure des documents en jetant un coup d'oeil à sa présentation en deux dimensions, il n'y a pas de raison que les ordinateurs ne puissent pas le faire".
En partant de là, la société a développé un convertisseur qui fait une analyse en deux dimensions de documents PDF ou Postscript pour générer des documents XML structurés sans faire aucune hypothèse sur les outils et formats utilisés pour les générer. Pendant sa présentation et démonstration, David Slocombe a également expliqué que les tests qu'ils avaient faits montraient que les conventions typographiques utilisées pour présenter les documents semblaient être à la fois universelles et stables dans le temps --une propriété loin d'être partagée par les outils et langages de balisage utilisés pour les produire.
L'avantage principal de cette approche est que pour le convertisseur tout comme pour un lecteur humain, seule la présentation compte et qu'elle détectera un "titre de niveau 1" quelque soit le procédé utilisé par l'auteur pour produire son effet visuel au contraire des approches purement "balisage" qui s'appuient sur la manière dont l'auteur a produit cet effet.
Aussi surprenant que cela paraisse, il se pourrait bien que la meilleur manière de convertir vos documents word en DocBook consiste à commencer par les imprimer en Postscript!
Autres articles:
Copyright 2002,
Eric van der Vlist.
|