Les discussions récentes sur xml-dev et ailleurs ont illustré, une nouvelle fois, la complexité des atomes composant les documents XML: les caractères Unicode. Simon St. Laurent a annoncé la version 0.4 de Gorille, a un outil aidant les développeurs de processeurs et d'applications Java/XML de valider leurs algorithmes de traitement de caractères.
Par Uche Ogbuji,
xmlhack - traduit par Eric van der Vlist,
Dyomedea (vdv@dyomedea.com).
vendredi 1er février 2002
Gorille utilise un format XML pour spécifier les listes de caractères en se référant aux productions définies dans les spécifications XML. Gorille 0.4 supporte XML 1.0 ainsi que la très controversée première version de travail de XML 1.1 (plus connue sous le noms de "Blueberry"). Il permet également d'utiliser des sous-ensembles de caractères autorisés tels que l'ASCII par exemple. La page d'accueil de Gorille explique:
"Gorille s'appuie entièrement sur le support intégré à Java des chaînes et caractères Unicode bien qu'il n'utilise aucune des propriétés Unicode spécifiques fournies par java.lang.Character et java.lang.Character.UnicodeBlock. A partir de la version 0.3, Gorille supporte les Surrogates Area (13.4) Unicode (U+D800-U+DFFF) et les caractères supérieurs à 10000 représentés par des surrogate pairs (3.7). Java ne reconnaît pas ses caractères mais permet leur inclusion dans des chaînes de caractères en tant que code points UTF-16."
L'annonce de la version 0.4 précise:
"Je pense que la fonctionnalité de Gorille est maintenant complète bien que le code puissent certainement être plus testé et documenté. Les versions ultérieures se concentreront sans doute sur l'ajout de tests, de documentation et l'amélioration de l'interface ligne de commande."
Gorille est distribué sous licence open source "MPL" et hébergé sur SourceForge.
Autres articles:
Copyright 2002,
Uche Ogbuji (auteur) et Eric van der Vlist (traducteur).
|