IXIASOFT annonce l'intégration de Nstein à son serveur TEXTML sous forme d'un module de catégorisation automatique de documents.
Eric van der Vlist,
Dyomedea (vdv@dyomedea.com).
vendredi 21 mars 2003
Annoncée et démontrée lors de Documation, le module de catégorisation de TEXTML fait appel à la technologie linguistique développée par Nstein pour ajouter automatiquement des balises sémantiques identifiant noms propres, entités et lieu géographiques et classifiant les documents suivant la taxonomie IPTC (International Press & Telecommunication Council).
Les balises sémantiques sont physiquement ajoutées au document et peuvent ensuite être manipulées de manière classique : elles sont visibles lors des éditions ultérieures du documents et utilisables de la même manière que si elles avaient été incluses manuellement. Cette intégration permet donc d'automatiser la création de documents "sémantiques" sans modifier la structure des applications qui y font appel et en utilisant toutes les possibilités du langage de requête TEXTML.
Une des particularités de TEXTML est en effet de ne pas mettre l'accent sur XQuery considéré comme inadapté aux recherches plein texte (primordiales pour la cible visée par IXIASOFT) et de privilégier un langage de requête maison dont les principales caractéristiques sont:
- une syntaxe purement XML,
- une grande simplicité,
- une utilisation indirecte de XPath par l'intermédiaire de "clés" permettant d'adresser de manière homogène des documents ayant des structures différentes.
IXIASOFT indique néanmoins que lorsque XQuery sera stabilisé, les deux langages de requêtes seront supportés.
Autres articles:
Copyright 2003,
Eric van der Vlist.
|