Cliquez ici.
Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.

 
Cliquez ici.

dev@xmlfr.org : liste de discussion des développeurs du site XMLfr

[dev@xmlfr.org] Première(naïve) proposition d'utilisation de Lucene

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 23/06/2004 - 09:21


Bonjour,

Un petit bout de code vaut mieux qu'un long discours et je viens de
publier une première proposition pour utiliser Lucene sur XMLfr :

http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/

Pour l'instant, il s'agit de deux utilitaires ligne de commande (Indexer
et Search) qui permettent respectivement d'indexer un jeu de documents
XML au format NITF et d'effectuer des recherches.

J'ai voulu proposer quelque chose de plus léger que les pipelines
d'indexation de SDX et l'indexeur (XmlAnalyser.java) est écrit sous
forme d'un récepteur SAX paramétrable de la manière suivante :

mappings.put("/nitf", new FieldType("contenu", FieldType.UNSTORED));
mappings.put("hedline/hl1", new FieldType("titre1", FieldType.TEXT));
mappings.put("hedline/hl2", new FieldType("titre2", FieldType.TEXT));
mappings.put(
        "dateline/story.date/chron/@norm",
        new FieldType("date", FieldType.DATE));
mappings.put(
        "dateline/story.date/@norm",
        new FieldType("date", FieldType.DATE));

Ces instructions indiquent que tout les textes sous l'élément "/nitf"
seront indexés dans un champ de type "UNSTORED" appelé "contenu", que
les textes sous les éléments hedline/hl1 et hedline/hl2 seront stockés
dans des champs de type TEXT nommés respectivement "titre1" et "titre2"
et que les attributs dateline/story.date/chron/@norm et
dateline/story.date/@norm seront stockés dans des champs de type DATE
nommés "date".

Les chemins sont du simili XPath (je ne me suis pas (encore?) ennuyé à
supporter les espaces de noms).

Ce paramétrage doit pouvoir être relativement facilement étendu pour
indexer les documents RSS dans lesquels sont stockées les brèves.

L'indexage des archives de mails actuellement en HTML viendra ensuite.

Après indexation, on peut rechercher des choses simples, par exemple
"edifrance" mais également tirer partie des différents champs, par
exemple "titre2:microsoft date:[20030101 TO 20031231]" pour les articles
contenant "microsoft" dans le titre de niveau 2 et publiés en 2003.

Est-ce que nos experts Lucene peuvent jeter un coup d'oeil et me dire ce
qu'ils pensent de tout cela?

Merci,

Eric

PS: pour faire tourner cela chez vous, il vous faut Xerces, Lucene et
Snowball.

-- 
Rendez-vous à Paris (Web Services Convention).
                                                http://masl.to?C12E25728
Upcoming XML schema languages tutorial:
 - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
(ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie au developpement du site XMLfr.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a dev-request@xmlfr.org (mailto:dev-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC

webmaster@xmlfr.org

 

dev@xmlfr.org

Liste de discussion de la communauté des développeurs de XMLfr.

Cette liste publique est dédiée aux discussions concernant la conception et le développement technique du site XMLfr.



Cliquez ici.
Cliquez ici.

Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org