dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Première(naïve) pr oposition d'utilisation de Lucene
From: Frédéric Laurent (fl@opikanoba.org)
Date: 28/06/2004 - 13:05
Eric van der Vlist wrote:
> Bonjour,
>
> Un petit bout de code vaut mieux qu'un long discours et je viens de
> publier une première proposition pour utiliser Lucene sur XMLfr :
>
> http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/
>
> Pour l'instant, il s'agit de deux utilitaires ligne de commande (Indexer
> et Search) qui permettent respectivement d'indexer un jeu de documents
> XML au format NITF et d'effectuer des recherches.
>
> J'ai voulu proposer quelque chose de plus léger que les pipelines
> d'indexation de SDX et l'indexeur (XmlAnalyser.java) est écrit sous
> forme d'un récepteur SAX paramétrable de la manière suivante :
>
> mappings.put("/nitf", new FieldType("contenu", FieldType.UNSTORED));
> mappings.put("hedline/hl1", new FieldType("titre1", FieldType.TEXT));
> mappings.put("hedline/hl2", new FieldType("titre2", FieldType.TEXT));
> mappings.put(
> "dateline/story.date/chron/@norm",
> new FieldType("date", FieldType.DATE));
> mappings.put(
> "dateline/story.date/@norm",
> new FieldType("date", FieldType.DATE));
>
> Ces instructions indiquent que tout les textes sous l'élément "/nitf"
> seront indexés dans un champ de type "UNSTORED" appelé "contenu", que
> les textes sous les éléments hedline/hl1 et hedline/hl2 seront stockés
> dans des champs de type TEXT nommés respectivement "titre1" et "titre2"
> et que les attributs dateline/story.date/chron/@norm et
> dateline/story.date/@norm seront stockés dans des champs de type DATE
> nommés "date".
je trouve que titre1 et titre2 ne sont pas très bien choisis, et qu'ils
sont difficiles à exploiter pour l'utilisateur
titre et description seraient sans doute plus explicites
car hedline/hl2 et item/description correspondent bien à une description
>
> Les chemins sont du simili XPath (je ne me suis pas (encore?) ennuyé à
> supporter les espaces de noms).
pourquoi utiliser un Handler sax ?
pour ne pas faire un ensemble de requetes Xpath et indexer les
résultats ? ça me parait plus simple...
le cas des balises imbriquées est gérée par exemple,
<hedline><hl1>le <org>W3C</org> ...</hl1></hedline> ?
car le terme W3C n'est pas dans hedline/hl1...
>
> Ce paramétrage doit pouvoir être relativement facilement étendu pour
> indexer les documents RSS dans lesquels sont stockées les brèves.
>
> L'indexage des archives de mails actuellement en HTML viendra ensuite.
>
> Après indexation, on peut rechercher des choses simples, par exemple
> "edifrance" mais également tirer partie des différents champs, par
> exemple "titre2:microsoft date:[20030101 TO 20031231]" pour les articles
> contenant "microsoft" dans le titre de niveau 2 et publiés en 2003.
>
> Est-ce que nos experts Lucene peuvent jeter un coup d'oeil et me dire ce
> qu'ils pensent de tout cela?
>
> Merci,
>
> Eric
>
> PS: pour faire tourner cela chez vous, il vous faut Xerces, Lucene et
> Snowball.
oui mais il faut aussi une base de documents à indexer...
--
XPath free testing software : http://www.opikanoba.org/lantern/
Frédéric Laurent http://www.opikanoba.org
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|