dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Première(naïve) pr oposition d'utilisation de Lucene]
From: Eric van der Vlist (vdv@dyomedea.com)
Date: 28/06/2004 - 10:42
On Mon, 2004-06-28 at 12:23, Frédéric Glorieux wrote:
>
> >>>http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/
> > Je viens de réparer la base de données et cela devrait aller mieux!
>
> vu
>
>
> > Il faut également dire que sur XMLfr, nous n'avons (en tout cas pour
> > l'instant) pas une grande diversité de type de documents puisque nous
> > avons essentiellement des documents NITF et leur résumé en RSS.
>
> > En fait, j'utilise hl1 comme un titre RSS ou Dublin Core et hl2 comme
> > une description RSS ou Dublin Core. On pourrait donc également appeler
> > ces champs "titre" et "description".
>
> Les résumés d'un article ne sont pas dans le ntif mais ajoutés après ?
Si, mais dans l'élément "hedline", j'ai tendance à utiliser l'élément
"hl2" comme une description de l'article plutôt que suivant à la lettre
la sémantique qui en est donnée dans NITF, c'est à dire : "Headline 2
(sub-headline) A subordinate headline for the article".
> > le déclencheur de l'évaluation de Lucene : avec Lucene, on peut indexer
> > des fragments de documents
>
> Vous voulez dire, un document au sens Lucene peut être constitué de ce
> que l'on veut, aussi bien un extrait de fichier que de plusieurs ?
Oui.
> Sans vouloir pinailler, les "fragments" ou toute autre notion de
> hiérarchie peut être regretté dans ce modèle.
Pouvez-vous détailler ce point?
Je ne suis pas certain de bien comprendre ce que vous voulez dire, mais
il me semble au contraire intéressant de pouvoir sortir de l'équation "1
information = 1 page".
Dans le cas des brèves, si vous regardez par exemple
http://xmlfr.org/actualites/breves/2004-06-24, vous avez toutes les
brèves publiées le 24 juin mais cela n'empêche pas que chaque a son URL,
par exemple http://xmlfr.org/actualites/breves/2004-06-24#T14:56:44:354
et le fait de pouvoir les indexer individuellement me semble
intéressant.
Pour un moteur de recherche qui n'a pas de connaissance de la structure
des sites, 1 information = 1 page me semble incontournable.
Lucene permet de sortir de cette restriction lorsque l'on connait la
structure d'un site et d'avoir une granularité différente ce celle des
pages.
Est-ce que les brèves ne sont pas un exemple pour lequel cette
possibilité est intéressante?
A l'inverse, on pourrait également se demander s'il est intéressant
d'indexer en tant que tel la page 3 d'un document qui serait
incompréhensible sans lecture préalable des pages 1 et 2 (mais je n'ai
pas d'exemples de tels documents sur XMLfr et le débat serait donc plus
théorique!).
> > Pour ma part, je suis parti pour l'instant sur l'idée d'une intégration
> > de Lucene sur XMLfr tel qu'il est aujourd'hui et n'ai pas utilisé
> > l'intégration Cocoon.
>
> Je découvre la même chose, il faut écrire sa propre implantation du
> transformeur d'indexation.
>
>
> > Mon idée à ce niveau est de conserver l'index XMLfr tel qu'il fonctionne
> > aujourd'hui et de consolider les deux fonctions (index et moteur de
> > recherche).
>
> Compris
>
> Lucene n'est pas encore dans mes priorités de développement pour ces
> jours ci, mais je suis tout ceci avec intérêt.
>
Merci pour vos commentaires!
Eric van der Vlist
--
See you in Portland.
http://conferences.oreillynet.com/os2004/
Upcoming XML schema languages tutorial:
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|