dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Moteur de recherche
From: Frédéric Glorieux (frederic.glorieux@ajlsm.com)
Date: 22/06/2004 - 16:31
De retour aussi, un peu plus au calme.
> Parmi les candidats figurent tout naturellement Lucene déjà mentionné
> sur cette liste.
>
> Sa particularité est "d'être déconnecté du web" dans la mesure où ce
> n'est qu'une API et qu'elle n'intègre pas de crawler.
>
> Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les
> documents source (NITF pour les articles, RSS pour les brèves et
> l'agenda, HTML pour les archives de mail et les traduction, ...) et
> intégrer complètement les fonctions de recherche dans l'architecture
> Java/XSLT du site.
>
> Avez-vous d'autres moteurs de recherche à proposer et/ou des
> commentaires permettant d'éclairer ce choix?
Nous avons une grosse expérience de Lucene intégré à Cocoon
<http://adnx.org/sdx/>, pour en arriver aux quelques conclusions suivantes
- Lucene tient le million et demi de (petits) documents (nous visons
les 5 millions dans quelques mois)
- il permet une intégration très fine des "analyseurs", pour par
exemple avoir des indexations différenciées selon les langues (exemple :
analyse grammaticale de l'arabe)
On a eu à se plaindre d'un modèle de stockage en système de fichiers
(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
applications) mais cet inconvénient semble en voie de résorbtion dans
Lucene.
Il demeure quelques inconvénients incompressibles
- il s'agit fondamentalement d'un modèle de donnée à "champs"
(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
documents avant indexation)
- l'indexation se fait a priori, autrement dit il faut préparer une
vue d'indexation qui définit les champs qui seront cherchables (ex:
titre, auteur, sujet). S'il on découvre un autre noeud intéressant à
chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle.
Pour des collections ne dépassant les dizaines de milliers de documents
sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML
comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple
d'application en exploitation pour en connaître aussi bien les limites
que Lucene.
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|