dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Moteur de recherche
From: Eric van der Vlist (vdv@dyomedea.com)
Date: 22/06/2004 - 20:36
On Tue, 2004-06-22 at 21:38, Frédéric Glorieux wrote:
> > Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
> > été mentionné sur cette liste :-) ...
>
> Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des
> listes à plus gros traffic (200 messages en webmail, c'est difficile à
> suivre avec une connexion modem...), je craignais d'avoir manquer des
> choses sur celles ci.
>
>
> >>On a eu à se plaindre d'un modèle de stockage en système de fichiers
> >>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
> >>applications) mais cet inconvénient semble en voie de résorbtion dans
> >>Lucene.
> >
> >
> > Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
> > pas poser de gros problème.
>
> Le problème des fichiers ouverts dépendait plus de l'optimisation de
> l'index que la quantité indexée (si je me souviens de nos investigations
> de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme
> une base de données à tout faire (utilisateurs, relations entre
> documents...).
>
> >>Il demeure quelques inconvénients incompressibles
> >>
> >> - il s'agit fondamentalement d'un modèle de donnée à "champs"
> >>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
> >>documents avant indexation)
> >
> >
> > Où peut-être à créer plusieurs champs texte par document? Cela semble
> > possible mais je n'ai pas encore regardé dans le détail.
>
> Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
> avec du Xpath on peut explorer à divers niveaux de profondeur,
> livre/chapitre/section...
Certes, mais XPath pose d'autres problèmes en recherche plein texte...
> Avec Lucene, l'unité est stricte, on doit
> ruser en créant des "sous-documents" virtuels, qui sont autant de
> documents différents au sens de Lucene, reconstruits applicativement
> dans les résultats de recherche et les URIs qui répondent.
>
> Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas
> explorer dernièrement les sources de Lucene, mais en tous cas pour la
> syntaxe de requête texte
> <http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne
> vois pas comment interroger, disons, le quatrième titre.
En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ???
Sinon, il faudrait le gérer au niveau API...
> > Je n'ai pas non plus d'expérience concrète en la matière, mais il me
> > semble que les bases de données XML en général ne sont pas vraiment
> > faites pour de la recherche plein texte avec mesure de pertinence des
> > résultats et autres fonctions du type.
>
> Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu
> de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est
> pas très pertinent avant d'avoir une grosse collection (Google).
>
> Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y
> a souvent des collections ou l'on cherche plus longtemps le mot qui
> trouve quelque chose que le document que l'on veut lire. Je ne sais pas
> si Lucene a changé, mais un document avec le seul mot "XML" était
> toujours premier avec la requête "XML", même si vous avez indexé la
> norme entière, car bien sûr la fréquence du mot cherché dans le premier
> document est incomparable au second. On a eu le cas où des notices
> bibliographiques passaient avant des textes entiers. Il faudrait toute
> une usine de "pageRank" pour corriger les algorythmes. Je me demande si
> pour XMLfr, l'ordre de pertinence ne serait pas
> 1) la date
> 2) le type (news, mail, article...)
Il faut sans doute proposer les deux.
> Je vous en dirais plus dans quelques semaines sur exist après l'avoir
> bien étrenné.
Nous attendrons avec impatience!
Merci,
Eric
--
Don't you think all these XML schema languages should work together?
http://dsdl.org
Upcoming XML schema languages tutorial:
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|