dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Moteur de recherche
From: Frédéric Glorieux (frederic.glorieux@ajlsm.com)
Date: 22/06/2004 - 19:38
> Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
> été mentionné sur cette liste :-) ...
Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des
listes à plus gros traffic (200 messages en webmail, c'est difficile à
suivre avec une connexion modem...), je craignais d'avoir manquer des
choses sur celles ci.
>>On a eu à se plaindre d'un modèle de stockage en système de fichiers
>>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
>>applications) mais cet inconvénient semble en voie de résorbtion dans
>>Lucene.
>
>
> Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
> pas poser de gros problème.
Le problème des fichiers ouverts dépendait plus de l'optimisation de
l'index que la quantité indexée (si je me souviens de nos investigations
de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme
une base de données à tout faire (utilisateurs, relations entre
documents...).
>>Il demeure quelques inconvénients incompressibles
>>
>> - il s'agit fondamentalement d'un modèle de donnée à "champs"
>>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
>>documents avant indexation)
>
>
> Où peut-être à créer plusieurs champs texte par document? Cela semble
> possible mais je n'ai pas encore regardé dans le détail.
Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
avec du Xpath on peut explorer à divers niveaux de profondeur,
livre/chapitre/section... Avec Lucene, l'unité est stricte, on doit
ruser en créant des "sous-documents" virtuels, qui sont autant de
documents différents au sens de Lucene, reconstruits applicativement
dans les résultats de recherche et les URIs qui répondent.
Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas
explorer dernièrement les sources de Lucene, mais en tous cas pour la
syntaxe de requête texte
<http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne
vois pas comment interroger, disons, le quatrième titre.
> Je n'ai pas non plus d'expérience concrète en la matière, mais il me
> semble que les bases de données XML en général ne sont pas vraiment
> faites pour de la recherche plein texte avec mesure de pertinence des
> résultats et autres fonctions du type.
Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu
de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est
pas très pertinent avant d'avoir une grosse collection (Google).
Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y
a souvent des collections ou l'on cherche plus longtemps le mot qui
trouve quelque chose que le document que l'on veut lire. Je ne sais pas
si Lucene a changé, mais un document avec le seul mot "XML" était
toujours premier avec la requête "XML", même si vous avez indexé la
norme entière, car bien sûr la fréquence du mot cherché dans le premier
document est incomparable au second. On a eu le cas où des notices
bibliographiques passaient avant des textes entiers. Il faudrait toute
une usine de "pageRank" pour corriger les algorythmes. Je me demande si
pour XMLfr, l'ordre de pertinence ne serait pas
1) la date
2) le type (news, mail, article...)
Je vous en dirais plus dans quelques semaines sur exist après l'avoir
bien étrenné.
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|