Cliquez ici.
Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.

 
Cliquez ici.

dev@xmlfr.org : liste de discussion des développeurs du site XMLfr

[dev@xmlfr.org] Re: Moteur de recherche

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 22/06/2004 - 20:36


On Tue, 2004-06-22 at 21:38, Frédéric Glorieux wrote:
> > Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
> > été mentionné sur cette liste :-) ...
>
> Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des
> listes à plus gros traffic (200 messages en webmail, c'est difficile à
> suivre avec une connexion modem...), je craignais d'avoir manquer des
> choses sur celles ci.
>
>
> >>On a eu à se plaindre d'un modèle de stockage en système de fichiers
> >>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
> >>applications) mais cet inconvénient semble en voie de résorbtion dans
> >>Lucene.
> >
> >
> > Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
> > pas poser de gros problème.
>
> Le problème des fichiers ouverts dépendait plus de l'optimisation de
> l'index que la quantité indexée (si je me souviens de nos investigations
> de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme
> une base de données à tout faire (utilisateurs, relations entre
> documents...).
>
> >>Il demeure quelques inconvénients incompressibles
> >>
> >> - il s'agit fondamentalement d'un modèle de donnée à "champs"
> >>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
> >>documents avant indexation)
> >
> >
> > Où peut-être à créer plusieurs champs texte par document? Cela semble
> > possible mais je n'ai pas encore regardé dans le détail.
>
> Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
> avec du Xpath on peut explorer à divers niveaux de profondeur,
> livre/chapitre/section...

Certes, mais XPath pose d'autres problèmes en recherche plein texte...

> Avec Lucene, l'unité est stricte, on doit
> ruser en créant des "sous-documents" virtuels, qui sont autant de
> documents différents au sens de Lucene, reconstruits applicativement
> dans les résultats de recherche et les URIs qui répondent.
>
> Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas
> explorer dernièrement les sources de Lucene, mais en tous cas pour la
> syntaxe de requête texte
> <http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne
> vois pas comment interroger, disons, le quatrième titre.

En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ???

Sinon, il faudrait le gérer au niveau API...

> > Je n'ai pas non plus d'expérience concrète en la matière, mais il me
> > semble que les bases de données XML en général ne sont pas vraiment
> > faites pour de la recherche plein texte avec mesure de pertinence des
> > résultats et autres fonctions du type.
>
> Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu
> de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est
> pas très pertinent avant d'avoir une grosse collection (Google).
>
> Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y
> a souvent des collections ou l'on cherche plus longtemps le mot qui
> trouve quelque chose que le document que l'on veut lire. Je ne sais pas
> si Lucene a changé, mais un document avec le seul mot "XML" était
> toujours premier avec la requête "XML", même si vous avez indexé la
> norme entière, car bien sûr la fréquence du mot cherché dans le premier
> document est incomparable au second. On a eu le cas où des notices
> bibliographiques passaient avant des textes entiers. Il faudrait toute
> une usine de "pageRank" pour corriger les algorythmes. Je me demande si
> pour XMLfr, l'ordre de pertinence ne serait pas
> 1) la date
> 2) le type (news, mail, article...)

Il faut sans doute proposer les deux.

> Je vous en dirais plus dans quelques semaines sur exist après l'avoir
> bien étrenné.

Nous attendrons avec impatience!

Merci,

Eric

-- 
Don't you think all these XML schema languages should work together?
                                                         http://dsdl.org
Upcoming XML schema languages tutorial:
 - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
(ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie au developpement du site XMLfr.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a dev-request@xmlfr.org (mailto:dev-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC

webmaster@xmlfr.org

 

dev@xmlfr.org

Liste de discussion de la communauté des développeurs de XMLfr.

Cette liste publique est dédiée aux discussions concernant la conception et le développement technique du site XMLfr.



Cliquez ici.
Cliquez ici.

Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org