Cliquez ici.
Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.

 
Cliquez ici.

dev@xmlfr.org : liste de discussion des développeurs du site XMLfr

[dev@xmlfr.org] Re: Moteur de recherche

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 22/06/2004 - 16:56


On Tue, 2004-06-22 at 18:31, Frédéric Glorieux wrote:
> De retour aussi, un peu plus au calme.
>
> > Parmi les candidats figurent tout naturellement Lucene déjà mentionné
> > sur cette liste.
> >
> > Sa particularité est "d'être déconnecté du web" dans la mesure où ce
> > n'est qu'une API et qu'elle n'intègre pas de crawler.
> >
> > Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les
> > documents source (NITF pour les articles, RSS pour les brèves et
> > l'agenda, HTML pour les archives de mail et les traduction, ...) et
> > intégrer complètement les fonctions de recherche dans l'architecture
> > Java/XSLT du site.
> >
> > Avez-vous d'autres moteurs de recherche à proposer et/ou des
> > commentaires permettant d'éclairer ce choix?
>
> Nous avons une grosse expérience de Lucene intégré à Cocoon
> <http://adnx.org/sdx/>,

Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
été mentionné sur cette liste :-) ...

> pour en arriver aux quelques conclusions suivantes
> - Lucene tient le million et demi de (petits) documents (nous visons
> les 5 millions dans quelques mois)
> - il permet une intégration très fine des "analyseurs", pour par
> exemple avoir des indexations différenciées selon les langues (exemple :
> analyse grammaticale de l'arabe)
>
> On a eu à se plaindre d'un modèle de stockage en système de fichiers
> (jusqu'à 16 000 fichiers ouverts en même temps dans certaines
> applications) mais cet inconvénient semble en voie de résorbtion dans
> Lucene.

Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
pas poser de gros problème.
>
> Il demeure quelques inconvénients incompressibles
>
> - il s'agit fondamentalement d'un modèle de donnée à "champs"
> (répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
> documents avant indexation)

Où peut-être à créer plusieurs champs texte par document? Cela semble
possible mais je n'ai pas encore regardé dans le détail.

> - l'indexation se fait a priori, autrement dit il faut préparer une
> vue d'indexation qui définit les champs qui seront cherchables (ex:
> titre, auteur, sujet). S'il on découvre un autre noeud intéressant à
> chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle.

Oui, mais sur XMLfr nous avons actuellement peu de types de documents et
ce n'est sans doute pas un gros problème.

> Pour des collections ne dépassant les dizaines de milliers de documents
> sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML
> comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple
> d'application en exploitation pour en connaître aussi bien les limites
> que Lucene.

Je n'ai pas non plus d'expérience concrète en la matière, mais il me
semble que les bases de données XML en général ne sont pas vraiment
faites pour de la recherche plein texte avec mesure de pertinence des
résultats et autres fonctions du type.

Ni XPath ni XQuery ne conviennent très bien pour ce type de requêtes et
ils doivent être étendus pour pouvoir faire des recherches plein texte
sur contenu mixte.

Certains éditeurs "orientés documents" comme Ixiasoft mettent d'ailleurs
ce type de fonctionnalités en avant comme étant des différenciateurs
marquants de leurs produits.

Merci pour cet éclairage.

Eric

-- 
See you in Portland.
                               http://conferences.oreillynet.com/os2004/
Upcoming XML schema languages tutorial:
 - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
(ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie au developpement du site XMLfr.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a dev-request@xmlfr.org (mailto:dev-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC

webmaster@xmlfr.org

 

dev@xmlfr.org

Liste de discussion de la communauté des développeurs de XMLfr.

Cette liste publique est dédiée aux discussions concernant la conception et le développement technique du site XMLfr.



Cliquez ici.
Cliquez ici.

Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org