Cliquez ici.
Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.

 
Cliquez ici.

dev@xmlfr.org : liste de discussion des développeurs du site XMLfr

[dev@xmlfr.org] Re: Première version d e l'indexeur de mails

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 30/06/2004 - 22:21


On Wed, 2004-06-30 at 23:45, Frédéric Laurent wrote:
> Eric van der Vlist wrote:
>
> > C'est tout frais (et pas encore complètement sec), mais vous pouvez
> > faire quelques tests à l'adresse :
> >
> > http://beta.xmlfr.org/lucene/?query=vdv&Chercher=Chercher
> >
> > Les articles d'actualité, les brèves et une partie significative des
> > archives de xml-tech sont indexés.

Depuis mon premier mail, j'ai indexé toutes les archives de xml-tech et
xml-decid.
>
> les résultats sont pas mal du tout ! rien à voir avec la version
> actuelle je trouve... plus lisible, plus rapide !

Oui. Je pense que la lisibilité vient du fait que l'indexation se fait
avec la connaissance de la structure des documents source alors que
j'utilise htdig pour indexer les pages html générées comme le fait
n'importe quel moteur de recherche externe.

> ce qui serait vraiment intéressant pour les tests, ce serait d'avoir
> la liste des catégories sur lesquelles on peut faire une recherche
> auteur, date, description,... au niveau de la page de recherche, pas
> un mécanisme élaboré, juste une liste de termes.

Je rajouterai cela à la prochaine version. D'ici là, je peux donner la
liste dans ce message! Les champs actuellement disponibles sont :

      * uri
      * titre
      * description (actuellement non renseigné pour les mails)
      * date
      * auteur
      * texte (champ de recherche par défaut)

En cas de doute, leur définition est faite dans la classe XmlAnalyser :
http://dev.xmlfr.org/svn/xmlfr-beta/sources/org/xmlfr/lucene/XmlAnalyser.java ou
http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/XmlAnalyser.java

> par contre, il y a surement des reglages à faire pour booster un
> type de document par rapport à un autre
> par exemple, si je cherche saxon, je m'attends à trouver en 1 une info
> Titre : Deux nouvelles versions pour Saxon 8.0 !
> et en deux ou plus bas 1 breve
> Titre : Saxon 7.8 dans les bacs
>
> or c'est le contraire
> donc hierarchiser info - breve - mail...

Oui, pour le moment tous les documents ont le même poids, mais cela
semble facile à modifier.

> enfin, les résultats ne devraient-ils pas être donnés dans l'ordre
> antéchronologique ?

Je n'en suis plus si certain. Lucene retourne systématiquement un grand
nombre de résultats dont seuls les premiers sont pertinents. Si on les
classe "brutalement" par date est-ce qu'on ne va pas améliorer la
facilité de recherche?

Dans la mesure où on peut définir des plages de date, le tri par date me
semble moins important que je ne le pensais.

Il faut que je regarde tout cela de plus près...

> voila pour l'instant, mais je dis que c'est vraiment très prometteur !

Merci!

Avant que tu ne le signales :) j'ai remarqué un problème avec les
accents : "auteur:frédéric" et "auteur:frederic" renvoient des jeux de
résultats différents.

J'avais réglé htdig pour que ce ne soit pas le cas et je me demande si
on doit reconduire ce réglage et comment on peut le réaliser avec
Lucene...

Eric

-- 
Read me on XML.com.
                                            http://www.xml.com/pub/au/74
Upcoming XML schema languages tutorial:
 - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
(ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie au developpement du site XMLfr.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a dev-request@xmlfr.org (mailto:dev-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 21/07/2004 - 21:32 UTC

webmaster@xmlfr.org

 

dev@xmlfr.org

Liste de discussion de la communauté des développeurs de XMLfr.

Cette liste publique est dédiée aux discussions concernant la conception et le développement technique du site XMLfr.



Cliquez ici.
Cliquez ici.

Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org