dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Première version d e l'indexeur de mails
From: Eric van der Vlist (vdv@dyomedea.com)
Date: 30/06/2004 - 22:21
On Wed, 2004-06-30 at 23:45, Frédéric Laurent wrote:
> Eric van der Vlist wrote:
>
> > C'est tout frais (et pas encore complètement sec), mais vous pouvez
> > faire quelques tests à l'adresse :
> >
> > http://beta.xmlfr.org/lucene/?query=vdv&Chercher=Chercher
> >
> > Les articles d'actualité, les brèves et une partie significative des
> > archives de xml-tech sont indexés.
Depuis mon premier mail, j'ai indexé toutes les archives de xml-tech et
xml-decid.
>
> les résultats sont pas mal du tout ! rien à voir avec la version
> actuelle je trouve... plus lisible, plus rapide !
Oui. Je pense que la lisibilité vient du fait que l'indexation se fait
avec la connaissance de la structure des documents source alors que
j'utilise htdig pour indexer les pages html générées comme le fait
n'importe quel moteur de recherche externe.
> ce qui serait vraiment intéressant pour les tests, ce serait d'avoir
> la liste des catégories sur lesquelles on peut faire une recherche
> auteur, date, description,... au niveau de la page de recherche, pas
> un mécanisme élaboré, juste une liste de termes.
Je rajouterai cela à la prochaine version. D'ici là, je peux donner la
liste dans ce message! Les champs actuellement disponibles sont :
* uri
* titre
* description (actuellement non renseigné pour les mails)
* date
* auteur
* texte (champ de recherche par défaut)
En cas de doute, leur définition est faite dans la classe XmlAnalyser :
http://dev.xmlfr.org/svn/xmlfr-beta/sources/org/xmlfr/lucene/XmlAnalyser.java ou
http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/XmlAnalyser.java
> par contre, il y a surement des reglages à faire pour booster un
> type de document par rapport à un autre
> par exemple, si je cherche saxon, je m'attends à trouver en 1 une info
> Titre : Deux nouvelles versions pour Saxon 8.0 !
> et en deux ou plus bas 1 breve
> Titre : Saxon 7.8 dans les bacs
>
> or c'est le contraire
> donc hierarchiser info - breve - mail...
Oui, pour le moment tous les documents ont le même poids, mais cela
semble facile à modifier.
> enfin, les résultats ne devraient-ils pas être donnés dans l'ordre
> antéchronologique ?
Je n'en suis plus si certain. Lucene retourne systématiquement un grand
nombre de résultats dont seuls les premiers sont pertinents. Si on les
classe "brutalement" par date est-ce qu'on ne va pas améliorer la
facilité de recherche?
Dans la mesure où on peut définir des plages de date, le tri par date me
semble moins important que je ne le pensais.
Il faut que je regarde tout cela de plus près...
> voila pour l'instant, mais je dis que c'est vraiment très prometteur !
Merci!
Avant que tu ne le signales :) j'ai remarqué un problème avec les
accents : "auteur:frédéric" et "auteur:frederic" renvoient des jeux de
résultats différents.
J'avais réglé htdig pour que ce ne soit pas le cas et je me demande si
on doit reconduire ce réglage et comment on peut le réaliser avec
Lucene...
Eric
--
Read me on XML.com.
http://www.xml.com/pub/au/74
Upcoming XML schema languages tutorial:
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 21/07/2004 - 21:32 UTC
webmaster@xmlfr.org
|