dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Moteur de recherche : que booster?
From: Eric van der Vlist (vdv@dyomedea.com)
Date: 05/07/2004 - 22:24
On Mon, 2004-07-05 at 19:51, Frédéric Glorieux wrote:
> > On trouve http://xmlfr.org/ (utile quand on vient
> > de l'extérieur mais totalement inutile quand on est déjà sur XMLfr),
>
> Pour un premier résultat, ce n'est pas si mal ? Ils augmentent peut-être
> le score selon le niveau dans une branche.
Ce n'est pas si al dans l'absolu et je suis très content qu'ils pensent
à XMLfr lorsque l'on cherche "XML" :) mais cela n'est intéressant que
comme requête "externe". Si sur XMLfr une recherche sur "XML" retournait
la page principale, cela serait beaucoup moins intéressant (on peut
imaginer que le visiteur a déjà compris que XMLfr parle essentiellement
de XML). C'est donc un autre point où un moteur interne se doit de
raisonner différemment d'un moteur externe.
> > En l'occurrence, LA page à afficher en premier pour les termes faisant
> > partie de l'index est à mon avis la page de l'index, soit dans ce cas :
> > http://xmlfr.org/index/object.title/xml/
> > C'est en effet cette page qui contient la définition du terme.
>
> ça, ils ne peuvent pas le savoir s'il n'y a pas des personnes qui la
> citent dans leurs pages ? Par contre, voilà un exemple où un moteur de
> recherche interne connaissant sa structure ajoute de la valeur, c'est
> rassurant.
Oui.
>
> > Par ailleurs, on pourra toujours proposer comme alternative une
> > recherche Google depuis la page de recherche de XMLfr (cela ne nous
> > dispense pas de faire de notre mieux pour fournir une fonction de
> > recherche décente!).
>
> En tous cas en dev, je crois très intéressant de mettre les deux en
> parallèle jusqu'à ajuster les meilleurs filtres.
Je vais voir ce que je peux faire sans trop enfreindre la license
d'utilisation de Google.
> > Question subsidiaire : comment booster un terme apparaissant dans un
> > titre? J'ai vu comment booster un document ou un champ, mais n'ai pas vu
> > comment booster un terme dans un champ (surtout si l'utilisateur
> > n'interroge pas sur ce champ).
>
> je vois que ma science est mauvaise et déformée pas nos couches de
> développement sur Lucene (la division du travail...). De retour à l'API
> source, j'ai d'abord découvert l'excellente méthode explain() sur un
> IndexSearcher, qui pourrait nous être servi en tests de dev ?
Oui.
> http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/search/Searchable.html#explain(org.apache.lucene.search.Query,%20int)
>
> Par contre, je suppose qu'à court terme il vaudrait mieux limiter le
> nombre de résultats à l'affichage ?
Effectivement : le volume devient rapidement important!
> > Autre question : est-il utile de proposer de chercher parmi les
> > résultats de la requête précédante?
>
> Nous le faisons, cela plait, mais pour l'utilisateur, nous ne maintenons
> pas de stats. Selon la surcouche SDX,
>
> http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/reference/actions/recherche/amender.html#sdx_basequery
>
> cela s'appelle une "requête de base". Peu importe, l'idée est de garder
> en mémoire la requête initiale de l'utilisateur et d'ajouter un "et" à
> la suivante.
Il y a également un support pour ce type de fonctionnalité dans Lucene.
> > Est-ce que cela demande l'utilisation de
> > "FilteredQuery"?
>
> Pour les requêtes filtrées, elle permettent de diminuer le jeu de
> documents sur lequel chercher (un bitset de résultats que l'on obtient
> par une requête).
>
> La différence est ici,
> si je cherche XML et Vlist (le "base query") les résultats tiendront
> compte de la pertinence de XML, tandis que XMl puis Vlist fera d'abord
> un tri de tous ce qui parle d'XML, puis rangera ensuite selon la
> fréquence de Vlist.
>
> Ces raffinements commencent à prendre de l'importance sur des
> collections importantes.
>
> > * le fait qu'il faut indexer les pages de l'index (ou prévoir une
> > autre méthode d'interfaçage entre index et moteur de recherche).
>
> Oui ! Pas encore d'idée pour obtenir que cela passe en no 1 (hors Lucene
> ? comme tooltip d'analyse de requête ?)
Je pense à deux voies possibles qui peuvent être complémentaires :
* traiter cela effectivement hors Lucene et proposer un lien sur
l'index lorsque l'on cherche un terme correspondant à quelque
chose qui existe (à la manière dont Google ou Yahoo vous
signalent quand une recherche correspond à une catégorie). Cela
peut être totalement hors Lucene où en effectuant une recherche
Lucene sur les titres des pages de l'index.
* booster les pages d'index quand elles existent (en leur
attribuant un facteur supérieur à celui des articles sans leur
appliquer de décote liée à l'age).
> > * le fait qu'il faut effectivement "sous-booster" les courriels.
>
> Et probablement les nettoyer.
Oui.
> >>On pourrait booster un terme apparaissant dans un titre (après avoir
> >>nettoyer les titres de mails ) ?
>
> Sur cette proposition, il faut que je cherche plus pour fournir une
> réponse précise.
Cela m'aiderait!
Merci,
Eric
--
Don't you think all these XML schema languages should work together?
http://dsdl.org
Upcoming XML schema languages tutorial:
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 21/07/2004 - 21:32 UTC
webmaster@xmlfr.org
|