Cliquez ici.
Cliquez ici.
Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.

 
Cliquez ici.

dev@xmlfr.org : liste de discussion des développeurs du site XMLfr

[dev@xmlfr.org] Re: Moteur de recherche : que booster?

From: Eric van der Vlist (vdv@dyomedea.com)
Date: 05/07/2004 - 22:24


On Mon, 2004-07-05 at 19:51, Frédéric Glorieux wrote:
> > On trouve http://xmlfr.org/ (utile quand on vient
> > de l'extérieur mais totalement inutile quand on est déjà sur XMLfr),
>
> Pour un premier résultat, ce n'est pas si mal ? Ils augmentent peut-être
> le score selon le niveau dans une branche.

Ce n'est pas si al dans l'absolu et je suis très content qu'ils pensent
à XMLfr lorsque l'on cherche "XML" :) mais cela n'est intéressant que
comme requête "externe". Si sur XMLfr une recherche sur "XML" retournait
la page principale, cela serait beaucoup moins intéressant (on peut
imaginer que le visiteur a déjà compris que XMLfr parle essentiellement
de XML). C'est donc un autre point où un moteur interne se doit de
raisonner différemment d'un moteur externe.

> > En l'occurrence, LA page à afficher en premier pour les termes faisant
> > partie de l'index est à mon avis la page de l'index, soit dans ce cas :
> > http://xmlfr.org/index/object.title/xml/
> > C'est en effet cette page qui contient la définition du terme.
>
> ça, ils ne peuvent pas le savoir s'il n'y a pas des personnes qui la
> citent dans leurs pages ? Par contre, voilà un exemple où un moteur de
> recherche interne connaissant sa structure ajoute de la valeur, c'est
> rassurant.

Oui.
>
> > Par ailleurs, on pourra toujours proposer comme alternative une
> > recherche Google depuis la page de recherche de XMLfr (cela ne nous
> > dispense pas de faire de notre mieux pour fournir une fonction de
> > recherche décente!).
>
> En tous cas en dev, je crois très intéressant de mettre les deux en
> parallèle jusqu'à ajuster les meilleurs filtres.

Je vais voir ce que je peux faire sans trop enfreindre la license
d'utilisation de Google.

> > Question subsidiaire : comment booster un terme apparaissant dans un
> > titre? J'ai vu comment booster un document ou un champ, mais n'ai pas vu
> > comment booster un terme dans un champ (surtout si l'utilisateur
> > n'interroge pas sur ce champ).
>
> je vois que ma science est mauvaise et déformée pas nos couches de
> développement sur Lucene (la division du travail...). De retour à l'API
> source, j'ai d'abord découvert l'excellente méthode explain() sur un
> IndexSearcher, qui pourrait nous être servi en tests de dev ?

Oui.

> http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/search/Searchable.html#explain(org.apache.lucene.search.Query,%20int)
>
> Par contre, je suppose qu'à court terme il vaudrait mieux limiter le
> nombre de résultats à l'affichage ?

Effectivement : le volume devient rapidement important!

> > Autre question : est-il utile de proposer de chercher parmi les
> > résultats de la requête précédante?
>
> Nous le faisons, cela plait, mais pour l'utilisateur, nous ne maintenons
> pas de stats. Selon la surcouche SDX,
>
> http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/reference/actions/recherche/amender.html#sdx_basequery
>
> cela s'appelle une "requête de base". Peu importe, l'idée est de garder
> en mémoire la requête initiale de l'utilisateur et d'ajouter un "et" à
> la suivante.

Il y a également un support pour ce type de fonctionnalité dans Lucene.

> > Est-ce que cela demande l'utilisation de
> > "FilteredQuery"?
>
> Pour les requêtes filtrées, elle permettent de diminuer le jeu de
> documents sur lequel chercher (un bitset de résultats que l'on obtient
> par une requête).
>
> La différence est ici,
> si je cherche XML et Vlist (le "base query") les résultats tiendront
> compte de la pertinence de XML, tandis que XMl puis Vlist fera d'abord
> un tri de tous ce qui parle d'XML, puis rangera ensuite selon la
> fréquence de Vlist.
>
> Ces raffinements commencent à prendre de l'importance sur des
> collections importantes.
>
> > * le fait qu'il faut indexer les pages de l'index (ou prévoir une
> > autre méthode d'interfaçage entre index et moteur de recherche).
>
> Oui ! Pas encore d'idée pour obtenir que cela passe en no 1 (hors Lucene
> ? comme tooltip d'analyse de requête ?)

Je pense à deux voies possibles qui peuvent être complémentaires :

      * traiter cela effectivement hors Lucene et proposer un lien sur
        l'index lorsque l'on cherche un terme correspondant à quelque
        chose qui existe (à la manière dont Google ou Yahoo vous
        signalent quand une recherche correspond à une catégorie). Cela
        peut être totalement hors Lucene où en effectuant une recherche
        Lucene sur les titres des pages de l'index.
      * booster les pages d'index quand elles existent (en leur
        attribuant un facteur supérieur à celui des articles sans leur
        appliquer de décote liée à l'age).

> > * le fait qu'il faut effectivement "sous-booster" les courriels.
>
> Et probablement les nettoyer.

Oui.

> >>On pourrait booster un terme apparaissant dans un titre (après avoir
> >>nettoyer les titres de mails ) ?
>
> Sur cette proposition, il faut que je cherche plus pour fournir une
> réponse précise.

Cela m'aiderait!

Merci,

Eric

-- 
Don't you think all these XML schema languages should work together?
                                                         http://dsdl.org
Upcoming XML schema languages tutorial:
 - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
(ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------

-- Devenez redacteur <XML>fr et contribuez au developpement du xml francophone (http://xmlfr.org/infos/redacteurs/) !

Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).

Cette liste est a votre disposition pour discuter en francais de tout sujet technique lie au developpement du site XMLfr.

Pour resilier votre abonnement, envoyez un message contenant la commande "unsubscribe" a dev-request@xmlfr.org (mailto:dev-request@xmlfr.org?Subject=unsubscribe)



Archive générée par hypermail 2.1.3 le 21/07/2004 - 21:32 UTC

webmaster@xmlfr.org

 

dev@xmlfr.org

Liste de discussion de la communauté des développeurs de XMLfr.

Cette liste publique est dédiée aux discussions concernant la conception et le développement technique du site XMLfr.



Cliquez ici.
Cliquez ici.

Devenez rédacteur <XML>fr et contribuez au développement du xml francophone !
Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org