dev@xmlfr.org : liste de discussion des développeurs du site XMLfr
[dev@xmlfr.org] Re: Première(naïve) pr oposition d'utilisation de Lucene]
From: Eric van der Vlist (vdv@dyomedea.com)
Date: 28/06/2004 - 21:25
On Mon, 2004-06-28 at 23:04, Frédéric Glorieux wrote:
> Pour me préciser, je voulais dire que même après indexation, il est
> possible de modifier la granularité d'une réponse avec un DB:XML
>
> En pseudo syntaxe
> sur une même collection, s'il on demande
> //book/chapter//p[contains(., "xml")] on a des paragraphes
> //book[contains(., "xml")] on a des livres
> Autrement dit c'est au moment de la requête que se définit "l'unité
> documentaire" (je me demande si ce mot est bien choisi dans ce contexte).
> Cela signifie d'ailleurs que l'on ne peut pas ouvrir trop directement
> l'API de requête à l'utilisateur, un peu comme un SQL dont on doit
> connaître la structure des tables.
Dans notre cas pas tout à fait puisque l'on rajoute un niveau logique et
que l'on expose les champs Lucene et non la structure physique des
documents. Certaines bases XML proposent ce type de fonctionnalités
(notamment, celle d'Ixiasoft).
Pour reprendre le parallèle avec une base SQL, ce serait plutôt un SQL
dont on devrait connaître la structure des vues (et non celle des
tables) ce qui est d'un degré de complexité nettement moindre si les
vues sont bien conçues.
> tandis que dans un moteur de recherche, je tape
> "xml", et l'on me renvoit ce que l'indexation a considéré comme étant
> l'unité, qui sera toujours la même tant que l'on ne réindexe pas.
>
> Sur ce document, on a par contre l'avantage de pouvoir préciser des
> champs, comme titre ou description, typiquement des "propriétés d'une
> ressource", conformément au langage des méta-données auquel Dublin Core
> nous a habitué. Le champ "contenu" destiné à la recherche plein texte
> étant un cas particulier.
Oui.
> Mais la conversation s'étends probablement au delà des besoins de xmlfr.
>
> > Rien, c'est juste une transformation de
> > http://xmlfr.org/actualites/breves/2004-06-24#T14:56:44:354 en
> > http://xmlfr.org/actualites/breves/2004-06-24/T14:56:44:354.
> >
> > Mais pourquoi le faire? Je tiens tout de même à publier les brèves sous
> > forme quotidienne pour réduire le nombre de clics et cela signifierait
> > que je devrais exposer à la fois
> > http://xmlfr.org/actualites/breves/2004-06-24#T14:56:44:354 et
> > http://xmlfr.org/actualites/breves/2004-06-24/T14:56:44:354.
>
> L'un n'empêche pas l'autre ? Des URIs peuvent répondre est n'être que
> rarement naviguée ? Je me suis obligé à ce genre de finasseries pour
> appliquer strictement l'intention qu'une URL sans # suffise à être un
> identifiant, c'est juste que cela permet à un crawler rapide (dans
> cocoon, pour ne pas le nommer), d'indexer à peu près ce qu'il faut.
Je ne suis pas certain que ce soit souhaitable. De même qu'il faut
veiller à donner une URI à tout ce qui est accessible sur le Web et à ne
pas la changer, je pense qu'il vaut mieux éviter de donner deux URIs à
une même information.
Eric
--
See you in Portland.
http://conferences.oreillynet.com/os2004/
Upcoming XML schema languages tutorial:
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728
------------------------------------------------------------------------
Eric van der Vlist http://xmlfr.org http://dyomedea.com
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie au developpement du site XMLfr.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a dev-request@xmlfr.org
(mailto:dev-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 28/06/2004 - 21:32 UTC
webmaster@xmlfr.org
|