De nombreuses sources XML sont aujourd'hui publiquement accessibles sur
Internet à travers des formats comme RSS (Rich Site Summary
ou RDF Site Summary) ou RDF mais ces sources sont réellement
inexploitées et peu d'outils tirent parti de cette manne d'informations et de
son potentiel.
Par Jérôme BERNARD,
xtremejava.com.
vendredi 1er juin 2001
De nombreuses sources XML
sont aujourd'hui publiquement accessibles sur Internet à travers des formats
comme RSS (Rich Site Summary
ou RDF Site Summary) ou RDF.
Des annuaires tels que Moreover
et xmlTree cataloguent certaines de ces
sources et exportent leur listing sous d'autres formats XML tels que par exemple OCS
(Open Content Syndication).
Il est ainsi possible en connaissant l'adresse de ces
annuaires de récupérer un listing de sources XML
afin de faire entre autre de la syndication de contenu. Le nombre de sources
cataloguées ne cesse d'augmenter : plus de 2800 documents sont aujourd'hui
référencés dans xmlTree dans des sujets aussi
divers que la santé, la politique, l'informatique ou l'économie.
Toutes ces sources sont réellement inexploitées. Peu
d'outils tirent parti de cette manne d'informations et de son potentiel.
Le travail qu'effectue le W3C sur le Web Sémantique est important car permettra de définir
les concepts sur lesquels le Web Sémantique sera
architecturé. Cependant, concevoir des standards viables prend énormément de
temps, et il en faudra très certainement autant avant que ces standards soient
exploités. Il est donc clair qu'au vu de la complexité du travail à mener et de
la formalisation à réaliser que le seul moyen d'espérer travailler avec un Web Sémantique à court ou moyen terme est de procéder
par étapes successives et de pallier de façon artificielle au manque de sémantique
du Web actuel.
Pour cela plusieurs méthodes sont envisageables :
"sémantiser" par des artifices logiciels ou "manuels". La
première possibilité a l'avantage de pouvoir traiter un plus grand nombre de
documents et d'accélérer le processus de sémantisation du Web, mais le développement
d'algorithmes sera probablement complexe. La seconde possibilité nécessitera
d'énormes ressources humaines mais aura l'avantage d'être plus riche.
La solution est probablement une utilisation conjointe des
deux méthodes : une vérification et correction humaine des résultats produits
par automatisation logicielle.
Pour cela, une communauté inspirée des mouvements tels que
ceux créés pour l'ODP (Open Directory
Project) pourrait s'avérer efficace. Le fonctionnement de cette
communauté classifiant sous forme hiérarchisée des liens Internet est
relativement simple. Un ou plusieurs volontaires sont nommés responsables d'une
catégorie et ont pour fonction de mettre à jour les liens figurant dans ladite
catégorie. Cela à l'avantage de ne sélectionner que des documents pertinents à
la catégorie en question car les responsables sont généralement des personnes
ayant une bonne connaissance des sujets abordés. L'annuaire exportant sous
forme RDF son contenu est par la même
publiquement exploitable. Pour anecdote, c'est d'ailleurs cet annuaire qui a
fait le succès initial du moteur de recherche Google
puisque ce dernier puise certaines de ses réponses dans cet annuaire.
Pour en revenir au Web Sémantique,
une communauté de volontaires contribuant à "sémantiser" le Web
actuel pourrait ainsi créer un embryon de Web Sémantique.
Il est cependant nécessaire de comprendre que ce procédé est
aujourd'hui relativement différent de la façon de procéder des standards qui
commencent à émerger au niveau du W3C dans le sens où
les méta données sémantiques ne seront très probablement pas incluses dans les
sources. Même s'il apparaît relativement clair qu'avoir les informations
sémantiques dans les sources est une meilleure option, elle ne peut être
envisagée à court terme, ce qui veut dire qu'il faudra définir la sémantique
des sources dans des documents séparés qui contiendront un lien vers ladite
source. Cela introduit néanmoins de problèmes supplémentaires tels que de potentielles
désynchronisations entre les méta données sémantiques et la source...
Bien que cette communauté en théorie puisse fonctionner, il
est cependant vital de comprendre qu'à la vitesse où les documents sont créés,
modifiés ou supprimés sur Internet, qu'il sera très difficile d'espérer
"sémantiser" le Web sans un effort des éditeurs de contenus on-line.
Par exemple les sites générant des bulletins d'informations réguliers seront
difficiles à "sémantiser" du fait de la fréquence de changement du
contenu.
Il n'existe probablement pas de solution miracle car le seul
espoir du Web Sémantique est d'avoir une
adoption en masse des standards qui émergeront du W3C.
Quoiqu'il en soit la communauté évoquée précédemment pourra
commencer à contribuer à cette tâche en fournissant un embryon de Web Sémantique en attendant son adoption par les
éditeurs de contenus.
Un autre point essentiel qui fera ou non l'adoption du Web Sémantique sera clairement la disponibilité
d'outils logiciels permettant de l'exploiter. Il faudra ainsi au Web Sémantique des outils de bas niveau tels que
moteurs de règles capables de faire des déductions mais aussi des outils de plus
haut niveau comme des moteurs de recherche évolués et des agents intelligents
capables d'exploiter la sémantique des documents.
Un très bon aperçu en
anglais du Web Sémantique écrit par
certaines des personnes à son origine illustre les scénarii qui seront rendu
possibles demain (ou plutôt après-demain).
Le Web Sémantique n'attend plus que vous !
Copyright 2001,
Jérôme BERNARD.
|