From: redacteurs@xmlfr.org
Date: 22/06/2004 - 14:02
XML et statistique
La Societe Francaise de Statistique ( SFdS ) a organise le 17 juin une
journee « XML et Statistique [1] », l'occasion de faire le point des
utilisations de XML dans le domaine des statistiques.
Eric van der Vlist , Dyomedea ( vdv@dyomedea.com ).
---------------
Retrouvez cet article en ligne
(http://xmlfr.org/actualites/tech/040621-0001).
Donnez votre avis !
mailto:xml-tech@xmlfr.org?subject=Re:%20INFO%20:%20XML%20et%20statistique
---------------
Cette « journee XML et Statistique » etait organisee par Veronique
Stephan ( EDF R&D) et Francois Sermier pour le groupe « InfoStat,
Data Mining et Logiciels » de la SFdS et son programme comprenait une
introduction a XML [2] par Eric van der Vlist et des presentations
plus axees sur les applications de XML dans le domaine des
statistiques.
Support de XML par les outils
Le theme le plus recurrent lors de cette manifestation etait le support
de XML par les outils de predilection des statisticiens avec deux
presentations (David Gohel pour Insightful et Denis Masson ( Lincoln
) pour SAS et une demonstration d' Excel 2003 par Francois Sermier .
En ce qui concerne Insightful , le logiciel S-PLUS s'appuie sur XSLT
pour adapter le format des documents XML avant lecture et mettre en
forme les resultats de calculs statistiques en XHTML , XSL-FO ou SVG .
David Gohel a donc montre sur deux exemples comment utiliser XSLT pour
convertir des documents XML en fichiers lisibles par le logiciel S-PLUS
d' Insightful et a l'inverse comment XSLT et XSL-FO pouvaient etre
utilises pour formater un rapport et mettre en forme des resultats de
traitements statistiques.
Apres cette presentation, Francois Sermier a fait une rapide
demonstration des fonctions d'acces a des documents XML disponibles
dans Excel 2003 : apres selection par « drag and drop » des
informations a importer depuis un document XML , le champ donnees d'une
feuille de calcul accede a ces informations de la meme maniere qu'a une
source de donnees ODBC .
Si SAS se repose egalement sur XSLT pour presenter des resultats de
calcul en HTML , la methode utilisee pour importer des informations
depuis des documents XML ressemble d'avantage a celle d' Excel
(selection) qu'a celle de S-PLUS ( XSLT ).
L'import est en effet realise a partir d'un fichier « MAP » decrivant
les chemins XPath des informations a importer ce qui n'est pas sans
rappeler les pointeurs XPointer utilises par Microsoft pour representer
le parametrage des imports XML d' Excel . De plus, si ce document « MAP
» peut etre ecrit a la main, un outil plus convivial ( SAS XML Mapper )
est disponible pour le generer a partir d'un document XML a la maniere
dont Excel permet le parametrage de ses imports XML .
Outre ces fonctions de lecture et d'ecriture de documents XML , Denis
Masson a egalement presente XMLA (XML for Analysis), un format XML
propose par Microsoft , Hyperion et plus recemment SAS Institute qui
permet d'interroger des serveurs de traitements decisionnels au moyen
de Services Web SOAP .
Le support de XMLA par SAS permet de developper des applications Web
accedant a un serveur SAS centralise et cette architecture constitue en
quelque sorte une extension Services Web aux fonctions de lecture et
d'ecriture de documents XML de SAS .
DDI , un vocabulaire XML pour statisticiens
Julien Barnier et Jean-Philippe Talec ( Centre Quetelet [3] ) ont
presente le format DDI (Data Documentation Initiative) et l'utilisation
qui en est faite au Centre Quetelet .
DDI [4] est un projet de l' ICPSR (Inter-university Consortium for
Political and Social Research) qui definit un format permettant
d'exprimer les meta-donnees decrivant les fichiers de donnees
d'enquetes et de sondages dans le domaine des sciences sociales.
Ces meta-donnees sont d'autant plus importantes que les fichiers de
donnees sont partages par des groupes d'utilisateurs distincts, ne sont
pas auto-documentes et sont inexploitables par eux-memes.
Jean-Philippe Talec indique que « l'acceptation de DDI par la
communaute scientifique des sciences sociales a ete plutot rapide
comparee a celle d'autres standards de meta-donnees comme Dublin Core
ou Encoded Archival Description ( EAD ) ».
Le vocabulaire couvre cinq grandes sections (description du document
lui-meme, de l'etude, des fichiers de donnees, des variables et des
references bibliographiques). Il s'agit donc d'un vocabulaire complexe,
cherchant a couvrir l'integralite de son champ de definition et
comprenant quelques 240 elements.
Bien que Jean-Philippe Talec ait affirme a plusieurs reprises son
caractere specifique au domaine des sciences sociales, il semble y
avoir parmi ces 240 elements de nombreuses informations pouvant etre
utilisees pour decrire des etudes et fichiers de donnees dans d'autre
domaines.
Le Centre Quetelet est une unite du CNRS dont une des missions est la
publication et la mise a disposition des chercheurs et etudiants des
donnees quantitatives en sciences humaines.
A ce titre, il joue le role de « data archive » et presente son
catalogue au format DDI et avait besoin d'une application permettant
d'editer et de generer des notices documentaires au format DDI .
C'est la vocation du projet « ODODO » (Outils de documentation de
donnees en sciences sociales), une application Web ecrite en PHP et
reposant sur MySQL qui permet, a partir d'un simple navigateur, de
gerer les donnees associees a plusieurs fonds d'enquetes en tenant
compte de leurs specificites.
Controle de coherence d'un ensemble de documents
La presentation de Thierry Despeyroux ( INRIA ), « Analyse semantique
de sites web et de documents XML » sortait quelque peu du cadre de la
statistique et proposait une nouvelle approche pour controler la
coherence d'un site web ou d'un ensemble de documents XML .
Je trouve le titre quelque peu trompeur dans la mesure ou il ne s'agit
pas ici de travailler reellement sur la semantique des documents mais
plutot de definir des regles a appliquer sur ces documents.
A ce titre, l'approche de Thierry Despeyroux peut etre assimilee a un
langage de schema tel que Schematron avec la difference notable, au
niveau des fonctionnalites, qu'il est concu pour travailler sur un
ensemble de documents alors que les langages de schema XML habituels
sont concus pour travailler sur un document XML unique (meme si
Schematron permet d'acceder aux informations contenues dans d'autres
documents au moyen de la fonction « document() »).
Au plan technique, cette approche est egalement notablement differente
de ce que l'on a l'habitude de voir en XML .
Specialiste de la semantique des langages de programmation, Thierry
Despeyroux a en effet choisi une approche ressemblant aux controles de
« semantique naturelle » mis en place dans les langages de
programmation qui verifient par exemple les types de variables, les
regles de visibilite, ...
Objet d'etude a l' INRIA , la semantique naturelle est exprimee a
l'aide de regles d'inference pouvant etre compilees en Prolog et
Thierry Despeyroux ne nous propose pas moins qu'un langage de
specification permettant d'exprimer de telles regles d'inference a
l'aide d'une syntaxe adaptee au controle de documents XML .
En pratique, cette syntaxe est une extension de XML qui rappelle
vaguement XQuery et les exemples presentes par Thierry Despeyroux
verifient, dans les documents formant le rapport annuel de l' INRIA ,
que les citations font bien reference a des documents publies, que
l'annee de publication des documents est bien celle du rapport annuel,
que les projets font bien partie de la liste officielle, ...
Applique aux rapports annuels 2001, 2002 et 2003 de l' INRIA , ce
mecanisme a permis de generer plusieurs milliers de messages et il
semble tres bien adapte pour la verification de contraintes croisees
sur un corpus de documents.
Plus accessoirement, cette approche permet egalement de degager des
statistiques telles que le nombre de thesards ou le nombre de theses
publiees chaque annee.
Autre article :
- Microsoft embrasse XML [5]
Copyright 2004, Eric van der Vlist .
---------------------------------------------------------
References:
[1] http://www.sfds.asso.fr/groupes/journ%E9e_XML_1706_200411.pdf
[2] http://dyomedea.com/papers/2004-infostat/
[3] http://www.centre.quetelet.cnrs.fr/
[4] http://www.icpsr.umich.edu/DDI/
[5] http://xmlfr.org/actualites/decid/021216-0002
---------------------------------------------------------
Mail genere par FormatedTextOutputHandler pour XT
(http://4xt.org/downloads/examples/outputhandlers/formatedtext/).
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Archive générée par hypermail 2.1.3 le 30/06/2004 - 08:32 UTC
webmaster@xmlfr.org
|