Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.
 Manifestations XML francophones et internationales.L'actualité des affaires et stratégies XML.L'actualité des technologies XML.Les nouveautés et l'actualités de notre site.Pointeurs sur l'actualité XML sur d'autres sites, en français comme en anglais.


XML et statistique

Répondez à cet article.

La Société Française de Statistique (SFdS) a organisé le 17 juin une journée « XML et Statistique », l'occasion de faire le point des utilisations de XML dans le domaine des statistiques.

Eric van der Vlist, Dyomedea (vdv@dyomedea.com).
lundi 21 juin 2004

Cette « journée XML et Statistique » était organisée par Véronique Stéphan (EDF R&D) et François Sermier pour le groupe « InfoStat, Data Mining et Logiciels » de la SFdS et son programme comprenait une introduction à XML par Eric van der Vlist et des présentations plus axées sur les applications de XML dans le domaine des statistiques.

Support de XML par les outils

Le thème le plus récurrent lors de cette manifestation était le support de XML par les outils de prédilection des statisticiens avec deux présentations (David Gohel pour Insightful et Denis Masson (Lincoln) pour SAS et une démonstration d'Excel 2003 par François Sermier.

En ce qui concerne Insightful, le logiciel S-PLUS s'appuie sur XSLT pour adapter le format des documents XML avant lecture et mettre en forme les résultats de calculs statistiques en XHTML, XSL-FO ou SVG.

David Gohel a donc montré sur deux exemples comment utiliser XSLT pour convertir des documents XML en fichiers lisibles par le logiciel S-PLUS d' Insightful et à l'inverse comment XSLT et XSL-FO pouvaient être utilisés pour formater un rapport et mettre en forme des résultats de traitements statistiques.

Après cette présentation, François Sermier a fait une rapide démonstration des fonctions d'accès à des documents XML disponibles dans Excel 2003 : après sélection par « drag and drop » des informations à importer depuis un document XML, le champ données d'une feuille de calcul accède à ces informations de la même manière qu'à une source de données ODBC.

Si SAS se repose également sur XSLT pour présenter des résultats de calcul en HTML, la méthode utilisée pour importer des informations depuis des documents XML ressemble d'avantage à celle d'Excel (sélection) qu'à celle de S-PLUS (XSLT).

L'import est en effet réalisé à partir d'un fichier « MAP » décrivant les chemins XPath des informations à importer ce qui n'est pas sans rappeler les pointeurs XPointer utilisés par Microsoft pour représenter le paramétrage des imports XML d'Excel. De plus, si ce document « MAP » peut être écrit à la main, un outil plus convivial (SAS XML Mapper) est disponible pour le générer à partir d'un document XML à la manière dont Excel permet le paramétrage de ses imports XML.

Outre ces fonctions de lecture et d'écriture de documents XML, Denis Masson a également présenté XMLA (XML for Analysis), un format XML proposé par Microsoft, Hyperion et plus récemment SAS Institute qui permet d'interroger des serveurs de traitements décisionnels au moyen de Services WebSOAP.

Le support de XMLA par SAS permet de développer des applications Web accédant à un serveur SAS centralisé et cette architecture constitue en quelque sorte une extension Services Web aux fonctions de lecture et d'écriture de documents XML de SAS.

DDI, un vocabulaire XML pour statisticiens

Julien Barnier et Jean-Philippe Talec (Centre Quetelet) ont présenté le format DDI (Data Documentation Initiative) et l'utilisation qui en est faite au Centre Quetelet.

DDI est un projet de l'ICPSR (Inter-university Consortium for Political and Social Research) qui définit un format permettant d'exprimer les méta-données décrivant les fichiers de données d'enquêtes et de sondages dans le domaine des sciences sociales.

Ces méta-données sont d'autant plus importantes que les fichiers de données sont partagés par des groupes d'utilisateurs distincts, ne sont pas auto-documentés et sont inexploitables par eux-mêmes.

Jean-Philippe Talec indique que « l'acceptation de DDI par la communauté scientifique des sciences sociales a été plutôt rapide comparée à celle d'autres standards de méta-données comme Dublin Core ou Encoded Archival Description (EAD) ».

Le vocabulaire couvre cinq grandes sections (description du document lui-même, de l'étude, des fichiers de données, des variables et des références bibliographiques). Il s'agit donc d'un vocabulaire complexe, cherchant à couvrir l'intégralité de son champ de définition et comprenant quelques 240 éléments.

Bien que Jean-Philippe Talec ait affirmé à plusieurs reprises son caractère spécifique au domaine des sciences sociales, il semble y avoir parmi ces 240 éléments de nombreuses informations pouvant être utilisées pour décrire des études et fichiers de données dans d'autre domaines.

Le Centre Quetelet est une unité du CNRS dont une des missions est la publication et la mise à disposition des chercheurs et étudiants des données quantitatives en sciences humaines.

A ce titre, il joue le rôle de « data archive » et présente son catalogue au format DDI et avait besoin d'une application permettant d'éditer et de générer des notices documentaires au format DDI.

C'est la vocation du projet « ODODO » (Outils de documentation de données en sciences sociales), une application Web écrite en PHP et reposant sur MySQL qui permet, à partir d'un simple navigateur, de gérer les données associées à plusieurs fonds d'enquêtes en tenant compte de leurs spécificités.

Contrôle de cohérence d'un ensemble de documents

La présentation de Thierry Despeyroux (INRIA), « Analyse sémantique de sites web et de documents XML » sortait quelque peu du cadre de la statistique et proposait une nouvelle approche pour contrôler la cohérence d'un site web ou d'un ensemble de documents XML.

Je trouve le titre quelque peu trompeur dans la mesure où il ne s'agit pas ici de travailler réellement sur la sémantique des documents mais plutôt de définir des règles à appliquer sur ces documents.

A ce titre, l'approche de Thierry Despeyroux peut être assimilée à un langage de schéma tel que Schematron avec la différence notable, au niveau des fonctionnalités, qu'il est conçu pour travailler sur un ensemble de documents alors que les langages de schéma XML habituels sont conçus pour travailler sur un document XML unique (même si Schematron permet d'accéder aux informations contenues dans d'autres documents au moyen de la fonction « document() »).

Au plan technique, cette approche est également notablement différente de ce que l'on a l'habitude de voir en XML.

Spécialiste de la sémantique des langages de programmation, Thierry Despeyroux a en effet choisi une approche ressemblant aux contrôles de « sémantique naturelle » mis en place dans les langages de programmation qui vérifient par exemple les types de variables, les règles de visibilité, ...

Objet d'étude à l'INRIA, la sémantique naturelle est exprimée à l'aide de règles d'inférence pouvant être compilées en Prolog et Thierry Despeyroux ne nous propose pas moins qu'un langage de spécification permettant d'exprimer de telles règles d'inférence à l'aide d'une syntaxe adaptée au contrôle de documents XML.

En pratique, cette syntaxe est une extension de XML qui rappelle vaguement XQuery et les exemples présentés par Thierry Despeyroux vérifient, dans les documents formant le rapport annuel de l'INRIA, que les citations font bien référence à des documents publiés, que l'année de publication des documents est bien celle du rapport annuel, que les projets font bien partie de la liste officielle, ...

Appliqué aux rapports annuels 2001, 2002 et 2003 de l'INRIA, ce mécanisme a permis de générer plusieurs milliers de messages et il semble très bien adapté pour la vérification de contraintes croisées sur un corpus de documents.

Plus accessoirement, cette approche permet également de dégager des statistiques telles que le nombre de thésards ou le nombre de thèses publiées chaque année.

Autre article :

Copyright 2004, Eric van der Vlist.


 

Mots clés.



L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.


Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org