L'INSEE a publié une première version de la définition XML de ses données d'identification et de classification.
Eric van der Vlist, Dyomedea (vdv@dyomedea.com).
mardi 2 mars 2004
Ce jeu de documentations et de schémas W3C XML Schema modulaires définit de manière normative les données d'identification et de classification gérées par l'INSEE regroupées dans l'espace de noms http://xml.insee.fr/schema/.
Ces schémas ne cherchent pas à définir le format de documents XML complets mais fournissent au contraire un jeu d'éléments, d'attributs et de types de données pouvant être utilisés par toute application XML manipulant ces données.
Les modules actuellement disponibles sont :
- Un module commun utilisé par les différents modules fonctionnels.
- Le module SIRET définissant l'identification des entreprises et des établissements (numéros SIRET et SIREN).
- Le module NIR concernant l'identification des personnes physiques (numéros NIR et dits "de sécurité sociale").
- Le module ISO concernant l'identification des pays et territoires.
- Le module COG décrivant les codes du Code Officiel Géographique (COG).
- Le module NAF décrivant les codes de la Nomenclature d'Activités Française (NAF).
Les trois derniers modules sont également disponibles sous une forme incluant des listes de valeurs (modules ISO - énumérations, COG - énumérations et NAF - énumérations). Ces variantes présentent l'avantage d'assurer un meilleur contrôle des informations, mais étant alimentées par les dernières versions des nomenclatures correspondantes, elles ne prennent pas en compte les codes supprimés ou à venir.
Chaque application pourra donc choisir selon ses besoins d'utiliser les versions avec ou sans énumérations.
Ainsi par exemple, les numéros de département de la Corse étant actuellement « 2A » et « 2B », une application voulant valider des numéros de départements dans des actes pouvant être antérieurs à la division de la Corse en deux départements devront éviter d'utiliser le module « COG - énumérations » pour lequel le code « 20 » n'est pas un numéro de département valide et utiliser le module « COG ».
Une version avec cadres HTML de la documentation est disponible pour faciliter la navigation entre les modules.
Cette documentation et les schémas et exemples associés ont été constitués en suivant les principes de la programmation littéraire et une adaptation des transformations « litprog » du projet DocBook.
Les documentations sont publiées sous forme de « répertoires RDDL » et sont donc lisibles à la fois comme des documents XHTML par des lecteurs humains et comme répertoires de ressources associées à l'espace de noms http://xml.insee.fr/schema/ par des agents RDDL qui exploitent les liens XLink insérés dans les documentations.
Cherchant à être exhaustives et pédagogiques, elles incluent des introductions aux notions qu'elles manipulent, des exemples, des liens aux références sur lesquelles elles s'appuient et mentionnent les contraintes juridiques liées à l'utilisation des données d'identification des personnes physiques.
Ces travaux ont été réalisés par la société Dyomedea, sous la responsabilité de Jean-Pierre Grandjean, chef du département "Système statistique d'entreprises" et Franck Cotton, chef de la cellule "Technologies de la sécurité et de la communication" avec l'aide de nombreux experts de l'INSEE.
Ils sont l'illustration d'une des méthodes préconisées pour la publication de vocabulaires XML dans ma présentation « Vers une babelisation de XML ? » effectuée lors de « The XML Day » 2003.
Ils ont été soumis en tant « projet de schéma » au répertoire de schémas de l'administration géré par l'ADAE et les commentaires éventuels doivent être envoyés à l'adresse publication-xml-dg@insee.fr.
Autres articles :
Copyright 2004, Eric van der Vlist.
|