L'INSEE, Mondeca et Dyomedeaannoncent la publication du Code Officiel Géographique (COG) sous une forme utilisant les technologies XML, RDF et OWL.
Eric van der Vlist, Dyomedea (vdv@dyomedea.com).
vendredi 4 août 2006
Le Code Officiel Géographique est une des nomenclatures gérées par l'INSEE. Il rassemble les codes et libellés des communes, des cantons, des arrondissements, des départements, des régions, des pays et territoires étrangers.
Il est disponible sous forme papier et électronique téléchargeable sur le site de l'INSEE. Les codes utilisés par le COG avaient déjà donné lieu à la publication de deux schémas W3C XML Schema publié sous forme d'une documentation RDDL :
- Le module COG décrit les codes du Code Officiel Géographique (COG) sans en donner la liste.
- Le module Code Officiel Géographique - énumérations complète la définition du module COG en définissant les listes des valeurs acceptables. En raison de la volumétrie du COG qui comprend 36 685 communes au 1er janvier 2006, seuls les régions et départements ont été codés sous forme d'énumérations W3C XML Schema.
Réalisée sous la supervision de Franck Cotton de l'INSEE, la publication du COG sous forme d'une ontologie RDF/OWL vient donc compléter ce dispositif en fournissant la liste exhaustive des entités gérées par le COG et en en fournissant un modèle abstrait sous forme RDF Schema et OWL.
Si la liste des entités du COG peut être vue comme une alternative XML et RDF aux fichiers à télécharger aux formats dbf et texte déjà publiés sur le site de l'INSEE, la modélisation RDF Schema/OWL de ces données est par contre une nouveauté.
Elle a été réalisé par Bernard Vatant de Mondeca avec l'aide des experts métier des l'INSEE. Elle tient compte de toutes les caractéristiques du COG qui cache parfois des surprises (une commune qui est la plus petite subdivision administrative française peut par exemple être située à cheval sur plusieurs cantons bien que le canton soit une subdivision de rang supérieur).
Cette modélisation est disponible sous forme d'une ontologie RDF, RDF Schema et OWL dont elle utilise le profil « OWL-Lite ». Cette ontologie est un document XML/RDF pouvant être visualisé avec un éditeur graphique tel que l'éditeur Open Source SWOOP.
Les données publiées sont conformes à cette ontologie et sont regroupées par départements et niveaux administratifs : pour chaque département, un premier fichier donne la liste des arrondissements et des cantons et un deuxième fichier donne la liste des cantons et des communes.
La cohérence avec les schémas XML déjà publiés par l'INSEE a été validée par Eric van der Vlist qui a souhaité que les documents XML soient utilisables à deux niveaux :
- Les applications RDF peuvent les utiliser comme des documents XML/RDF sans se soucier du détail de leur sérialisation XML.
- Les applications XML peuvent les utiliser d'autant plus simplement que la sérialisation XML retenue a été choisie pour sa simplicité.
Le vocabulaire retenu utilise plusieurs fonctionnalités de la version la plus récente de RDF qui permettent de réduire au strict minimum la complexité additionnelle de RDF par rapport à un vocabulaire XML non RDF. A titre d'exemple, la définition du canton d'Anet dans le document http://rdf.insee.fr/geo/cantons-28-2003.rdf est la suivante :
<rdf:RDF xml:base="http://rdf.insee.fr/geo/"
xmlns:geo="http://rdf.insee.fr/geo/"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">
<geo:Canton rdf:about="CAN_2801">
<geo:code_canton>2801</geo:code_canton>
<geo:nom xml:lang="fr">Anet</geo:nom>
<geo:chef-lieu rdf:resource="COM_28007"/>
<geo:subdivision>
<geo:Commune rdf:about="COM_28001">
<geo:code_commune>28001</geo:code_commune>
<geo:nom xml:lang="fr">Abondant</geo:nom>
<geo:voisin rdf:resource="COM_28064"/>
<geo:voisin rdf:resource="COM_28098"/>
<geo:voisin rdf:resource="COM_28267"/>
<geo:voisin rdf:resource="COM_28321"/>
<geo:voisin rdf:resource="COM_28375"/>
<geo:voisin rdf:resource="COM_28377"/>
<geo:voisin>
<geo:Commune rdf:about="COM_27391">
<geo:code_commune>27391</geo:code_commune>
<geo:nom xml:lang="fr">Marcilly-sur-Eure</geo:nom>
</geo:Commune>
</geo:voisin>
<geo:voisin>
<geo:Commune rdf:about="COM_27543">
<geo:code_commune>27543</geo:code_commune>
<geo:nom xml:lang="fr">Saint-Georges-Motel</geo:nom>
</geo:Commune>
</geo:voisin>
</geo:Commune>
</geo:subdivision>
<geo:subdivision>
<geo:Commune rdf:about="COM_28007">
<geo:code_commune>28007</geo:code_commune>
<geo:nom xml:lang="fr">Anet</geo:nom>
.
.
.
</geo:Commune>
</geo:subdivision>
.
.
.
</geo:Canton>
.
.
.
</rdf:RDF>
On remarquera notamment l'utilisation des attributs rdf:about et rdf:resource qui, grâce à l'attribut xml:base, est identique à celle des attributs id et idref d'un vocabulaire XML classique.
On notera également que les informations concernant les communes voisines sont différentes si la commune appartient au même département (dans ce cas sa définition est incluse dans le même document et le lien est fait par référence) et si elle appartient à un département limitrophe (dans ce cas sa définition n'est pas présente dans le document et une définition simplifiée en est donnée ce qui assure une certaine autonomie à chaque document).
Cette sérialisation XML sera publiée en tant que vocabulaire XML et formalisée au moyen d'un schéma XML.
Les commentaires sur cette ontologie et les documents associés peuvent être envoyés à l'adresse publication-xml-dg@insee.fr
Références
-
Publication de données géographiques au format RDF (site INSEE)
-
Données de base de l'INSEE
-
Introduction à RDF
Copyright 2006, Eric van der Vlist
|