Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.
 Manifestations XML francophones et internationales.L'actualité des affaires et stratégies XML.L'actualité des technologies XML.Les nouveautés et l'actualités de notre site.Pointeurs sur l'actualité XML sur d'autres sites, en français comme en anglais.


Dix années de XML à l'INSEE

Répondez à cet article.

La recommandation XML 1.0 a été publiée il y a exactement dix ans jour pour jour. Franck Cotton, informaticien à l'INSEE, répond aux questions de XMLfr et fait le point de ces dix années de XML à l'INSEE.

Eric van der Vlist, Dyomedea (vdv@dyomedea.com).
dimanche 10 février 2008

vdV : A quel moment avez-vous commencé à vous intéresser à XML?

FC : Dès que la presse informatique s’est mise à en parler de façon régulière, vers la fin des années 1990. Courant 2000, j’ai dépassé ce stade de la veille technologique et commencé à organiser une sensibilisation en interne à l’INSEE, d’abord avec une présentation auprès de quelques maîtres d’ouvrage, puis d’une population plus large, notamment de développeurs.

vdV : Pour quelle raison?

DC : L’INSEE est une sorte de grande machine à collecter, exploiter, transformer et diffuser l’information. Ne pas s’intéresser aux technologies relatives à la structuration et au traitement de l’information s’apparenterait à une sorte de faute professionnelle !

vdV : Quelles étaient vos attentes par rapport à ces technologies?

FC : Pour ma part, c’était assez flou à l’époque, mais cela tournait justement autour de l’idée de rationaliser un peu tous ces flux de données qui entrent et sortent de l’Institut, ou qui circulent en son sein. La possibilité d’intégrer en amont certains traitements de formalisation et de validation des données, ou les promesses de XML en matière de publication multi-supports étaient également intéressantes.

vdV : Auparavant, vous intéressiez-vous déjà à SGML ? A HTML ?

FC : À SGML, pas vraiment (si l’on omet le fait que nous étions utilisateurs de DCF sur nos centraux IBM...). À HTML, oui : l’INSEE a été présent sur l’Internet de façon assez précoce, dès mai 1996. Nous avons donc dû mettre en place assez tôt des filières de publication HTML.

Sur un autre plan, nous étions très utilisateurs d’EDI, surtout pour les flux de données autour du répertoire des entreprises SIRENE : nous étions forcément réceptifs à tout ce qui concernait les formats de données.

vdV : Quelle a été votre première application de XML?

FC : Nous avons utilisé XML comme format d’échanges dans différents contextes internes, par exemple dès la mi-2000 pour un service d’interrogation de SIRENE, mais disons que la première application vraiment centrée sur XML a été la production et la publication sur l’Internet de quelques types de base sous forme de schémas documentés : identifiants des organisations et des personnes, nomenclatures énumérées ou non, et codes divers (voir http://xml.insee.fr/schema).

vdV : A quelle date?

FC : C’est une opération que nous avons commencé à envisager au deuxième trimestre 2002, et la réflexion a continué en pointillés jusqu’à ce que nous puissions consacrer quelques moyens à la réalisation effective, sous forme d’un stage interne. L’ouverture du site s’est faite fin 2003 et une première version stabilisée a été publiée début 2004. Nous venons de publier une version enrichie au premier janvier 2008.

vdV : Quel était le problème à résoudre?

FC : À cette époque, nous avons été amenés à participer à différentes initiatives, dont beaucoup n’ont pas abouti, par exemple les réflexions sur la mise en place d’un référentiel de schémas de l’administration sous la houlette de l’ex-ATICA (ancêtre de l’actuelle DGME). Il y avait une activité florissante de production de schémas XML, mais chacun réinventait souvent les concepts fondamentaux dans son coin. Il nous a semblé que l’INSEE possédait la légitimité nécessaire pour publier quelques types de base qui pourraient faire figure de référence.

vdV : Comment vous y êtes vous pris, quelles outils/architecture/méthodes avez-vous utilisé?

FC : Compte tenu des moyens dont nous disposions et de notre faible expérience, nous avons retenu une approche extrêmement modeste pour ce qui est du contenu, en nous limitant à une vingtaine de types de base qui nous semblaient les plus utiles. Par contre, nous voulions faire un effort sur la documentation des schémas, et nous ne nous sommes pas interdits d’être un peu audacieux sur le plan technique.

En pratique, nous avons une filière de publication web classique pour l’aval, mais la production des documents utilise les principes de la programmation littéraire : les schémas et exemples d’utilisation sont inclus dans les pages HTML de documentation et en sont extraits par des transformations XSLT pour être mis à disposition sous forme de ressources autonomes. Pour corser l’affaire, nous avons également utilisé les spécifications RDDL afin que les schémas puissent être localisés automatiquement par des logiciels conformes à ce langage.

Au total, les documents sources sont un peu touffus et difficiles à éditer, mais nous avons ensuite une chaîne de production et de publication à peu près automatisée.

vdV : Les résultats ont-ils été conformes à vos attentes?

FC : Il est assez difficile de savoir si des ressources que vous mettez à disposition de tous sans contrôle sont effectivement employées : les utilisateurs n’ont pas spontanément tendance à se manifester, sauf pour signaler un problème particulier. Cependant, nous avons retrouvé la trace de nos schémas çà et là dans différentes applications, et ils ont été pris en compte dans des travaux de normalisation comme ceux conduits par la DGME. Si le « PageRank » de Google est un bon indicateur, on peut dire que notre site de publication jouit d’une certaine popularité dans son (petit) domaine.

vdV : Quels enseignements avez-vous pu en tirer?

Malgré la simplicité de nos schémas, nous nous sommes trouvés confrontés à un certain nombre de questions sur lesquelles nous n’avons pas pu (ou su) trouver de réponses vraiment tranchées : quelles règles de nommage adopter ? Comme structurer l’espace nominatif ? Comment prendre en compte l’évolution des schémas, les changements de version, etc. ? Nous n’avons pas encore toutes les réponses, et sur certains sujets nous avons changé nos règles en cours de route.

D’autre part, nous avons pu constater la volatilité des technologies XML. RDDL, par exemple, qui semblait un choix raisonnable à l’époque, n’a pas eu le développement que l’on pouvait attendre. De fait, nous ne referions pas ce choix aujourd’hui (et nous ne l’avons d’ailleurs pas refait pour les ressources que nous avons publiées ultérieurement).

vdV : Pouvez-vous nous parler des applications de XML les plus marquantes?

FC : Je ne connais sans doute pas toutes les utilisations faites de XML à l’INSEE, mais je peux mentionner quelques opérations dans lesquelles j’ai été directement impliqué.

vdV : Volontiers, quelle est la première de ces applications?

FC : La publications de données géographiques au format RDF

C’est une opération que nous avons menée suite à une sollicitation de la société Mondeca. Elle consistait à définir et à publier une ontologie RDF comprenant un certain nombre d’entités relevant du code officiel géographique : régions, départements, cantons, relations de différents types (par exemple d’inclusion) entre ces zones, etc.

vdV : A quelle date?

L’opération s’est déroulée sur le premier semestre 2006.

vdV : Quel était le problème à résoudre?

FC : Comme pour les types de base XML, il s’agissait de tirer parti de la légitimité de l’Institut, qui gère le code officiel géographique, pour éviter la prolifération de redéfinitions propriétaires d’un tel vocabulaire.

vdV : Comment vous y êtes vous pris, quelles outils/architecture/méthodes avez-vous utilisé?

FC : Mondeca a fait l’essentiel du travail de modélisation OWL, mais nous avons développé les traitements permettant l’extraction des données depuis nos bases géographiques et leur mise au format RDF-XML. Nous avons utilisé SAS, qui n’a pas grand-chose à voir avec RDF ou XML, mais que nous utilisons beaucoup en interne et à toutes les sauces.

vdV : Les résultats ont-ils été conformes à vos attentes?

FC : Là encore, difficile de le savoir. De temps en temps, nous recevons un message nous signalant l’utilisation des données dans une nouvelle opération, ou nous demandant quand nous comptons publier une mise à jour. Il faut noter que, compte tenu des moyens que nous pouvions consacrer à l’opération, nous n’avons finalement publié qu’une partie de ce qui était envisagé initialement. Cela a sans doute diminué l’intérêt du résultat.

vdV : Quels enseignements avez-vous pu en tirer?

FC : Ce petit aperçu des concepts et techniques du web sémantique était vraiment intéressant, mais plus encore que pour la publication des schémas XML, nous avons eu l’impression d’arriver au milieu de disputes conceptuelles qui n’étaient pas encore résolues, par exemple sur des questions pourtant très pratiques comme celles de la structuration et du déréférencement des URI permettant de nommer les ressources. La publication de l’ontologie a provoqué un débat entre experts du W3C, dont certains paraissaient plus enclins à critiquer les choix opérés qu’à apprécier l’effort que nous avions pu faire pour mettre en œuvre leurs technologies. J’avoue que ça m’a un peu refroidi sur le moment, mais nous allons quand même retravailler sur ce sujet prochainement.

vdV : Quelle autre application pouvez-vous mentionner?

FC : Nos travaux dans le domaine des personnes physiques

L’INSEE gère le répertoire des personnes physiques et le fichier électoral, ce qui nous conduit à échanger de nombreuses informations, en particulier avec les mairies, selon des moyens très variés. Nous avons lancé une rénovation technique de ces systèmes d’information, qui a été l’occasion de reformuler nos normes fonctionnelles d’échanges en utilisant des schémas XML.

vdV : A quelle date?

FC : C’est une opération de longue haleine, qui est encore en cours. Nous avons publié les schémas relatifs aux documents d’état-civil en novembre 2007, et ceux de l’électoral en début d’année.

vdV : Quel était le problème à résoudre?

FC : Là encore, nous avons saisi différentes opportunités : la réforme récente de la filiation a nécessité un aménagement des bulletins d’état-civil, et par ailleurs nous avions des demandes de modernisation des formats de la part de différents partenaires : fournisseurs de logiciels de gestion pour les mairies, clients des services d’identification au répertoire, etc.

vdV : Comment vous y êtes vous pris, quelles outils/architecture/méthodes avez-vous utilisé?

FC : Les formats des bulletins d’état civil ou des documents électoraux sont assez complexes : il est apparu rapidement qu’il fallait impliquer directement nos experts démographes dans la conception des schémas. Toutefois, il semblait délicat de leur mettre d’emblée en main un éditeur XML. Nous avons donc fait développer un petit outil permettant de modéliser les données dans un classeur Excel selon un formalisme assez simple et modulaire, puis de générer les schémas automatiquement par une suite de transformations XSLT. Ce qui est intéressant, c’est que cet outil a fini par être adopté pour modéliser des formats de gestion internes, car évidemment ces derniers réutilisaient une grande partie des modules développés pour définir les schémas publiés pour nos partenaires.

Au plan technique, nous employons le langage de schémas W3C XML Schema, ainsi que Schematron pour l’expression de quelques contraintes qui n’étaient pas faciles à rendre en XML Schema. Nous utilisons également Castor pour créer des bibliothèques de classes Java conformes aux schémas.

vdV : Les résultats ont-ils été conformes à vos attentes?

FC : Les résultats ne sont pas encore là : nous sommes en phase d’expérimentation avec quelques partenaires pour la mise en place des flux XML. Mais je pense que les choses se présentent bien.

vdV : Quels enseignements avez-vous pu en tirer?

FC : Nous avons un exemple intéressant où la définition d’une norme d’échanges a permis de propager l’utilisation de XML jusqu’au niveau de la conception et de la réalisation du système d’information, alors même que l’on est plutôt dans le domaine de l’informatique de gestion et de la production lourde. Cela évoque la possibilité d’une filière XML intégrée allant de la modélisation à l’implémentation des systèmes, mais il reste bien des obstacles : les langages de schémas sont complexes et ne se combinent pas simplement, les outils de conception XML restent très techniques, les outils de génération de code Java sont encore rudimentaires, etc.

vdV : D'une manière générale, vos attentes initiales par rapport aux technologies XML se sont-elles réalisées?

FC : Loin de là ! Mais cela n’a rien d’étonnant, car mes attentes étaient d’un niveau élevé : rationalisation du système d’information, intégration des processus de développement ou de production, tout cela prend du temps, et XML n’est d’ailleurs qu’un levier pour favoriser ce type de démarche.

vdV : Comment qualifieriez-vous l'importance de XML dans votre organisation?

FC : Elle n’est pas au niveau où elle devrait être. Nous n’y avons pas encore consacré suffisamment de moyens de formation, de support et de coordination. Par ailleurs nous ne sommes pas très bons, de façon générale, pour organiser nos développements en interne. Il faut dire que notre système d’information est particulièrement complexe.

vdV : Comment qualifieriez-vous son niveau de « pénétration » dans votre organisation?

FC : Je pense qu’elle est assez faible en réalité. XML est connu de beaucoup d’informaticiens, voire de quelques statisticiens, le terme est souvent cité, mais il s’agit la plupart du temps de repeindre en XML des formats d’échanges existants, sans retour au niveau de la modélisation. L’utilisation courante de XML au cœur des systèmes ou tout au long des chaînes de traitements n’est pas encore pour tout de suite, mais des progrès commencent à apparaître comme on l’a vu.

vdV : Trouvez-vous l'information dont vous avez besoin sur XML? Où la trouvez-vous?

On finit toujours pas dénicher ce que l’on cherche sur le Web, même si, plus encore que dans d’autres domaines vu la vitesse d’évolution de XML, on ne sait jamais bien si l’information que l’on a trouvée est toujours valable. Personnellement, je suis assez client du site du W3C.

vdV : Allez-vous démarrer de nouveaux projets avec des technologies XML? Lesquels?

FC : Je n’ai pas de projet précis pour l’instant, je réagis souvent en fonction des opportunités, et je suis par ailleurs déjà bien occupé par les opérations en cours. Je souhaiterais cependant démarrer une expérimentation de XForms : cette technologie me paraît prometteuse, surtout pour un organisme comme l’INSEE, même si là aussi les querelles de chapelles obscurcissent un peu le paysage et conduisent de fait à se limiter aux implémentations côté serveur. J’aimerais surtout mettre en place une démarche interne de capitalisation et de rationalisation des investissements sur XML, mais c’est une tâche ardue.

vdV : Pensez-vous augmenter ou diminuer l'utilisation de XML?

FC : L’augmenter, sans conteste. Ne serait-ce qu’à titre personnel, je consacrerai une plus grande partie de mon activité à ce sujet dans le futur.

vdV : Quelles sont vos principales attentes par rapport à XML?

FC : J’en ai déjà cité quelques unes. Pour compléter, je peux mentionner une difficulté à laquelle nous nous sommes heurtés récemment. Comme je l’ai signalé, il existe de nombreux flux d’informations qui arrivent à l’INSEE, par exemple des données d’enquêtes ou des sources administratives. Ces flux contiennent de multiples enregistrements qui respectent normalement un format prédéfini, mais il peut y avoir ici ou là des données manquantes, des valeurs erronées, etc. C’est justement un travail important pour le statisticien que de concevoir et d’opérer les traitements de redressement ou de correction qui rendront tout de même la source pertinente au niveau statistique.

Dans ce type d’utilisation, la validation par schéma XML est trop stricte : il faudrait pouvoir hiérarchiser les différents problèmes de conformité, avoir une sorte de « validation souple », un indicateur global de distance au schéma sur un document complet.

vdV : Envisagez-vous de remplacer XML par une autre technologie?

FC : Non

vdV : Quel rôle voyez-vous pour XML dans 10 ans?

FC : Ça, c’est de la futurologie... Je ne veux pas m’exposer au risque de voir, dans 10 ans, quelqu’un me mettre sous le nez toutes les âneries que j’aurais pu dire sur ce sujet. Je pense que l’on peut tout de même avancer que les outils de production informatique nativement XML seront davantage fiabilisés, par exemple en matière de bases de données, de générateurs de code, d’outils de conception, de publication, de documentation, etc. Pour le reste, ce que je crains un peu, c’est que dans 10 ans nous en soyons toujours à nous interroger pour savoir quel langage de schéma choisir ou s’il faut utiliser XForms 3.0 ou WebForms 4.1...

Voir aussi :

  1. Données de base de l'INSEE
  2. L'INSEE publie une version XML/RDF/OWL du Code Officiel Géographique
  3. Répondre à l'énigme des espaces de noms avec RDDL
  4. Programmation Littéraire en XML

Copyright 2008, Eric van der Vlist.


 

Mots clés.



L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.


Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org