Accueil
 chercher             Plan du site             Info (English version) 
L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.Les listes de discussions XMLfr sont à votre disposition pour réagir sur nos articles ou simplement poser une question.Si vous ètes passionnée(e) par XML, pourquoi ne pas en faire votre métier ?XMLfr n'est heureusement pas le seul site où l'on parle de XML. Découvrez les autres grâce à XMLfr et à l'ODP.Les partenaires grâce auxquels XMLfr peut se développer.Pour tout savoir sur XMLfr.XMLfr sans fil, c'est possible !Pour ceux qui veulent vraiment en savoir plus sur XML.L'index du site.
 Si vous vous posez une question, vous n'êtes peut-être pas le premier...Les traductions en français des bibles XML.Ces articles sont des références dans leur domaine.Tout ce qu'il faut savoir pour démarrer sur un sujet XML...


XML pour la presse

Après une courte introduction, Eric Guyot se livre à une étude de cas montrant ce que peut apporter XML dans le monde de la presse.

Eric Guyot(ericg@xmlfr.org).
vendredi 4 juillet 2003

XML, ou comment structurer du texte comme une base de données...

Les XML, eXtensible Markup Language (langage de balisage extensible), famille de langages plutôt que langage, supportent des balises comme :

  • une autre famille, les SGML (apparus en 1986), très (trop ?) complets, donc lourds qui ont pour débouché les grands systèmes de gestion documentaires et l'impression,
  • et un langage, le HTML, bien plus léger, destiné à échanger sur le Réseau (avec une typo assez rudimentaire) du texte (et surtout de l'hypertexte, des liens) accompagné de fichiers annexes (photos, son...), le tout assez léger pour être vite affiché par le navigateur côté client.

Ces deux ancêtres se préoccupaient de la mise en forme. C'était le cas du SGML, apparu à une époque où il n'était pas encore vraiment question de " multisupport ". Mais cest aussi le cas de HTML : à l'exception des balises "meta", par exemple, la plupart du balisage concerne encore la mise en forme (graisse, corps, force des titres, présentation en tableau...). Les deux atouts de l'innovation qu'a représentée HTML, outre la souplesse indispensable au multimédia, c'était la légèreté (nécessaire pour ne pas saturer les navigateurs d'informations inutiles) et la navigation à l'intérieur du document (les ancres) et à l'extérieur sur le Net (les liens URL).

Ils n'en restaient pas moins des langages spécialisés, le premier destiné à l'impression, le second à la publication en ligne. Il fallait déterminer ce qu'on voulait d'abord faire d'un texte : l'imprimer ou l'afficher sur le Net. Puis l'adapter si l'on voulait changer d'univers, avec tous les problèmes de traduction que cela supposait.

Aujourdhui, le multisupport est devenu la norme : on imprime et on publie sur le Net parallèlement. Pourquoi, dès lors, continuer à prévoir la mise en forme, dès la conception du texte, dans l'un ou l'autre univers ? XML est né du désir de disposer dun texte structuré sémantiquement (pour retrouver facilement l'information utile parmi tout le " bruit " dune information hypertrophiée) mais pas graphiquement (la mise en forme vers les différents supports se réalisant par des feuilles de style CSS, ou XSLT, annexes et spécialisées). Encore faut-il que la structuration sémantique soit très fouillée pour permettre l'application d'une mise en forme différenciée. Par exemple, au lieu de balises

<ital>Camelia sinensis</ital>

dans un texte courant destiné à limpression, on pourra avoir en XML (selon les désirs de lauteur, puisque tout est " adaptable " à la demande)

<nom-botanique-latin>Camelia
sinensis</nom-botanique-latin>

(ou sans doute plus exactement, en utilisant les attributs : <nom domaine="botanique" langue="latin"> avec des guill anglais bien sûr)

et une feuille de style précisera par ailleurs que tous les noms latins seront en italique.

L'objectif n'est pas ici de se compliquer la vie au lieu de demander simplement de l'ital quand il le faut ; il sagit de pouvoir retrouver rapidement, si on le désire, les noms botaniques latins dans un texte en ligne. Il peut être aussi avantageux de savoir, si le texte doit être traduit en une autre langue (et ce, de plus en plus par des logiciels, qui ont tout à apprendre...), que les noms latins ne se traduisent pas. Enfin, si l'on possède un dictionnaire numérisé de tous les noms botaniques latins (admettons que cela existe...), on peut confirmer que Camelia sinensis en fait bien partie (ou sinon afficher ERREUR) si l'on avait programmé cette vérification par quelques lignes de code.

Un outil européen pour aider à la traduction logicielle

La question de la traduction va plus loin que la traduction entre langages informatiques : une structuration sémantique aidera à traduire avec plus de justesse les langages des hommes. Par exemple, si un balisage sémantique indique que le sujet d'un texte concerne la kinésithérapie, un logiciel de traduction choisira plus aisément de traduire to lie par être étendu sur le côté que par mentir.

Déjà les schémas XML, en cours d'unification (difficile) à l'échelon national, se mettent en place au niveau européen : tel mot-clé dans une langue (utilisable dans un " dialecte " d'un domaine particulier, la chimie, par exemple) sera traduit très exactement par tel mot-clé dans une autre, les schémas étant traduits avec une grande précision dans toutes les langues de l'Europe. Grâce à la structuration sémantique, les logiciels de traduction automatique ne seront plus aussi ignorants du contexte, du sens, et ils pourront faire de grands progrès.

On peut d'ores et déjà imaginer un contenu unique décliné dans toutes les langues européennes par un groupe de presse multinational. Cela existe déjà (à l'état embryonnaire) dans les domaines des petites annonces et du sport, domaines qui se prêtent bien à une classification détaillée. Mais ce n'est que le début...

Finn : la syndication d'annonces classées en Norvège

La Norvège est le premier pays au monde pour la proportion d'internautes/habitants, premier aussi pour le nombre de journaux/habitants.

Dès 1999, la collaboration des différents journaux pour traiter ensemble les petites annonces est lancée, devant le constat du danger d'Internet pour les petites annonces imprimées.

Très vite le changement du processus annonceurs > agences > journal imprimé > publication Internet s'est inversé, Internet passant avant l'impression. Des services annexes ont été mis en ligne : si une annonce concerne un bien immobilier de vacances en Espagne, un lien est offert pour se renseigner sur la législation espagnole en matière d'immobilier ; ou encore, si une annonce indique " cuisine à rénover ", un lien permet de joindre le cuisiniste local...

De fait, c'est ce regroupement de journaux papier qui a su récupérer le marché de l'Internet et le développer. Dès 2000, les annonceurs pouvaient saisir leurs annonces en ligne sous XML. Les standards pour catégoriser l'annonce ont subi jusqu'à 40 modifications successives afin que le client se trompe moins dans la catégorisation (actuellement encore surveillée en interne). Il ne reste que 10 techniques puisque la saisie à la source par le client a été encouragée.

Le projet IndexAlliance regoupe 900 journaux en Europe. Ces échanges multilingues ont été grandement favorisés par XML. Pour l'instant, le marché n'est pas très développé, il s'agit plus de veille technologique. Peu d'annonceurs sont prêts à payer pour passer leurs annonces dans les pays voisins du leur.

" Le Monde " classe ses archives avec XML

En décembre 2002, " Le Monde ", devenu groupe après avoir absorbé " Le Midi libre ", cherche à unifier ses archives multisources. Depuis 1987, il classait ses archives au format texte avec le progiciel Basis (remis à jour plusieurs fois depuis). Le fonds se compose de 800.000 articles utilisables sur l'intranet interne, disponible pour les journalistes de la maison. En janvier 2002, un appel d'offres avait été lancé pour cesser d'archiver avec un thésaurus interne et à la main par des documentalistes. Une structure XML devait permettre d'intégrer l'image et de réutiliser les pages montées pour les articles déjà parus. Cahier des charges : interrogation en langage naturel ; indexation automatique ; pas de limite de taille ; requêtes aussi bien que résultats au format XML ; ouvertures logicielles en C++, Java, HTML. La Société Sinéqua a été choisie pour ses compétences sémantiques, et la Société Xylème pour son système de recherche. Ces deux sociétés ont proposé de collaborer pour offrir une solution unique innovante. L'internaute aura à sa disposition un double lien : PDF et toute sa mise en page et le texte source élaboré à partir du XML (moins long à répondre en ligne que la page complète). Cela permet l'interrogation directe en ligne.

Taxinomie, les réticences humaines au rubriquage

La taxinomie est la science qui permet de classer avec le plus de pertinence, donc d'archiver la connaissance (et ce, au niveau international, donc de façon uniformisée quel que soit le langage ou la culture d'origine du contributeur). Admettons ce néologisme de rubriquage pour signifier : indication le plus détaillée possible du sujet d'un texte, d'un article, d'une contribution scientifique... Et prenons pour exemple le domaine le plus difficile à cataloguer : l'information générale (celle des journaux généralistes).

NewsML constitue le langage XML de l'actualité journalistique. Sa version 2002 (1.1) a paru en octobre et restera (par choix) sans modification durant deux ans. Au niveau 1, il comprend 17 grandes catégories, elles-mêmes subdivisées en 312 sous-catégories de niveau 2, elles-mêmes encore subdivisées en 312 catégories possibles (ici, tout reste encore à déterminer) de niveau 3 (voir site).

Quand un article va-t-il recevoir son rubriquage ? Les concepteurs avaient imaginé que le journaliste, en saisissant son article, choisirait le rubriquage adéquat manuellement. Mais les journalistes n'apprécient guère cette nouvelle tâche, qu'ils ne reconnaissent pas pour leur... Aussi l'indexation se fait-elle souvent a posteriori, au moment de l'archivage, automatiquement avec un logiciel (comme Gammasite) ; toutefois, un contrôle humain reste nécessaire, le logiciel demandant à l'utilisateur de valider ou d'infirmer la catégorisation qu'il propose. On voit ici, peut-être, un rôle que les ouvriers du livre pourraient remplir dans le processus productif : le contrôle de la pertinence de la catégorisation, dont les journalistes ne veulent pas.

Il est plus ou moins difficile de déterminer des catégories. Le sport se prête bien à un tel découpage (nature du sport, pays, lieu, genre d'article...), l'économie aussi, mais l'information générale est par nature beaucoup plus floue. Tout document a plusieurs sujets. Et comment classer les articles qui traitent du nucléaire, par exemple ? Dans léconomie, ou les catastrophes majeures, ou le social ? Des événements apparaissent et prennent une importance majeure (le 11 septembre). Selon les cultures, les sensibilités nationales particulières risqueraient d'aboutir à des subdivisions très différentes : ainsi les Japonais sont demandeurs d'une rubrique " sectes " à part entière. Un organisme international, l'ITPC, définit, par une concertation internationale, un rubriquage de l'information universel qui facilitera traductions et circulation internationale des informations d'actualité. Il assure aussi la maintenance et l'enrichissement d'un certain nombre de dictionnaires (il recourt à l'ISIN ou au Sicovam pour le nommage des entreprises, par exemple).

Avant NewsML, on utilisait pour archiver " en aval " un outil de catégorisation automatique (Topîcs) qui, en fait, restait semi-manuel, genre annuaire Internet hiérarchisé, nécessitait une équipe spécialisée dans cette tâche et ne permettait pas le multilinguisme. Avec NewsML, la présentation est multimédia (à du texte est attachée la photo ou la vidéo correspondante) et les balises de type XML détaillent le ou les lieux, le ou les types dévénement (entités nommées après les catégories types, genres, sujets). Aussi, même les journaux qui ne veulent pas encore se lancer dans le XML au niveau de la saisie adoptent le langage NewsML pour leur archivage. Cest le cas du Monde, qui a basculé ses archives en décembre dernier, et de Sud-Ouest, qui se sert de NewsML pour exporter son info vers ses sites Internet.

XML adopté, après une valse-hésitation, par le " Financial Times "

Ce journal a bien compris que le standard XML ouvrait pour la presse un nouveau monde de flexibilité et d'intégration de la production, et ce, dès l'apparition de ces nouveaux outils en 1999. Une première étude avait été lancée en juin 1999, mais le projet avait avorté au bout de 18 mois. Seulement, à l'époque, ces nouveaux outils ne paraissaient pas encore assez au point. Aujourd'hui, on a jugé qu'ils avaient suffisamment progressé pour que ce soit le moment de se convertir.

En effet, l'idée de séparer le contenu de la forme pour faciliter le traitement simultané d'une publication en ligne et d'une impression papier avait été appréciée par les dirigeants du journal, confrontés dès 1998 à la nécessité de diversifier de plus en plus le contenu de l'information selon les éditions en Europe, en Asie ou en Amérique.

Il restait à trouver " le bon " système XML. Un appel d'offres international a été lancé et une commission de 12 journalistes a épluché les offres reçues. C'est Eidos Medias Methode qui a été choisi. Parce qu'elles pouvaient sembler un peu légères, les solutions apportées par Eidos seront auditées par Schlumberger-Sema et bouclées par des définitions contractuelles très rigoureuses. Elément essentiel : l'équipe dirigeante d'Eidos vient du monde de la presse.

Effet sur les effectifs : aucune diminution en perspective, bien au contraire, avec les projets de multi-éditions et l'augmentation de la copie pour diversifier l'information. 250 journalistes écrivent le fonds commun, puis 215 S.R. et techniques multitâches déclinent ce fonds en des éditions multiples (impression papier, Web, wap...). Ces techniques étaient auparavant divisés en 4 équipes, maintenant réunies en collège unique travaillant en continu sur le web et de 16 à 23 h pour les éditions papier.

Le contrat a été signé début juillet 2002, le préprojet finalisé en octobre 2002, la production a commencé en mars 2003, le basculement définitif est prévu pour décembre 2003.

Des 19 flux différents, on est passé à 6. Des tests très serrés ont été exécutés avant tout passage en production.

Bénéfices déjà constatés : lissage des pics et creux de production ; délais réduits chez les SR et techniques, avec une heure de sortie des éditions plus tôt ; à partir d'un contenu commun XML, les différents formats sont plus simples à sortir ; à partir d'une information structurée par XML, la diversification des différentes éditions internationales a pu être largement amplifiée.

Précautions : jusquà décembre, les deux systèmes, classique et XML, fonctionneront en parallèle. Les chefs de projet savent que la période peut être riche en erreurs et ils sont prudents. Ils savent qu'ils sont les premiers parmi les grands journaux à se lancer dans l'aventure et se savent très observés par leurs confrères.

XML total pour le " Heraldo de Aragon "

José Manuel Lozano a relaté un an d'expérience de passage intégral en XML (production comme archivage) du " Heraldo de Aragon ", pour un coût annuel de 400.000 euros.

Le " Heraldo " a choisi un système XML propriétaire, Infopolis, coexistant avec des serveurs et terminaux sous Windows et, comme navigateur, Internet Explorer. Les pages sont éditées sous QuarkXPress ou sous InDesign.

Les changements de hardware ont inclus de nouveaux serveurs (mais on na pas voulu changer les terminaux PC, qui se sont à l'usage révélés trop vieux... Mauvais choix d'économies !). Pour le soft, Infopolis n'est pas standard, mais il a été parallèlement fait appel à des soft basiques comme Word.

Le " Heraldo " a fait le choix de limiter son personnel technique à 10 salariés (plus un poste de maintenance) et de confier toutes les tâches aux 150 journalistes (qui codifient l'information, corrigent eux-mêmes, traitent les photo et schémas, montent les pages et morassent) : un mois complet de formation par roulement sur un an (le programme de formation n'est pas encore achevé) a été à peine suffisant. Il a fallu tout bousculer, la maquette, le design, la typographie, les flux de travail, pour les simplifier au maximum. Des modèles de contenu semblaient assez simples à définir ; en fait, mettre au point les DTD, c'est très long, et cela demande des réajustements de maquette incessants. L'ancien système et le nouveau ont dû coexister durant trois mois. Pendant cette période de basculement, les sauvegardes ont été faites chaque jour sur chaque système.

Difficultés : les journalistes ne se sont pas appropriés les nouvelles règles XML, trop strictes. Leur formation a sans doute été trop courte. Ils n'ont eu aucune incitation salariale à accepter ces changements, mais seulement une perspective de diminution du temps de travail. Les journalistes ne se sont pas pliés à l'uniformisation des maquettes, dans lesquelles ils ont souvent introduit des changements non prévus et non souhaitables.

Pourtant des stagiaires en renfort sortis de l'université n'ont pas mis deux heures pour être opérationnels sur ce matériel.

Avantage essentiel : suivi de la production en temps réel. La facilité d'usage a entraîné une réduction des coûts de production de 20 % et a fait gagner une heure sur le temps de production (qui s'est traduite en réduction du temps de travail).

XML chez Roularta (groupe de presse flamand)

Roularta (2.000 salariés environ) regroupe depuis 1954 un grand titre quotidien (" De Krant van West-Vlaanderen ", avec son supplément dominical " De Zondag ", gratuit chez tous les boulangers) et de très nombreux magazines néerlandophones, hebdo magazines Knack, Trends économique, ou mensuels, Plus (en Flandre et aux Pays-Bas). Associé à Bayard-Presse (moitié-moitié dans Plus Nederland, par exemple), il publie aussi un peu en français (Vif/LExpress, Vacature et Télépro, journal télé diffusé en Wallonie). Cest un groupe multimédia qui possède des radios et télés locales, publie des Cédérom et des DVD, est présent sur Internet (avec easy.be, portail, guide, petites annonces mobilières et boulot, critique de restau, diffuseur de cartes, etc.). Sa division prépresse est Newsco (PAO, 210 salariés), qui compose par exemple " A nous Paris ! ", le journal diffusé par la RATP dans le métro parisien.

Avant leur mutation vers XML, Roularta souffrait dune juxtaposition de systèmes. Il y avait un système de saisie, Itell, qui devait être traduit en ASCII avant dêtre importé sur Quark XPress. Les corrections demandées sur Quark XPress devaient être refaites en Itell.

Traduire Itell en XML supposait de contrôler la présence des corrections, les manques éventuels et dajouter en saisie de nombreux éléments (dates, numéros, etc.). Le travail de resaisie était évalué à deux heures par magazine pour deux opérateurs.

Le premier changement a été le remplacement d'Itell par une version personnalisée de Word. La traduction préalable en ASCII avant importation en XPress a été maintenue un temps, puis abandonnée pour une saisie Word appelée immédiatement sur XPress et traduite en XML. Mais il fallait toujours deux heures à deux opérateurs pour effectuer les opérations nécessaires aux conversions.

Le groupe a recouru au logiciel Atomik d'Easy Press Technology pour automatiser la conversion XML /XPress. Il a fallu définir un ruleset par magazine. On a continué d'utiliser les morasses pour détecter les manques, les paragraphes vides et les traits d'union inadéquats. Il faut aussi vérifier que le XML est " bien formé " avant de l'exporter sur le serveur (Enhancer) avec un langage XML élaboré pour le groupe, quils ont appelé " Roularta XML ". On crée, avant cela, une version HTML de ce XML pour un dernier contrôle sur écran. Le groupe emploie toujours 9 correcteurs pour 30 opérateurs chargés d'effectuer ces conversions.

Copyright 2003, Eric Guyot.


 

Mots clés.



L'histoire de XML s'écrit en ce moment même. XMLfr vous aide à la suivre et à en dégager les tendances.


Les documents publiés sur ce site le sont sous licence "Open Content"
Conception graphique
  l.henriot  

Conception, réalisation et hébergement
Questions ou commentaires
  redacteurs@xmlfr.org