Bonjour a tous,
Je me heurte a des problèmes d' encodage en utilisant les API simpleXML et DOM de PHP. Elles sont basées sur libxml.
Je traite des pages web "purifiée" avec tidy.
J' ai l' impression que l'encodage des chaines que je récupère en PHP dépent de l' entete XML "encoding=" et/ou
la doctype.
En PHP on est censé convertir les chaines "depuis" utf8 avec la fonction utf8_decode or parfois j' obtiens des caractères bizarres et je n' arrive pas a isolé le problème.
J' envisage une solution "lourde" c'est de "tokeniser" tous les entités [&kekchose:] et tout les caractères "non-ascii". C' est a dire
de les remplacé par un symbole interne du genre __NBSP__ ou __CHR_253__ avant de faire le traitemnt libxml.
Ca me parait un peu lourd.
Qu' en pensez vous?
Merci d'avance :-)
Marc Abiven [Ingénieur d'Etudes]
06 25 04 50 49
--------------------------------------------------------------------------------
Mon CV: Abiven.Marc.free.fr
Site Immobilier: Locations-Ventes.net
--------------------------------------------------------------------------------
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Received on Tue Jan 3 04:12:44 2006