Le mardi 7 Décembre 2004 13:35, Fabrice Estiévenart a écrit :
>
> je cherche un moyen direct et élégant (si possible en Java) pour interroger
> de l'HTML distant avec XPath (sans transiter par Tidy et la création d'un
> fichier XML temporaire)...j'aimerais éviter Tidy car il déplace certains
> tags et rend mes expressions XPath invalides.
>
Je ne l'ai jamais fait, mais je peux vous donner des idées !
A mon avis, si vous voulez garder XPath, il faut en passer par du XML. Peut
être pourriez-vous essayer la voie du DOM HTML, mais je ne connais pas de
parser qui le fasse.
En dehors du XML, vous pourriez peut être aussi essayer le parser de swing
(package javax.swing.text.html.parser).
Pour chercher des idées en Java, il n'y a rien de mieux que le "canal java".
Voici la requête pour "html parser" :
http://www.java-channel.org/query.jsp?text=html+parser&x=0&y=0
... qui vous donnera déjà pas mal de pistes. CyberNecko semble assez bien
correspondre à ce que vous souhaitez, et vous pourrez également essayer
d'autres termes de recherche.
Cordialement.
--
SARL diaam informatique - 04 77 25 43 28
Ingenierie, développements de systèmes d'information
http://www.diaam-informatique.com
--
Devenez redacteur <XML>fr et contribuez au developpement du
xml francophone (http://xmlfr.org/infos/redacteurs/) !
Liste de diffusion "xml-tech@xmlfr.org" (http://xmlfr.org).
Cette liste est a votre disposition pour discuter en francais de
tout sujet technique lie a XML.
Pour resilier votre abonnement, envoyez un message contenant
la commande "unsubscribe" a xml-tech-request@xmlfr.org
(mailto:xml-tech-request@xmlfr.org?Subject=unsubscribe)
Received on Tue Dec 7 16:43:02 2004