Voici mon problème : je réalise un programme qui est sensé lire le contenu d'un document HTML pour créer un document XML.
Pour l'instant, je récupère un Document (org.w3c.dom.Document) grâce à l'API JTidy (qui permet notamment de parser un fichier HTML).
Le problème, c'est que les fichiers HTML que je lis ne sont pas très stricts : le code HTML est généré par un éditeur (celui de WSAD=version commerciale d'Eclipse en l'occurence) et ce vilain ne ferme pas les balises INPUT. Résultat JTidy se perd un peu...
Exemple :
un bout de mon fichier ressemble à ca :
Citation :
<TD>
<INPUT name="login" type="text" size="20">
</TD>
<TD>Coucou</TD>
|
JTidy me donne ca :
Citation :
<TD>
<INPUT name="login" type="text" size="20">
<TD>Coucou</TD>
</INPUT>
</TD>
|
Autrement dit JTidy crée lui meme la balise fermante </INPUT>, mais pas au bon endroit.
Voici donc ma question : ai-je un moyen (en configurant JTidy ou l'éditeur HTML d'Eclipse) de fermer automatiquement les balises ? Ou alors je dois coder ca moi meme (si balise INPUT alors déplacer la balise TD...) ? Pour l'instant je n'ai rien trouvé dans la doc de Tidy...
Si vous connaissez une autre API pour manipuler de l'HTML en Java je suis preneur.
Merci d'avance
Message édité par swgreedo le 07-04-2003 à 12:36:02