hello
je cherche de quoi convertir differents formats (.pdf principalement, mais aussi .chm, et .doc) en html si possible(histoire de conserver la mise en page (titre surtout)), au pire txt si possible une librairie, sinon au moins en ligne de commande, histoire de pouvoir automatiser.
PDF
aucun topic n'en parle ici (recherche a pdf ds java)
http://forum.hardware.fr/forum1.ph [...] deration=0
certains oui, mais ds l'autre sens: ie xxx >> .pdf comme jpedale.
Itext y arrive, mais perd la mise en forme, etxtrait:
Citation :
You can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
What does this mean?
The pdf format is just a canvas where text and graphics are placed without any structure information. As such there aren't any 'iText-objects' in a PDF file. In each page there will probably be a number of 'Strings', but you can't reconstruct a phrase or a paragraph using these strings. There are probably a number of lines drawn, but you can't retrieve a Table-object based on these lines. In short: parsing the content of a PDF-file is NOT POSSIBLE with iText
|
maintenant, si ya des outils pr parser directement du pdf en java, je prend aussi (ya ca en c#, pourtquoi pas hein )
doc en pdf et chm (meme si ca devrait etre plus simple, vu que c'est du html compressé) en html, je prend aussi
merci
Message édité par Profil supprimé le 10-09-2006 à 14:07:48