Bonjour à tous,
Je dois réaliser un petit script qui scanne un répertoire, et qui pour chaque fichier pdf extrait le texte dans un nouveau fichier. Avant meme de commencer le script, je m'essaie donc à la commande pdftotext (Debian sarge 3.1, pdf en version 1.2 et pdftotext v3.0).
Et deja premier soucis, ça ne marche pas vraiment. A la place, je me retrouve avec un fichier dont le contenu ne ressmble pas à grand chose. J'ai essayer de préciser divers encoding (Latin1, UTF-8, ASCII7) mais sans succès, c'est toujours le meme résultat
Le man ne m'apprends pas grand chose de plus quant à ce problème.
Une aide serait la bienvenue
EDIT : J'avance sur mon enquete
Donc : mon pdf est issu d'un fichier ps, converti en pdf avec la commande ps2pdf.
Visiblement le soucis est là, car avec un fichier pdf existant (un fichier de doc), pdftotext fonctionne à merveille !
Il semblerait qu'il y ai un soucis avec la commande ps2pdf. Le fichier pdf crée est bien lisible avec un viewver pdf, mais il devient impossible d'en extraire le texte !
Un exemple de fichier pdf généré par ps2pdf est visible ici :
http://petoulachi.coldwire.net/datas/test.pdf
ps2pdf se servant au final de gs, en appelant la commande
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite
peut etre est-ce ma version du pdfwriter qui a un soucis
Message édité par petoulachi le 06-07-2005 à 12:32:22