Je trouve ce script fort utile.
Il permet de créer des fichiers PDF adressables embarquant l'OCR:
https://github.com/fritz-hh/OCRmyPDF/
Il faut un certain nombre de dépendances dont exactimage, tesseract... Mais le script vous le rappelle. C'est pratique.
La version 2 permet de faire le travail en parallèle.
Un simple:
./OCRmyPDF.sh -l fra -d -c -i -vv input.pdf out.pdf
|
recale les pages du document (-d) en français (-l fra) et nettoie les bordures (-c) pour inclure ou non (-i) les bitmaps redressés et nettoyés dans le PDF adressable.
Pour des documents vraiment moches, je commence avec scantailor.
Bref, le libre comme je l'aime.
Message édité par Sagittarius le 11-11-2013 à 14:21:31