Salut,
j'ai un grand volume de documents PDF, qui sont en fait des pages typographiées, scannées puis enregistrées au format PDF.
Les documents PDF ne contiennent donc pas du texte, mais des "photos" (Bitmap, JPEG,) de Texte.
Je voudrais donc pour voir passer un OCR sur ces images pour en ressortir du texte pur, directement si possible à partir du document PDF, ou au pire avec la procédure la plus simple possible.
Est ce que l'un d'entre vous est déjà parvenu à faire ça, ou a ne serait-ce qu'une petite idée qui me mettes sur la voie ?