Je réponds un peu tard, mais pour lire des PDF, c'est pas aussi simple qu'utiliser une bibliothèque.
Certains PDF sont composés de textes (exemple type : un PDF généré avec Word)
D'autres sont composés de textes et d'images.
Et enfin d'autres sont parfois même une seule image contenant des textes pixélisés (donc aucune information de texte dans le PDF).
L'approche que nous utilisons, c'est une préanalyse du PDF pour voir si celui-ci contient plus d'un certain nombre de mots, auquel cas, une librairie d'extraction de texte du PDF suffit. Dans le cas contraire, la meilleure approche reste l'OCR. On peut par exemple utiliser Tesseract qui est opensource ou l'un de ses dérivés.
Une approche un peu extrême quand on a plein de PDF dont il est difficile de savoir s'ils sont composés de textes et/ou d'image, c'est d'aplatir le PDF pour le transformer en une seule image, et passer l"OCR ensuite dessus.
---------------
Expert en expertises