Désolé je ne connais pas de logiciel qui fasse cela, mais il en existe peut-être.
Le format PDF est ancien et complexe. Plusieurs couches se sont déposées au fil du temps.
Le contenu est très souvent compressé. Il y a plusieurs modes de compressions possibles.
Les polices de caractère ont plusieurs codages particuliers possibles.
Les données ne suivent pas l'ordre du texte. Il y a une structure arborescente interne
qui fait que des données voisines sur l'écran peuvent se retrouver éloignées dans le fichier.
Et peut-être que les articles auraient été juste photographiés, scannés, auquel cas il faudrait
décrypter les images dans un premier temps, ce qui peut ne pas être simple car de
nombreux formats d'image sont possibles. Ensuite, il faudrait faire tourner un bon
logiciel de reconnaissance de caractères.
Enfin, les PDF sont peut-être protégés par un cryptage, si l'auteur l'a souhaité.
Bref, la recherche dépend de la manière dont le PDF a été fait.
Cela peut être soit un peu compliqué, soit très compliqué.