Bonjour à vous,
Je suis en train de me construire une gestion documentaire en PHP, principalement des pdf et j'ai quelques interrogations sur la façon de m'y prendre...
Ma principale interrogation porte sur une recherche plein texte des pdf.
Je dispose d'environ 15000 à 20000 documents à parcourir.
Ce que j'ai comme solutions jusqu'à présent :
mes recherches m'ont portés jusqu'à des librairies comme XPDF, pdftohtml etc...
Je pense que la conversion PDF -> Texte / HTML n'est pas trop un problème, XPDF fonctionnant parfaitement.
La question que je me pose est la suivante, que faire parmis ces 3 solutions, le principal argument étant la vitesse d'exécution :
- Parcourir la liste de pdf en convertissant à chaque fois les pdf en texte puis analyser le texte pour trouver une occurence ?
- créer une tache cron qui me crée les fichiers texte pendant la nuit puis lors d'une recherche effectuer la recherche plein texte sur les fichiers textes ?
- créer une tache cron qui me renseigne une bdd mysql avec le texte entier du pdf, puis interroger cette base ?
Actuellement je ne dispose pas des documents ni de la machine de prod finale donc je me pose la question surtout en terme de ressource et de temps d'execution, j'aurais aimé faire des tests mais ils viendront en même temps que les docs et la machine de prod.
Merci de me dire ce que vous pensez de mes solutions ou si je suis à coté de la plaque !
++
Message édité par Toscano le 24-11-2008 à 13:43:20