Bonjour !
Je cherche de l’aide pour le problème suivant :
J’ai une base de données avec notamment ‘nom’ et ‘prénom’ (env 7000 lignes). J’ai plein de document pdf ocrisés (assez bonne fidélité, à la louche performance de la reconnaissance aux alentours de 95% peut-être un peu moins pour les noms propres, qui m’intéressent en l’occurence). Je souhaite pour chaque document (entre 1 et 5 pages a4) trouver si un nom ET prénom apparait une fois ou plus dans le document avec un score de certitude (genre : Alain ET Durand apparaissent chacun 7x dans le document, aucun autre couple nom/prenom n’y est détecté —> score de 100%).
J’ai déjà vaguement des idées avec l’utilisation de similar_text() et levenshtein(). D'instinct j'enlèverais les caractères spéciaux des mots ocrisés, les mettrais dans un tableau et en comparerais chaque cellule avec les nom/prénoms de la base et générerai un tableau de variable avec nomBase, prenomBase, score. Mais je sens que c'est pas très élégant, un peu bourrin et que le diable va se cacher dans des détails auxquels je n'ai pas encore pensé.
Est-ce que quelqu’un aurait une idée de la direction à prendre ? Y a-t-il quelque chose d’existant ?
Merci d’avance, la bonne journée !