la recherche dans un ficheir est largement plus lente que la recherche en base
En général un moteur de recherche fonctionne de la manière suivante.
Lors de l'indexation :
on extrait tous les mots du texte
on enlève les mots inutile ( le, la, les ,...; )
on extrait la racine des mots ( stemming) , pour virer les pluriels/singulier/conjuguaison
on stocke en base la correspondance entre un texte, ses mots et leurs positions . Eventuellement,on peut affiner l'analyse en stockant si le mot est dans un titre, une signature, ...
Lors de la recherche :
on prends l'expression recherché, on applique le même stemming que lors de l'indexation et on compare le resultats avec la liste des mots en bases pour retrouver les textes
Le classement se fait en fonction du nombre d'occurence, de leur position , ....