Regardes les moteurs de recherche sous licence GPL (Lucene, par ex).
En gros :
0) définir la structure de stockage des données indexées,
1) analyse des documents à indexer (par mots-clés ou plus complexe, avec de la sémantique par ex)
2) créer un outil permettant de formuler des requêtes (là encore, juste par mots-clés ou plus complexe, sémantique)
3) analyser une requête de recherche et rechercher dans l'index les données les plus pertinentes à remonter.
Qq bons articles :
Lemnisation : http://fr.wikipedia.org/wiki/Lemme_%28linguistique%29
Tf-Idf : http://fr.wikipedia.org/wiki/Tf-idf
LSA : http://fr.wikipedia.org/wiki/Analy [...] ue_latente
Pour LSA, faut aimer les maths et avoir une bonne machine Perso, dans mon implémentation, je me suis arrêter à la matrice de corrélation, j'avais pas la puissance nécessaire pour le calcul des valeurs propres/vecteurs propres...
Message édité par rufo le 19-04-2011 à 16:20:02
---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta