Forum |  HardWare.fr | News | Articles | PC | S'identifier | S'inscrire | Shop Recherche
1804 connectés 

  FORUM HardWare.fr
  Programmation
  Algo

  Génération de mots similaires

 


 Mot :   Pseudo :  
 
Bas de page
Auteur Sujet :

Génération de mots similaires

n°1352860
rufo
Pas me confondre avec Lycos!
Posté le 24-04-2006 à 16:46:13  profilanswer
 

Je suis en train d'écrire un algo permettant d'étendre une recherche via des mots clés afin de contourner le pb de recherches infructueuses du fait qu'il y a des fautes d'orthographe ou de frappe dans une base de données (ici, Mysql).
ex : l'utilisateur recherche tous les enregistrements contenant le mot "plate-forme". Il va donc rater les enregistrements contenant "plate forme" ou "plateforme".
 
Par ailleurs, je cherche autant que possible à ne pas créer un algo trop spécifique aux caractéristiques d'une langue. Je préfèrerait qu'il soit assez généraliste (ou alors paramétrable).
 
Pour l'instant, voilà ce que sait faire mon algo qui prend en paramètre un mot :  

Citation :


- remplacer 1 lettre du mot par une autre lettre. Cette autre lettre appartient à l'ensemble des lettres voisines (sur le clavier) de la lettre à remplacer. -> ici, j'ai un paramétrage pour indiquer sur quel clavier on travaille.
- inverser l'ordre de 2 lettres adjacentes.
- supprimer une lettre du mot.
- rajouter une lettre après la lettre courante du mot sur laquelle on travaille. Pareil, la lettre ajoutée appartient à l'ensemble des lettres voisines (sur le clavier) de la lettre après laquelle on effectue cet ajout. En plus, je traite le cas du doublement de frappe de la lettre (ex : appel -> apppel) et de l'ajout du " " et du "-".


 
En sortie de cet algo, j'ai une liste contenant tous les nouveaux mots générés à partir du mot donné en entrée. Le pb, c'est que pour un mot, même court, je me retrouve à la fin avec pas mal de possibilités. J'aimerais pouvoir en éliminer qq uns qui sont "bidons".
ex : le mot "dans" va me donner entre autre "dzns" (faute de frappe) ou "dasn". Je veux garder "dasn" (faute de frappe classique) mais supprimer "dzns" (faute de frappe trop visible, l'utilisateur aura probablement corrigé lors de la rédaction de son texte dans la BD).
 
J'ai donc mis en place 2 filtres :  

Citation :


- suppression des mots générés ayant plus de x consonnes (j'ai mis 4)
- suppression des mots générés ayant plus de x voyelles (j'ai aussi mis 4)


 
Est-ce que vous connaitriez d'autre filtres "intelligents" que je pourrais mettre en place qui ne nécessiteraient pas la mise en place d'un dico? Merci ;)


Message édité par rufo le 25-04-2006 à 12:39:57
mood
Publicité
Posté le 24-04-2006 à 16:46:13  profilanswer
 

n°1352877
anapajari
s/travail/glanding on hfr/gs;
Posté le 24-04-2006 à 17:01:52  profilanswer
 
n°1352921
rufo
Pas me confondre avec Lycos!
Posté le 24-04-2006 à 17:43:05  profilanswer
 

J'avais mis mysql comme sgbd à titre informatif mais je ne veux pas être dépendant d'un sgbd (de toute manière, je suis en mysql < 4 donc c'est mort). Mon post concerne uniquement l'aspect algorithmie...


Message édité par rufo le 24-04-2006 à 17:43:40
n°1352933
Taz
bisounours-codeur
Posté le 24-04-2006 à 17:52:47  profilanswer
 

il sux ton forum joce

n°1352936
nargy
Posté le 24-04-2006 à 17:55:11  profilanswer
 

utilise l'algo de levenstein pour comparer la distance entre deux chaînes

n°1352959
rufo
Pas me confondre avec Lycos!
Posté le 24-04-2006 à 18:15:18  profilanswer
 

nargy a écrit :

utilise l'algo de levenstein pour comparer la distance entre deux chaînes


 
dans la mesure où chaque mot généré ne contient qu'une des modifs citées précédemment, je en pense pas que levenstein va m'aider beaucoup...
 
edit : je viens d'effectuer le test -> ça varie entre 0 et 2.
0 -> mot exact
1 -> substitution d'une lettre par une autre
2 -> ajout d'une lettre
Donc, c'est pas probant.


Message édité par rufo le 24-04-2006 à 18:19:21
n°1353027
nargy
Posté le 24-04-2006 à 19:22:46  profilanswer
 

> Donc, c'est pas probant.
- c'est à dire? de toutes façons, ce n'est pas une recherche exacte qu'il faut, mais une recherche pondérée, tu peut ajouter lenvenstein pour pondérer les résultats.
 
aussi, comparaison trigraphe.

n°1353381
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 11:08:13  profilanswer
 

nargy a écrit :

> Donc, c'est pas probant.
- c'est à dire? de toutes façons, ce n'est pas une recherche exacte qu'il faut, mais une recherche pondérée, tu peut ajouter lenvenstein pour pondérer les résultats.
 
aussi, comparaison trigraphe.


 
c'est quoi la comparaison trigraphe? Je viens de regarder sur google mais je tombe surtout sur des sites qui parlent de l'opérateur de comparaison (en langage C, C++...)

n°1353432
nargy
Posté le 25-04-2006 à 11:50:51  profilanswer
 

Comparer les lettres trois par trois, avec toutes les combinaisons possibles.
Ça fonctionne relativement bien pour de nombreuses typos.

n°1353435
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 11:52:50  profilanswer
 

nargy a écrit :

Comparer les lettres trois par trois, avec toutes les combinaisons possibles.
Ça fonctionne relativement bien pour de nombreuses typos.


 
Je visualise pas complètement ce que fait l'algo. Il prend quoi en entrée et il donne quoi en sortie? Merci :jap:

mood
Publicité
Posté le 25-04-2006 à 11:52:50  profilanswer
 

n°1353457
nargy
Posté le 25-04-2006 à 12:05:43  profilanswer
 

il prends deux chaines en entrée, renvoie un booléen.
 
pour chaque trio de caractère de la première chaîne, il compare si ce trio correspond à une combinaison du trio de la deuxième chaîne.
 
genre:
1ère chaine: abcd
il compare <<abc>> avec les 3 premiers caractères de la 2ème, combinaisons: abc, acb, bac, bca, cab, cba
puis il compare <<bcd>> avec les 3 derniers caractères de la 2ème
Il retourne Faux s'il ne trouve pas de combinaison possible pour un trio.

n°1353487
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 12:26:11  profilanswer
 

Ok, j'ai compris. Mais je pense que cet algo est utile pour savoir dans quelle mesure 2 chaînes (distinctes) se ressemblent. Or, dans mon cas, forcément elles se ressemblent puisque ma 2ième chaîne est générée à partir de la première mais ayant subi une petite modif (ajout/suppression/remplacement d'un caractère). Donc, ça va me retourner vrai uniquement pour les chaînes auxquelles j'ai juste fait une premutation de 2 caractères adjacents :/ C'est donc pas ça qu'il me faut (je sais, je suis difficile!:D).
 
Ce dont j'ai besoin, c'est virer qq mots similaires qui seraient un peu trop "bizarres" (cf "dans" -> je veux garder "dasn" et virer "dzns" ). Il faut donc trouver des propriétés linguistiques + ou - communes aux langues qui utilisent notre alphabet. Dans le pire des cas, je peux au moins me limiter au fr/en (l'allemand a des mots bien trop bizarres! :lol:)...

n°1353490
nargy
Posté le 25-04-2006 à 12:28:00  profilanswer
 

> cf "dans" -> je veux garder "dasn" et virer "dzns"  
ben, oui, exactement ce que fait le trigraphe.

n°1353498
nargy
Posté le 25-04-2006 à 12:35:18  profilanswer
 

si je te propose trigraphe et levenstein, c'est parceque j'ai lu sur un site universitaire (lequel?) le résumé d'une thèse dans laquelle ils avaient comparé de nombreuses méthodes (dont soundex1&2, metaphone, et d'autres plus exotiques...) pour comparer des chaînes avec des typos, et ces deux méthodes combinées donnaient les meilleurs résultats pour toutes les langues.

n°1353501
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 12:37:43  profilanswer
 

nargy a écrit :

> cf "dans" -> je veux garder "dasn" et virer "dzns"  
ben, oui, exactement ce que fait le trigraphe.


 
oops, oui, mauvais exemple.
ex : "calculateur" -> je veux garder aussi "callculateur". Là, ton algo va me le virer. A moins que vu qu'il va trouver certaines permutations, il va me renvoyer vrai?


Message édité par rufo le 25-04-2006 à 12:38:29
n°1353508
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 12:43:53  profilanswer
 

nargy a écrit :

si je te propose trigraphe et levenstein, c'est parceque j'ai lu sur un site universitaire (lequel?) le résumé d'une thèse dans laquelle ils avaient comparé de nombreuses méthodes (dont soundex1&2, metaphone, et d'autres plus exotiques...) pour comparer des chaînes avec des typos, et ces deux méthodes combinées donnaient les meilleurs résultats pour toutes les langues.


 
t'aurais le lien de cette thèse par hasard? Ca m'intéresserait :) Je suis déjà allé sur un site universitaire français lire qq thèses (je les ai lues en diagonales, hein, parce qu'elles sont longues en général)... J'ai testé aussi avec soundex et similar_text mais bof, ça reste toujours au niveau du caractère et non au niveau de l'ordre des lettres dans le mot avec la prise en compte des enchainements voyelles/consonnes.
ex : en fr/en, on n'a pas de mots avec "ywz" à la suite ou "dzn" (pas à ma connaissance en tout cas). Je pense aussi à d'autres règles : un mot ne peut pas commencer par 3 consonnes à la suite (ie 3 voyelles?).


Message édité par rufo le 25-04-2006 à 12:46:25
n°1353537
nargy
Posté le 25-04-2006 à 13:19:36  profilanswer
 

> ex : "calculateur" -> je veux garder aussi "callculateur". Là, ton algo va me le virer. A moins que vu qu'il va trouver certaines permutations, il va me renvoyer vrai?
 
- c'est pourquoi le trigraphe est combiné avec levenstein. Par exemple lorsque le trigraphe retourne vrai, distance<=1, pour éviter d'avoir une dégradation de la pondération levenshtein lors de multiples erreurs de frappes.
 
Note que trigraphe et levenshtein fonctionne de la même manière avec voyelles et consonnes, et quelque soit la langue.
 
Exemples:
distance("dans","dzns" )=1 // tombe en levenshtein
distance("dans","dnas" )=0 // tombe en trigraphe
distance("calculateur","callculateur" )=1 // tombe en trigraphe
 
Un autre algo souvent utilisé, comme avec soundex, où les doubles lettres ne sont pas comptés:
distance("calculateur","callculateur" )=0 // tombe en soundex
distance("calculateur","caliculateur" )=1 // tombe en lenvenshtein
Les doubles lettres sont retirées avant d'executer d'autres algorithmes (problème avec le ``LL`` espagnol).
 
Note aussi que dans la thèse que j'ai lu, ils avaient comparé aussi un algo proche de celui que tu décrit au début, avec pondération par distance des touches sur le clavier, mais avaient éliminé la solution car trop complexe à mettre en oeuvre pour trop peu de précision supplémentaire par rapport à levenshtein.
 
> t'aurais le lien de cette thèse par hasard?
- j'ai déjà essayé de la retrouver sans succès.
 
Note enfin, que tous ces algos pondèrent les typos, celà n'empêche que tu peut pondérer aussi par la distance sémantique, en utilisant un dictionnaire de synonymes.
Exemple de dictionnaire de synonymes avec pondération:
http://elsap1.unicaen.fr/cgi-bin/cherches.cgi
Un autre lien interessant à ce propos, avec des stats faites à partir de l'internet, mais que tu connais probablement:
http://labs.google.com/sets
 
Il y a des chercheurs qui ont réussi aussi à extraire des infos d'une page web, et de poser des question à l'ordinateur. Ils ne donnent pas l'algo qu'ils utilisent (désolé, je me souviens plus ni du nom de la méthode, ni du site), mais fournissent quelques exemples:
- lecture d'un article de news
- question: qui est le président des états unis?
- réponse: george bush

n°1353716
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 16:19:33  profilanswer
 

nargy a écrit :

> ex : "calculateur" -> je veux garder aussi "callculateur". Là, ton algo va me le virer. A moins que vu qu'il va trouver certaines permutations, il va me renvoyer vrai?
 
- c'est pourquoi le trigraphe est combiné avec levenstein. Par exemple lorsque le trigraphe retourne vrai, distance<=1, pour éviter d'avoir une dégradation de la pondération levenshtein lors de multiples erreurs de frappes.
 
Note que trigraphe et levenshtein fonctionne de la même manière avec voyelles et consonnes, et quelque soit la langue.
 
Exemples:
distance("dans","dzns" )=1 // tombe en levenshtein
distance("dans","dnas" )=0 // tombe en trigraphe
distance("calculateur","callculateur" )=1 // tombe en trigraphe
 
Un autre algo souvent utilisé, comme avec soundex, où les doubles lettres ne sont pas comptés:
distance("calculateur","callculateur" )=0 // tombe en soundex
distance("calculateur","caliculateur" )=1 // tombe en lenvenshtein
Les doubles lettres sont retirées avant d'executer d'autres algorithmes (problème avec le ``LL`` espagnol).
 
Note aussi que dans la thèse que j'ai lu, ils avaient comparé aussi un algo proche de celui que tu décrit au début, avec pondération par distance des touches sur le clavier, mais avaient éliminé la solution car trop complexe à mettre en oeuvre pour trop peu de précision supplémentaire par rapport à levenshtein.
 
> t'aurais le lien de cette thèse par hasard?
- j'ai déjà essayé de la retrouver sans succès.
 
Note enfin, que tous ces algos pondèrent les typos, celà n'empêche que tu peut pondérer aussi par la distance sémantique, en utilisant un dictionnaire de synonymes.
Exemple de dictionnaire de synonymes avec pondération:
http://elsap1.unicaen.fr/cgi-bin/cherches.cgi
Un autre lien interessant à ce propos, avec des stats faites à partir de l'internet, mais que tu connais probablement:
http://labs.google.com/sets
 
Il y a des chercheurs qui ont réussi aussi à extraire des infos d'une page web, et de poser des question à l'ordinateur. Ils ne donnent pas l'algo qu'ils utilisent (désolé, je me souviens plus ni du nom de la méthode, ni du site), mais fournissent quelques exemples:
- lecture d'un article de news
- question: qui est le président des états unis?
- réponse: george bush


 
je vois : donc pour filtrer, j'applique successivement sur chaque mot généré levenshtein, soundex et trigraphe et je garde le mot s'il obtient 0 à l'une des 3 fonctions.
 
pour http://labs.google.com/sets , ça utiliserait pas l'algo de l'étudiant israëlien ou australien que Google a acheté à grands frais y'a pas longtemps?

n°1353745
rufo
Pas me confondre avec Lycos!
Posté le 25-04-2006 à 16:41:40  profilanswer
 

une petite précision pour l'algo du trigraphe : il compare les permutations de 3 lettres du mot1 avec 3 lettres du mot2 en respectant la position, je veux dire par là :
- si je prends les 3 premières lettres (1, 2, 3) du mot1 et que je génère les permutations, je vais les comparer aux 3 premières lettres du mot2
- si je prends les lettres 2, 3, 4 du mot1 et que je génère les permutations, je vais les comparer aux lettres 2,3,4 du mot2.
 
Au final, l'algo du trigraphe retourne vrai si pour chaque trigraphe du mot1, j'ai trouvé une permutation à la même position dans mot2, c'est bien ça?
 
Par ailleurs, est-ce-que le mot1 doit toujours être le plus court (si mot1 et mot2 sont de tailles différentes)? Merci de ton aide :jap:


Message édité par rufo le 25-04-2006 à 18:29:04
n°1353831
nargy
Posté le 25-04-2006 à 19:03:24  profilanswer
 

> je vois : donc pour filtrer, j'applique successivement sur chaque mot généré levenshtein, soundex et trigraphe et je garde le mot s'il obtient 0 à l'une des 3 fonctions.
- en gros, mais pour bien faire, développer  un algo séparé.
 
> étudiant israélien / australien
- aucune idée, ça fait un moment (qq années) que Google Sets est en place...
 
> Au final, l'algo du trigraphe retourne vrai si pour chaque trigraphe du mot1, j'ai trouvé une permutation à la même position dans mot2, c'est bien ça?
- oui, c'est l'algo de base. tu peut le mixer avec levenshtein. je n'ai jamais vu l'algo, car comme je t'ai dit c'est ce que j'ai lu dans un résumé de thèse. si tu as des problèmes à l'implémenter, je peut t'aider, c'est interessant comme algo.
 
L'algo du trigraphe suppose que taille(mot1)=taille(mot2)+/-1. Le plus interessant est de mixer les algos dont on a parlé avec Boyler-Moore (recherche sous-chaîne dans chaîne). Balaise, et interessant.

n°1354151
rufo
Pas me confondre avec Lycos!
Posté le 26-04-2006 à 10:58:48  profilanswer
 

Au fait, levenshtein, je me demande si c'est très utile? Car à part le mot exact, il va toujours renvoyer un nb > 0 donc il va toujours tomber, non?
 
Après qq tests, mon filtre trigraphe/soundex/lenshtein n'est pas tip top. Je pense qu'il faut que je pré-traite mes mos en virant les doublements de lettres et les accents comme préconisé dans la thèse dont tu m'as parlé.
Je vais aussi chercher à récupérer + d'infos sur cet algo du trigraphe, quitte à créer un nouveau topic sur ce forum.

n°1354197
nargy
Posté le 26-04-2006 à 11:36:12  profilanswer
 

bah.. levenshtein te permet de pondérer les résultats. Si l'utilisateur ne fait pas une fôte, les résultats corrects apparaissent en haut de liste.
S'il en fait une, tant pis pour lui, il devra regarder vers la fin de la liste.
Si les résultats sont plus nombreux avec une syntaxe différente tu peut proposer cette syntaxe, comme le fait google.
 
> Après qq tests, mon filtre trigraphe/soundex/lenshtein n'est pas tip top. Je pense qu'il faut que je pré-traite mes mos en virant les doublements de lettres et les accents comme préconisé dans la thèse dont tu m'as parlé.  
- à mon avis il faudrait coder un algo modifié de levenshtein avec trigraphe, il y a des sources en C/C++/Java/etc.. de levenshtein sur wikipedia, notamment la version linéaire. Si j'ai du temps je me penche dessus.
 
> Je vais aussi chercher à récupérer + d'infos sur cet algo du trigraphe, quitte à créer un nouveau topic sur ce forum.
- si tu veux, mais il n'y a pas grand chose à en dire de plus. C'est une simple comparaison par trio de lettres, qui permet intuitivement de considérer égales des chaînes qui comportent des dislexies.

n°1354210
nargy
Posté le 26-04-2006 à 11:49:52  profilanswer
 

J'ai trouvé ça en fouillant sur wikipedia:
http://en.wikipedia.org/wiki/N-gram
ça parle de généralisation de trigraphes, qu'ils appelent trigrammes, ça doit être le nom officiel et donc c'est pour ça qu'on a rien trouvé en cherchant trigraphe. Comme quoi...:D
 
Toujours en fouinant sur wikipedia, un projet sourceforge:
http://sourceforge.net/projects/dedupe/
 
Algo pour rechercher une sous-chaîne dans une chaîne avec levenshtein:
http://en.wikipedia.org/wiki/Bitap_algorithm
edit: malheureusement le code présenté n'est pas complet


Message édité par nargy le 26-04-2006 à 12:05:41
n°1354233
rufo
Pas me confondre avec Lycos!
Posté le 26-04-2006 à 12:05:13  profilanswer
 

Je suis aussi sur wikipedia ;) Je suis en train de creuser l'ago de viterbi :  
http://fr.wikipedia.org/wiki/Algorithme_de_Viterbi
 
et la distance de Hamming (je l'avais oublié celui-à), mais je pense que ça se rapporche de ce que fait levenshtein...
http://fr.wikipedia.org/wiki/Distance_de_Hamming
 
Pour le trigraph (nom en) qui s'appelle trigramme (nom fr), je m'en suis rendu compte en surfant sur un site de linguistique.


Message édité par rufo le 26-04-2006 à 12:06:48
n°1354246
nargy
Posté le 26-04-2006 à 12:18:12  profilanswer
 

viterbi, c'est pour un réseau neuronal, ça s'applique plus dans les domaines de l'audio ou de la vidéo...
distance de Hamming: levenshtein est beaucoup plus interessant
 
il y a ça qui est interessant pour un levenshtein efficace:
http://en.wikipedia.org/wiki/Levenshtein_automaton
dommage qu'il n'y ait pas plus de description
 
Il y a ça aussi pour rechercher à l'aide de levenshtein:
http://en.wikipedia.org/wiki/Metric_trees
ça a l'air interessant, surtout avec levenshtein, et les Vp-trees doivent pouvoir se combiner avec les n-grammes et les calculs de cosinus (produit scalaire de N-grammes, généralisation: http://en.wikipedia.org/wiki/Dot_product ).


Message édité par nargy le 26-04-2006 à 12:27:16
n°1354254
nargy
Posté le 26-04-2006 à 12:30:02  profilanswer
 

Ah voilà ce dont je te parlais, un module Perl avec trigram+levenshtein:
http://search.cpan.org/~tareka/Str [...] Trigram.pm
edit: c'est plutot trigram+hamming


Message édité par nargy le 26-04-2006 à 12:31:54
n°1354398
rufo
Pas me confondre avec Lycos!
Posté le 26-04-2006 à 15:21:44  profilanswer
 

pourtant, l'exemple donné pour l'algo de viterbi s'approche assez bien de ce que je cherche à faire.

n°1355314
rufo
Pas me confondre avec Lycos!
Posté le 27-04-2006 à 16:35:16  profilanswer
 

Pour pouvoir utiliser l'algo de viterbi, il faut connaître la proba d'avoir telle lettre quand on connaît la lettre précédente dnas une langue donnée. J'ai donc fait une petite moulinette qui m'analyse des textes. J'ai analysé 3 textes :
- le premier était composé de news de Yahoo (économie, politique, santé, sciences...mais pas de sport ou people), d'articles du Monde, de textes de Maupassant et d'un article technique sur les CD-R.
- les 2 autres étaient 2 bouquins de Bernard Werber.
 
Grosso modo, j'ai à chaque fois le même ordre de grandeur. J'ai mis 3 chiffres après la virgule histoire de ne pas avoir 0 à cause d'un arrondi. Voici le résultat :  


'
Proba ' précédé d'un ' = 0.006%
Proba ' précédé d'un A = 0.012%
Proba ' précédé d'un B = 0.006%
Proba ' précédé d'un C = 6.746%
Proba ' précédé d'un D = 20.394%
Proba ' précédé d'un E = 0.012%
Proba ' précédé d'un G = 0.006%
Proba ' précédé d'un I = 0.035%
Proba ' précédé d'un J = 8.577%
Proba ' précédé d'un K = 0.012%
Proba ' précédé d'un L = 25.189%
Proba ' précédé d'un M = 5.595%
Proba ' précédé d'un N = 9.814%
Proba ' précédé d'un O = 0.012%
Proba ' précédé d'un P = 0.029%
Proba ' précédé d'un Q = 0.035%
Proba ' précédé d'un R = 0.017%
Proba ' précédé d'un S = 9.509%
Proba ' précédé d'un T = 0.84%
Proba ' précédé d'un U = 13.141%
Proba ' précédé d'un Z = 0.006%
A
Proba A précédé d'un ' = 6.894%
Proba A précédé d'un A = 0.034%
Proba A précédé d'un B = 1.792%
Proba A précédé d'un C = 3.897%
Proba A précédé d'un D = 4.056%
Proba A précédé d'un E = 1.998%
Proba A précédé d'un F = 3.571%
Proba A précédé d'un G = 1.52%
Proba A précédé d'un H = 4.186%
Proba A précédé d'un I = 1.407%
Proba A précédé d'un J = 1.099%
Proba A précédé d'un K = 0.128%
Proba A précédé d'un L = 13.446%
Proba A précédé d'un M = 8.939%
Proba A précédé d'un N = 4.588%
Proba A précédé d'un O = 0.028%
Proba A précédé d'un P = 9.846%
Proba A précédé d'un Q = 0.001%
Proba A précédé d'un R = 11.985%
Proba A précédé d'un S = 5.936%
Proba A précédé d'un T = 7.682%
Proba A précédé d'un U = 1.528%
Proba A précédé d'un V = 4.555%
Proba A précédé d'un W = 0.05%
Proba A précédé d'un X = 0.267%
Proba A précédé d'un Y = 0.43%
Proba A précédé d'un Z = 0.114%
B
Proba B précédé d'un ' = 0.017%
Proba B précédé d'un A = 27.294%
Proba B précédé d'un B = 1.625%
Proba B précédé d'un C = 0.051%
Proba B précédé d'un E = 8.009%
Proba B précédé d'un G = 0.051%
Proba B précédé d'un I = 14.426%
Proba B précédé d'un L = 0.237%
Proba B précédé d'un M = 20.775%
Proba B précédé d'un N = 0.085%
Proba B précédé d'un O = 11.09%
Proba B précédé d'un R = 7.501%
Proba B précédé d'un S = 0.457%
Proba B précédé d'un T = 0.119%
Proba B précédé d'un U = 8.212%
Proba B précédé d'un W = 0.017%
C
Proba C précédé d'un A = 13.376%
Proba C précédé d'un B = 0.005%
Proba C précédé d'un C = 3.277%
Proba C précédé d'un D = 0.023%
Proba C précédé d'un E = 24.527%
Proba C précédé d'un F = 0.023%
Proba C précédé d'un G = 0.009%
Proba C précédé d'un H = 0.014%
Proba C précédé d'un I = 10.186%
Proba C précédé d'un L = 0.425%
Proba C précédé d'un M = 0.009%
Proba C précédé d'un N = 22.773%
Proba C précédé d'un O = 5.165%
Proba C précédé d'un P = 0.028%
Proba C précédé d'un R = 7.228%
Proba C précédé d'un S = 4.874%
Proba C précédé d'un T = 0.351%
Proba C précédé d'un U = 5.922%
Proba C précédé d'un X = 0.729%
Proba C précédé d'un Y = 0.997%
Proba C précédé d'un Z = 0.014%
D
Proba D précédé d'un A = 9.333%
Proba D précédé d'un B = 0.046%
Proba D précédé d'un C = 0.031%
Proba D précédé d'un D = 2.078%
Proba D précédé d'un E = 11.713%
Proba D précédé d'un F = 0.008%
Proba D précédé d'un G = 0.008%
Proba D précédé d'un I = 12.385%
Proba D précédé d'un K = 0.008%
Proba D précédé d'un L = 0.34%
Proba D précédé d'un M = 0.023%
Proba D précédé d'un N = 41.799%
Proba D précédé d'un O = 4.334%
Proba D précédé d'un Q = 0.008%
Proba D précédé d'un R = 12.578%
Proba D précédé d'un S = 0.054%
Proba D précédé d'un U = 4.96%
Proba D précédé d'un V = 0.008%
Proba D précédé d'un X = 0.008%
Proba D précédé d'un Y = 0.085%
E
Proba E précédé d'un ' = 3.149%
Proba E précédé d'un A = 0.104%
Proba E précédé d'un B = 0.703%
Proba E précédé d'un C = 4.411%
Proba E précédé d'un D = 12.426%
Proba E précédé d'un E = 1.022%
Proba E précédé d'un F = 0.803%
Proba E précédé d'un G = 2.442%
Proba E précédé d'un H = 1.841%
Proba E précédé d'un I = 5.715%
Proba E précédé d'un J = 2.299%
Proba E précédé d'un K = 0.065%
Proba E précédé d'un L = 11.661%
Proba E précédé d'un M = 7.525%
Proba E précédé d'un N = 5.895%
Proba E précédé d'un O = 0.197%
Proba E précédé d'un P = 2.834%
Proba E précédé d'un Q = 0.001%
Proba E précédé d'un R = 13.279%
Proba E précédé d'un S = 5.944%
Proba E précédé d'un T = 8.755%
Proba E précédé d'un U = 4.84%
Proba E précédé d'un V = 3.496%
Proba E précédé d'un W = 0.101%
Proba E précédé d'un X = 0.103%
Proba E précédé d'un Y = 0.313%
Proba E précédé d'un Z = 0.063%
F
Proba F précédé d'un ' = 0.017%
Proba F précédé d'un A = 8.184%
Proba F précédé d'un E = 20.385%
Proba F précédé d'un F = 21.305%
Proba F précédé d'un I = 14.343%
Proba F précédé d'un L = 0.301%
Proba F précédé d'un N = 17.59%
Proba F précédé d'un O = 4.619%
Proba F précédé d'un R = 3.682%
Proba F précédé d'un S = 1.674%
Proba F précédé d'un T = 0.05%
Proba F précédé d'un U = 7.782%
Proba F précédé d'un V = 0.017%
Proba F précédé d'un Y = 0.017%
G
Proba G précédé d'un A = 24.174%
Proba G précédé d'un B = 0.011%
Proba G précédé d'un D = 0.158%
Proba G précédé d'un E = 10.423%
Proba G précédé d'un F = 0.042%
Proba G précédé d'un G = 0.338%
Proba G précédé d'un I = 18.513%
Proba G précédé d'un K = 0.032%
Proba G précédé d'un L = 0.771%
Proba G précédé d'un M = 0.042%
Proba G précédé d'un N = 26.898%
Proba G précédé d'un O = 6.907%
Proba G précédé d'un Q = 0.011%
Proba G précédé d'un R = 5.956%
Proba G précédé d'un S = 0.116%
Proba G précédé d'un T = 0.053%
Proba G précédé d'un U = 5.375%
Proba G précédé d'un Y = 0.158%
H
Proba H précédé d'un ' = 6.928%
Proba H précédé d'un A = 2.338%
Proba H précédé d'un B = 0.021%
Proba H précédé d'un C = 62.185%
Proba H précédé d'un D = 0.592%
Proba H précédé d'un E = 1.312%
Proba H précédé d'un F = 0.011%
Proba H précédé d'un G = 0.338%
Proba H précédé d'un H = 0.085%
Proba H précédé d'un I = 0.021%
Proba H précédé d'un K = 0.19%
Proba H précédé d'un L = 0.719%
Proba H précédé d'un M = 0.021%
Proba H précédé d'un N = 0.613%
Proba H précédé d'un O = 0.635%
Proba H précédé d'un P = 8.483%
Proba H précédé d'un R = 0.201%
Proba H précédé d'un S = 1.502%
Proba H précédé d'un T = 12.46%
Proba H précédé d'un U = 1.005%
Proba H précédé d'un W = 0.085%
Proba H précédé d'un X = 0.201%
Proba H précédé d'un Z = 0.042%
I
Proba I précédé d'un ' = 2.57%
Proba I précédé d'un A = 21.317%
Proba I précédé d'un B = 1.725%
Proba I précédé d'un C = 3.691%
Proba I précédé d'un D = 4.933%
Proba I précédé d'un E = 1.666%
Proba I précédé d'un F = 2.648%
Proba I précédé d'un G = 1.192%
Proba I précédé d'un H = 1.562%
Proba I précédé d'un I = 0.159%
Proba I précédé d'un J = 0.025%
Proba I précédé d'un K = 0.149%
Proba I précédé d'un L = 5.103%
Proba I précédé d'un M = 4.116%
Proba I précédé d'un N = 3.377%
Proba I précédé d'un O = 8.693%
Proba I précédé d'un P = 2.129%
Proba I précédé d'un R = 7.304%
Proba I précédé d'un S = 6.663%
Proba I précédé d'un T = 8.646%
Proba I précédé d'un U = 7.292%
Proba I précédé d'un V = 4.261%
Proba I précédé d'un W = 0.065%
Proba I précédé d'un X = 0.643%
Proba I précédé d'un Y = 0.012%
Proba I précédé d'un Z = 0.049%
J
Proba J précédé d'un A = 8.101%
Proba J précédé d'un B = 5.749%
Proba J précédé d'un D = 0.958%
Proba J précédé d'un E = 31.446%
Proba J précédé d'un I = 1.045%
Proba J précédé d'un L = 0.087%
Proba J précédé d'un N = 5.052%
Proba J précédé d'un O = 5.662%
Proba J précédé d'un S = 0.523%
Proba J précédé d'un T = 0.174%
Proba J précédé d'un U = 40.418%
Proba J précédé d'un Y = 0.348%
K
Proba K précédé d'un A = 46.652%
Proba K précédé d'un C = 13.616%
Proba K précédé d'un D = 2.009%
Proba K précédé d'un E = 3.795%
Proba K précédé d'un F = 0.893%
Proba K précédé d'un G = 0.446%
Proba K précédé d'un H = 0.893%
Proba K précédé d'un I = 2.902%
Proba K précédé d'un K = 0.223%
Proba K précédé d'un L = 0.893%
Proba K précédé d'un N = 2.679%
Proba K précédé d'un O = 11.161%
Proba K précédé d'un R = 3.125%
Proba K précédé d'un S = 6.92%
Proba K précédé d'un T = 0.223%
Proba K précédé d'un U = 3.125%
Proba K précédé d'un W = 0.446%
L
Proba L précédé d'un ' = 0.007%
Proba L précédé d'un A = 10.286%
Proba L précédé d'un B = 5.826%
Proba L précédé d'un C = 2.879%
Proba L précédé d'un D = 0.002%
Proba L précédé d'un E = 16.82%
Proba L précédé d'un F = 1.286%
Proba L précédé d'un G = 0.932%
Proba L précédé d'un H = 0.047%
Proba L précédé d'un I = 22.527%
Proba L précédé d'un K = 0.01%
Proba L précédé d'un L = 14.434%
Proba L précédé d'un M = 0.025%
Proba L précédé d'un N = 0.089%
Proba L précédé d'un O = 5.38%
Proba L précédé d'un P = 10.64%
Proba L précédé d'un R = 0.907%
Proba L précédé d'un S = 0.171%
Proba L précédé d'un T = 0.032%
Proba L précédé d'un U = 7.29%
Proba L précédé d'un V = 0.059%
Proba L précédé d'un W = 0.002%
Proba L précédé d'un Y = 0.161%
Proba L précédé d'un Z = 0.002%
M
Proba M précédé d'un ' = 0.008%
Proba M précédé d'un A = 12.979%
Proba M précédé d'un B = 0.045%
Proba M précédé d'un C = 0.012%
Proba M précédé d'un D = 0.918%
Proba M précédé d'un E = 30.505%
Proba M précédé d'un G = 0.186%
Proba M précédé d'un H = 0.141%
Proba M précédé d'un I = 9.726%
Proba M précédé d'un K = 0.004%
Proba M précédé d'un L = 0.583%
Proba M précédé d'un M = 11.751%
Proba M précédé d'un N = 0.041%
Proba M précédé d'un O = 19.621%
Proba M précédé d'un R = 6.365%
Proba M précédé d'un S = 1.732%
Proba M précédé d'un T = 0.029%
Proba M précédé d'un U = 4.873%
Proba M précédé d'un W = 0.004%
Proba M précédé d'un X = 0.021%
Proba M précédé d'un Y = 0.38%
N
Proba N précédé d'un ' = 0.002%
Proba N précédé d'un A = 18.537%
Proba N précédé d'un B = 0.005%
Proba N précédé d'un C = 0.006%
Proba N précédé d'un D = 0.012%
Proba N précédé d'un E = 29.518%
Proba N précédé d'un F = 0.002%
Proba N précédé d'un G = 1.49%
Proba N précédé d'un H = 0.07%
Proba N précédé d'un I = 12.777%
Proba N précédé d'un L = 0.006%
Proba N précédé d'un M = 0.084%
Proba N précédé d'un N = 3.229%
Proba N précédé d'un O = 23.532%
Proba N précédé d'un P = 0.052%
Proba N précédé d'un R = 1.279%
Proba N précédé d'un S = 0.011%
Proba N précédé d'un T = 0.005%
Proba N précédé d'un U = 9.283%
Proba N précédé d'un V = 0.002%
Proba N précédé d'un W = 0.004%
Proba N précédé d'un X = 0.001%
Proba N précédé d'un Y = 0.083%
O
Proba O précédé d'un ' = 1.499%
Proba O précédé d'un A = 1.097%
Proba O précédé d'un B = 2.358%
Proba O précédé d'un C = 14.551%
Proba O précédé d'un D = 3.068%
Proba O précédé d'un E = 0.287%
Proba O précédé d'un F = 2.743%
Proba O précédé d'un G = 0.749%
Proba O précédé d'un H = 2.404%
Proba O précédé d'un I = 5.836%
Proba O précédé d'un J = 1.8%
Proba O précédé d'un K = 0.035%
Proba O précédé d'un L = 4.246%
Proba O précédé d'un M = 8.667%
Proba O précédé d'un N = 8.263%
Proba O précédé d'un O = 0.183%
Proba O précédé d'un P = 8.839%
Proba O précédé d'un R = 8.578%
Proba O précédé d'un S = 8.353%
Proba O précédé d'un T = 8.974%
Proba O précédé d'un U = 0.609%
Proba O précédé d'un V = 6.115%
Proba O précédé d'un W = 0.015%
Proba O précédé d'un X = 0.022%
Proba O précédé d'un Y = 0.206%
Proba O précédé d'un Z = 0.501%
P
Proba P précédé d'un ' = 0.021%
Proba P précédé d'un A = 16.287%
Proba P précédé d'un C = 0.042%
Proba P précédé d'un E = 14.258%
Proba P précédé d'un I = 2.559%
Proba P précédé d'un K = 0.021%
Proba P précédé d'un L = 0.375%
Proba P précédé d'un M = 21.214%
Proba P précédé d'un N = 0.042%
Proba P précédé d'un O = 10.25%
Proba P précédé d'un P = 8.327%
Proba P précédé d'un R = 4.086%
Proba P précédé d'un S = 8.49%
Proba P précédé d'un T = 0.049%
Proba P précédé d'un U = 9.197%
Proba P précédé d'un X = 3.52%
Proba P précédé d'un Y = 1.188%
Q
Proba Q précédé d'un ' = 0.022%
Proba Q précédé d'un A = 8.274%
Proba Q précédé d'un C = 3.041%
Proba Q précédé d'un E = 4.293%
Proba Q précédé d'un I = 38.305%
Proba Q précédé d'un L = 8.251%
Proba Q précédé d'un M = 0.022%
Proba Q précédé d'un N = 9.973%
Proba Q précédé d'un O = 6.149%
Proba Q précédé d'un P = 0.022%
Proba Q précédé d'un R = 7.245%
Proba Q précédé d'un S = 13.283%
Proba Q précédé d'un T = 0.022%
Proba Q précédé d'un U = 0.783%
Proba Q précédé d'un X = 0.157%
Proba Q précédé d'un Y = 0.022%
R
Proba R précédé d'un ' = 0.004%
Proba R précédé d'un A = 9.919%
Proba R précédé d'un B = 1.58%
Proba R précédé d'un C = 2.074%
Proba R précédé d'un D = 1.985%
Proba R précédé d'un E = 23.469%
Proba R précédé d'un F = 1.626%
Proba R précédé d'un G = 2.078%
Proba R précédé d'un H = 0.2%
Proba R précédé d'un I = 8.552%
Proba R précédé d'un K = 0.021%
Proba R précédé d'un L = 0.005%
Proba R précédé d'un M = 0.025%
Proba R précédé d'un N = 0.215%
Proba R précédé d'un O = 8.816%
Proba R précédé d'un P = 7.418%
Proba R précédé d'un R = 2.784%
Proba R précédé d'un S = 0.004%
Proba R précédé d'un T = 10.81%
Proba R précédé d'un U = 16.883%
Proba R précédé d'un V = 1.452%
Proba R précédé d'un W = 0.001%
Proba R précédé d'un Y = 0.072%
S
Proba S précédé d'un ' = 0.012%
Proba S précédé d'un A = 6.543%
Proba S précédé d'un B = 0.303%
Proba S précédé d'un C = 0.157%
Proba S précédé d'un D = 0.522%
Proba S précédé d'un E = 36.237%
Proba S précédé d'un F = 0.19%
Proba S précédé d'un G = 0.058%
Proba S précédé d'un H = 0.018%
Proba S précédé d'un I = 14.385%
Proba S précédé d'un K = 0.01%
Proba S précédé d'un L = 1.913%
Proba S précédé d'un M = 0.084%
Proba S précédé d'un N = 10.717%
Proba S précédé d'un O = 2.628%
Proba S précédé d'un P = 1.019%
Proba S précédé d'un R = 4.79%
Proba S précédé d'un S = 6.595%
Proba S précédé d'un T = 2.862%
Proba S précédé d'un U = 10.469%
Proba S précédé d'un V = 0.007%
Proba S précédé d'un W = 0.011%
Proba S précédé d'un X = 0.001%
Proba S précédé d'un Y = 0.454%
Proba S précédé d'un Z = 0.002%
T
Proba T précédé d'un ' = 0.004%
Proba T précédé d'un A = 6.754%
Proba T précédé d'un B = 0.097%
Proba T précédé d'un C = 2.03%
Proba T précédé d'un E = 17.749%
Proba T précédé d'un F = 0.013%
Proba T précédé d'un G = 0.368%
Proba T précédé d'un H = 0.031%
Proba T précédé d'un I = 16.2%
Proba T précédé d'un K = 0.007%
Proba T précédé d'un L = 0.584%
Proba T précédé d'un M = 0.005%
Proba T précédé d'un N = 26.383%
Proba T précédé d'un O = 2.871%
Proba T précédé d'un P = 0.901%
Proba T précédé d'un Q = 0.001%
Proba T précédé d'un R = 5.389%
Proba T précédé d'un S = 8.867%
Proba T précédé d'un T = 3.206%
Proba T précédé d'un U = 8.003%
Proba T précédé d'un V = 0.001%
Proba T précédé d'un W = 0.001%
Proba T précédé d'un X = 0.342%
Proba T précédé d'un Y = 0.173%
Proba T précédé d'un Z = 0.009%
U
Proba U précédé d'un ' = 1.858%
Proba U précédé d'un A = 10.452%
Proba U précédé d'un B = 0.552%
Proba U précédé d'un C = 1.836%
Proba U précédé d'un D = 3.523%
Proba U précédé d'un E = 12.01%
Proba U précédé d'un F = 0.746%
Proba U précédé d'un G = 1.249%
Proba U précédé d'un H = 0.928%
Proba U précédé d'un I = 0.133%
Proba U précédé d'un J = 0.943%
Proba U précédé d'un K = 0.028%
Proba U précédé d'un L = 6.246%
Proba U précédé d'un M = 0.927%
Proba U précédé d'un N = 1.804%
Proba U précédé d'un O = 27.101%
Proba U précédé d'un P = 1.669%
Proba U précédé d'un Q = 18.114%
Proba U précédé d'un R = 1.096%
Proba U précédé d'un S = 5.435%
Proba U précédé d'un T = 2.9%
Proba U précédé d'un U = 0.026%
Proba U précédé d'un V = 0.341%
Proba U précédé d'un X = 0.043%
Proba U précédé d'un Y = 0.006%
Proba U précédé d'un Z = 0.019%
V
Proba V précédé d'un ' = 0.024%
Proba V précédé d'un A = 37.328%
Proba V précédé d'un B = 0.032%
Proba V précédé d'un D = 0.421%
Proba V précédé d'un E = 17.317%
Proba V précédé d'un G = 0.008%
Proba V précédé d'un I = 13.304%
Proba V précédé d'un L = 0.191%
Proba V précédé d'un N = 5.571%
Proba V précédé d'un O = 1.129%
Proba V précédé d'un P = 0.056%
Proba V précédé d'un R = 6.429%
Proba V précédé d'un S = 0.024%
Proba V précédé d'un T = 0.167%
Proba V précédé d'un U = 17.865%
Proba V précédé d'un X = 0.103%
Proba V précédé d'un Z = 0.016%
W
Proba W précédé d'un ' = 0.73%
Proba W précédé d'un A = 6.569%
Proba W précédé d'un D = 4.38%
Proba W précédé d'un E = 36.496%
Proba W précédé d'un G = 15.328%
Proba W précédé d'un H = 3.65%
Proba W précédé d'un I = 1.46%
Proba W précédé d'un N = 5.839%
Proba W précédé d'un O = 11.679%
Proba W précédé d'un R = 6.569%
Proba W précédé d'un S = 3.65%
Proba W précédé d'un T = 0.73%
Proba W précédé d'un Y = 2.19%
Proba W précédé d'un Z = 0.73%
X
Proba X précédé d'un A = 2.441%
Proba X précédé d'un E = 28.528%
Proba X précédé d'un I = 12.58%
Proba X précédé d'un L = 0.018%
Proba X précédé d'un N = 0.071%
Proba X précédé d'un O = 0.962%
Proba X précédé d'un R = 0.071%
Proba X précédé d'un U = 54.989%
Proba X précédé d'un X = 0.267%
Proba X précédé d'un Y = 0.071%
Y
Proba Y précédé d'un ' = 11.588%
Proba Y précédé d'un A = 15.415%
Proba Y précédé d'un B = 0.501%
Proba Y précédé d'un C = 7.153%
Proba Y précédé d'un D = 8.405%
Proba Y précédé d'un E = 2.039%
Proba Y précédé d'un G = 0.966%
Proba Y précédé d'un H = 5.508%
Proba Y précédé d'un I = 0.036%
Proba Y précédé d'un K = 0.536%
Proba Y précédé d'un L = 5.222%
Proba Y précédé d'un M = 7.475%
Proba Y précédé d'un N = 0.572%
Proba Y précédé d'un O = 18.67%
Proba Y précédé d'un P = 0.715%
Proba Y précédé d'un R = 1.967%
Proba Y précédé d'un S = 5.651%
Proba Y précédé d'un T = 5.329%
Proba Y précédé d'un U = 1.681%
Proba Y précédé d'un W = 0.036%
Proba Y précédé d'un X = 0.429%
Proba Y précédé d'un Y = 0.072%
Z
Proba Z précédé d'un A = 14.123%
Proba Z précédé d'un B = 0.127%
Proba Z précédé d'un E = 64.915%
Proba Z précédé d'un G = 0.127%
Proba Z précédé d'un H = 0.063%
Proba Z précédé d'un I = 6.903%
Proba Z précédé d'un L = 1.267%
Proba Z précédé d'un N = 1.71%
Proba Z précédé d'un O = 6.08%
Proba Z précédé d'un P = 0.063%
Proba Z précédé d'un R = 0.443%
Proba Z précédé d'un T = 0.887%
Proba Z précédé d'un U = 2.47%
Proba Z précédé d'un Y = 0.063%
Proba Z précédé d'un Z = 0.76%

n°1355684
nargy
Posté le 28-04-2006 à 08:12:53  profilanswer
 

remarque que c'est interessant, mais je trouve que c'est pas vraiment précis. Peut être faudrait-il faire plus de stats avec l'avant dernière lettre.
 
Peut tu extraire de tes stats, le mot le plus probable commençant par A, B, C, D etc... je suis curieux de voir le résultat?

n°1355685
nargy
Posté le 28-04-2006 à 08:13:48  profilanswer
 

(tu t'arrête d'ajouter des lettre quand la proba est trop faible)

n°1355951
rufo
Pas me confondre avec Lycos!
Posté le 28-04-2006 à 14:03:25  profilanswer
 

nargy a écrit :

(tu t'arrête d'ajouter des lettre quand la proba est trop faible)


 
en l'occurence, mes stats, c'est pas pour ajouter des lettres ça serait plutôt virer des mots dont la proba de l'enchaînement des lettres et trop faible...(genre le mot "dzns" ).
 
Pour la précision, qu'est ce qui te fait dire que mes stats sont pas précises? Si t'en a des plus précises effectuées lors d'une thèse linguistique, je suis prenneur. Mais faut pas oublier que ces stats dépendent de la nature du texte. Avec une nouvelle du Maupassant, on va avoir beaucoup de "z" précédés d'un "e" car il utilise pas mal le "vous" (-> "avez" ). Pareil dans les articles du Monde. Sur mon article traitant des Cds, je vais avoir pas mal de "d" précédés d'un "c" alors que normalement, c'est pas possible en fr. Donc, c'est bien de mener l'analyse sur plusieurs types de textes (littéraires, techniques, poétiques, courants, familliers...).

n°1356298
nargy
Posté le 28-04-2006 à 22:20:05  profilanswer
 

- ha non non c'est pas ça que je voulais dire
- tes stats sont assez précises pour ce que tu veux faire, je voyait pas ça comme ça
- c'est juste que par curiosité, j'aurais aimé connaître quel était d'après l'ordinateur, le mot le plus probable commençant par 'A', même si ce mot n'existe pas dans la langue française
- comme tu as des stats, tu as la possibilité de faire ça, mais tu n'a peut être pas le temps
- j'avais vu à la télé une chercheuse en liguistique qui faisait la même chose, ou presque, avec des mots, et représentait en 3D les probabilités, c'était très interessant de comparer les auteurs, et de suivre leurs évolutions

n°1356415
rufo
Pas me confondre avec Lycos!
Posté le 29-04-2006 à 11:35:30  profilanswer
 

nargy a écrit :

- ha non non c'est pas ça que je voulais dire
- tes stats sont assez précises pour ce que tu veux faire, je voyait pas ça comme ça
- c'est juste que par curiosité, j'aurais aimé connaître quel était d'après l'ordinateur, le mot le plus probable commençant par 'A', même si ce mot n'existe pas dans la langue française
- comme tu as des stats, tu as la possibilité de faire ça, mais tu n'a peut être pas le temps
- j'avais vu à la télé une chercheuse en liguistique qui faisait la même chose, ou presque, avec des mots, et représentait en 3D les probabilités, c'était très interessant de comparer les auteurs, et de suivre leurs évolutions


 
Par contre, je ne suis pas sûr qu'avec ce genre de stats on puisse reconstruire des mots de la langue française. On risquerait d'agglutiner les lettres en prenant les plus fortes probas et on risquerait d'avoir des mots à rallonge qui n'existent pas au final. Cela dit, combiné à un algo génétique, ça pourrait donner une population (ou chaque individu représente un mot) qui évolurait petit à petit vers des mots existants :) Si j'ai le temps, j'essaierai...

n°1356462
nargy
Posté le 29-04-2006 à 13:14:34  profilanswer
 

> On risquerait d'agglutiner les lettres en prenant les plus fortes probas
- ouais voilà! avec des stats sur l'avant dernière lettre, et les autres, on pourrait avoir le mot le plus long jusqu'à répétition.
- l'algo génétique: excellent

mood
Publicité
Posté le   profilanswer
 


Aller à :
Ajouter une réponse
  FORUM HardWare.fr
  Programmation
  Algo

  Génération de mots similaires

 

Sujets relatifs
script qui scan des rep avec html et qui remplace des motsles développeurs utilisent-ils des outils de génération auto de codes
[Résolu] Un compteur de mots dans Word[reglé]sauter une ligne lors de la generation pdf
Génération d'un mail avec pièce jointe en PHPGénération d'un chiffre aléatoire à partir d'une loi gaussienne
cryptage des mots de passe pour oracle[C++ débutant] Génération d'instances dynamique (?)
Etendre XDoclet pour la génération du BusinessDelegateinternal error during packaging generation
Plus de sujets relatifs à : Génération de mots similaires


Copyright © 1997-2025 Groupe LDLC (Signaler un contenu illicite / Données personnelles)