Bonjour,
j'ai un script Python qui sélectionne de manière aléatoire un sous-ensemble d'une taille déterminée (50) de paires de valeurs parmi un ensemble d'origine plus grand (2000).
Aléatoire ?
Ben non !
Et ça m'embête beaucoup.
Je m'explique...
En gros j'ai un array X et un autre y représentant un nuage de points. Y a 2000 points dans chaque vecteur.
Je fais un plot(X,y) ça me fait un joli dessin. Bien.
Si je stack X et y dans un array de dimensions (2000,2) pour ensuite faire :
Code :
- XY = np.hstack((X,y.reshape(2000,1)))
- idx = np.random.randint(2000, size=50)
- Xsub = Xysub[:,0].reshape(M,1)
- ysub = Xysub[:,1].reshape(M,1)
|
Ben j'extrais un sous-échantillons de 50 pairs (X,y).
Si je les plot, ça va bien.
Le hic c'est que quand je lance ce script une deuxième, puis une troisième, puis une n-ième fois, il me retrouve systématiquement les mêmes 50 paires qu'il était censé trouvé de manière aléatoire pourtant !
Questions :
1. Pourquoi tant de systématisme dans ce qui devrait être du hasard ?
2. Comment s'appelle ce phénomène ?
3. Comment l'éviter, i.e. donc comment avoir réellement 50 autres paires choisies de manière aléatoire dans mon jeu de données lorsque je lance le script plusieurs fois ?
Merci beaucoup pour vos éclairages
Message édité par Swiss_Knight le 09-07-2017 à 20:09:12
---------------
Hergestellt in der Schweiz.