Mise en situation :
J'ai un réseau composé de 8 machines sous ubuntu 12.10.
6 machines a 8 coeurs, 1 machine a 32 coeurs et 1 machine a 4 coeurs.
Elles sont toutes reliées à un commutateur par des câbles ethernet.
Le paquetage OpenSSH a été installé sur chacune des machines. J'ai crée un jeu de clé RSA et DSA (publique et privée) pour chaque machine et j'ai rassemblé toutes les clés RSA publiques dans un fichier authorized_keys que jai copié sur chacune des machine dans :
/home/user/.ssh
J'arrive a avoir une connexion ssh entre chacune des machines, jarrive a copier , transférer , supprimer etc... en me connectant a tous les ordinateurs à partir d'une seule machine.
Mon problème est le suivant. Le but est de lancer un code de programmation statistique via le logiciel RStudio sur tous les ordinateurs en même temps. Il faut pour cela une machine maitre et 7 machines "esclaves". Quand je prend une de mes machines a 8 coeurs en tant que maitre ça fonctionne. C'est a dire a dire que l'initialisation du cluster (groupe de machines) fonctionne et que le code est lancé sur la totalité 84 coeurs
(6*8 + 4 + 32) en même temps. C'est à dire qu'avec la ligne de commande suivante :
tail -f /var/log/auth.log
je suis en mesure de voir qui se connecte à la machine et j'observe bien pour chacune des machines , un nombre de connexions égal au nombre de cœurs présents dans la machine. J'observe également un nombre de déconnexions égal au nombre de connexions quand je décide de stopper mon cluster de machines.
Ma machine de 32 coeurs possèdent 2 adresses IP :
localhost 127.0.1.1
mega 192.168.10.8
Cependant, quand je lance le code de programmation avec ma machine a 32 coeurs en tant que machine maitre, la connection ssh se bloque à la première machine esclave rencontrée (que ce soit une machine de 8 coeurs ou 4 coeurs) avec une connexion et une déconnexion dans la foulée. Cependant quand je lance le code uniquement sur ma machine de 32 coeurs en localhost , cela fonctionne. Et cela fonctionne également quand je lance sur mega (ce qui revient au même que localhost mais avec passage des données par le commutateur).
Je souhaiterais donc savoir si il existe un fichier à modifier, une ligne de commande a entrer qui me permettrait de garder ma machine de 32 coeurs en machine maître et de pouvoir me connecter en SSH sur toutes mes machines esclaves en même temps.