Des pistes sur quoi ?
Peut être que j'ai mal compris ce que tu voulais faire, sinon je pense que tu as bien décrit, il faut une pause de quelques secondes au milieu pour que ça ne charge pas trop la machine, et peut-être des pauses aussi si le crawler site suit les liens internes sinon le serveur risque de le bloquer. Ensuite tu dois pouvoir désynchroniser les connexions à la base des threads du crawler avec une liste d'attente pour être sûr aussi de ne pas trop charger la ou les base(s), et centraliser la liste aussi avec des indicateurs dans la base pour être sûr de ne pas les lancer plusieurs fois.
Après c'est le langage, je ne peux pas t'aider j'ai une mémoire de poisson rouge, mais avec la doc très bien faite et une consultation de tes scripts de tests ça devrait aller rapidement.
(d'ailleurs c'est génial le python, souvent pas besoin de trop d'aide externe, mais du coup ça fait peu de pub pour le langage).
Message édité par gzii le 25-11-2010 à 00:15:39