perso je ne vois pas l interet de separer le son et l image ...
d autant que tu auras des soucis de synchro .. ( y a qq secondes dedelais ) quand tu passes les images via le net alors que le delai est plus faible via le tel ...*-->
Les gens entendront le mec parler et une ou deux sec ensuite verront sa bouche bouger
Sinon 1 seul serveur est mutualisable . tu peux creer plein de conferences dessus .... donc au moins une par client que tu as ..
voila
Hope it helps