Bonjour,
je tiens à préciser que je suis tout nouveau dans la sauvegarde.
Question principale:J'aurais aimé savoir comment quelqu'un "du métier" s'y prend pour "débuguer" une infra de sauvegarde?
Présentation, vite fait de la sauvegarde que je regarde:
Je suis dans une boite qui traite environ 10To/FULL en 60h dans le WE, avec 6 LTO3 et netbackup 6.5 dans le milieu.
La sauvegarde est multi plateforme (win, linux, aix,.....) sur des serveurs hétérogène (physique, virtuels, avec connexion 1Gbps, d'autre en 100Mbps) certain ayant une connexion au lan (100/1Gbps) d'autre au SAN (1/2/4Gbps).
les lecteurs sont "pilotés" par un z-series.
une infra de sauvegarde à base de K7 et de disques, avec du staging (passage disque sur K7).
j'ai fait un test d'écriture :
-2 serveurs test (LAN): un en 100Mbps, un en Gbps, même type de données, même switch, même Vlan, les deux physique, bref j'ai essayer de trouver des serveurs les plus identiques possibles (qu'il n'y ai que leur carte réseau qui diffèrent).
-2 média serveurs (LAN-SAN) vus comme un pool
-1 master serveur (LAN)
-une baie de disque
-un robot SL_8500 avec 6 lecteurs LTO3
-un z-series pour piloter les lecteurs LTO3
Lors du test j'ai relevé:- écriture d'un serveur (un en 100Mbps et un autre en 1Gbps) sur bande : 11Mo/s environ.
- écriture d'un serveur (un en 100Mbps et un autre en 1Gbps) sur disque : 11Mo/s environ.
- staging pour ces deux serveurs: 20Mo/s environ. (plus rapide car déjà découpé et indexé par le Master je pense).
Alors que les lecteurs LTO3 annonce 80Mo/s !!!
suite à cela j'ai fait un peu de supervision:
- avec Cacti j'ai regardé si les charges réseau étaient aux limites des possibilités de chacun
Seul un des deux média serveur semblait un peu chargé avec sur l'attachement LAN des pointes à 800Mbps sur les 1Gbps disponibles.
Il y a eu un problème de monitoring sur l'autre média serveur (problème, toujours pas résolu, mais bref...)
Sinon les autres serveurs étaient "à l'aise dans leur petite carte réseau".
Avec Nagios j'ai donc regardé s'il s'agissait d'un problème de CPU ou de RAM.
Niveau CPU tout le monde est "à l'aise"
Niveau RAM aussi (média à 1000Mo sur 4Go dispo).
Donc je ne comprends pas:
Je ne comprends pas que l'on écrive aussi vite sur disque que sur bande.
Je ne comprends pas que même en staging on n’atteigne pas les 80 Mo/s.
Je ne comprends pas la cause de ce ralentissement.
Alors oui il y a beaucoup de facteurs en jeu. Mais déjà dans un premier temps, voyez vous, là, un point obvious que j'aurais oublié de regarder?
Ensuite une autre question:
Chaque full, une personne relève les temps mis pour la sauvegardes pour chaque jobs, ainsi que le nombre de fichier sauvegardés et le volume sauvegardé.
Paramètre propre à Netbackup, les temps qui me sont communiqués sont des "Elapsed Time", ne connaissant pas netbackup, je fouille un peu, et je vois que ce temps n'est ni un temps d'écriture sur les lecteurs, ni un temps élapse (c'est à dire le temps que le jobs soit mis en cue (en attente) puis traité).
Donc quid de ce Elapsed Time?
et comment pourrais-je monitorer mes lecteurs, afin de faire des statistiques d'utilisation?
Voilà ça fait beaucoup de questions et de lecture, mais si vous pouviez m'éclairer sur deux/trois points je vous en serai reconnaissant.
Bien cordialement,
P.