Quelques idées reçues sur la déduplication des données à la source lors d’une sauvegarde

Les techniques de sauvegarde des données utilisant la déduplication à la source présentent certains avantages, mais aussi des inconvénients majeurs.

Sous l’impulsion des Directions marketing et commerciales des grands acteurs américains de la sauvegarde des données, la Déduplication des données a été présentée ces récentes années comme la nouvelle panacée universelle, comme un « Must » que chacun devait utiliser !
Trop souvent, une des premières questions posées par un utilisateur à un éditeur de sauvegarde est : « Votre produit fait-il de la déduplication ? » Et tant pis pour le malheureux qui répondrait : « Non, nous ne faisons pas de la déduplication…. » Ou alors des cahiers des charges qui précisent que la déduplication est obligatoire, et éliminatoire pour ceux qui ne la posséderaient pas !
Les vrais objectifs d’une direction informatique pour choisir une solution de sauvegarde ne sont-ils pas plutôt les suivants ?

Garantir sauvegardes et restaurations en toutes circonstances,
Une solution qui soit fiable, simple avec un minimum d’administration,
Anticiper et faire face au volume croissant des données,
Un TCO le plus bas possible,
Un RPO et un RTO qui puissent être le plus près possible de zéro.

Il y a deux avantages apparents que peuvent apporter une solution de sauvegarde qui déduplique les données à la source en mode bloc. Quels sont-ils ?

Le premier est une économie de stockage des données et donc une économie d’espace disque. C’est vrai par rapport à une solution qui sauvegarde en mode fichier, cela ne l’est pratiquement pas par rapport à une solution qui sauvegarde en mode bloc non dédupliqué. De plus, cet avantage est à relativiser compte tenu du fait que les disques sont de moins en moins chers et de plus en plus performants.
Le deuxième avantage provient de l’optimisation de l’utilisation de la bande passante puisque ne sont transférés sur le réseau WAN que les blocs modifiés dédupliqués. Mais là également c’est un avantage apparent qu’il faut pondérer à la baisse à cause des allers et retours incessants entre le serveur de sauvegarde et les serveurs à protéger, et cela à cause de la gestion complexe des signatures des blocs modifiés, lesquelles signatures sont indispensable pour pouvoir ensuite restaurer les données.

Mais, en face de ces deux avantages apparents, s’affichent malheureusement des inconvénients majeurs :

La gestion des signatures consomme énormément de puissance CPU des serveurs sauvegardés. Cela interdit donc de lancer les sauvegardes lorsque les serveurs sont en plein travail, c'est-à-dire le jour lorsque les utilisateurs les sollicitent beaucoup. Cela contraint donc de lancer les sauvegardes la nuit uniquement.
La base de données du serveur de sauvegarde, qu’on appelle le Catalogue, devient un point de vulnérabilité car elle est indispensable à la reconstitution des données d’origine à partir des « petits morceaux » que sont les blocs dédupliqués.
Ce Catalogue grossit beaucoup plus vite à cause du stockage des signatures attachées à chaque bloc modifié et dédupliqué. Et donc comme ce Catalogue va grossir au fur et à mesure des sauvegardes quotidiennes, les performances du serveur de sauvegarde vont se dégrader plus rapidement dans le temps.
Pour les mêmes raisons, la fiabilité du Catalogue va également se dégrader, avec des risques accrus de « casse catalogue », impliquant alors la perte irrémédiable des données déjà sauvegardées sur disques.
L’externalisation des données sauvegardées sur un support externe de type bandes magnétiques, ce qui peut être indispensable pour gérer l’historisation des sauvegardes sur une longue période de plusieurs années, devient très laborieuse, très risquée, voire impossible, car comment garantir la restauration d’un état cohérent du système d’information de l’entreprise, à partir de quelques blocs d’information dédupliqués ?

En résumé, il y a beaucoup d’idées préconçues autour de la déduplication des données à la source, que nous résumerons ainsi :

La Déduplication accélère la sauvegarde des données : FAUX, les calculs de signatures ralentissent les sauvegardes.
La Déduplication économise les ressources des autres serveurs : FAUX, elles consomment au contraire plus de CPU des machines sauvegardées.
La Déduplication réduit énormément la consommation de bande passante : FAUX,
La déduplication oblige à des allers-retours pour vérifier la présence des données sur le serveur de sauvegarde, ce qui la rend même plus consommatrice de bande passante dans certains cas.
La Déduplication réduit énormément le stockage des données sauvegardées : FAUX,
Par rapport à une sauvegarde mode bloc classique, la réduction des données pour un serveur protégé est inférieure à 5 %.
La Déduplication garantit le meilleur RPO : FAUX,
Les traitements lourds de la déduplication obligent à espacer les sauvegardes. Seules les solutions de sauvegarde en continu (CDP : Continuous Data Protection) garantissent le meilleur RPO.