Casse tête de la gestion des données, la déduplication s'impose

La problématique de l’explosion des données concerne tous les utilisateurs de l’informatique quelque soit leur environnement, grand public, PME, grandes entreprises ou groupes internationaux. Pour faire face, plusieurs technologies existent afin de réduire la redondance de la donnée et optimiser les coûts.

Il existe quatre approches technologiques qui servent différentes stratégies d'optimisation de la donnée

-   L'approche embarquée dans un applicatif : limiter le contenu redondant d'une base de données. Par cette méthode, on cherche à éviter la redondance d'un fichier dans une base. Ce mode est appelé généralement «single instance». On trouve cette solution dans les applications de messagerie notamment, mais les bénéfices sont perdus dès que plusieurs utilisateurs enregistrent chacun de leur côté la même pièce jointe sur leur répertoire de travail.

-   L'administration centralisée : détecter les fichiers identiques pour les supprimer. Cela impose la mise en œuvre d'un outil dont l'analyse se bornera souvent au fichier et qui viendra compléter le millefeuille des outils d'administration que possède déjà l'entreprise.

-   Le clonage intelligent : créer des copies d'environnements de qualification, de test, de développement ou de formation sans dupliquer la volumétrie.
Le clonage intelligent permet d'éviter la redondance par un mécanisme intelligent qui produit plusieurs copies d'une donnée modèle (une base de données par exemple), en créant autant de pointeurs que nécessaire afin de ne conserver qu'une seule instance des blocs disques qui sont communs à toutes les copies.

-   la dé duplication des données : supprimer la redondance des données en s'affranchissant du niveau fichier.
Cette approche, qui nous intéresse plus particulièrement, peut être segmentée en deux catégories. On trouve d'une part les « appliances » de sauvegarde qu'elles soient logicielles ou matérielles, et d'autre part, une fonction intégrée à la baie de stockage.

La quasi-totalité des offres du marché se focalise sur la dé duplication de sauvegarde au travers de périphériques de type bibliothèque de bandes virtuelles VTL (Virtual Tape Library), car c'est sur les périphériques de sauvegarde sur disque que la redondance de l'information est la plus élevée. Mais cette solution n'est que partielle et résout uniquement la problématique de la volumétrie des sauvegardes sans tenir compte de la redondance à la source, là où la donnée est active. Car si une donnée active est peu redondante dans des mécanismes de single instance ou une fois compressée (films, images), on ne peut pas en dire autant sur des espaces disques attachés aux environnements virtuels ou des espaces de fichiers des utilisateurs.

Aussi, pour dé dupliquer toutes les données présentes dans un LUN ou un espace de fichiers indépendamment de leur contexte, l'algorithme utilisé est bien souvent le « Byte by Byte » (comparaison au niveau du bloc disque). Par exemple, une même photo présente dans une présentation de type Powerpoint et un fichier de type Word sera dé dupliquée.

Dans un environnement NAS, la baie de stockage gère par elle-même ses espaces de fichiers et les gains apportés par la dé duplication se retrouvent directement dans l'espace disponible affiché sur le poste de travail. Dans un environnement SAN, pour exploiter pleinement les gains de la dé duplication, il est impératif de mettre en oeuvre la fonctionnalité de Thin Provisioning, qui est la capacité de la baie de stockage à ne pas pré-allouer (et donc mobiliser) l'espace disque physique défini par l'administrateur. Ainsi l'espace libéré au niveau du LUN peut être récupéré.

On peut également s'interroger sur la performance de la dé duplication sur la donnée active, sa réelle efficacité et l'exploitabilité de l'espace libéré. Il faut savoir que des mécanismes de « post-process » permettent de maintenir de bonnes performances. Il s'agit de mécanismes qui déclenchent la dé duplication à des moments de la journée où la baie de stockage n'a pas à livrer le maximum de sa performance et sur des périmètres de données bien précis.
Mais une fois la donnée dé dupliquée, il est naturel de penser que la performance en lecture peut être altérée du fait du travail de recomposition de la donnée. Or, il est possible d'améliorer l'efficacité du cache : un bloc de données lu et présent dans le cache du contrôleur de la baie peut servir à délivrer des requêtes différentes mais pointant sur la même donnée.

Les technologies de dé duplication existent depuis près de 3 ans, et commencent à atteindre un niveau de maturité (de fiabilité et de performance) suffisant pour envisager une mise en production sereine, y compris pour les données actives. Nous commençons seulement à entre-apercevoir les applications de cette technologie. S'il est aisé d'imaginer la dé duplication venir remplacer la bande magnétique dans un terme proche, elle permet déjà de réduire la bande passante consommée entre une source et une destination de réplication de sauvegarde ou de donnée active.

Également, la dé duplication apportera une solution à la problématique de la volumétrie générée par les solutions d'archivage légal et la dématérialisation du patrimoine de l'entreprise. Plus généralement, dans un contexte de plus en plus « green storage », la dé duplication entre dans le débat avec des arguments très convaincants avec une mise en pratique à tous les niveaux de la donnée, qu'elle soit active, sauvegardée ou archivée.