La démarcation entre données primaires/données archivées s’est estompée. La balle est dans votre camp

Contrairement à une opinion répandue, le « comment » l’emporte sur le « quoi » en termes d’archivage. Les administrateurs de données ont du mal à décider sur ce qui doit être supprimé et ce qui doit être conservé, c’est une décision très consommatrice de temps et de ressources.

Aujourd’hui donc, tout ou presque est stocké pour toujours. D’où de gigantesques dépôts de données, qui traduisent une nécessité impérieuse : instaurer une architecture de stockage évolutive pour faire face à cette nouvelle tendance du « stockage universel perpétuel ».

Recoupement des usages du disque et de la bande, garants d’une multiplicité de choix

Décider du « quoi » et « pourquoi » archiver importaient davantage lorsque les propriétaires et les administrateurs de données devaient trouver un compromis entre le stockage primaire et le stockage d’archives. Le disque était réservé au stockage primaire et la bande, à l’archivage. Si le disque primaire s’avérait très onéreux, l’archivage sur bande imposait des contraintes d’administration conséquentes, doublées d’un accès restreint aux données. Les récentes évolutions technologiques ont changé la donne.
Le coût du stockage sur disque n’est plus dissuasif dans une optique de stockage à long terme. Les solutions sur bande, de plus en plus simple à administrer, ne limitent plus non plus l’accès aux données. Encore faut-il néanmoins disposer de la solution sur disque ou sur bande adéquate pour que ces affirmations soient vraies et en adéquation avec la finalité actuelle de l’archivage.

Principales caractéristiques de l’archivage des temps modernes

Les dernières évolutions technologiques en date peuvent avoir des effets extrêmement positifs sur l’efficacité de la stratégie d’archivage, à condition de ne pas perdre de vue les impératifs ci-après :

  • Moindre coût du stockage. Les économies demeurent l’une des motivations premières dans la recherche d’un substitut au stockage primaire.
  • Longévité des données. Les données archivées doivent être bien protégées et leur durabilité assurée même en cas d’incident sur site ou de dysfonctionnement des composants matériels. L’archivage traite surtout la conservation des données  plus que de son transfert.
  • Accès aisé aux données. Les données archivées doivent être facilement accessibles. Sinon, à quoi bon ?
  • Évolutivité illimitée. L’architecture doit aujourd’hui pouvoir évoluer facilement pour réaliser les économies à la clé.
  • Migration technologique sans interruption de service. Les solutions doivent être capables d’évoluer et d’intégrer les dernières technologies disponibles  sans interruption de service, et bénéficier ainsi des avantages et des économies à long terme de l’investissement actuel.

De nouvelles solutions technologiques qui optimisent l’archivage des données

Plusieurs nouveautés technologiques méritent d’être prises en considération dans la mise en œuvre d’une stratégie d’archivage :
  • Stockage objets basé sur un algorithme de type « Erasure Code ». Invention la plus belle qui soit dans le domaine de l’archivage sur disque, la technologie des codes à effacement (« Erasure code ») crée, concrètement, des codes de redondance permettant de restaurer les données en cas de défaillance d’un composant, de la même manière que la technologie RAID crée la redondance via un bit de parité. L‘erasure code se différencie néanmoins du RAID en ceci que cette technologie crée la redondance par la dispersion des données, tandis que la technologie RAID intervient sur un jeu donné de composants matériels.
    Dans le codage à effacement, les algorithmes de dispersion convertissent les fichiers ou objets en une multitude d’éléments de données intégrant individuellement une infime quantité de redondance ; ainsi, il suffit à l’utilisateur de récupérer partiellement ces éléments pour restaurer l’objet complet. Une fois déployé, le stockage objets basé sur un codage à effacement protège naturellement les données des dysfonctionnements de composants matériels, sans nécessiter de réplication. De plus, s’il est dispersé sur plusieurs sites distants (« géorépartition »), les données sont également protégées contre les incidents à l’échelle du site, là encore sans nécessiter de réplication.
    La réplication des données étant inutile, il faut nettement moins de matériel pour stocker et protéger celles-ci. C’est la raison pour laquelle le stockage de données faisant appel à la technologie de codage à effacement est à même de réduire significativement les coûts matériels. Et, les volumes de données étant bien moindres, les coûts logiciels seront, eux aussi, revus à la baisse. Enfin, étant donné que le codage à effacement gère les pannes matérielles à tous les niveaux (composant, baie, site) contrairement à la technologie RAID qui les traite au niveau de la baie, on comprendra aisément que l’évolution vers une nouvelle technologie de composants, dans un environnement de codage à effacement, n’exige aucune mise à niveau majeure.
  • Technologie LTFS et transformation de la bande en stockage NAS. Le LTFS (Linear Tape File System) fait de plus en plus parler de lui. Cette technologie apparue en 2010 ouvre de nouvelles perspectives inédites à la bande. La technologie LTFS offre un système complet de fichiers autodescriptifs sur cartouche, permettant ainsi aux utilisateurs d’effectuer des opérations en lecture et en écriture sur bande comme s’il s’agissait d’une extension de leur système de fichiers. Par simple glisser-déposer, ils transfèrent leurs fichiers sur cartouche, sans plus avoir à passer par une application de sauvegarde propriétaire pour les y stocker et les en extraire. Plusieurs solutions sur le marché autorisent, à l’heure actuelle, l’accès à des librairies de grande capacité sous forme de partage NAS. Pourra-t-on encore simplifier davantage l’accès aux données sur bande ? Un nombre toujours plus conséquent de solutions logicielles prennent aujourd’hui en charge le format LTFS, que la SNIA (Storage Networking Industry Association) entend promouvoir comme standard ouvert.
    Résultat : les bandes LTFS sont parfaitement adaptées aux applications d’archivage à long terme puisque les standards ouverts sont appelés à être lus par les systèmes de demain. Les logiciels LTFS procurent un tout nouveau degré d’accessibilité et de portabilité aux données sur bande.
  • Contrôle de l’intégrité des données et médias. Les contrôleurs d’intégrité des données sont des outils révolutionnaires concourant à la longévité des données dans le domaine des bandes. Quelques offres permettent aux utilisateurs de définir la fréquence des rotations d’une cartouche de bande dans un lecteur afin de tester l’intégrité du média et des données qu’il contient. C’est un peu comme si vous faisiez tourner des bouteilles de vin en cave pour mieux les faire vieillir. À ceci près que les utilisateurs ont ici la possibilité d’agir sur les médias présumés défaillants afin de prévenir la perte de données.

Marche à suivre

De toute évidence, le disque comme la bande peuvent jouer un rôle très actif dans le monde d’aujourd’hui, axé sur le « stockage universel ». Grâce aux technologies décrites ci-avant, tous deux sont en mesure d’offrir une montée en capacité et une durabilité des données exceptionnelles. Le choix sera fonction de l’envergure du projet, des contraintes d’accès des utilisateurs et du taux escompté de croissance des données.
Pour les petites structures (moins de 100 To) : intéressez-vous de près aux systèmes de bandes qui mettent à profit la technologie LTFS, procurent un accès NAS sur bande et incluent des outils pour l’intégrité des données. Ces solutions sont aujourd’hui d’une performance telle qu’on en oublierait presque qu’elles se servent d’une bande.
Pour les environnements de plus grande envergure, le choix n’a jamais été aussi vaste. Testez les solutions qui tirent parti du stockage objets basé sur un codage à effacement, sans doute les plus à la pointe en termes d’accès aux données et de rentabilité. Si votre budget n’est pas extensible, les librairies NAS offrent toujours la commodité d’un accès NAS moyennant un petit compromis : un accès plus lent aux données en échange d’un coût moindre.