La démarcation entre données primaires/données archivées s’est estompée. La balle est dans votre camp
Contrairement à une opinion répandue, le « comment » l’emporte sur le « quoi » en termes d’archivage. Les administrateurs de données ont du mal à décider sur ce qui doit être supprimé et ce qui doit être conservé, c’est une décision très consommatrice de temps et de ressources.
Aujourd’hui donc, tout ou presque est stocké pour toujours. D’où de gigantesques dépôts de données, qui traduisent une nécessité impérieuse : instaurer une architecture de stockage évolutive pour faire face à cette nouvelle tendance du « stockage universel perpétuel ».
Recoupement des usages du disque et de la
bande, garants d’une multiplicité de choix
Décider du « quoi » et « pourquoi »
archiver importaient davantage lorsque les propriétaires et les administrateurs
de données devaient trouver un compromis entre le stockage primaire et le
stockage d’archives. Le disque était réservé au stockage primaire et la bande,
à l’archivage. Si le disque primaire s’avérait très onéreux, l’archivage sur
bande imposait des contraintes d’administration conséquentes, doublées d’un
accès restreint aux données. Les récentes évolutions technologiques ont changé
la donne.
Le coût du stockage sur disque n’est plus dissuasif dans une optique
de stockage à long terme. Les solutions sur bande, de plus en plus simple à
administrer, ne limitent plus non plus l’accès aux données. Encore faut-il
néanmoins disposer de la solution sur disque ou sur bande adéquate pour que ces
affirmations soient vraies et en adéquation avec la finalité actuelle de
l’archivage.
Principales caractéristiques de l’archivage des temps modernes
Les dernières évolutions technologiques en date peuvent avoir des effets extrêmement positifs sur l’efficacité de la stratégie d’archivage, à condition de ne pas perdre de vue les impératifs ci-après :
- Moindre coût du stockage. Les économies demeurent l’une des motivations premières dans la recherche d’un substitut au stockage primaire.
- Longévité des données. Les données archivées doivent être bien protégées et leur durabilité assurée même en cas d’incident sur site ou de dysfonctionnement des composants matériels. L’archivage traite surtout la conservation des données plus que de son transfert.
- Accès aisé aux données. Les données archivées doivent être facilement accessibles. Sinon, à quoi bon ?
- Évolutivité illimitée. L’architecture doit aujourd’hui pouvoir évoluer facilement pour réaliser les économies à la clé.
- Migration technologique sans interruption de service. Les solutions doivent être capables d’évoluer et d’intégrer les dernières technologies disponibles sans interruption de service, et bénéficier ainsi des avantages et des économies à long terme de l’investissement actuel.
De nouvelles solutions technologiques qui optimisent l’archivage des données
Plusieurs nouveautés technologiques méritent d’être prises en considération dans la mise en œuvre d’une stratégie d’archivage :- Stockage
objets basé sur un algorithme de type « Erasure Code ». Invention
la plus belle qui soit dans le domaine de l’archivage sur disque, la
technologie des codes à effacement (« Erasure code ») crée,
concrètement, des codes de redondance permettant de restaurer les données en
cas de défaillance d’un composant, de la même manière que la technologie RAID
crée la redondance via un bit de parité. L‘erasure code se différencie
néanmoins du RAID en ceci que cette technologie crée la redondance par la
dispersion des données, tandis que la technologie RAID intervient sur un jeu
donné de composants matériels.
Dans le codage à effacement, les algorithmes de dispersion convertissent les fichiers ou objets en une multitude d’éléments de données intégrant individuellement une infime quantité de redondance ; ainsi, il suffit à l’utilisateur de récupérer partiellement ces éléments pour restaurer l’objet complet. Une fois déployé, le stockage objets basé sur un codage à effacement protège naturellement les données des dysfonctionnements de composants matériels, sans nécessiter de réplication. De plus, s’il est dispersé sur plusieurs sites distants (« géorépartition »), les données sont également protégées contre les incidents à l’échelle du site, là encore sans nécessiter de réplication.
La réplication des données étant inutile, il faut nettement moins de matériel pour stocker et protéger celles-ci. C’est la raison pour laquelle le stockage de données faisant appel à la technologie de codage à effacement est à même de réduire significativement les coûts matériels. Et, les volumes de données étant bien moindres, les coûts logiciels seront, eux aussi, revus à la baisse. Enfin, étant donné que le codage à effacement gère les pannes matérielles à tous les niveaux (composant, baie, site) contrairement à la technologie RAID qui les traite au niveau de la baie, on comprendra aisément que l’évolution vers une nouvelle technologie de composants, dans un environnement de codage à effacement, n’exige aucune mise à niveau majeure. - Technologie
LTFS et transformation de la bande en stockage NAS. Le LTFS (Linear Tape
File System) fait de plus en plus parler de lui. Cette technologie apparue en
2010 ouvre de nouvelles perspectives inédites à la bande. La technologie LTFS
offre un système complet de fichiers autodescriptifs sur cartouche, permettant
ainsi aux utilisateurs d’effectuer des opérations en lecture et en écriture sur
bande comme s’il s’agissait d’une extension de leur système de fichiers. Par
simple glisser-déposer, ils transfèrent leurs fichiers sur cartouche, sans plus
avoir à passer par une application de sauvegarde propriétaire pour les y
stocker et les en extraire. Plusieurs solutions sur le marché autorisent, à
l’heure actuelle, l’accès à des librairies de grande capacité sous forme de
partage NAS. Pourra-t-on encore simplifier davantage l’accès aux données sur
bande ? Un nombre toujours plus conséquent de solutions logicielles prennent
aujourd’hui en charge le format LTFS, que la SNIA (Storage Networking Industry
Association) entend promouvoir comme standard ouvert.
Résultat : les bandes LTFS sont parfaitement adaptées aux applications d’archivage à long terme puisque les standards ouverts sont appelés à être lus par les systèmes de demain. Les logiciels LTFS procurent un tout nouveau degré d’accessibilité et de portabilité aux données sur bande. - Contrôle de l’intégrité des données et médias. Les contrôleurs d’intégrité des données sont des outils révolutionnaires concourant à la longévité des données dans le domaine des bandes. Quelques offres permettent aux utilisateurs de définir la fréquence des rotations d’une cartouche de bande dans un lecteur afin de tester l’intégrité du média et des données qu’il contient. C’est un peu comme si vous faisiez tourner des bouteilles de vin en cave pour mieux les faire vieillir. À ceci près que les utilisateurs ont ici la possibilité d’agir sur les médias présumés défaillants afin de prévenir la perte de données.
Marche à suivre
De toute évidence, le disque comme la bande peuvent jouer un
rôle très actif dans le monde d’aujourd’hui, axé sur le « stockage
universel ». Grâce aux technologies décrites ci-avant, tous deux sont en
mesure d’offrir une montée en capacité et une durabilité des données
exceptionnelles. Le choix sera fonction de l’envergure du projet, des
contraintes d’accès des utilisateurs et du taux escompté de croissance des
données.
Pour les petites structures (moins de 100 To) :
intéressez-vous de près aux systèmes de bandes qui mettent à profit la
technologie LTFS, procurent un accès NAS sur bande et incluent des outils pour
l’intégrité des données. Ces solutions sont aujourd’hui d’une performance telle
qu’on en oublierait presque qu’elles se servent d’une bande.
Pour les environnements de plus grande envergure, le
choix n’a jamais été aussi vaste. Testez les solutions qui tirent parti du
stockage objets basé sur un codage à effacement, sans doute les plus à la
pointe en termes d’accès aux données et de rentabilité. Si votre budget n’est
pas extensible, les librairies NAS offrent toujours la commodité d’un accès NAS
moyennant un petit compromis : un accès plus lent aux données en échange
d’un coût moindre.