Enjeux de l'archivage à long-terme : le stockage sur bande a encore de beaux jours devant lui

La transformation numérique s'est accélérée dans tous les secteurs et avec la pandémie, les entreprises ont migré massivement vers le Cloud, entraînant une explosion des données à stocker et à archiver.

Dans l’industrie spatiale ou l’énergie, les volumes de données se comptent désormais en centaines de pétaoctets, et même en exaoctets dans le domaine de la recherche. Ayant à disposition de nouvelles puissances de calcul, les chercheurs exécutent de plus en plus de simulations et les données que celles-ci génèrent font exploser le besoin en stockage de données non structurées. Les grands centres de recherche et les institutions font ainsi face à de nouveaux challenges dans le stockage et l’archivage de ces données produites :  besoin d’accessibilité, de rapidité et de partage au travers de réseaux. 

Pour des raisons de conformité réglementaire, certains secteurs (banque/assurance, automobile, etc.) nécessitent de conserver leurs données sur du très long terme. Quant au secteur de la recherche, les données dites ‘tout public’ doivent pouvoir être accessibles à toute la communauté scientifique partout sur le globe. 

Aussi, nous observons que la période de conservation de ces données s’allonge, la norme actuelle allant désormais de 15 à 30 ans, contre 3 à 5 ans auparavant. Cela induit donc également un accroissement significatif du volume de données à gérer, nécessitant de disposer d’un système d’archivage et de stockage mieux adapté et beaucoup plus capacitif, mais qui s’avère parfois beaucoup plus onéreux.

Les coûts pour un archivage à long terme explosent

Pour limiter les coûts, et lorsque cela est possible comme pour les données non sensibles, certaines organisations déploient des datalake ou des datahub. Il s’agit de systèmes de stockage ou d’archivage permettant de partager les données, d’en limiter le nombre de copies et donc, de mieux maîtriser les coûts. 

Les secteurs de l’Internet des Objets (IoT) et l’automobile génèrent de grands volumes de données et nécessitent une conservation de données pour une période de 25 ans. Par exemple, en cas d’anomalie après la mise sur le marché d’un produit, il est nécessaire de pouvoir accéder aux données archivées pour vérification des tests réalisés avant mise en service. 

Par ailleurs, la numérisation des documents, notamment dans le secteur Banque/Assurance où les données doivent être conservées pendant un siècle, fait exploser les besoins en archivage. 

Des enjeux complexes

Les enjeux sur la maîtrise du stockage sont donc nombreux : accessibilité des données, coûts financiers liés à leur conservation, impact écologique, etc.

Pour les données chaudes, régulièrement consultées, il est préférable pour les entreprises de mettre en place des hubs de données centralisés dans des grands centres ou chez les cloud providers afin de mutualiser les serveurs et de garantir un accès rapide aux données.

Quant aux données dites froides, sans besoin d’accès immédiat, il est conseillé de s’appuyer sur des librairies de bandes qui permettent de limiter l’impact financier et énergétique de leur stockage et qui assurent une conservation des données à long terme. Seul inconvénient : les bandes doivent être extraites des librairies, rendant la restitution des données plus lente par rapport à d’autres supports. 

Toutefois, la bande reste le meilleur support de stockage et a encore de beaux jours devant elle.