Les systèmes de stockage innovants ne suffiront pas à compenser la croissance du volume de données

Les idées fusent autour de la problématique de la croissance exponentielle des données et des capacités de stockage que cela exige : stockage de données dans l'ADN, dans l'eau, conception de nouvelles puces 3D... Mais cela suffira-t-il ?

Alors que cela relevait davantage du fantasme, c’est désormais une réalité : "Nous nous noyons dans nos propres données". Les chercheurs de l'Université de Washington et de Microsoft ont en effet développé conjointement la première mémoire d'ADN qui convertit automatiquement les informations en code binaire puis en séquences d'ADN : les données deviennent ainsi liquides ! Dirigés par Julian Koch de l'ETH Zurich, les chercheurs ont mis au point une mémoire d'ADN encapsulée dans des billes de silice qu'ils peuvent intégrer dans n'importe quel objet de la vie quotidienne. Ils ont baptisé cette technique "ADN des objets" en analogie à l’IoT.

En parallèle, d'autres chercheurs travaillent sur l'amélioration de concepts déjà approuvés : en août dernier, une équipe du MIT de Cambridge a conçu un microprocesseur 16 bits à partir de nanotubes de carbone. Constitués de graphène de l'épaisseur d'un atome, les nanotubes de carbone conduisent l'électricité beaucoup plus efficacement et rapidement que le silicium. L'industrie et la science espèrent utiliser ce matériau pour repousser encore plus loin les limites physiques de la loi de Moore[1].

Un effort supplémentaire sur un territoire connu

Plusieurs années seront nécessaires avant que ces systèmes de stockages alternatifs ou que ces puces révolutionnaires soient prêtes pour le marché et adaptées à la production de masse. De fait, les recherches intensives basées sur des technologies déjà éprouvées se poursuivent afin de pouvoir traiter et stocker une quantité croissante de données dans des volumes limités et ce, plus facilement, plus rapidement et surtout plus efficacement sur le plan énergétique (nouvelles puces, conceptions plus rapides, etc.). L'été dernier, des chercheurs de l'Université de Lancaster ont breveté un nouveau type de mémoire qui n'utilise que 1 % de la puissance des DRAM - et 0,1 % de la puissance des mémoires flash - dans un boîtier de seulement 20 nm.

Le géant de la production de puces taïwanais TSMC, a été le premier fabricant à lancer une production de masse de puces de 5 nm. Philip Wong, responsable de recherche, est convaincu que la loi de Moore sera respectée d'ici 2050. En plus des nouveaux matériaux tels que le graphène (matériau bidimensionnel cristallin), le leader du marché veut désormais concevoir des puces tridimensionnelles. L'idée provient initialement des fabricants de mémoires flash, qui empilent plusieurs couches les unes sur les autres depuis des années.

Non seulement ils gagnent de la place, mais ils peuvent aussi relier les couches entre elles et obtenir ainsi plus de performances dans la conception de la puce. Intel et ARM s'appuient également sur ces puces, compatibles et combinables entre elles. Les puces sont des modules individuels qui, par exemple, comprennent plusieurs noyaux de CPU, des unités graphiques ou encore d'autres composants.

Les pieds sur terre et la tête dans les nuages

Ces exemples exceptionnels témoignent de l'inventivité dont font preuve acteurs de l’industrie et de la recherche pour suivre la cadence. C’est un fait, la quantité de données dans le monde entier augmente de manière exponentielle et double chaque année. D’après IDC, le volume de données mondial pourrait atteindre 175 zettaoctets en 2025. Dans cet amas, la quantité de données générées et gérées par les entreprises devrait augmenter de manière significative. Alors que celles-ci ne représentaient que seulement 30 % en 2015, les experts leur attribuent une part d’environ 60 % d'ici 2025. Les entreprises devront en effet traiter environ 105 zettabytes en 2025, contre 12 zettabytes dix ans plus tôt. La croissance des données est intimement liée au développement technique et technologique. Effectivement, la création ininterrompue de nouvelles données (notamment en provenance d’internet), les nouvelles technologies (5G, IoT, IA), la blockchain et les crypto-monnaies sont autant de facteurs venant affecter l’univers de la donnée.

Pour accueillir ces nouvelles données, les entreprises et autres fournisseurs de stockage cloud devront créer plus d'espace. Ils pourront utiliser une mémoire flash, rapide et évolutive, pour évaluer les données, procéder à une analyse avancée, ou pour sauvegarder rapidement les plateformes de stockage à haute performance. Les analystes prévoient que les prix du stockage SSD iront cette année à la baisse, notamment car certains fabricants produisent et proposent, par exemple, des flashs NAND 4D 128 couches en grand volume.

La plupart des entreprises auront des infrastructures hybrides, avec certaines charges de travail sur site et d'autres dans le cloud. Les systèmes de stockage devront fonctionner en mode hyper-convergent et interagir à la fois avec l'infrastructure de stockage existante et le cloud être pour pouvoir cartographier de manière simple et évolutive les données.

La nécessité de disposer d'architectures de stockage simples et rapides à mettre en place permettra de promouvoir davantage les concepts basés sur une architecture définie par logiciel. Un matériel standard sera combiné à des logiciels intelligents et hautement évolutifs pour former un pool de ressources virtuelles. Des processus automatiques alloueront le nouveau stockage de manière dynamique, selon les besoins, sans intervention humaine.

Tâche de diligence et hygiène des données

Chaque jour, de nouvelles infrastructures de stockage sont mises en place et rapidement submergées par les données, car il est souvent plus rentable pour les entreprises de simplement stocker des données non filtrées et non catégorisées sur des dispositifs de stockage peu coûteux. Cette situation est problématique sur le plan économique comme écologique. Gartner parle de Dark Data – des données que les entreprises collectent, traitent et stockent dans le cadre de leurs activités quotidiennes, mais sans pour autant les utiliser.

Comme la matière noire en physique, la majorité des données des entreprises appartient à la catégorie des dark data : Effectivement, les études Veritas Technologies démontrent qu'en moyenne 52% de toutes les données stockées par les entreprises dans le monde font parties de cette catégorie. Le stockage et la sauvegarde de ces données mobilisent des ressources sans qu'aucune valeur n’en soit tirée.

Les utilisateurs doivent commencer à automatiser l’analyse du contenu et de ces données, puis à les classer en fonction de leur valeur commerciale. Les outils de gestion automatique des données utilisent à cette fin des algorithmes issus du machine learning et de l'intelligence artificielle et combinent ces connaissances avec des filtres, des règles et des exigences juridiques prédéfinies spécifiques à chaque pays. L'objectif est de réduire le nombre d’erreurs de classification tout en limitant les interactions humaines.

Cette forme de classification automatique est le premier pas vers une réelle hygiène des données. De plus, la vue d'ensemble sur l'utilisation des différents types de stockage (cloud, hybride ou sur site) est également critique. Effectivement, seule une vue d'ensemble du stockage et des données concernées permet de fournir aux entreprises les informations essentielles pour répondre de manière fiable à l'une des questions les plus importantes en matière de gestion des données : "Ce fichier peut-il être supprimé sans aucun risque pour l'entreprise ?"

D'ailleurs, ceux qui réduisent continuellement la quantité de dark data au sein de leur entreprise, grâce à la classification, trouveront souvent des données redondantes - par exemple des archives de courrier électronique stockées dans des succursales qui ont depuis longtemps été consolidées ailleurs. Grâce à cette méthode, le stockage existant peut être rapidement libéré.

Si les entreprises considèrent la gestion des données comme faisant partie de leurs tâches informatiques quotidiennes, elles s’interrogeront sur leur valeur de manière plus précoce - même lors de l'introduction de concepts numériques modernes tels que l'IoT ou d‘industrie 4.0, et décideront quelles données doivent réellement être conservées et quelles sont celles qui peuvent être supprimées sans risque.

[1] Cf. "La physique fixe les limites de la loi de Moore"