Stockage, chronique d'une évolution perpétuelle

Stockées en interne dans les années 80/90, les données sont aujourd'hui sauvegardées dans les datacenters mais aussi des clouds privés, publics, hybrides. Une dispersion qui fragilise les entreprises et leur impose de hiérarchiser sous forme de data fabric les données pour optimiser leurs coûts mais aussi valoriser leurs usages.

Stocker. En quarante ans le stockage des données d’entreprises a évolué d’un mode hébergé dans des datacenters privés ou déportés sur des sites de l’entreprise à un mode réparti dans des cloud privés, publics, hybrides. Au-delà de cette dispersion, la donnée stockée s’est également transformée. Construite à partir d’information simple (nom, âge, nombre de produits vendus, prix…) dans les années 80 et 90, elle s’est enrichie d’informations et de formats divers (nombre de produits vendus en fonction du lieu, de la météo, des concurrents, d’un évènement, son, vidéo, photos, etc.). Des éléments complexes qui sont à l’origine de l’évolution du stockage de la donnée.

1980-2000 : l’âge d’or du stockage San / Nas pour répondre aux problématiques de performance

Dans les années 80-90, les entreprises s’informatisent. Le capital intellectuel et industriel de l’entreprise se structure alors dans des logiciels métiers (RH, production, logistique, finance, marketing, commercial, etc.). Toutes les données sont stockées sur des serveurs dédiés à chaque métier de l’entreprise. Chaque service à ses outils et la donnée est utilisée à l’état brut. Mais, au fil du temps, la croissance du volume des datas stockées génère une problématique de performance d’accès aux données. Consulter une fiche produits peut entrainer la perte d’une vente tant le temps d’accès est long. D’une telle situation naissent alors les solutions de stockage performant de type San (storage area network) et Nas (network-attached storage). Ces systèmes de réseaux de stockage centralisés (IP ou San) permettant de partager des espaces de stockage ultra performants avec plusieurs centaines de serveurs.

2000-2010 : réduction des coûts du stockage par la hiérarchisation de la donnée

Dans les années 2000, la croissance des données et des applicatifs présents dans les entreprises continue de poser le problème de la gestion de volume. La centralisation du stockage pose aussi le risque de la perte de données en cas de sinistre et donc de l’incapacité des entreprises à fonctionner. Pour éviter de telles situations, elles déploient des solutions de plans de reprise d’activité (PRA) ou plans de continuité d’activité (PCA). Objectif ? Copier et héberger dans des lieux distincts les données informatiques pour se prémunir d’un arrêt de production suite à un sinistre majeur.

Cette croissance inexorable du volume de données a également conduit les organisations à se poser des questions sur l’usage de la donnée. Ainsi, elles se sont interrogées sur le degré d’utilité d’une donnée, sa finalité, sa périodicité de consultation. De cette démarche est née le tri et la hiérarchisation de la donnée ou le HSM (hierarchical storage management) dont le but est de répartir le stockage sur différentes solutions (baies San, Nas, backup, bandes ou disques, archivages, etc.) afin d’en optimiser les coûts. L’entreprise choisit alors la meilleure solution de stockage en termes de coûts selon le degré de performance attendu et le besoin d’accessibilité à la donnée.

2010-2020 : un stockage réparti en multicloud et des données valorisées

Avec l’adoption du multicloud, les entreprises se sont mises à stocker leurs données dans des clouds privés, publics et/ou hybrides dispersant alors leur capital intellectuel et industriel aux quatre coins du monde.

En parallèle, de nouvelles sources de production de données sont apparues. Issues d’objets connectés diverses - caméras, capteurs (météo, santé, trafic...), caisses enregistreuses, robots industriels, outils de supervision, etc. Des données qui ne sont plus produites à l’intérieur des entreprises, mais à l’extérieur. Les entreprises ont tout intérêt à capter ces données, les stocker et les exploiter car elles lui permettront d’anticiper des phénomènes, d’innover, ou encore de personnaliser les offres métiers de l’entreprise. HPC, BI, big data, mais aussi datawarehouse, l’heure est alors au développement de solutions permettant d’extraire de l’information de données enrichies et au déploiement d’entrepôts de données pour la stocker (datalake). 2010 c’est aussi le début de la data fabric, plateforme permettant de choisir le meilleur endroit où stocker ses données (data center, cloud privé, public, Edge - magasin, usine, service...). Une data fabric permet non seulement de choisir mais aussi d’assurer la gestion de la donnée multi-cloud.

Et après ?

L’un des grands enjeux des 10 prochaines années restera la gestion de la croissance du volume de données et son exploitation. Car celui-ci ne cessera de croitre notamment sous l’impact des nouveaux dispositifs de travail – télétravail, visioconférences, webinars, mais aussi des nouvelles technologies que sont l’IoT ou la 5G. À titre d’exemple dans le domaine de la santé, Damien Gromier, CEO de Inside cite dans son livre "L’Intelligence artificielle en action : Santé, environnement, énergie… ce que l’IA change concrètement", une étude conduite en 2017 en Angleterre "évaluant la croissance du nombre de passations de scanner et d’IRM à l’horizon 2020, à, respectivement, 29 et 26%. Dans le même intervalle, le nombre de radiologues n’allait progresser que de 5%. L’IA est donc assurément appelée à jouer un rôle crucial dans la capacité même de certaines spécialités médicales à répondre aux besoins de la population." Face à un tel contexte, les organisations vont donc devoir hiérarchiser et valoriser toujours plus leurs données.

En 2021, l’un des enjeux majeurs des entreprises sera non seulement d’optimiser les lieux de stockage de leurs données pour qu’elles soient au plus près des utilisateurs mais aussi de s’assurer de leur sécurité. Car, conscients que les entreprises dispersent leurs données dans différents cloud et sites edge, les cybercriminels profitent de la multiplicité de ces points de contacts pour pirater les organisations et propager leurs attaques. Pour se protéger, les entreprises vont donc devoir massivement recourir à des solutions d’automatisation massives (tâches de tests répétitives et automatisées) et d’’IA pour faire de la sécurité prédictive, préventive et prescriptive.

Le stockage n’a donc pas fini d’évoluer !