L'analyse de données et son importance pour les plateformes de Software-defined storage

L'administrateur du stockage n'est plus réellement concerné par la gestion et l'allocation de volumes finis. Aujourd'hui, la performance de stockage se gère pratiquement toute seule.

Auparavant, l'administrateur de stockage devait avoir des connaissances spécifiques. Désormais, la gestion du stockage revêt une toute autre allure. Des fonctionnalités tellement avancées grâce aux piles des plateformes définies par logiciel, comme la qualité de service IO-path, les protocoles agnostiques en termes d'hyperviseurs et de cloud, et les métadonnées scale-out, par exemple. Avec toutes ces avancées, il serait pensable que les jours de l'administrateur du stockage soient comptés.

L'administrateur du stockage n'est plus réellement concerné par la gestion et l'allocation de volumes finis. Aujourd'hui, la performance de stockage se gère pratiquement toute seule. L'allocation dynamique des ressources relève moins de l'optimisation de la capacité que de la mobilité des données. Et il existe à peu près autant de données sur nos données que de données.

D'une certaine façon, nous avons converti l'administration du stockage en contrôle du trafic aérien : trouver les chemins optimaux pour les données et gérer les embouteillages d'IO alors que le trafic augmente plus que de raison. C'est là que l'analytique entre réellement en jeu.

Dans tous les aspects de l'informatique, l'administration est reléguée au second plan par rapport à l'intégration à l'entreprise, dans laquelle le fait de savoir ce qui s'est passé (rapports) et ce qui se passe actuellement (surveillance) commence à générer de la connaissance (analytique) sur ce qui se passe dans l'entreprise. Avec l'apport de l'analyse prédictive, il est possible non seulement de prendre des décisions technologiques, mais clairement aussi des décisions commerciales, ce qui peut entraîner une énorme différence dans la réponse aux demandes du marché et permettre d'en éviter les pièges. Cela fait passer l'informatique (ainsi que le stockage) du mode réactif au mode proactif, ce qui est l'avantage numéro un de l'analyse prédictive.

Comment cela s'applique-t-il à un accord informatique-entreprise par le biais d'un exemple concret ? Par la clôture des comptes à la fin du mois dans une grande entreprise. Par le passé, un service informatique fournissait l'infrastructure correspondant au pire scénario des conséquences sur les performances : Donc, malgré des exigences de 3 000 IO/s 27 jours par mois, la période de pointe à 35 000 IO/s de la fin de mois (pendant environ huit heures) justifiait l'achat d'une baie tout-flash coûtant 4 fois plus cher que des disques durs. Parce que les volumes nécessitent une énorme quantité d'espace provisoire pour remplir et vider les journaux, exécuter les rapports sur des copies des données et faire évoluer les clusters Hadoop pour analyser les jeux de données, c'est près d'un Pétaoctet de capacité de stockage qui est nécessaire pour prendre en charge 200 To de données de production réelles. Toutes ces données sont allouées de façon standard entre deux datacenters à des fins de redondance et de performance en cas de problème ou d'urgence.

La plupart de ces données étaient mises à disposition de l'entreprise grâce aux rapports et au suivi, ce qui permettait à un architecte informatique de déterminer quelle plateforme de stockage et de serveur pourrait gérer ce type de charge. L'analyse manuelle ou semi-manuelle des nombreux systèmes et consoles fusionnait les données (peut-être dans une feuille de calculs), ce qui permettait de constater que : 

- 30% de toute la charge de données se concentre sur un seul jour du mois.
- 90% de « l'étendue du stockage » est utilisée pour autre chose que les données de production. Sur les 10% restants utilisés pour les données de production, 2% peut-être de cet espace nécessite réellement les performances fournies.
- Le coût/To/IO/s est faussé car il ne prend en charge que 10% de la capacité (ou 2% en réalité !), et 30% de la charge totale, pour un coût multiplié par 8 à 20.

Bien d'autres corrélations de données peuvent être réalisées, et elles sont évidemment exploitables et significatives pour l'entreprise. Il est possible par exemple de :

 - Corriger la taille de la charge des performances pour utiliser les exigences réelles du jeu de données, plutôt que de réaliser des dépenses monstrueuses pour tenir compte du pire scénario.
- Modifier manuellement les couches de performance du stockage avant la fin du mois (voire les modifier automatiquement si la plateforme de stockage le permet).
- Utiliser l'allocation dynamique des ressources ou des instantanés non volatiles, pouvant être ouverts en tant qu'images disques, pour gérer l'exploration des données, et la « copie de données » pour réduire l'étendue du stockage.

Toutes ces données sont exploitables sur une bonne plateforme de virtualisation et grâce à l'analyse sur la plateforme et aux métadonnées des applications. Si nous ajoutons une plateforme SDS (Software-defined storage) véritablement hétérogène, pouvant fonctionner sur différents niveaux de performance et de plateforme du stockage, nous commençons à obtenir une compréhension extrêmement poussée de l'infrastructure, dépassant tout ce qu'un administrateur pourrait raisonnablement traiter en un jour. Toutefois, en raison du simple volume et de la complexité de ces fonctionnalités, le panneau de commande DOIT être imprégné d'automatisation et de prévision.

C'est là qu'entre en jeu l'analyse prédictive intelligente : Il ne s'agit pas tellement de regarder dans le futur que de corréler des événements du passé aux événements actuels pour ajuster les capacités dans le présent. Si l’administrateur connait toutes les caractéristiques de ses cibles (performance, capacité, cache, disposition du stockage pour l'optimisation en lecture/écriture, etc.), qu‘il connait les tendances des exigences des applications sources, ET qu’il connait les caractéristiques et fonctionnalités de la plateforme SDS, alors il doit pouvoir corréler ces événements et ces occurrences dans des actions basées sur une politique, avec des événements réels ponctuels dans le système. Il peut ensuite recommander ou automatiser l'ajustement des parcours IO, des objectifs de stockage, des stratégies de reprise après sinistre et des nouvelles requêtes opérationnelles grâce à l'analyse prédictive intelligente.

Tout cela permet une meilleure efficacité opérationnelle pour l'entreprise, des économies de coûts lors des décisions d'achat clés de l'infrastructure, une meilleure gestion des SLA pour les charges de travail métier, une conversion plus rapide des données en informations, et un temps de rentabilisation plus court. Bien sûr, ce sont de grandes phrases et de belles promesses, mais nous le constatons chaque jour. Il ne suffit plus d'être un administrateur ou un architecte d'infrastructure. Il ne suffit plus pour le DGI de gérer un budget en espérant que les systèmes ne tombent pas en panne. De nos jours, tous les aspects de l'informatique font partie du flux de revenus des activités, et contribuent à la profitabilité et à l'efficacité des entreprises. L'analyse prédictive est un agent essentiel pour cette nouvelle exigence.