L'analyse de données et son importance pour les plateformes de Software-defined storage
L'administrateur du stockage n'est plus réellement concerné par la gestion et l'allocation de volumes finis. Aujourd'hui, la performance de stockage se gère pratiquement toute seule.
Auparavant, l'administrateur de stockage devait avoir des connaissances spécifiques. Désormais, la gestion du stockage revêt une toute autre allure. Des fonctionnalités tellement avancées grâce aux piles des plateformes définies par logiciel, comme la qualité de service IO-path, les protocoles agnostiques en termes d'hyperviseurs et de cloud, et les métadonnées scale-out, par exemple. Avec toutes ces avancées, il serait pensable que les jours de l'administrateur du stockage soient comptés.L'administrateur du stockage n'est plus réellement concerné par la gestion et l'allocation de volumes finis. Aujourd'hui, la performance de stockage se gère pratiquement toute seule. L'allocation dynamique des ressources relève moins de l'optimisation de la capacité que de la mobilité des données. Et il existe à peu près autant de données sur nos données que de données.
D'une certaine façon, nous avons converti l'administration du stockage en contrôle du trafic aérien : trouver les chemins optimaux pour les données et gérer les embouteillages d'IO alors que le trafic augmente plus que de raison. C'est là que l'analytique entre réellement en jeu.
Dans tous les aspects de l'informatique, l'administration est reléguée au second plan par rapport à l'intégration à l'entreprise, dans laquelle le fait de savoir ce qui s'est passé (rapports) et ce qui se passe actuellement (surveillance) commence à générer de la connaissance (analytique) sur ce qui se passe dans l'entreprise. Avec l'apport de l'analyse prédictive, il est possible non seulement de prendre des décisions technologiques, mais clairement aussi des décisions commerciales, ce qui peut entraîner une énorme différence dans la réponse aux demandes du marché et permettre d'en éviter les pièges. Cela fait passer l'informatique (ainsi que le stockage) du mode réactif au mode proactif, ce qui est l'avantage numéro un de l'analyse prédictive.
Comment cela s'applique-t-il à un accord informatique-entreprise par le biais d'un exemple concret ? Par la clôture des comptes à la fin du mois dans une grande entreprise. Par le passé, un service informatique fournissait l'infrastructure correspondant au pire scénario des conséquences sur les performances : Donc, malgré des exigences de 3 000 IO/s 27 jours par mois, la période de pointe à 35 000 IO/s de la fin de mois (pendant environ huit heures) justifiait l'achat d'une baie tout-flash coûtant 4 fois plus cher que des disques durs. Parce que les volumes nécessitent une énorme quantité d'espace provisoire pour remplir et vider les journaux, exécuter les rapports sur des copies des données et faire évoluer les clusters Hadoop pour analyser les jeux de données, c'est près d'un Pétaoctet de capacité de stockage qui est nécessaire pour prendre en charge 200 To de données de production réelles. Toutes ces données sont allouées de façon standard entre deux datacenters à des fins de redondance et de performance en cas de problème ou d'urgence.
La plupart de ces données étaient mises à disposition de l'entreprise grâce aux rapports et au suivi, ce qui permettait à un architecte informatique de déterminer quelle plateforme de stockage et de serveur pourrait gérer ce type de charge. L'analyse manuelle ou semi-manuelle des nombreux systèmes et consoles fusionnait les données (peut-être dans une feuille de calculs), ce qui permettait de constater que :
- 30% de toute la charge de données se concentre sur
un seul jour du mois.
- 90% de « l'étendue du stockage » est
utilisée pour autre chose que les données de production. Sur les 10%
restants utilisés pour les données de production, 2% peut-être de cet
espace nécessite réellement les performances fournies.
- Le coût/To/IO/s est faussé car il ne prend en charge que
10% de la capacité (ou 2% en réalité !), et 30% de la
charge totale, pour un coût multiplié par 8 à 20.
Bien d'autres corrélations de données peuvent être réalisées, et elles sont évidemment exploitables et significatives pour l'entreprise. Il est possible par exemple de :
- Corriger la taille de la charge des performances pour
utiliser les exigences réelles du jeu de données, plutôt que de réaliser des
dépenses monstrueuses pour tenir compte du pire scénario.
- Modifier manuellement les couches de performance du
stockage avant la fin du mois (voire les modifier automatiquement si la
plateforme de stockage le permet).
- Utiliser l'allocation dynamique des ressources ou des
instantanés non volatiles, pouvant être ouverts en tant qu'images disques, pour
gérer l'exploration des données, et la « copie de données » pour
réduire l'étendue du stockage.
Toutes ces données sont
exploitables sur une bonne plateforme de virtualisation et grâce à l'analyse sur
la plateforme et aux métadonnées des applications. Si nous ajoutons une
plateforme SDS (Software-defined storage) véritablement hétérogène, pouvant fonctionner sur différents
niveaux de performance et de plateforme du stockage, nous commençons à obtenir
une compréhension extrêmement poussée de l'infrastructure, dépassant tout ce qu'un
administrateur pourrait raisonnablement traiter en un jour. Toutefois, en
raison du simple volume et de la complexité de ces fonctionnalités, le panneau
de commande DOIT être imprégné d'automatisation et de prévision.
C'est là qu'entre en jeu l'analyse prédictive intelligente : Il ne s'agit
pas tellement de regarder dans le futur que de corréler des événements du passé
aux événements actuels pour ajuster les capacités dans le présent. Si l’administrateur
connait toutes les caractéristiques de ses cibles (performance, capacité,
cache, disposition du stockage pour l'optimisation en lecture/écriture, etc.), qu‘il
connait les tendances des exigences des applications sources, ET qu’il connait
les caractéristiques et fonctionnalités de la plateforme SDS, alors il doit
pouvoir corréler ces événements et ces occurrences dans des actions basées sur
une politique, avec des événements réels ponctuels dans le système. Il peut
ensuite recommander ou automatiser l'ajustement des parcours IO, des objectifs
de stockage, des stratégies de reprise après sinistre et des nouvelles requêtes
opérationnelles grâce à l'analyse prédictive intelligente.
Tout cela permet une meilleure efficacité opérationnelle pour l'entreprise, des économies de coûts lors des décisions d'achat clés de l'infrastructure, une meilleure gestion des SLA pour les charges de travail métier, une conversion plus rapide des données en informations, et un temps de rentabilisation plus court. Bien sûr, ce sont de grandes phrases et de belles promesses, mais nous le constatons chaque jour. Il ne suffit plus d'être un administrateur ou un architecte d'infrastructure. Il ne suffit plus pour le DGI de gérer un budget en espérant que les systèmes ne tombent pas en panne. De nos jours, tous les aspects de l'informatique font partie du flux de revenus des activités, et contribuent à la profitabilité et à l'efficacité des entreprises. L'analyse prédictive est un agent essentiel pour cette nouvelle exigence.