Ne luttez pas contre la complexité de la surveillance des datacenters, gérez-la de manière proactive !

Les datacenters prennent aujourd’hui de multiples formes, allant des systèmes classiques sur site et virtualisés jusqu’aux modèles cloud-first ou hybrides. Pour autant ils ont en commun l’augmentation de leur complexité et de leur taille.

De même, alors que les équipes informatiques font déjà face à de nombreux défis, leurs clients sont de plus en plus exigeants et sensibles aux interruptions de service et aux problèmes de non-disponibilité des applications numériques. Garantir la stabilité des systèmes est donc l’une des missions les plus importantes pour une équipe informatique. La réussite de cette mission passe impérativement par la surveillance efficace et proactive de toutes les unités grâce à différentes technologies.

Pour beaucoup d’entreprises, le lien numérique avec les clients est devenu crucial. Leurs services, qu’il s’agisse d’applications, de chatbots, de boutiques en ligne, etc., doivent être constamment disponibles. Si ce n’est pas le cas, cela affecte la relation client : l’insatisfaction augmente et le chiffre d’affaires ainsi que la réputation de l’entreprise en pâtissent durablement. Par ailleurs, les interruptions de service ne sont pas forcément dues à des cyberattaques. En effet, de très nombreuses requêtes provenant du même canal peuvent également paralyser un service informatique. Les grèves ou les conditions météorologiques extrêmes peuvent par exemple rapidement faire tomber le site mobile d’une compagnie aérienne. Afin de pouvoir identifier à temps ces risques et améliorer ainsi la sécurité en assurant le bon fonctionnement et la haute disponibilité des services, les administrateurs informatiques ont besoin de solutions leur offrant une meilleure vue d’ensemble, quels que soient les systèmes et applications compris dans l’architecture et la manière dont ceux-ci sont gérés.

Dans le cadre d’une enquête internationale menée au printemps 2018, Splunk Inc. et l’institut de recherche indépendant Ponemon ont étudié les plus grands défis rencontrés par les administrateurs informatiques en matière de surveillance des datacenters. Près de 2 500 personnes ont participé à l’enquête, dont 321 participants français.

Le paysage informatique actuel est complexe et opaque

Premier constat : la majorité des responsables informatiques ne se sent pas en mesure de surveiller des infrastructures toujours plus complexes tant sur site que dans le cloud et d’intervenir efficacement en cas de dysfonctionnement. Selon les personnes interrogées, les infrastructures hébergées sur des serveurs sur site ou dans un cloud public sont particulièrement répandues : 36 % des participants à l’enquête indiquent que leurs structures sont encore principalement sur site, tandis que 32 % gèrent déjà l’ensemble de leurs systèmes dans un cloud public. 24 % décrivent leurs systèmes comme une solution hybride et 8 % exploitent leurs systèmes à partir de leur propre cloud privé. Ainsi, non seulement l’éventail d’architectures disponibles est extrêmement large, mais ces architectures gagnent aussi en complexité. Changer d’architecture est également compliqué puisqu’un quart des personnes interrogées indique avoir rencontré de nouvelles difficultés lors de leur migration vers le cloud.

Les personnes interrogées indiquent clairement que ces systèmes complexes sont difficiles à maîtriser : 47 % affirment qu’il s’agit du plus grand défi en matière de gestion informatique. Ceci est directement lié à un autre défi mentionné par la moitié des participants, à savoir le manque de transparence qui empêche de détecter les problèmes et d’identifier leurs causes. D’après les personnes interrogées, le cloud contribue à cette opacité : 42 % d’entre elles pensent que le manque de transparence des services hébergés dans le cloud rend difficile toute surveillance efficace des systèmes informatiques.

Compétences, budgets et workflows sont des denrées rares

La structure des systèmes n’est cependant pas la seule chose qui complique la vie des administrateurs informatiques. Le manque de connaissances en matière de surveillance et de résolution des incidents vient s'ajouter à cela. 44 % des participants à l’enquête indiquent que leurs équipes ne disposent pas des compétences nécessaires. Environ un tiers des personnes interrogées considèrent les faibles budgets alloués à la surveillance des datacenters comme un autre facteur de risque. En effet, la plupart des participants (41 %) ne prévoient qu’une faible augmentation des budgets accordés aux activités informatiques dans les douze prochains mois. Un participant sur deux s’attend même à des restrictions budgétaires en ce qui concerne l’acquisition de nouveaux outils de résolution des incidents et de surveillance. De plus, les équipes informatiques ne sont pas suffisamment préparées à la gestion des dysfonctionnements : seules 29 % des personnes interrogées affirment avoir mis en place des workflows documentés et des processus automatisés leur permettant de réagir de manière appropriée en cas d’interruption de service imprévue.

On le voit bien, les administrateurs informatiques sont confrontés à de multiples difficultés. Mais comment remédier à la fois à la complexité et à l’opacité des systèmes, au manque de compétences et de budget dans les équipes informatiques, et à l’absence de processus adaptés ?

Un système de surveillance performant et facile à utiliser constitue un élément-clé pour garantir un fonctionnement sans problème et une utilisation optimale des ressources du datacenter. Que doit proposer une telle solution de surveillance pour répondre aux besoins des administrateurs informatiques tout en générant de la valeur pour l’ensemble de l’entreprise ?

Gérer à nouveau la complexité

Bien que les systèmes de surveillance ne puissent pas réduire la complexité d’une infrastructure informatique, ils aident les administrateurs informatiques à garder une vue d’ensemble et à réagir de manière appropriée en cas d’incident. Ces solutions de surveillance permettent tout d’abord aux équipes informatiques d’identifier l’origine du dysfonctionnement. Elles s’appuient pour cela sur des indicateurs comme le taux d’utilisation du processeur (CPU) ou de la mémoire vive. Mais pour résoudre efficacement les problèmes, il faut répondre à la question du « pourquoi » et la réponse se trouve dans les données des logs. Afin d’être plus efficaces, les systèmes modernes combinent automatiquement les indicateurs et les logs dans une seule application. Un seul coup d’œil à la solution de surveillance suffit ainsi pour comprendre en détail le problème.

Par exemple, si de nombreuses personnes utilisent un site web mobile en même temps, cela entraîne un pic d’utilisation du CPU et donc une chute des performances du service. En associant ce pic d’utilisation aux données du log (c’est-à-dire au nombre d’utilisateurs ou de requêtes), il est plus facile d’identifier la cause du problème et de trouver la bonne solution pour y remédier. Cependant, tous les indicateurs n’ont pas un lien aussi fort avec les performances. Un système de surveillance montre également quels éléments ont créé les premiers goulots d’étranglement. Avec ce genre de surveillance proactive, les responsables informatiques peuvent identifier des tendances et réagir avant que la perturbation n’ait de réelles conséquences.

Une solution également pertinente pour les applications dans le cloud

Les solutions de surveillance ne servent pas uniquement à surveiller les systèmes existants : elles permettent aussi de migrer sans erreur des applications d’un système sur site vers un environnement cloud. Lors de ce type de migration, les administrateurs informatiques doivent vérifier qu’ils peuvent évaluer et comprendre les performances de l’application dans son environnement d’origine. Ce n’est que de cette façon qu’ils peuvent garantir que les performances des services ne se détérioreront pas lors la migration puis lors de l’exploitation dans le cloud. Comme le logiciel des solutions cloud est régulièrement mis à jour, une surveillance est également utile après la migration, pour veiller à ce que l’application soit toujours compatible et fonctionne sans incident.

La surveillance proactive devient un jeu d’enfant

Lorsqu’elles cherchent la solution idéale, les équipes informatiques doivent garder à l’esprit différents critères. Le nouvel outil doit ainsi être facile et rapide à mettre en œuvre pour répondre aux défis de compétences et de ressources. La question de la scalabilité et de la licence est également cruciale : si une équipe informatique se tourne en premier lieu vers une solution gratuite, elle doit vérifier si une mise à niveau vers une solution complète est possible et étudier ce que propose cette dernière. Les fournisseurs intègrent leur solution de surveillance au niveau de l’entreprise à un produit plus complet qui offre un large éventail d’applications et utilise des technologies telles que l’intelligence artificielle. L’acquisition d’un nouvel outil pose aussi la question de la compatibilité : la solution doit pouvoir fonctionner sans problème dans des structures hétérogènes ou hybrides, avec différents systèmes et fournisseurs cloud.

En fonction du problème, les équipes informatiques utilisent la solution de surveillance pour avoir une vue d’ensemble ou surveiller des éléments individuels afin d'identifier et de résoudre les incidents avant qu'ils n’aient une incidence sur les performances du datacenter et donc sur les services proposés par l’entreprise. Il est conseillé de surveiller d’abord une partie de sa propre infrastructure pour s’assurer que la solution choisie permet d’atteindre les résultats souhaités. Les tableaux de bord et les intégrations préconfigurés, par exemple dans les environnements Amazon Web Services, facilitent encore plus la prise en main d’un nouvel outil.

C’est un fait : la surveillance profite tant aux équipes informatiques qu’à l’ensemble de l'entreprise

Le service informatique tout comme l'ensemble de l’entreprise bénéficient grandement d’une surveillance plus efficace et plus proactive de l’infrastructure informatique. Pour l’entreprise, une solution de surveillance permet de rendre les applications professionnelles plus fiables et plus rapides. Cela contribue à l’amélioration de la satisfaction client et à la création d’offres plus compétitives. Pour les responsables informatiques, cela réduit le temps consacré à la résolution des crises en permettant d’identifier très tôt les problèmes et ainsi de limiter le nombre d’incidents. C’est aussi la meilleure solution pour gérer efficacement les systèmes devenus complexes et opaques.