Remédier aux incidents sans impacter la chaîne de production : les clés d'une investigation efficace pour les équipes Ops
Face à la multiplication des menaces cyber, les entreprises sont mises au défi de renforcer la collaboration entre Ops et Sécurité. Le but : remédier aux incidents sans impacter la production.
Dans un monde où les cybermenaces se font d’autant plus fréquentes et sophistiquées et où la performance du système d’information et des postes de travail sont clés pour le business, les entreprises sont confrontées à un défi particulièrement complexe. En effet, lorsqu’une panne survient les équipes opérationnelles (Ops) et celles en charge de la sécurité doivent mener de concert des investigations efficaces qui ont un impact minime sur la production de l’entreprise. Or, il n’est pas rare de constater que certaines entreprises font appel à des méthodes d’investigation qui sont gourmandes en ressources, budgétaires comme humaines.
Avec le contexte actuel, où ces ressources sont limitées et où la réactivité prime par-dessus tout, il est important de bien orchestrer cette phase critique et réussir la collaboration entre les équipes Ops et Sécurité qui ont chacune leurs priorités. Décryptage.
Rapidité, adaptabilité et proactivité : les priorités des Ops pour minimiser l’impact des incidents
Lorsqu’elles mènent à bien la phase d’investigation, les équipes Ops doivent être guidées par trois motivations : la réduction du temps de résolution des incidents, la diminution des coûts liés à l'investigation et aux opérations de maintenance, ainsi que l'amélioration de la productivité et de la réputation de l’entreprise. En effet, lorsqu’une application métier cesse de fonctionner sur un poste de travail, plus l’incident est résolu rapidement, moins l’impact sur le business lié à l’indisponibilité de cette application sera important.
Parallèlement, il est essentiel pour les entreprises de disposer d’outils adéquats pour localiser les incidents et y remédier. Sans cela, elles avancent à tâtons, en prenant en main le poste de travail à distance, voire en mobilisant un technicien sur site pour comprendre l’origine du problème. Dans un contexte où les ressources budgétaires et humaines sont restreintes, les équipes Ops doivent donc veiller à limiter les coûts liés aux opérations de maintenance.
En outre, l’idéal pour les équipes Ops consiste à réaliser des investigations de manière proactive, avant que l’interruption de service ne se produise. En effet, c’est en anticipant les problèmes pouvant survenir sur un poste de travail ou sur le réseau qu’elles seront plus à même de les éviter. Limiter les interruptions de la chaîne de production revient alors à améliorer la productivité, mais surtout à préserver la réputation de l’entreprise.
Exploiter la télémétrie pour préserver la continuité des opérations
Concrètement, une investigation efficace suppose de s’appuyer sur des données de télémétrie. Des méthodes avancées, telles que la prise en main à distance ou l'investigation 'à froid' permettent d’éviter de perturber les utilisateurs dans leurs tâches quotidiennes. Par exemple, un processus qui s’arrête ou une surconsommation du microprocesseur d’un poste de travail peut être analysé à distance, en captant des événements et en les gardant en mémoire pour une analyse ultérieure.
L’intérêt des données de télémétrie réside dans le fait que leur exploitation permet de cibler plus finement et rapidement la cause de l’incident. De plus, ces données permettent de corréler les événements qui surviennent sur un poste de travail avec des événements qui se produisent sur le réseau, sur un serveur ou sur d’autres postes concernés. En effet, le poste de travail est souvent le premier niveau d’analyse lors d’une investigation, mais généralement, la cause d’un incident est une succession d’événements qui ne se produisent pas nécessairement sur un seul et unique poste de travail.
La donnée au coeur de la collaboration réussie entre équipes Ops et Sécurité
Au-delà des technologies à mettre en place, l'harmonisation des efforts entre les équipes Ops et Sécurité est fondamentale. En premier lieu pour ce qui concerne l’identification de la cause de l’incident : les données collectées permettent de pointer du doigt cette cause de façon tout à fait factuelle. Elles peuvent également se révéler pertinentes, quelle que soit leur provenance. Typiquement, des données qui sont à l’origine utilisées par le service de support informatique peuvent être utiles aux équipes chargées de la gestion des postes de travail et du parc informatique dans son ensemble.
C’est en apportant de la contextualisation et en retraçant la chaîne d’événements qui ont précédé l’incident que les équipes peuvent collaborer pour trouver des solutions qui respectent à la fois les exigences opérationnelles et de sécurité. De cette manière, les frictions habituelles où chacun s’accuse mutuellement de la cause d’un incident - applicatif trop lourd, empilement de solutions de télémétrie ou de scans de vulnérabilités - n’ont plus lieu d’être.
Une fois les données analysées et le contexte identifié, il est alors possible d’entamer la remédiation en appliquant des correctifs, en mettant à jour le système d'exploitation ou en remplaçant le matériel mis en cause. Mais pour aller encore plus loin, il est important de garder à l’esprit que la collecte et l’analyse des données de télémétrie permettent aussi d'identifier des tendances et de traiter les problèmes de manière proactive.
En fin de compte, une stratégie d'investigation et de remédiation coordonnée entre équipes Ops et Sécurité permet de réduire le nombre d'interventions nécessaires et par conséquent, de minimiser les perturbations qui peuvent impacter la chaîne de production. Le tout en renforçant la sécurité et la fiabilité du parc informatique. Autant de clés pour les équipes Ops et Sécurité afin de mener à bien la phase d’investigation avec efficacité. Charge à elles de s’en emparer.