Les échantillons de logiciel malveillant, le carburant de la cybersécurité
Pour mieux les détecter, les entreprises de cybersécurité cherchent à mettre la main sur des échantillons de logiciels malveillants. Mais comment se procurent-elles ces fichiers d'un genre un peu spécial ?
Si les systèmes de détection ont largement évolué, les échantillons de logiciel malveillant restent aujourd'hui l'une des pierres angulaires des systèmes de détection des menaces cyber. Comme l'explique Cedric Pernet, analyste chez Trend Micro, le terme désigne de façon assez large "tous les fichiers qui contiennent du code malveillant. Cela peut donc prendre la forme d'exécutables, des fichiers pdf ou des formats un peu particuliers qui visent à exploiter certaines vulnérabilités."
A quoi bon amasser des échantillons ?
Pour les entreprises de cybersécurité, ces échantillons constituent une matière première importante utilisée à plusieurs fins. Ainsi, pour les sociétés qui proposent des outils de détection, ils peuvent notamment être utilisés afin de détecter rapidement de nouvelles menaces. "Plus tôt on les reçoit, et plus tôt on peut les détecter. Mais en parallèle de la seule capacité de détection, c'est aussi important pour le volet renseignement sur les menaces : obtenir un échantillon cela nous permet de l'analyser et d'être plus réactifs pour identifier les phases d'attaque d'un groupe spécialisé dans l'espionnage par exemple", poursuit Cedric Pernet.
Les échantillons peuvent également être utilisés pour tester les outils proposés, comme c'est notamment le cas chez Quarkslab qui propose une plateforme de détection : "Nous avons par exemple développé des sondes chargées d'estimer automatiquement la dangerosité de certains documents" explique Fred Raynal, PDG de Quarkslab. "Pour tester cette plateforme, on a besoin de gros volumes de fichiers, à la fois des fichiers sains et des fichiers malveillants."
La même logique est à l'œuvre chez Vade, société spécialisée dans la sécurisation des boites mails d'entreprise, qui développe elle aussi des moteurs de détection en machine learning chargés de reconnaître les fichiers malveillants : "Nos analystes vont s'appuyer sur ces données pour créer des règles de détection immédiates, mais nos équipes de data scientists vont également travailler sur cette matière pour créer des corpus d'apprentissage à destination de nos modèles de détection", explique Romain Basset, directeur du service client chez Vade.
Pour y parvenir, la société récolte et conserve sur son infrastructure de grandes quantités de mails et de fichiers malveillants, qui lui permettent d'affiner ses capacités de détection et surtout sa connaissance des tactiques employées par les groupes malveillants. "Le but du jeu, ce n'est pas tant d'avoir un échantillon que d'amasser de la connaissance sur le mode opératoire des groupes pour pouvoir bloquer une attaque avant même qu'elle ne vise nos clients" résume Romain Basset.
Différentes méthodes de récolte
Pour mettre la main sur ces fichiers malveillants, plusieurs stratégies existent. Il est ainsi possible de se tourner vers des services commerciaux dédiés : le plus connu d'entre eux est VirusTotal, un service en ligne détenu par Google depuis 2012 et qui propose à n'importe quel internaute la possibilité d'envoyer un fichier suspect pour le faire analyser. Mais le modèle économique de VirusTotal est avant tout de proposer en abonnement un accès à leur base de données de fichiers détectés comme malveillants pour les entreprises qui souhaitent récupérer un grand nombre de ces fichiers. "C'est aujourd'hui l'acteur principal du secteur, il est très connu autant par les acteurs de la cybersécurité que par les cybercriminels. D'ailleurs, ces derniers utilisent parfois des services similaires mais illégaux pour tester les détections de leurs malware", souligne Cedric Pernet.
Aux côtés de VirusTotal, les entreprises peuvent compter sur d'autres sources non commerciales : des initiatives provenant d'analystes comme MalwareBazaar ou VXUnderground proposent notamment d'importantes collections d'échantillons de fichiers malveillants distribués librement aux entreprises et aux chercheurs. "Nous nous appuyons aussi sur nos partenariats avec le secteur académique pour récupérer certains échantillons", confie à ce sujet Frederick Raynal. Certaines organisations du secteur académique se sont en effet fait une spécialité de collecter des échantillons de logiciel malveillants pour mener des études, à l'instar du laboratoire haute sécurité à Nancy.
Certaines sociétés peuvent aussi compter sur leur télémétrie pour repérer de nouveaux échantillons : dans certains cas, leurs outils de détection peuvent disposer de fonctions leur faisant remonter un fichier identifié comme malveillant, afin qu'il soit analysé en détail par leurs équipes. C'est une source non négligeable chez Vade : "Nous travaillons beaucoup avec des fournisseurs d'accès Internet et des éditeurs partenaires, qui peuvent nous faire remonter des fichiers. Aujourd'hui nous n'avons pas besoin d'aller en acheter, nos propres données suffisent largement", assure Romain Basset.
D'autres stratégies sont également employées, comme le recours à des "honey pots" : des systèmes vulnérables exposés sur Internet afin d'être attaqués. Cette solution est notamment mise en oeuvre chez Quarkslab, mais aussi chez l'éditeur français Sekoia comme l'explique un de ses analystes : "L'idée c'est d'avoir un système vulnérable et bardé de capteurs exposé sur Internet, qui nous permet de récupérer des échantillons de fichiers malveillants. Mais ce n'est pas la seule source d'information que cela nous apporte. Cela nous permet par exemple de voir si des attaquants exploitent une vulnérabilité particulière et ce qu'ils font après. Les échantillons que l'on récupère ne sont qu'une partie de l'attaque et de la connaissance que l'on peut engranger."
D'autres sources de connaissance
Si les échantillons ont pendant longtemps été la source principale d'informations dans la lutte contre les menaces cyber, les nouveaux outils de détection tels que les EDR comptent aujourd'hui sur un éventail plus large d'informations. On peut ainsi y retrouver les noms de domaines ou adresses IP employés par certains groupes malveillants, mais aussi plus largement les tactiques et les habitudes employées par certains groupes ou certains scénarios d'attaques. "Par exemple, on sait que certains mails qui utilisent de manière abusive des techniques de redirection pour masquer leur contenu réel sont généralement le signe d'un acteur malveillant", illustre Romain Basset.
"Cette logique se retrouve également à un plus haut niveau, dans des cas de cyberespionnage où des acteurs plus sophistiqués vont employer des outils déjà présents sur le système informatique de la victime et donc tout à fait légitimes", rappelle Nicolas Caproni, directeur de l'équipe TDR chez Sekoia. "La seule différence ici, c'est la façon dont ils s'en servent, pas le fichier en lui-même." Aujourd'hui, les analystes continuent donc de se tenir à l'affût de nouveaux échantillons de fichiers malveillants, mais croisent ces informations avec d'autres sources pour permettre une détection efficace.