La lutte contre le SPAM est-elle réellement possible pour les PME ?

Le Spam est un mode de pollution des boites mail qui préoccupe les entreprises par la perte de temps qu'il engendre. Les petites et moyennes entreprises sont-elles équipées pour lutter contre les Spams, et avec quelles techniques ?

Le téléchargement de mails inutiles sature les réseaux, augmente les temps de connexion, et fait perdre du temps à trier et à éliminer les courriers publicitaires ou parasites, au risque de supprimer un message valable.

La lutte contre le SPAM est-elle réellement possible pour les PME ?


En 2003, 6,9 milliards de Spams étaient reçus par jour dans les différentes entreprises mondiales, soit 24% de Spams reçus par jour. En 2005, le chiffre est passé à 17 milliards soit 39% de spams quotidiens, et en 2007, 33 milliards soit 49% de spams reçus par jour... et la tendance continue !

Le Spam ou 'pourriel' est un courrier non sollicité envoyé à un très grand nombre de personnes sans leur accord préalable. Le Spam représente un réel fléau dans les entreprises. Une estimation faite en 2004 par des spécialistes montre en effet que l'évolution du Spam est exponentielle et que les coûts qui en résultent représentent un budget conséquent pour les entreprises : coûts directs liés à la protection et au temps passé à identifier, suivre et mettre en place des outils visant à se protéger contre ces messages indésirables, mais également coûts indirects dus au surdimensionnement des infrastructures de messagerie électronique et à la perte de productivité qu'implique le spam.

Les origines du SPAM

Depuis son origine, le Spam est une source de revenus pour son expéditeur. Aujourd'hui, l'explosion du Spam et les sommes colossales qu'il génère sont la conséquence de son industrialisation. L'entrée en jeu d'organisations qui engrangent des bénéfices importants grâce au Spam conduit à une multiplication des risques et à une complexification des techniques de diffusion.
Les destinataires d'un Spam ne savent pas forcément qu'il a été diffusé en grand nombre et, en tout cas, ne considèrent pas le Spam comme gênant pour cette raison. De même, un Spam n'est pas forcément un mail non sollicité. De nombreux Spams sont expédiés vers des utilisateurs qui ont donné leur adresse e-mail en acceptant que celle-ci soit utilisée pour des envois. Dans cette mesure, peut-on vraiment dire que le Spam est non sollicité ?
Si le Spam est si difficile à définir, c'est certainement parce que sa définition n'est pas universelle. Elle est liée à la perception que chaque utilisateur en a, à la gêne qu'il lui procure. De cette délicate définition naît toute la complexité de la lutte contre le Spam qui se heurte à deux difficultés majeures.
Comment détecter tous les Spams et comment ne pas faire d'erreur de détection ?
Cette problématique rencontrée par toute solution Anti-Spam, est renforcée par la nature mouvante des mails indésirables. Paradoxalement, plus on rencontre de Spams, plus on se rend compte à quel point il est difficile de les caractériser. Les spammeurs rivalisent d'ingéniosité pour faire muer en permanence la nature de leurs e-mails.

Comment les spammeurs collectent-ils les adresses e-mail ?

Les spammeurs ont à leur disposition toute une panoplie de moyens :
- Achat ou échange d'adresses : il devient facile de se procurer des fichiers d'adresses nominatives auprès d'acteurs douteux pratiquant l'art de la collecte déloyale.
- Robots ou "crawlers" : ce sont de petits logiciels programmés pour rechercher et stocker automatiquement toutes les adresses e-mail que l'on peut trouver sur le web.
- Usenet, mailings list, Chat room... : ces places de discussion, aux mécaniques parfois archaïques, sont de véritables mines d'or pour les spammeurs qui aspirent tout ce qui peut contenir un arobase.
- Sites Internet : certains exploitants ou webmasters peu scrupuleux transmettent les informations personnelles d'internautes à des tiers, en détournant le but de la collecte.
- Chaînes ou "Hoax" (rumeurs) : messages faisant appel au bon cœur et à la naïveté des internautes pour répandre de fausses informations. Beaucoup de gens n'hésitent pas à relayer ce type de message parfois même à tous leurs contacts. Les chaînes sont de véritables pots de miel pour les spammeurs.
- Virus : certains virus, plus particulièrement les vers, aspirent et utilisent les listes de destinataires des internautes mal protégés pour se propager. Beaucoup de spammeurs profitent de ces propagations pour collecter.
- Reconstitution d'adresse e-mail (e-mail address harvesting) : piratage mené par certains spammeurs pour dérober le répertoire complet des adresses E-mail d'une entreprise. Le principe est de reconstituer aléatoirement des adresses (prénom.nom@domaine.com par exemple) et de les tester. La gratuité de l'envoi de mail rend cette technique très pratiquée.
- Informations sur la répartition des spams en fonction du contenu et de la langue : on remarque que la plupart des spams reçus en France sont d'origine anglo-saxone (60%, d'après la CNIL). De plus la nature des contenus converge souvent vers des secteurs d'activité bien précis (pornographie, finance, internet...)

Quelles sont les principales techniques pour lutter contre le Spam ?

Si les Spams prolifèrent de plus en plus sur les réseaux, les technologies de filtrage des e-mails se développent également est on distingue aujourd'hui deux typologies majeures de filtres Anti-Spam : les filtres sur émetteur (ou de réseau - DNS Blackhole List ou Real-time Balckhole List) qui s'intéressent aux adresses d'envoi des Spams et aux serveurs par lesquels le Spam s'est propagé. Ceux sont les premiers filtres apparus dans la lutte contre le Spam. Ils s'intéressent aux adresses e-mails des émetteurs de Spams.

Lors de l'apparition des premiers Spams, certaines entreprises (et certains particuliers d'ailleurs) ont décidé de tenir à jour des listes noires d'adresses émettrices de Spams. Lorsqu'un mail était émis depuis une adresse "blacklistée", il était automatiquement refusé. Petit à petit, des entreprises (américaines pour la plupart) ont décidé de mettre en commun leurs listes noires et de les rendre accessibles sur Internet. De cette façon, les premières générations de filtres Anti-Spam utilisaient uniquement ces listes noires (aussi appelées DNSBL ou RBL) pour filtrer les messages. Dès qu'un mail parvient au filtre sur émetteur, celui-ci consulte (via Internet) une ou plusieurs DNSBL pour vérifier si l'émetteur est référencé comme spammeur.
Si la technique de filtre sur émetteur a le mérite d'être simple d'utilisation, l'évolution du Spam la rend très insuffisante. En effet, les Spams sont très souvent émis depuis des adresses créées uniquement pour un envoi et parfois émis par des serveurs de messagerie piratés (serveurs zombis) qui appartiennent à des entreprises victimes d'attaques de hackers. Les filtres sur émetteur se heurtent donc à deux limites majeures : d'abord, un nombre relativement important de Spams n'est pas envoyé depuis des adresses connues par les DNSBL ; ensuite, certaines entreprises se retrouvent sur les listes noires sans le savoir et peuvent voir leurs mails bloqués sans pour autant être des Spams.

Les filtres de contenu qui s'intéressent au corps des Spams, à leur syntaxe, quel que soit leur émetteur. Ils sont issus d'une seconde génération de filtres. Leur but est de combler les lacunes présentées par les filtres sur émetteur. Au lieu de se focaliser sur la source du Spam (qui peut être masquée ou piratée), les filtres de contenu s'intéressent au corps du mail. Ils ont pour objectif de rechercher dans les contenus d'un e-mail, les éléments caractéristiques d'un Spam.

On distingue six familles principales de filtres de contenu :
Les filtres par mots-clés : de multiples solutions Anti-Spam sont apparues pour les postes clients, et les solutions de messagerie se sont dotées de capacités Anti-Spam. Celles-ci, fondées sur la simple détection de mots-clés, ont ainsi vite été mises en défaut par les « spammeurs », et génèrent de trop nombreux faux positifs ¬ les messages sont écartés par erreur par le système de protection.
Les filtres sur empreinte (ou à signature) : cette famille de filtres utilise une technique héritée des antivirus. Le principe consiste à tenir à jour une base contenant autant de signatures que de Spams connus. Les signatures utilisées sont des empreintes de Spams collectées par l'éditeur du filtre (donc connus) et obtenues par un algorithme de hachage. Lorsqu'un mail est analysé, on compare son empreinte (obtenue avec le même algorithme que celui qui a permis de générer les signatures) avec les empreintes de la base de données. Malheureusement, les filtres à signatures présentent des limites majeures : ils sont inopérants sur les nouveaux Spams (car ils ne connaissent pas leur signature), ils nécessitent des mises à jour très régulières (car de nouveaux Spams apparaissent chaque jour) et les spammeurs ont mis au point des parades qui permettent de modifier de façon minime les messages afin d'en modifier l'empreinte (technique dite de "hashbusting").
Les filtres heuristiques : ils s'appuient sur un ensemble de règles d'analyse définies "a priori" par rapport aux contenus récurrents des Spams. Les règles utilisées par les moteurs heuristiques reposent donc sur la base de connaissance et sur l'expertise de l'éditeur du moteur. L'objectif du filtre heuristique est de détecter dans le contenu du mail, des caractéristiques correspondant à des règles de sa base de connaissance. Sur l'ensemble de ces règles auxquelles est comparé le message, le filtre énumère celles qui ont été détectées afin de déterminer la probabilité que l'e-mail soit un spam.
Les filtres sémantiques ou bayésiens : les filtres bayésiens utilisent une méthode qui a pour objectif de constituer, par expérience, leur propre définition du Spam. Cette technique consiste à laisser le moteur classer les mails en SPAM et HAM (nom donné aux mails non-Spam), puis à corriger ses erreurs de détection afin qu'il ne les fasse plus. Le principe est celui de l'apprentissage ou de l'entraînement. Plus le moteur est corrigé, plus il affine sa définition du SPAM et du HAM et moins il se trompe. Les éléments de contenu sur lesquels s'appuie le moteur bayésien pour son apprentissage sont déterminés au fur et à mesure que son utilisateur (ou administrateur) l'entraîne. A sa mise en place, un filtre bayésien commet nécessairement beaucoup d'erreurs. Pour être performant, il nécessite un travail de vérification et de correction régulier. Le paramétrage du moteur passe par un apprentissage personnalisé suivant la typologie des mails reçus par les destinataires. Par conséquent, si la technique peut être intéressante et performante au niveau d'un utilisateur, elle est ingérable au niveau d'une passerelle car il y a autant d'apprentissage qu'il y a d'utilisateurs et la méthode demande un travail important de maintenance.
Technique de filtrage par réputation : qui a déjà péché pèchera à nouveau. C'est en tout cas ce qu'estiment les éditeurs qui investissent désormais dans la technique de défense antispam basée sur la réputation. Le principe est très connu des acteurs du monde de l'anti-spam comme Secure Computing avec TrustedSource ou Cisco avec IronPort SenderBase. Ces derniers conservent pour chaque courrier électronique qu'ils voient passer (plusieurs milliards chaque jour) des informations telles que le serveur et le pays d'origine, le réseau sur lequel il est hébergé et de nombreux autres critères. Ils sont alors en mesure d'indiquer si un courrier provenant de telle adresse IP est potentiellement du spam en se fiant à son historique. Le secret, bien entendu, consiste à disposer d'une généreuse source de courriers qui se chiffre en pourcentages du volume quotidien d'e-mails échangés dans le monde et à accumuler les informations durant de longues années. Cette technique sous-entend la mise à en place d'un dispositif (boitier ou application anti-spam) chez le client final. Le dispositif en question (installé en périphérie du réseau) récupère régulièrement les informations sur les mails entrants auprès des sources entretenues par l'éditeur. Bien au point pour traquer les e-mails, la technique de la réputation s'immisce maintenant dans le web. Et pour cause : la majorité des infections sont désormais causées par la visite d'un site web plutôt que l'ouverture d'un e-mail infecté. Une étude publiée cette année par Google révélait que sur un échantillon des sites présents dans son index - et donc susceptibles d'être proposés en réponse à une requête -, ses ingénieurs avaient découvert que 10 % d'entre-eux étaient des sites malveillants qui tentaient d'installer un code malicieux à la volée.
Technique de détection Sender Genotype : cette technologie porte la détection du spam à un niveau supérieur, de la même manière que le filtrage par réputation le faisait, il y a plusieurs années de cela. Elle surveille tout comportement indicateur de la présence de botnets lors de la connexion et empêche les spammeurs d'envoyer des courriels avant même que leur réputation ait été établie. La détection Sender Genotype surmonte cette énorme faiblesse du filtrage par réputation en bloquant davantage de spam à la connexion, en réduisant la charge sur le moteur de contrôle et en augmentant la productivité, les capacités et la longévité des solutions.  La majorité du spam est envoyé par des botnets, des armées d'ordinateurs piratés et contrôlés à distance qui envoient des messages à des boîtes de réception sans méfiance.
- Technique de l'identification de l'expéditeur (Challenge / Response) : les systèmes anti spam basés sur l'identification de l'expéditeur se sont révélés plutôt efficaces jusqu'à présent. Mais de nombreux fournisseurs d'accès les implémentent désormais à grande échelle et ils se révèlent alors être une nuisance tout aussi détestable que le spam.
L'idée n'était pourtant pas mauvaise sur le papier : la toute première fois qu'un correspondant envoie un courrier à une boîte protégée par une solution anti spam dite de "challenge / response" (C/R), le système lui renvoie d'abord un e-mail automatisé afin de s'assurer qu'il s'agit bien d'une personne physique et non d'un courrier envoyé en masse par des serveurs de courriers pirates. Il lui faut pour cela passer un rapide test de Turing, tel que par exemple recopier des symboles affichés dans une image. Une fois identifiée son courrier et tous les suivants arriveront à leur destinataire. Cette technique existe depuis plusieurs années et elle a été notamment popularisée en France par l'éditeur Mail In Black. Il faut reconnaître qu'à petite échelle, cela fonctionne plutôt bien. Au détriment bien entendu des correspondants qui doivent remplir leur petit questionnaire avant d'être autorisés à écrire aux utilisateurs du système.

Mais voilà, aujourd'hui de nombreux fournisseurs d'accès majeurs mettent la technique en oeuvre pour leurs clients. Et là où les quelques abonnés d'un éditeur hexagonal pouvaient encore se noyer dans la masse, les millions d'abonnés à Earthlink, par exemple, génèrent eux des millions de mails de confirmation chaque jour. Pour un administrateur dont le nom de domaine a été "emprunté" par un spammeur, cela signifie l'arrivée quotidienne de centaines, voire de milliers, de courriers non sollicités émanant de serveurs SMTP tout à fait légitimes et donc difficiles à bloquer. Ce nouveau type de spam s'ajoute donc aux notifications d'échec que certains serveurs persistent à envoyer lorsqu'un courrier est adressé à un utilisateur inconnu. Sauf qu'ici, le courrier est envoyé même lorsque le spam est adressé à un utilisateur existant, une technique rétrograde que les pires antispams ont pourtant abandonnés depuis longtemps.
On retrouve également d'autres petits soucis liés à cette technique qui se manifestent lorsque deux correspondants utilisent le même système challenge/response (CR). L'utilisateur A envoi un mail à l'utilisateur B, le système CR de l'utilisateur B retourne un mail d'identification, ce dernier est intercepté par le système CR de l'utilisateur A et envoi à son tour un mail d'identification à l'utilisateur B. Au final, l'utilisateur A ne saura jamais si son mail est arrivé et l'utilisateur B ne saura jamais s'il est le destinataire d'un mail.

Parmi les fournisseurs d'accès ayant opté pour ces choix techniques, on retrouve aussi bien des grands noms tels Earthlink, Verizon, Orange (Pays-Bas et Grande-Bretagne) que (littéralement) des centaines de petits FAI locaux. Il n'y a malheureusement aucune solution efficace contre ce "spam légitime".

Pourquoi les défenses traditionnelles sont-elles moins efficaces ?

Les campagnes de spam sont beaucoup plus simples. La majorité des campagnes contiennent simplement une ligne d'objet et un lien Web et attendent que le lecteur clique sur le lien pour être dirigé vers une page Web afin d'avoir l'intégralité du message.
Le spam via botnet évolue de façon fulgurante. Les ordinateurs piratés se mettent simultanément en ligne pendant quelques minutes, envoient des messages bien ciblés puis se déconnectent.
Les botnets sont difficiles à détecter. Avec des millions de nouveaux ordinateurs enrôlés tous les jours et la majorité d'entre-eux ayant des adresses IP attribués de manière dynamique ou faisant partie de domaines gratuits (par exemple, ISP, Gmail, Yahoo!, etc.), la plupart des expéditeurs sont totalement inconnus. Ceci rend le filtrage de réputation largement moins proactive et impose une lourde charge sur le moteur de contrôle pour détecter le spam. Le volume de messages électroniques augmentant de jour en jour entraîne le risque d'introduire des goulets d'étranglement dans l'infrastructure de messagerie.

La réponse pour les PME : combiner différentes techniques de filtrage

La lutte contre le Spam doit tenir compte de sa complexité et de sa position centrale dans la diffusion des attaques de contenu Internet. Et cela a un impact à plusieurs niveaux.
D'abord, le Spam doit être combattu au plus tôt dans son cheminement vers le destinataire. Car dès qu'il entre sur le réseau, dès qu'il rejoint le poste de l'utilisateur, son niveau de dangerosité augmente s'il n'a pas été détecté. L'Anti-Spam est donc un système qui doit impérativement intervenir au niveau de la périphérie du réseau.

Mais, s'il est important que l'Anti-Spam détecte les pourriels, il est également indispensable qu'il réduise tant que possible ses erreurs de détection. En effet, la lutte contre le Spam doit impérativement prendre en compte le risque de « faux positifs » qui peut s'avérer aussi néfaste pour l'entreprise que le Spam lui-même. Et quel est l'intérêt pour une entreprise de se débarrasser d'un mal en en créant un nouveau ?
Etant donné la complexité de la menace Spam, le seul moyen de la combattre efficacement, en générant un minimum d'erreurs, consiste à utiliser un filtre Anti-Spam qui combine différentes techniques (filtrage senderGenotype, filtrage de contenu ou filtrage par réputation, filtrage de contenu) et pondère leurs résultats. De même, en cas de doute sur la nature d'un Email, ces filtres ne doivent pas le supprimer arbitrairement, mais permettre aux destinataires de décider du sort réservé à chacun de leurs messages (en fonction de leur propre définition du Spam). C'est un réel travail de fond demandant un investissement important dans l'administration, dans la maintenance et dans le suivi. Un aiguisage qui peut s'étaler sur plusieurs semaines, voire plusieurs mois.

Autour du même sujet