Les techniques de filtrage d'e-mails non sollicités

BOURSE

Questions-réponses

Les techniques de filtrage d'e-mails non sollicités

Définition de règles, analyse statistique, listes noires ou blanches: quels sont les soubassements techniques permettant de se prémunir contre le fléau du spam ? Décryptage. (Mercredi 12 mars 2003)

En savoir plus

Spam

Analyse Les serveurs open relay, complices malgré eux du spam

> En quoi consite le filtrage d'e-mails non sollicités ?
Il s'agit d'un ensemble de techniques visant à automatiser la suppression du spam par analyse de certains de ses éléments caractéristiques.

Ces techniques vont des règles de message utilisées par certains logiciels de filtrage ou par les clients de messagerie habituels (Outlook, Eudora, Notes...) en passant par la création de listes noires ou blanches (expéditeurs bannis / autorisés) et par la modélisation statistique débouchant sur des modèles prédictifs.

> Filtrer, oui, mais à quelles conditions ?
Toutes techniques confondues, l'enjeu primordial du filtrage est avant tout de ne pas identifier un e-mail "légitime" comme spam. On peut accepter un certain pourcentage d'erreur pour ce qui est du spam passant au travers des mailles du filet, mais l'inverse est beaucoup moins vrai : un mail qui nous est destiné ne peut et ne doit pas disparaître à cause d'un mécanisme de filtrage.

L'enjeu est donc de réduire au maximum la marge d'erreur liée aux "vrais" e-mails, ce qui incite nombre d'utilisateurs ou entreprises à ne pas être trop exigeants sur ce point par peur de détruire de l'information vitale pour eux. Ce qui incite aussi les solutions de filtrage à permettre aux utilisateurs d'avoir accès aux mails filtrés, pour vérifier qu'il n'y a pas d'erreur, ce qui limite au final l'intérêt de tout le processus.

> Quelles sont les deux approches possibles ?
Deux grandes familles de techniques existent. La première, utilisée par beaucoup de logiciels de filtrage, consiste à se concentrer sur les élements constitutifs de l'en-tête des emails et de certaines chaînes de caractères dans le corps du message.

Les champs "de", "à", "content type", etc... sont scrutés, permettant ainsi d'identifier d'éventuels expéditeurs bannis, des provenances interdites (certains pays par exemple), des absences d'expéditeur (fréquentes chez les spammeurs, qui se traduisent par un "<>" dans le champ "from") ou certaines chaînes de caractères que l'on peut retrouver de manière répétitive telles que certains mots clés liés à la pornographie, à des médicaments...

Le deuxième grand type d'approche repose sur l'analyse statistique et le calcul des probabilités. Ces techniques consistent à rechercher de courtes chaînes de caractères, dispersées dans toutes les parties d'un mail, que ce soit le corps du texte, le langage HTML sous-jacent (des codes couleurs souvent utilisés comme le rouge par exemple), des JavaScripts (qui peuvent aussi servir aux codes malicieux des virus).

Une fois ces chaînes identifiées, le principe est de mesurer la fréquence de leur apparition dans un même compartiment du mail et, par le truchement des probabilités, d'en déduire s'il s'agit d'un spam ou non.

Certaines variantes utilisent des "trigrammes" de chaînes, mais toutes reposent sur la théorie mathématique des probabilités issue des travaux de Thomas Bayes, mathématicien anglais du 18e siècle.

> Listes noires ou blanches ?
La création de listes noires ("black lists") est une autre alternative de filtrage du spam. Cela consiste, au niveau même du serveur de messagerie, à identifier et supprimer les spams les plus diffusés, évitant ainsi à tous les destinaires d'un réseau de les supprimer eux-mêmes. Cela s'applique aussi aux serveurs de messagerie "open relay" (voir notre article sur le sujet) qui sont systématiquement bloqués.

A l'inverse, les listes blanches référencent les expéditeurs autorisésà émettre vers un destinataire précis. Ce dernier déclare en effet une liste d'expéditeurs desquels il souhaite recevoir du courrier. Pour les autres, un mécanisme de vérification renvoie un mail comportant des instructions pour figurer dans la liste.

Cela permet de filtrer les robots (incapables d'effectuer les tâches demandées) et dissuade les spammeurs, soucieux de laisser le moins de traces possible lors de leurs envois. En revanche, des expéditeurs protégés par de puissants pare-feu ou hébergés chez des prestataires défaillants peuvent ne pas recevoir le mail de confirmation.

En savoir plus

Spam

Analyse Les serveurs open relay, complices malgré eux du spam

> Quelle autre précaution élémentaire peut-on prendre ?
Bien entendu, considérer son adresse mail comme une information confidentielle, réservée aux seuls tiers connus et de confiance, est une règle de bon sens qui supprime tout risque de spam. En cas de doute, l'utilisation d'une adresse temporaire permet de vérifier la fiabilité d'une personne ou d'une société (cas des listes de discussion, des services par abonnement).

Ces principes trouvent immédiatement leur limite en cas d'exposition sur Internet d'une adresse mail (signature d'articles, contacts commerciaux...) en raison de l'utilisation systématique de scanners (aspirateurs de mails) par les spammeurs.

[Fabrice DEBLOCK, JDN Solutions]

Accueil | Haut de page

Nouvelles offres d'emploi sur Emploi Center

Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY