|
|
Questions-réponses |
Les
techniques de filtrage d'e-mails non sollicités |
Définition de règles, analyse statistique, listes noires ou blanches: quels sont les soubassements techniques permettant de se prémunir contre le fléau du spam ? Décryptage. (Mercredi 12 mars 2003) |
|
>
En quoi consite le filtrage d'e-mails non sollicités
?
Il s'agit d'un ensemble
de techniques visant à automatiser la suppression
du spam par analyse de certains de ses éléments
caractéristiques.
Ces techniques vont des règles de message utilisées
par certains logiciels de filtrage ou par les clients
de messagerie habituels (Outlook, Eudora, Notes...) en
passant par la création de listes noires ou blanches
(expéditeurs bannis / autorisés) et par
la modélisation statistique débouchant sur
des modèles prédictifs.
>
Filtrer, oui, mais à quelles conditions
?
Toutes techniques confondues, l'enjeu primordial du filtrage
est avant tout de ne pas identifier un e-mail "légitime"
comme spam. On peut accepter un certain pourcentage d'erreur
pour ce qui est du spam passant au travers des mailles
du filet, mais l'inverse est beaucoup moins vrai : un
mail qui nous est destiné ne peut et ne doit pas
disparaître à cause d'un mécanisme
de filtrage.
L'enjeu est donc de réduire au maximum la marge
d'erreur liée aux "vrais" e-mails, ce
qui incite nombre d'utilisateurs ou entreprises à
ne pas être trop exigeants sur ce point par peur
de détruire de l'information vitale pour eux. Ce
qui incite aussi les solutions de filtrage à permettre
aux utilisateurs d'avoir accès aux mails filtrés,
pour vérifier qu'il n'y a pas d'erreur, ce qui
limite au final l'intérêt de tout le processus.
>
Quelles sont les deux approches possibles ?
Deux grandes familles de techniques existent. La première,
utilisée par beaucoup de logiciels de filtrage,
consiste à se concentrer sur les élements
constitutifs de l'en-tête des emails et de certaines
chaînes de caractères dans le corps du message.
Les champs "de", "à", "content
type", etc... sont scrutés, permettant ainsi
d'identifier d'éventuels expéditeurs bannis,
des provenances interdites (certains pays par exemple),
des absences d'expéditeur (fréquentes chez
les spammeurs, qui se traduisent par un "<>"
dans le champ "from") ou certaines chaînes
de caractères que l'on peut retrouver de manière
répétitive telles que certains mots clés
liés à la pornographie, à des médicaments...
Le
deuxième grand type d'approche repose sur l'analyse
statistique et le calcul des probabilités. Ces
techniques consistent à rechercher de courtes chaînes
de caractères, dispersées dans toutes les
parties d'un mail, que ce soit le corps du texte, le langage
HTML sous-jacent (des codes couleurs souvent utilisés
comme le rouge par exemple), des JavaScripts (qui peuvent
aussi servir aux codes malicieux des virus).
Une fois ces chaînes identifiées, le principe
est de mesurer la fréquence de leur apparition
dans un même compartiment du mail et, par le truchement
des probabilités, d'en déduire s'il s'agit
d'un spam ou non.
Certaines variantes utilisent des "trigrammes"
de chaînes, mais toutes reposent sur la théorie
mathématique des probabilités issue des travaux de Thomas
Bayes, mathématicien anglais du 18e siècle.
>
Listes noires ou blanches ?
La création
de listes noires ("black lists") est une autre
alternative de filtrage du spam. Cela consiste, au niveau
même du serveur de messagerie, à identifier
et supprimer les spams les plus diffusés, évitant
ainsi à tous les destinaires d'un réseau
de les supprimer eux-mêmes. Cela s'applique aussi
aux serveurs de messagerie "open relay" (voir
notre article sur le sujet) qui sont systématiquement
bloqués.
A l'inverse, les listes blanches référencent
les expéditeurs autorisésà émettre
vers un destinataire précis. Ce dernier déclare
en effet une liste d'expéditeurs desquels il souhaite
recevoir du courrier. Pour les autres, un mécanisme
de vérification renvoie un mail comportant des
instructions pour figurer dans la liste.
Cela permet de filtrer les robots (incapables d'effectuer
les tâches demandées) et dissuade les spammeurs,
soucieux de laisser le moins de traces possible lors de
leurs envois. En revanche, des expéditeurs protégés
par de puissants pare-feu ou hébergés chez
des prestataires défaillants peuvent ne pas recevoir
le mail de confirmation.
>
Quelle autre précaution élémentaire
peut-on prendre ?
Bien entendu,
considérer son adresse mail comme une information
confidentielle, réservée aux seuls tiers
connus et de confiance, est une règle de bon sens
qui supprime tout risque de spam. En cas de doute, l'utilisation
d'une adresse temporaire permet de vérifier la
fiabilité d'une personne ou d'une société
(cas des listes de discussion, des services par abonnement).
Ces principes trouvent immédiatement leur limite
en cas d'exposition sur Internet d'une adresse mail (signature
d'articles, contacts commerciaux...) en raison de l'utilisation
systématique de scanners (aspirateurs de mails)
par les spammeurs.
|
|
|