INTERVIEW 
 
Maguelonne Teisseire et Pascal Poncelet
Laboratoires LIRMM et LGI2P
Maguelonne Teisseire et Pascal Poncelet
"Les technologies de fouilles de données doivent relever des nouveaux défis"
En collaboration avec l'éditeur Bee Ware, les deux laboratoires contribuent à des recherches en matière de sécurité : analyse de flux Web volumineux et hétérogènes, supervision des applications, détection des fraudes…
30/03/2007
 
  En savoir plus
 Menaces : vers toujours plus d'intelligence
  Les sites
LIRMM
LGI2P
JDN Solutions. Quels sont vos laboratoires respectifs et les domaines dans lesquels ils sont impliqués ?
Maguelonne Teisseire. Le LIRMM - Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier - est une unité mixte de recherche CNRS / Université Montpellier 2, qui regroupe sur un site unique 320 personnes et qui est structurée en 3 départements de recherche scientifique et des services communs. Créé en 1992, par une volonté scientifique commune du CNRS et de l'Université, sur la base du regroupement de laboratoires, le LIRMM offre un large spectre de compétences dans les domaines des sciences et technologies de l'information, de la communication et des systèmes. Une des particularités du LIRMM est que la combinaison théorie-outils-expérimentations-applications est présente dans tous ses domaines de compétence scientifique.

Les travaux menés avec Bee Ware sont réalisés dans le cadre du projet TaToo. Ce projet est récent car il a été créé en 2006. Il résulte de notre volonté de regrouper des chercheurs du LIRMM travaillant sur les thématiques de l'extraction de connaissances et de la fouille de données afin de favoriser les synergies entre chercheurs.

Pascal Poncelet.
Le LGI2P - Laboratoire de Génie Informatique et d'Ingénierie de Production - est un laboratoire de l'Ecole des Mines d'Alès. Il est né fin 1994 du regroupement de laboratoires de l'Ecole des Mines d'Alès et de l'EERIE et regroupe une trentaine de chercheurs et une quinzaine de doctorants. Les travaux de recherche menés au LGI2P sont à la fois théoriques et appliqués. En effet, l'un de nos objectifs est de faire en sorte que les travaux menés au sein du laboratoire puissent être transférés directement au sein des entreprises afin de leur apporter une réelle valeur ajoutée. Il s'agit là d'un véritable challenge car il faut concilier des aspects théoriques difficiles avec des aspects industriels exigeants.

En 2004, le LGI2P s'est organisé en quatre thématiques principales qui correspondent aux quatre axes du laboratoire : l'intelligence collective et le travail collaboratif, le risque et la décision, la crédibilité des systèmes, la bioinformatique et l'ingéniérie biomédicale. Pour chacun de ces axes, différents projets de recherche se spécialisent sur des problèmes scientifiques précis. Ainsi, les travaux menés en collaboration avec la société Bee Ware sont réalisés par le projet KDD (Knowledge Discovery for Decision Making) de l'axe Risque et Décision qui aborde les problématiques complexes liés à l'extraction de connaissances et à la fouille de données.

Quelles sont les difficultés posées par les nouveaux usages d'Internet et des technologies ? En quoi imposent-ils de nouvelles méthodes d'analyse ?
Maguelonne Teisseire. Les nouveaux usages d'Internet et les technologies qui y sont associées rendent la lecture du trafic Web de plus en plus complexe. La quantité de données à traiter, la diversité du contenu, son évolution quasi permanente posent des problèmes grandissants à de multiples niveaux : performance, identification d'anomalies et interprétation des indices.

Pascal Poncelet. Les technologies de fouilles de données doivent relever ces nouveaux défis et envisager en permanence de nouvelles approches, telles que basées sur l'apprentissage et la modélisation comportementale ou la recherche de séquences temporelles.

La quantité de données à traiter, la diversité du contenu, son évolution quasi permanente posent des problèmes grandissants à de multiples niveaux"
La sécurité informatique sera-t-elle le seul domaine d'application de vos travaux ?
Maguelonne Teisseire. Les recherches menées sont adaptées et pertinentes pour d'autres contextes possédant globalement des données ayant les mêmes caractéristiques comme par exemple le domaine de la santé.

Pascal Poncelet. Dès qu'il existe de grandes bases de données et que celles-ci possèdent des données estampillées, les mécanismes que nous proposons sont tout à fait adéquats. Ces dernières années, le LIRMM et le LGI2P ont eu l'occasion de travailler sur des domaines d'applications très variés : détection de tendances dans des textes, détection de chutes pour les personnes âgées, prévision de cours de la bourse, analyse de comportement sur des sites Web, supervision de processus, …

Etes-vous associés à d'autres projets de recherche en sécurité ?
Maguelonne Teisseire. L'équipe TaToo mène également des recherches sur la sécurité dans le domaine de la santé. D'autres projets au LIRMM se focalisent sur les aspects sécurité avec des compétences multidisciplinaires. Nous pouvons citer par exemple un projet sur les systèmes sécurisés matériels-logiciels englobant des compétences mathématiques, informatiques et miroélectroniques, ainsi que des collaborations étroites avec les mathématiques dans le domaine de la cryptographie.

Pascal Poncelet. Dans le cadre du projet KDD nous nous intéressons également à la problématique de la sécurité mais d'un point de vue sociétal, comme le filtrage de contenus. En effet, étant donné la vitesse à laquelle l'information est disponible, il devient indispensable de proposer de nouveaux mécanismes qui garantissent que certains sites ne puissent pas être accessibles à des mineurs notamment.

Pourquoi cette collaboration avec l'éditeur en sécurité BeeWare ?
Maguelonne Teisseire. Depuis 1996, les chercheurs de l'équipe Tatoo du LIRMM et du projet KDD du LGI2P possèdent une solide expérience dans le domaine de l'extraction de motifs séquentiels. La recherche de motifs consiste à extraire des ensembles d'objets couramment associés sur une période de temps spécifiée. Par exemple, en examinant des actions réalisées sur un système P2P non structuré, il est possible d'extraire que pour 77% des noeuds pour lesquels il y a une requête concernant " Mandriva Linux ", le fichier " Mandriva Linux 2005 CD1 i585-Limited-Edition-Mini.iso " est choisi et téléchargé.

L'originalité des recherches que nous menons se situe dans la prise en compte du temps, des données incertaines et imprécises"
Cette requête est suivie par la demande des images iso, et dans la grande quantité de résultats retournés, l'image " Mandriva Linux 2005 CD2 i585-Limited-Edition-Mini.iso " est choisie et téléchargée. L'originalité des recherches que nous menons se situe dans la prise en compte du temps, des données incertaines et imprécises en utilisant de la logique floue comme support théorique … cela nous permet d'offrir plus de souplesse dans les résultats obtenus : par exemple les utilisateurs demandent "régulièrement" ou "parfois" les images iso.

Pascal Poncelet. ...mais aussi dans la prise en compte des données complexes ou difficiles de façon générale, qu'elles soient multidimensionnelles, non structurées, en flot... Ce dernier cas est particulièrement important pour la détection de fraudes dans la mesure où nous devons faire face à de gros volumes de données qu'il n'est pas ou plus possible de stocker et dans lesquels il faut impérativement extraire la connaissance qui caractérise une fraude ou une attaque.

En 1996, nous avons commencé à nous intéresser à la problématique de l'analyse de comportement au cours du temps dans le cadre d'un projet que nous avions avec le Cemagref sur le comportement des barrages. Il s'agissait déjà à l'époque de problématique de sécurité mais dans un autre contexte : comment garantir qu'un barrage ne risque pas de s'effondrer ?

Et quels sont vos premiers résultats en matière d'analyse de données ?
Maguelonne Teisseire. Nous avons pu constater que la problématique des motifs séquentiels était théoriquement difficile... Les travaux que nous avons menés ont donné lieu à de nombreuses thèses, à de nombreux articles dans des revues et conférences internationales prestigieuses … mais avait également de grandes répercussions au niveau industriel.

Pascal Poncelet. Effectivement, dès lors que des données sont estampillées et en très grand nombre, notre objectif est d'extraire des motifs représentatifs. Ainsi la détection de motifs séquentiels est utile pour le e-commerce (quels sont les comportements des usagers ?), pour le filtrage de sites internet ou l'analyse d'articles de presse (quels sont les mots qui caractérisent un site non autorisés ?), … ou de manière générale l'analyse du comportement d'utilisateurs.

La détection de motifs séquentiels est utile de manière générale pour l'analyse du comportement d'utilisateurs"
Maguelonne Teisseire. Les travaux que nous avons menés ces dernières années se sont intéressés à la préservation de la vie privée et sur la recherche de comportements atypiques. En effet, même s'il existe des approches de fouilles de données qui permettent d'extraire de la connaissance, n'oublions pas qu'il existe de nombreuses lois (CNIL, Directives Européenne, Lois Américaines) qui garantissent, par souci de protection de la vie privée, que les informations divulguées par une personne ne peuvent pas être utilisées.

Pascal Poncelet.
Dans le cadre des motifs séquentiels, il fallait garantir que les motifs extraits ne permettaient pas d'obtenir d'information sur les différents clients et qu'il s'agissait bien de résultats statistiques.

Quelle sera votre contribution auprès de BeeWare et les bénéfices pour vos laboratoires ?

Maguelonne Teisseire. La collaboration avec Bee Ware nous permet de confronter nos recherches en technique de fouille de données avec la réalité du trafic Web actuel : volumineux, diversifié et susceptible d'être manipulé ou détourné, c'est-à-dire porteur d'attaques ou d'anomalies.

Pascal Poncelet. Cet apport se traduit par une connaissance détaillée des malversations applicatives que nous pouvons exploiter sous la forme de jeux de données sur lesquels nous pouvons mesurer la pertinence de nos propres algorithmes.

  En savoir plus
 Menaces : vers toujours plus d'intelligence
  Les sites
LIRMM
LGI2P
Les résultats des recherches du LIRMM et du LGI2P sont immédiatement exploitables par Bee Ware. Leur solution d'inspection ICX est en effet capable d'intégrer très facilement de nouveaux algorithmes d'analyse que le moteur de règles intégré peut ensuite affecter à des tâches plus ou moins spécifiques en fonction de l'application analysée et des buts recherchés.

 
Propos recueillis par Christophe AUFFRAY, JDN Solutions

PARCOURS
 
 
Maguelonne Teisseire est Maître de conférences à Polytech'Monpellier - Université Montpellier II, responsable de l'équipe projet TaToo du LIRMM et du département Informatique et Gestion de Polytech'Montpellier.
1994 Doctorat en sciences spécialité Informatique et Mathématiques à Marseille 1995 Maître de conférences à l'Université Montpellier II
2005 Responsable du département Informatique et Gestion de Polytech'Montpellier
2006 Responsable de l'équipe projet TaToo
2007 Membre du conseil scientifique du LIRMM

Pascal Poncelet est Professeur à l'Ecole des Mines d'Alès, Directeur Adjoint du Laboratoire LGI2P et responsable du Projet KDD.
1993 Doctorat de l'Université Nice Sophia Antipolis
1994 Maître de Conférences à l'IUT d'Aix en Provence
1999 Maître de Conférences à l'Université Montpellier III
2001 Habilitation à Diriger des Recherche à l'Université Montpellier II
2001 Professeur à l'Ecole des Mines d'Alès
2002 Responsable du groupe KDD
2003 Co-responsable du thème " Fouille de Données " du Groupe de Recherche CNRS " Information, Intelligence et Interaction".

   
 
  Nouvelles offres d'emploi   sur Emploi Center
Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY
 
 
 


.
Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Voir un exemple

Toutes nos newsletters