Du nouveau en datamining : l’analyse de données symboliques

Depuis 20 ans, les entreprises se sont engagées dans des processus de collecte et de stockage de leurs données. Toutefois, elles sont fréquemment confrontés au problème de leur mise en relation.

Les responsables marketing sont désormais confrontés à des données d’origines multiples : comment exploiter, en même temps et pour la même problématique, des données concernant par exemple les clients, mais qui existent d’un côté sous forme de texte, sous forme de colonnes Excel, sous forme de requête dans des bases ad hoc, etc. ? Grâce aux données symboliques, il est désormais possible de réunir, fusionner, résumer puis d’exploiter ces données éparses dans une même base.

Utiliser toute la richesse des données

Dans l'analyse de données symboliques, les données sont dites "symboliques" parce qu'elles conservent la description de la réalité dans toutes ses variations, sous forme d'histogrammes, d'intervalles, de courbes de répartition, etc. Dès lors, dans un tableau de données symboliques, il n'y a plus, comme en statistique classique, une valeur par case, mais une statistique par case (distribution, intervalle, etc.).

Par exemple, pour décrire un segment comprenant 300 clients, on utilisera toutes les informations que l'on possède sur ces clients, d'où l'apparition de variations puisque ces clients, bien que dans le même segment, n'ont par exemple pas tous le même âge ni le même historique de consommation.

Ainsi, dans le tableau qui décrira ce segment de clients, la variable "chiffre d'affaires" sera une case renseignée par la distribution du chiffre d'affaires généré par chacun des 300 clients, l'âge sera une distribution, une courbe de répartition, ou un intervalle dont la borne inférieure sera par exemple l'âge du client le plus jeune, et la borne supérieure, l'âge du client le plus vieux, ou un intervalle de confiance.

Ajouter des variables à volonté

L'approche par l'analyse de données symboliques permet aussi d'ajouter des variables qui ont du sens au niveau du segment de clients mais n'en auraient pas au niveau du client ; par exemple l'évolution de ce segment dans le temps (croissance ou diminution de sa population).

Des données chronologiques peuvent également être introduites ; par exemple la fréquence d'achat de ces 300 clients ou la distribution de leur ancienneté (30% sont clients depuis 6 mois, 20% depuis un an, etc.) et/ou de leur présence dans ce segment. Passer de la description d'individus (ici, les clients) à la description de concepts (ici, le segment de clients) permet ainsi de prendre en compte la variation, riche d'informations, au lieu de l'écraser en recourant à des moyennes, des médianes, etc.

Tout type de données peut être converti en données symboliques. Des réponses textuelles de ce segment de clients à un questionnaire de satisfaction pourront ainsi être décrites sous forme de thèmes, eux mêmes décrits sous forme d'histogramme de fréquence des mots les plus importants, etc.

Faire de la statistique de statistiques, pour des résultats plus riches prenant mieux en compte la réalité

Tout l'enjeu est ensuite de faire de la statistique sur ces variations ; autrement dit, de la statistique de statistiques : comparer des segments de clients entre eux, faire des regroupements de segments, trouver des variables explicatives de l'évolution ou de la performance de certains segments, prévoir l'évolution des segments, affecter un nouveau client au bon segment... C'est l'objet des travaux effectués sur l'analyse de données symboliques depuis maintenant quinze ans, qui ont donné lieu à la mise au point des premiers outils logiciels manipulant ce type de données (voir notamment le logiciel académique libre SODAS ou professionnel SYR).

Dès lors, l'extension aux données symboliques des méthodes de "l'analyse des données exploratoires" et plus généralement, de la "statistique multidimensionnelle" pour en extraire des connaissances d'interprétation plus aisée, devient cruciale. Des logiciels modernes, légers et ergonomiques, à portée de bourse des responsables de données ou responsables marketing sortent aujourd'hui, adaptant toutes les méthodes statistiques classiques (ACP, arbres de décision, clusters...) à l'exploitation des concepts et des données symboliques.

Or, les concepts existent dans tous les domaines et tous les secteurs (par exemple des segments de clients, mais aussi des zones géographiques, des comportements, des trajectoires de patients dans des hôpitaux, des échantillons de sang, des vols touristiques, des trains, vignobles, etc.).

Repousser les limites de la statistique traditionnelle, mettre à jour des phénomènes jusque là cachés dans les données, confirmer ou infirmer des approches intuitives

En résumé, l'approche par les concepts et les données symboliques apporte un angle de vue nouveau sur les données et permet les avancées suivantes :

- Créer les objets statistiques qui vous intéressent vraiment et les décrire de façon riche et originale : on croise des informations qui n'avaient jamais été rapprochées, on travaille vraiment sur les objets intéressants ;

- Être plus précis dans la description d'une situation : par exemple, croiser des données sur les clients avec des données INSEE sur l'endroit où vivent ces clients, puis avec des données sur la concurrence, puis avec des données historiques, etc. ;

- Avoir une vision plus synthétique : réduire au départ les tableaux de données (avoir des statistiques dans chaque case permet de réduire considérablement le nombre de lignes et de colonnes), avoir au final des résultats plus opérationnels (en identifiant par exemple les principales variables explicatives d'un phénomène et en éliminant les autres) ;

- Appliquer de nombreuses méthodes d'analyse à ce type de données : visualisation, ACP, nuées dynamiques, arbres de décision, régression linéaire, pour exploiter davantage la réalité que les modèles classiques qui la résument trop par de simple centres de gravité ;

- Naviguer entre différents niveaux d'analyse statistique; des individus (par ex. les clients) au concept (segment de client) voire aux classes de concept et mieux comprendre l'interaction entre ces différents niveaux ;

- Éviter les résultats biaisés par certaines variables : dans un tableau symbolique, chaque variable (à valeur histogramme, intervalle par exemple) a le même poids (une statistique par case) alors qu'en statistique classique, une variable à 10 modalités (par exemple l'âge des clients divisé en 10 classes, soit 10 cases du tableau) pèsera plus dans l'analyse qu'une variable à 2 modalités (par exemple, le sexe : h/f) ;

- Contourner le problème des données manquantes au niveau des individus : un client dont on ignore l'âge ou le chiffre d'affaires généré sera inclus dans le concept qui le regroupe avec d'autres clients. Dès lors, au niveau du concept (par exemple le segment de client), le manque d'information sur un cas particulier est moins problématique et n'empêche pas de mener des analyses statistiques poussées.

De nombreux champs d'application, dans de multiples secteurs d'activité, s'ouvrent à l'analyse de données symboliques. Nous avons ici pris l'exemple de la segmentation de clients en marketing, mais la méthode et ses outils logiciels sont déjà utilisés pour bien d'autres applications dans la santé, la finance, le BTP, la grande distribution, etc. Avec cette méthode innovante, le datamining confirme sa capacité unique à aider les entreprises à saisir et exploiter un réel de plus en plus complexe.