|
Interviews |
|
Maurice Belais
|
Président-fondateur,
professeur à HEC |
Quatrax
Conseil |
"L'audit
des données doit être réalisé par des professionnels du métier" |
|
Pour extraire des données à partir de bases et
d'applications, les consolider, les analyser et les rapporter
sous différentes formes, il faut d'abord assurer leur
cohérence. Sans quoi, le décideur risque d'effectuer
ses choix à partir d'une information erronée.
Cette étape, qui s'avère fondamentale dans le
cadre d'une projet décisionnel, ne doit pas être
prise à la légère. Et il convient d'appliquer
une méthodologie rigoureuse.
Depuis sa création en 1995, Quatrax
Conseil intervient sur ces problématiques en
tant que cabinet spécialisé dans la valorisation
des données par des méthodes de data mining. Parmi
ses clients ayant participé à un CA 2000 de 3 millions
de francs, figurent France Télécom, la banque
Saradar, Gan, Rhodia, Rhône Poulenc et Aventis. Le président-fondateur
de la société, également professeur de
marketing et data mining au sein de la prestigieuse école
de commerce HEC, décline pour JDNet Solutions son expertise
sur le sujet. |
Propos recueillis par François Morel le 27
juin 2001
. |
JDNet
Solutions: Pour commencer, existe-t-il une différence
entre donnée et information ? Laquelle ?
Maurice Belais:
La donnée est un élément
qui a été collecté. Il s'agit par exemple
du nombre de produits vendus, et rien de plus. Ensuite, l'information
est un élément calculé, c'est à
dire une donnée en grande partie créée
comme le fait de calculer une moyenne. Et après, vient
une troisième étape, celle de l'interprétation
qui là apporte une connaissance. Pour apporter un exemple
simple, prenons un grand magasin comme le BHV. Parmi les données,
figurent les ventes d'ampoules et celles de réfrigérateurs.
L'information est la moyenne des deux totaux. Et l'interprétation
consiste à dire si cette moyenne est intelligente ou
non.
Quelles
sont les données qui présentent une vocation décisionnelle
?
Celles qui permettent de trouver
un moyen d'assurer un bon développement de l'entreprise
et une optimisation des ressources allouées. Tout ce
qui est lié à la conquête du client, au
gîsement, et dans l'autre cas au fait de minorer les coûts,
rentre dans le domaine du décisionnel. Si le projet de
l'entreprise ne tend pas vers un objectif de croissance ou une
minoration des coûts, il s'agit de croissance au quotidien
et non de décisionnel.
Vous
trouvez que le terme est parfois galvaudé... ?
Il est souvent mal utilisé.
L'origine vient de la première création d'outils
de reporting pour des services financiers qui ont cherché
à mettre en place des tableaux de bord. C'était
au début des années 80, à l'ère
de la grande révolution de l'informatique.
Rentrons
un peu plus dans le vif du sujet. Comment améliorer la
qualité des données ?
Il faut d'abord entamer une démarche
d'audit pour améliorer cette qualité. Or, l'audit
se décompose en trois phases. La première consiste
à recenser l'intégralité des sources. Elle
est primordiale car l'entreprise est organisée entre
plusieurs systèmes comme ceux dédiés à
la production, la gestion commerciale qui comprend celle de
la base de commandes, et la comptabilité, par exemple.
Dans cette phase, la première étape est celle
du recensement, et la seconde celle qui vise à déterminer
les clefs de fusion. C'est à dire se poser la question
"qu'est ce qui va me permettre de joindre les sources de
données ?". Couramment, il s'agit de lier un
numéro de client avec un numéro d'article, tout
en conservant l'idée de créer la base de données
ou un espace qui permet de modéliser. Cela peut être
une table toute simple avec un identifiant client derrière
lequel l'on trouve toutes les données qui le concernent.
Dans ce cas, nous pouvons fusionner les données de production
avec les données commerciales, comptables, celles en
provenance des centres d'appels voire même en local chez
des individus. Et c'est l'espace client qui permet la modélisation.
Quelles
sont les deux autres phases de l'audit ?
La
deuxième est l'audit proprement dit, qui permet de juger
si une information ou une variable est exploitable ou non pour
une modélisation. Dans ce cadre, l'entreprise va engager
plusieurs opérations, comme le fait de vérifier
les valeurs manquantes, les valeurs nulles et les valeurs atypiques.
Il fait également savoir si les données sont quantitatives,
qualitatives ou si elles sont des chaînes de caractères.
Le tout doit être passé au crible un à un,
et doit faire l'objet d'une recommandation pour l'amélioration
des données sources. Par exemple, si une information
a été mal écrite, il faut identifier la
source défaillante pour que, au moment de la saisie dans
la base, la personne en charge puisse être mieux orientée
dans sa saisie.
Enfin, la troisième phase concerne les recodages des
données que l'on va retravailler. Et celui-ci peut-être
plus simple que de revoir par exemple l'ensemble des codes postaux
ou départementaux. Au lieu de cela, on crée des
codes de type région Ile de France ou reste de la métropole.
Ou alors, on découpe les chiffres d'affaires pour mieux
matérialiser cet aspect.
Quelles
sont les erreurs les plus fréquentes ?
Ce sont les données manquantes
qui sont souvent liées à une saisie mauvaise ou
incomplète. L'on retrouve beaucoup d'erreurs aussi sur
les chaînes de caractères. Mais souvent, ces erreurs
peuvent être facilement détectées, comme
le fait de taper 10 au lieu de 1000 dans un champ correspondant
à une quantité. Pour y pallier, il existe deux
approches. La première qui consiste à rectifier
l'erreur fait partie des recommandations. Sinon, le service
informatique affiche des avertissements en cas d'erreur, ou
préformate les tables de saisie. Sans quoi, le responsable
va prendre des décisions sur des données fausses,
et autant travailler sur une réalité objective.
Mais
il peut s'agir d'un travail de longue haleine, surtout s'il
s'agit de chiffres. Existe-t-il des outils qui permettent de
gérer voire d'automatiser ces processus ?
Dans un cas comme celui-ci, il faut
se servir d'outils statistiques tels que SPSS de l'éditeur
du même nom, StatLab de SLP-Infoware racheté par
Gemplus, Storm édité par Elseware, ou SPad de
Cisia. Ces outils apportent une bonne analyse statistique de
la qualité des données. Ensuite, le deuxième
élément peut être un petit objet de développement
dans un module de téléchargement. En général,
si l'on se situe déjà à une fois et demi
de la moyenne, la donnée correspondante doit être
vérifiée. Des sociétés comme Cognos
fournissent ce type d'outils .
L'automatisation
est-elle complète ?
Une partie de l'audit est un travail
semi-manuel, et qui doit être supervisé par la
personne en charge du reporting ou de l'analyse. Ceci dit, je
préfère travailler avec le responsable marketing,
le chargé d'étude ou le contrôleur de gestion
qui disposent de la connaissance à exploiter. L'audit
des données doit être réalisé par
des professionnels du métier. Plus ils s'impliquent dans
cette phase, et plus il y aura une garantie des résultats.
Comment
prendre en compte l'analyse des données textuelles dans
un processus décisionnel ?
Il est tout à fait possible
de les traiter. C'est une affirmation, car il existe aujourd'hui
des outils comme ceux d'Autonomy (ou SAS). Dans une première
étape, les sémiologues lisent le contenu textuel
afin d'en dégager des thèmes et sous-thèmes.
A partir de là, il est possible de définir une
typologie de comportement, comme la réponse à
des lettres de réclamation ou autres. Les sémiologues
ne sont là que pour l'attitude de validation du contenu.
Ensuite, j'ai vu des outils qui traitent de manière statistique
tout le texte, sachant que la principale difficulté tient
dans la multiplicité des mots utilisés par rapport
aux thèmes. Mais actuellement, les résultats ne
sont pas toujours efficaces et réutilisables. Chez certains
clients, cependant, nous avons traité en partie cet aspect
avec des sémiologues qui nous ont permis d'effectuer
l'analyse sur des thèmes.
Des
sémiologues... seules de grandes entreprises peuvent
se le permettre, ne pensez-vous pas ?
Pas forcément même
si leur intervention a un coût. Il faut savoir si le montant
de la dépense génère une activité
suffisante pour l'entreprise. Mais nous avons déjà
pris un stagiaire qui a encodé les lettres sur du Word
pour pouvoir les traiter avec un logiciel d'analyse statistique.
Et ensuite, ces lettres ont été encodées
par le sémiologue qui a isolé les mots importants,
et ceux-ci ont permis de créer une matrice pour encoder
les courriers. Ce qui nous a permis de voir sur 500 lettres
un total de 50 thèmes et sous-thèmes.
Concernant
des outils de data mining, est-il difficile d'en calculer le
retour sur investissement ?
Si celui-ci est quantitatif, cela
ne pose pas de problèmes a priori. Et lorsqu'il est qualitatif,
l'entreprise peut toujours observer une croissance ou une décroissance
au niveau du service client, ou sonder ceux-ci pour observer
si la réalité apparaît ou non. Après
cela, certains indicateurs peuvent se faire jour. Prenons l'exemple
typique de la mesure du churn (le taux de volativité
des abonnés chez les opérateurs). L'opérateur
peut observer dans le temps une décroissance du nombre
de résiliations ou une croissance du nombre d'inscriptions.
Et ce sont les personnes du métier qui vont dire que
l'indicateur est celui-là et pas un autre.
Observer
dans le temps, n'est-ce pas aussi prendre des risques sur des
investissements parfois lourds, surtout dans un contexte où
tout va très vite ?
Si l'on prend un opérateur
de télécommunications, ou de services de banque-assurance,
il peut d'abord monter une base de tests sur 30 000 ou
40 000 clients. A partir de celle-ci, il est possible
de monter un plan marketing, de modéliser les données,
de prédire et de lancer un plan d'actions. La durée
maximale des tests sur une base de moins de 50 000 clients
n'excède pas deux mois au maximum. Ceci souligne l'intérêt
de prototyper et d'effectuer une expérimentation sur
une micro-base. Et si un éditeur accepte de le faire,
c'est qu'il est en général sûr de son coup
et de sa solution. S'il n'accepte pas, il a peut-être
des doutes. D'ailleurs, tant le client que l'éditeur
doivent accepter de partager les frais.
Quel
est le rôle de Quatrax en tant que société
de conseil ?
Nous intervenons dans la mise en
place de l'expérimentation. Notre rôle est aussi
d'accomplir de la spécification sur les données
en amont et de les auditer. Nous élaborons des prototypes
et nous pouvons prédire les clients sur lesquels effectuer
une modélisation proactive. Quatrax Conseil intervient
sur le développement du business par rapport au client,
tant en amont qu'en aval, et en termes d'économies et
de développement. Tout ce qui est lié à
l'information client est du décisionnel et de la gestion
de la relation client.
|
Avant de fonder Quatrax Conseil en 1995, Maurice Belais
était consultant manager chez Concept SA depuis 1989.
Auparavant, il assumait la mission de directeur financier dans
un groupe de restauration qu'il a intégré en 1980.
Les deux années qui ont précédé,
il était expert comptable chez HSD. En parallèle
sur les six dernières années, il a également
été professeur de politique générale
à l'ESLSCA entre 1995 et 1998, et est depuis 1999 professeur
de datamining et marketing au groupe HEC (Hautes études
commerciales). |
|
|
|
|