Interviews |
|
Roger Haddad
|
CEO
(président-directeur général)
|
KXen
|
"Avec
nos outils, il est possible de prédire le futur en fonction
du passé" |
|
Editeur américain fondé par un français
en 1998, KXen
(Knowledge eXtraction ENgines) est souvent considéré
à tort comme un spécialiste du data mining
exclusivement. Mais la technologie qu'il développe
diffère d'un point de vue mathématique,
en s'appuyant sur un moteur baptisé "Intelligent
OLAP". A l'origine de ce jeu d'algorithmes: la théorie
récente d'un russe, Vladimir Vapnik, qui se propose
de révolutionner la statistique en optimisant le
volume de données étudiées de façon
automatisée.
A la tête de KXen, Roger Haddad se fait conseiller
entre autres par un comité scientifique composé
d'experts mondialement reconnus dans le domaine des technologies
analytiques. Parmi ceux-ci: le professeur Gilbert Saporta
du CNAM et de l'ENSAE, Françoise Fogelman-Soulié
de Business & Decision (lire
son interview d'octobre), l'ancien collègue
de Vapnik au sein des Bell Labs Léon Bottou, et
une brochette de grands noms comme Philippe Lelong, Yann
LeCun, Emmanuel Viennet, Lee Giles, Olivier Chapelle et
Gregory Piatetsky-Shapiro. Pour aller un peu plus loin
dans les détails de la solution et la stratégie
de KXen, nous avons interviewé directement Roger
Haddad, son CEO. Qui explique le succès d'un positionnement
original. |
Propos recueillis par
François Morel le 22
octobre 2001
. |
JDNet
Solutions: Quelle est l'idée qui vous a conduit
à fonder KXen en 1998 ?
Roger Haddad:
C'est au moment où
j'ai rencontré Michel Beyrat, l'un des anciens
co-fondateurs de Club-Internet, un mathématicien
et statisticien que je respecte beaucoup et qui venait
de recevoir un coup sur la tête à la suite
d'une conférence tenue par le russe Vladimir Vapnik.
Quand il m'a expliqué les bases de la théorie,
cela m'a rappelé la frustration que connaissent
les personnes qui possèdent des tas et des tas
de données. Beaucoup les montent dans un datawarehouse,
mais en fin de course il n'y a rien. A chaque fois, cela
représente un modèle de 200 à
300 kf, soit de une à trois semaines de paie
des statisticiens plus l'outil.
Or, il existe un moyen de rendre cette fonction entièrement
automatisable tout en produisant de bons résultats.
J'ai donc suggéré de construire un jeu de
composants intégrables soit dans des applications,
soit par des intégrateurs, et qui répondraient
à ce rêve que j'avais de permettre à
des personnes, face à un jeu de données
quelconque, de pouvoir expliquer une variable en fonction
de toutes les autres variables quelles qu'elles soient.
A partir de là, nous sommes partis aux Etats-Unis,
dans les laboratoires de recherche, chez Oracle, SAS,
IBM etc. et nous n'avons trouvé que deux endroits
où nous avons pu entendre un écho de cette
théorie. Il s'agissait du centre de recherche d'IBM
en Californie, et du responsable de la R&D de Microsoft
au siège de Redmond. Ce qui m'a conforté
dans le fait que nous tenions quelque chose d'intéressant.
Ensuite, j'ai rencontré Eric Marcadé qui
avait 15 ans de pratique des réseaux de neurones
et avait travaillé sur ce sujet avec Françoise
Fogelman au sein de Mimetix. Il avait également
travaillé chez Cadence à essayer de comprimer
du code dans des composants. Et c'est là que nous
avons monté l'architecture de la société.
Comment
se conçoit cette architecture ?
C'est une organisation à
trois pieds : un pied algorithmique, un pied architectural
aussi bien Unix que Windows, en DCom, Corba et C++, et
un troisième pied à travers l'approche indirecte.
Les trois aspects sont d'importance égale. Car
un génie mathématique peut-être concurrentiel
sur un algorithme, mais c'est tout. Et si une architecture
existe, il faut pouvoir faire un algorithme qui ne plante
pas. Enfin, il faut aussi pouvoir le vendre.
En
quoi votre solution est-elle supérieure à
la concurrence ?
L'un des vrais problèmes
est que nous n'avons pas réellement de concurrents.
Quand nous arrivons chez des grands comptes, nous pouvons
être en concurrence avec des sociétés
comme SAS ou d'autres. Mais quand les marquetteurs comprennent
qu'ils n'ont pas besoin de statisticiens, nous changeons
la donne. En fait, notre concurrent est le statisticien
qui développe en interne.
Face aux autres éditeurs, il faut bien avouer qu'un
produit si petit n'existe pas. Pour des éditeurs
comme SPSS, Data Distilleries et Unica, il est possible
d'élaborer des liens entre leurs produits et l'application
de l'entreprise. Mais ils ne peuvent pas s'intégrer
directement dans cette application, alors que nous le
pouvons. C'est ce qui a donné lieu à l'accord
signé récemment avec Business Objects qui
intègre à présent nos outils en OEM.
Dans leur plate-forme, le data mining est KXen.
Concrètement,
qu'est-ce qui justifie votre avance sur le plan technologique
?
Prenons un exemple que tout
le monde connaît: le fait de posséder des
fichiers de données structurées. L'une des
caractéristiques de Vapnik, mais aussi du text
mining de Microsoft est de pouvoir mettre de côté
les "junk mails" (les messages polluants, ndlr).
Pour cela, il suffit de prendre 5 000 mots du
vocabulaire américain, et chaque mail reçu
devient un vecteur avec des mots x, y et z. Cela revient
à placer une croix dans la bonne colonne à
chaque fois qu'un mot est rencontré, en faisant
répéter à l'outil l'opération
un millier de fois, un bon mail étant noté "un"
et une publicité "zéro". A ce
moment là, vous apportez ces données à
des composants comme les nôtres, et ils peuvent
caractériser pour n'importe quel mail entrant s'il
rentre dans la catégorie des bons ou des pollueurs.
Et ceci, brutalement, sans sémantique ni rien d'autre.
Sans
sémantique !?
Ce qui a été
compris auparavant par le moteur est que tel mot était
la déclinaison de tel autre. Nous ajoutons aussi
la notion de regroupement qui fait que le mail se transforme
en un vecteur de 5 000 mots, qui sont les plus
usuels. Chacun des mots correspond à une colonne,
sans que ceux-ci ne soient forcément liés.
Il s'agit juste de mots les uns derrière les autres.
Ceci ne constitue qu'une toute petite application de notre
outil, qui sera utilisée entre autres en biologie.
Mais aujourd'hui, nous sommes beaucoup plus présents
dans des domaines comme le CRM, le scoring (attribuer
des notes à des individus dans des segments, ndlr),
le trading, etc. Là, il s'agit de données
structurées sur lesquelles nous appliquons l'algorithme
et en déduisons quelles sont les variables les
plus importantes, et comment scorer par rapport aux questions
que l'on se pose. Des questions comme "telle personne
va-t-elle répondre à ce mail ?", "pourra-t-elle
accomplir cette tâche-là ?", "quel
sera le montant de CA moyen après avoir engagé
une action?"... Et vous pouvez prédire cela,
car il est possible de prédire le futur en fonction
du passé.
Et
en plus, vous dites que votre technologie est plus rapide
que les autres... ?
Quand nous comparons ce que
nous faisons avec ce que font les éditeurs d'outils
statistiques plus classiques, il nous faut seulement quelques
secondes ou quelques minutes pour construire un modèle
contre deux ou trois semaines avec les autres. De plus,
dans des comparatifs mondiaux qui portent sur la précision
de ces modèles, nous sommes en deuxième
ou troisième position. Ce qui signifie qu'en 15 secondes,
notre résultat n'est pas ridicule, et pour battre
notre algorithme, il ne faut pas être né
de la dernière pluie. En CRM, le plus gros fichier
que nous ayons eu à traiter comportait 350 variables
et 650 000 lignes, et nous avons mis une heure.
Les statistiques que proposent les autres se basent souvent
sur les travaux de Fischer qui datent des années
30, et qui analysent des données pour tirer des
conclusions. Toute la théorie du russe est de dire
que les données sont ce qu'elles sont. Et donc,
nous ne perdons pas de temps à explorer les données.
Nous avons travaillé sur la fonction de modélisation,
et c'est ça qui fait que cela marche. Ce n'est
pas une boîte noire et le résultat est explicable.
Et maintenant, il existe même un cours au CNAM là-dessus.
Le fait que l'un de ses éminents professeurs ait
rejoint notre comité scientifique n'est pas innocent.
Le
data mining peut comprendre beaucoup de types d'algorithmes
différents. Alors pourquoi dites-vous aussi que
ce n'est pas du data mining ?
Du data mining aussi facile
à utiliser que du Excel, personne n'a jamais vu
ça. Pour prédire l'avenir avec du data mining,
il faut un serveur de modélisation prédictique,
et que toute personne qui a des données à
analyser essaie de passer par ce serveur et en récupère
le résultat. Quant à l'OLAP, ce sont des
cubes. Et si vous lancez une requête sur 10 colonnes,
il y a 10x9x8x7x6... soit 720 manières de
faire les cubes. Donc, il faut tatonner car il est difficile
de trouver les trois premières variables. Sur chaque
axe, nous pouvons dire comment les catégories se
positionnent. Et c'est ce que nous appelons l'IOLAP ou
Intelligent OLAP. Nous créons un modèle,
et de ce modèle sortent les trois premières
variables.
Avec des colonnes, nous savons définir une fonction
de destination y qui représente un polynome "a
fois âge", "b fois statut marital",
etc. et ce sont les poids qui déterminent les variables
les plus importantes. Ce que nous reprochons à
l'OLAP est qu'il donne une réponse, mais il n'est
pas toujours possible d'en tirer quelque chose. Avec ce
type de technologies, vous allez à tatons et ce
sont vos idées qui prennent le dessus sur la réalité.
Business
Objects mis à part, avez-vous
signé d'autres accords OEM que ?
Nous avons notamment signé
avec Norkom en Irlande, avec Intelligent Sales Objects
qui a été racheté par Coheris, et
avec Siria Technologies à Lille, spécialisée
dans les analyses et la modélisation de production.
Du côté des sociétés de services,
nous avons aussi des partenariats avec Business &
Décision, Soft Computing, IBM Global Services,
et la division CRM d'Accenture au niveau mondial.
Votre
outil est-il adapté à l'e-CRM analytique
? Et comment l'entreprise doit-elle procéder pour
une exploitation efficace de vos outils ?
Nous pouvons transformer un
log d'un site web en des sessions horizontales à
l'aide d'un composant. Il suffit d'un weblog, d'un identifiant
et de numéros de session. Il faut alors transformer
la session en horizontal. Et il est possible, après
un ou deux clics, de savoir où va le troisième,
et quand l'internaute va quitter le site. Le problème
d'un fichier log est qu'il y a beaucoup de lignes et peu
de colonnes. Mais nous savons que l'individu est passé
par tel et tel endroit. Donc nous pouvons recréer
une session. Or, un fichier log est une suite de transitions,
et il faut garder seulement les transitions qui comportent
vraiment un mode explicatif. Une fois le modèle
construit, quand un visiteur arrive, nos outils peuvent
scorer à chaque clic sans connaître son nom,
et savoir sur quelle prochaine page il va passer.
Notre technologie comporte aussi un avantage en terme
de coûts. Il
suffit que l'outil apprenne une semaine ou deux sur les
bases de données, et c'est parti. L'analyse des
sessions n'est pas liée avec la personne. Quand
elle est passée par ici, et puis par là,
vous savez qu'elle va partir. Et là vous travaillez
la session. Là dessus, nous avons entamé
des relations avec ATG et ce projet est pour l'instant
en attente le temps de leur restructuration. Nous sommes
aussi en liaison avec Broadbase/Kana sur ce sujet, et
Broadvision travaille beaucoup avec eux.
Quels
sont les tarifs que vous pratiquez ? Comptez-vous aussi
travailler avec Microsoft ?
Pour nous, la partie la plus
importante est la vente indirecte. Nos prix moyens sont
compris entre 100 000 et 150 000 euros,
qui correspondent aux tarifs auxquelles l'intégrateur
achète nos composants.
En OEM, nous allons pratiquer un prix d'entrée
et nous verrons pour la suite. Concernant Microsoft, nous
allons lancer dans peu de temps IOLAP pour Excel qui sera
un ensemble de fonctions destinées aux tableaux.
Il sera téléchargeable pour 490 dollars
chez un marchand en ligne.
|
Co-fondateur et CEO (Chief executive officer ou P-DG)
de KXen, Roger Haddad a d'abord participé
à la création de Métrologie en 1977,
introduite en bourse en 1985. Puis, il a fondé
la société Ariana en 1992, qu'il a revendue
à NetManage deux ans plus tard. Il rejoint alors
R&D en qualité d'associé, qu'il cède
en 1994 à Azlan dont il assure la direction française
jusqu'en octobre 1998.
|
|
|
|