Roger Haddad, KXen: "Avec nos outils, il est possible de prédire le futur en fonction du passé"


		JDNet \| Emploi \| Développeurs \| Management \| Votre high-tech			Linternaute		Séminaires \| Etudes

Rechercher :

Progiciels

Fonds

VOTRE HIGH TECH

BOURSE

L'internaute Magazine

Interviews

Roger Haddad

CEO (président-directeur général)

KXen

"Avec nos outils, il est possible de prédire le futur en fonction du passé"

Editeur américain fondé par un français en 1998, KXen (Knowledge eXtraction ENgines) est souvent considéré à tort comme un spécialiste du data mining exclusivement. Mais la technologie qu'il développe diffère d'un point de vue mathématique, en s'appuyant sur un moteur baptisé "Intelligent OLAP". A l'origine de ce jeu d'algorithmes: la théorie récente d'un russe, Vladimir Vapnik, qui se propose de révolutionner la statistique en optimisant le volume de données étudiées de façon automatisée.

A la tête de KXen, Roger Haddad se fait conseiller entre autres par un comité scientifique composé d'experts mondialement reconnus dans le domaine des technologies analytiques. Parmi ceux-ci: le professeur Gilbert Saporta du CNAM et de l'ENSAE, Françoise Fogelman-Soulié de Business & Decision (lire son interview d'octobre), l'ancien collègue de Vapnik au sein des Bell Labs Léon Bottou, et une brochette de grands noms comme Philippe Lelong, Yann LeCun, Emmanuel Viennet, Lee Giles, Olivier Chapelle et Gregory Piatetsky-Shapiro. Pour aller un peu plus loin dans les détails de la solution et la stratégie de KXen, nous avons interviewé directement Roger Haddad, son CEO. Qui explique le succès d'un positionnement original.

Propos recueillis par François Morel le 22 octobre 2001 .

JDNet Solutions: Quelle est l'idée qui vous a conduit à fonder KXen en 1998 ?
Roger Haddad: C'est au moment où j'ai rencontré Michel Beyrat, l'un des anciens co-fondateurs de Club-Internet, un mathématicien et statisticien que je respecte beaucoup et qui venait de recevoir un coup sur la tête à la suite d'une conférence tenue par le russe Vladimir Vapnik. Quand il m'a expliqué les bases de la théorie, cela m'a rappelé la frustration que connaissent les personnes qui possèdent des tas et des tas de données. Beaucoup les montent dans un datawarehouse, mais en fin de course il n'y a rien. A chaque fois, cela représente un modèle de 200 à 300 kf, soit de une à trois semaines de paie des statisticiens plus l'outil.

Or, il existe un moyen de rendre cette fonction entièrement automatisable tout en produisant de bons résultats. J'ai donc suggéré de construire un jeu de composants intégrables soit dans des applications, soit par des intégrateurs, et qui répondraient à ce rêve que j'avais de permettre à des personnes, face à un jeu de données quelconque, de pouvoir expliquer une variable en fonction de toutes les autres variables quelles qu'elles soient.

A partir de là, nous sommes partis aux Etats-Unis, dans les laboratoires de recherche, chez Oracle, SAS, IBM etc. et nous n'avons trouvé que deux endroits où nous avons pu entendre un écho de cette théorie. Il s'agissait du centre de recherche d'IBM en Californie, et du responsable de la R&D de Microsoft au siège de Redmond. Ce qui m'a conforté dans le fait que nous tenions quelque chose d'intéressant. Ensuite, j'ai rencontré Eric Marcadé qui avait 15 ans de pratique des réseaux de neurones et avait travaillé sur ce sujet avec Françoise Fogelman au sein de Mimetix. Il avait également travaillé chez Cadence à essayer de comprimer du code dans des composants. Et c'est là que nous avons monté l'architecture de la société.

Comment se conçoit cette architecture ?
C'est une organisation à trois pieds : un pied algorithmique, un pied architectural aussi bien Unix que Windows, en DCom, Corba et C++, et un troisième pied à travers l'approche indirecte. Les trois aspects sont d'importance égale. Car un génie mathématique peut-être concurrentiel sur un algorithme, mais c'est tout. Et si une architecture existe, il faut pouvoir faire un algorithme qui ne plante pas. Enfin, il faut aussi pouvoir le vendre.

En quoi votre solution est-elle supérieure à la concurrence ?
L'un des vrais problèmes est que nous n'avons pas réellement de concurrents. Quand nous arrivons chez des grands comptes, nous pouvons être en concurrence avec des sociétés comme SAS ou d'autres. Mais quand les marquetteurs comprennent qu'ils n'ont pas besoin de statisticiens, nous changeons la donne. En fait, notre concurrent est le statisticien qui développe en interne.

Face aux autres éditeurs, il faut bien avouer qu'un produit si petit n'existe pas. Pour des éditeurs comme SPSS, Data Distilleries et Unica, il est possible d'élaborer des liens entre leurs produits et l'application de l'entreprise. Mais ils ne peuvent pas s'intégrer directement dans cette application, alors que nous le pouvons. C'est ce qui a donné lieu à l'accord signé récemment avec Business Objects qui intègre à présent nos outils en OEM. Dans leur plate-forme, le data mining est KXen.

Concrètement, qu'est-ce qui justifie votre avance sur le plan technologique ?
Prenons un exemple que tout le monde connaît: le fait de posséder des fichiers de données structurées. L'une des caractéristiques de Vapnik, mais aussi du text mining de Microsoft est de pouvoir mettre de côté les "junk mails" (les messages polluants, ndlr). Pour cela, il suffit de prendre 5 000 mots du vocabulaire américain, et chaque mail reçu devient un vecteur avec des mots x, y et z. Cela revient à placer une croix dans la bonne colonne à chaque fois qu'un mot est rencontré, en faisant répéter à l'outil l'opération un millier de fois, un bon mail étant noté "un" et une publicité "zéro". A ce moment là, vous apportez ces données à des composants comme les nôtres, et ils peuvent caractériser pour n'importe quel mail entrant s'il rentre dans la catégorie des bons ou des pollueurs. Et ceci, brutalement, sans sémantique ni rien d'autre.

Sans sémantique !?
Ce qui a été compris auparavant par le moteur est que tel mot était la déclinaison de tel autre. Nous ajoutons aussi la notion de regroupement qui fait que le mail se transforme en un vecteur de 5 000 mots, qui sont les plus usuels. Chacun des mots correspond à une colonne, sans que ceux-ci ne soient forcément liés. Il s'agit juste de mots les uns derrière les autres.

Ceci ne constitue qu'une toute petite application de notre outil, qui sera utilisée entre autres en biologie. Mais aujourd'hui, nous sommes beaucoup plus présents dans des domaines comme le CRM, le scoring (attribuer des notes à des individus dans des segments, ndlr), le trading, etc. Là, il s'agit de données structurées sur lesquelles nous appliquons l'algorithme et en déduisons quelles sont les variables les plus importantes, et comment scorer par rapport aux questions que l'on se pose. Des questions comme "telle personne va-t-elle répondre à ce mail ?", "pourra-t-elle accomplir cette tâche-là ?", "quel sera le montant de CA moyen après avoir engagé une action?"... Et vous pouvez prédire cela, car il est possible de prédire le futur en fonction du passé.

Et en plus, vous dites que votre technologie est plus rapide que les autres... ?
Quand nous comparons ce que nous faisons avec ce que font les éditeurs d'outils statistiques plus classiques, il nous faut seulement quelques secondes ou quelques minutes pour construire un modèle contre deux ou trois semaines avec les autres. De plus, dans des comparatifs mondiaux qui portent sur la précision de ces modèles, nous sommes en deuxième ou troisième position. Ce qui signifie qu'en 15 secondes, notre résultat n'est pas ridicule, et pour battre notre algorithme, il ne faut pas être né de la dernière pluie. En CRM, le plus gros fichier que nous ayons eu à traiter comportait 350 variables et 650 000 lignes, et nous avons mis une heure.

Les statistiques que proposent les autres se basent souvent sur les travaux de Fischer qui datent des années 30, et qui analysent des données pour tirer des conclusions. Toute la théorie du russe est de dire que les données sont ce qu'elles sont. Et donc, nous ne perdons pas de temps à explorer les données. Nous avons travaillé sur la fonction de modélisation, et c'est ça qui fait que cela marche. Ce n'est pas une boîte noire et le résultat est explicable. Et maintenant, il existe même un cours au CNAM là-dessus. Le fait que l'un de ses éminents professeurs ait rejoint notre comité scientifique n'est pas innocent.

Le data mining peut comprendre beaucoup de types d'algorithmes différents. Alors pourquoi dites-vous aussi que ce n'est pas du data mining ?
Du data mining aussi facile à utiliser que du Excel, personne n'a jamais vu ça. Pour prédire l'avenir avec du data mining, il faut un serveur de modélisation prédictique, et que toute personne qui a des données à analyser essaie de passer par ce serveur et en récupère le résultat. Quant à l'OLAP, ce sont des cubes. Et si vous lancez une requête sur 10 colonnes, il y a 10x9x8x7x6... soit 720 manières de faire les cubes. Donc, il faut tatonner car il est difficile de trouver les trois premières variables. Sur chaque axe, nous pouvons dire comment les catégories se positionnent. Et c'est ce que nous appelons l'IOLAP ou Intelligent OLAP. Nous créons un modèle, et de ce modèle sortent les trois premières variables.

Avec des colonnes, nous savons définir une fonction de destination y qui représente un polynome "a fois âge", "b fois statut marital", etc. et ce sont les poids qui déterminent les variables les plus importantes. Ce que nous reprochons à l'OLAP est qu'il donne une réponse, mais il n'est pas toujours possible d'en tirer quelque chose. Avec ce type de technologies, vous allez à tatons et ce sont vos idées qui prennent le dessus sur la réalité.

Business Objects mis à part, avez-vous signé d'autres accords OEM que ?
Nous avons notamment signé avec Norkom en Irlande, avec Intelligent Sales Objects qui a été racheté par Coheris, et avec Siria Technologies à Lille, spécialisée dans les analyses et la modélisation de production. Du côté des sociétés de services, nous avons aussi des partenariats avec Business & Décision, Soft Computing, IBM Global Services, et la division CRM d'Accenture au niveau mondial.

Votre outil est-il adapté à l'e-CRM analytique ? Et comment l'entreprise doit-elle procéder pour une exploitation efficace de vos outils ?
Nous pouvons transformer un log d'un site web en des sessions horizontales à l'aide d'un composant. Il suffit d'un weblog, d'un identifiant et de numéros de session. Il faut alors transformer la session en horizontal. Et il est possible, après un ou deux clics, de savoir où va le troisième, et quand l'internaute va quitter le site. Le problème d'un fichier log est qu'il y a beaucoup de lignes et peu de colonnes. Mais nous savons que l'individu est passé par tel et tel endroit. Donc nous pouvons recréer une session. Or, un fichier log est une suite de transitions, et il faut garder seulement les transitions qui comportent vraiment un mode explicatif. Une fois le modèle construit, quand un visiteur arrive, nos outils peuvent scorer à chaque clic sans connaître son nom, et savoir sur quelle prochaine page il va passer.

Notre technologie comporte aussi un avantage en terme de coûts. Il suffit que l'outil apprenne une semaine ou deux sur les bases de données, et c'est parti. L'analyse des sessions n'est pas liée avec la personne. Quand elle est passée par ici, et puis par là, vous savez qu'elle va partir. Et là vous travaillez la session. Là dessus, nous avons entamé des relations avec ATG et ce projet est pour l'instant en attente le temps de leur restructuration. Nous sommes aussi en liaison avec Broadbase/Kana sur ce sujet, et Broadvision travaille beaucoup avec eux.

Quels sont les tarifs que vous pratiquez ? Comptez-vous aussi travailler avec Microsoft ?
Pour nous, la partie la plus importante est la vente indirecte. Nos prix moyens sont compris entre 100 000 et 150 000 euros, qui correspondent aux tarifs auxquelles l'intégrateur achète nos composants. En OEM, nous allons pratiquer un prix d'entrée et nous verrons pour la suite. Concernant Microsoft, nous allons lancer dans peu de temps IOLAP pour Excel qui sera un ensemble de fonctions destinées aux tableaux. Il sera téléchargeable pour 490 dollars chez un marchand en ligne.

Co-fondateur et CEO (Chief executive officer ou P-DG) de KXen, Roger Haddad a d'abord participé à la création de Métrologie en 1977, introduite en bourse en 1985. Puis, il a fondé la société Ariana en 1992, qu'il a revendue à NetManage deux ans plus tard. Il rejoint alors R&D en qualité d'associé, qu'il cède en 1994 à Azlan dont il assure la direction française jusqu'en octobre 1998.

Nouvelles offres d'emploi

sur Emploi Center

Auralog - Tellmemore | Publicis Modem | L'Internaute / Journal du Net / Copainsdavant | Isobar | MEDIASTAY