Comment Mahout peut vous aider à exploiter vos données et développer votre business

Vous avez l'idée du siècle, vous créez alors votre société et là très rapidement le nombre de clients explose. Après quelques mois (passé l'effet de nouveauté), les ventes stagnent, voire commencent à décliner. Il est donc temps de réagir et de trouver une solution : Mahout va pouvoir vous aider à relancer votre activité.

Cette chronique fait suite à la présentation de Sidi Mohammed RAMDANI à Devoxx France 2014 sur la solution open-source Apache Mahout : Attaquez le Mahout de face pour exploiter vos Téraoctets d’historique !
L'objectif d'Apache Mahout est de proposer, à partir d'un ensemble d'algorithmes très poussés élaborés par des statisticiens, des recommandations adaptées aux utilisateurs qui vont déclencher de nouvelles ventes.
Mahout est une solution d'apprentissage automatique et continue basée sur la plateforme Hadoop (avec du calcul distribué utilisant MapReduce). Il s'agit d'exploiter les données d'historique afin d'en ressortir de la valeur.
Pour générer des prédictions / recommandations personnalisées en temps réel (Machine Learning), Mahout a besoin :
  • Du Data Model composé des users (clients), des items (produits) des ratings (notes, nombre de clics, nombre d'achats) pour constituer la base de données
  • D'algorithmes de similarité (Distance Euclidienne) et d'algorithmes de voisinage (Nearest / Threold) pour détecter les similarités et voisinages entre utilisateurs
Comment tester la pertinence des recommandations ?
  1. En partitionant la base de données d'historique en 90/10 (90% en apprentissage et 10% en test)
  2. En analysant les erreurs sur les calculs de score pour optimiser les solutions de calculs
  3. Et en suivant le cycle d'amélioration continu suivant : comparer, Tuner, Nettoyer, Tester et Optimiser
Aujourd'hui en version 0.9, Apache Mahout dispose d'une communauté active et s'enrichit régulièrement de nouveaux algorithmes.