Little big data, puisque la taille ne fait pas tout

La big data et le e-commerce, c’est un peu comme les adolescents et la sexualité. Tous en parlent, mais peu sont passés à la pratique. Trop coûteuse et trop complexe, la big data doit se redéfinir pour devenir accessible.

Justin Ziegler participe à la rencontre E-Commerce One to One, qui se déroule à Monaco du 18 au 20 mars 2014, dont le JDN est partenaire.

Arrêtons le "big data" buzz !

J’ai maintes fois été contacté pour parler de big data en public. Les nombreux organisateurs d’évènement n’arrivent pas à trouver d’intervenant sur ce thème. C’est normal, quasiment personne ne fait de la big data, et quasiment personne ne sait de quoi il s’agit. Par contre, tout le monde en parle... Une définition me semble donc nécessaire. Voici ce que j’ai trouvé sur Wikipedia : “expression utilisée pour désigner des ensembles de données tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données”.
Un peu plus loin, il est écrit que pour stocker et traiter de la big data, il faut utiliser un ensemble de technologies nouvelles et complexes intégrant notamment Hadoop et MapReduce. Faire de la big data, c’est donc mettre en œuvre Hadoop et MapReduce pour manipuler de gros volumes de données.
La technologie doit être un moyen, pas une finalité. Laissons aux ingénieurs le choix de la technologie et concentrons nous sur les besoins, sur les applications. C’est d’autant plus important que les technologies big data peuvent être coûteuses, voir très coûteuses, et les compétences associées sont très rares sur le marché. Il n’est donc pas simple de faire de la big data.
Pendant que chacun parlait de big data et s’inquiétait de savoir si son concurrent en faisait, une autre révolution a eu lieu : les technologies SSD ou mémoire flash se sont généralisées et leur prix a chuté. Ces nouveaux équipements permettent désormais de remplacer un data warehouse qui occupait un placard entier, par une seule étagère du même placard, avec des performances très supérieures. Simultanément, le prix de la mémoire vive (la RAM) a fortement chuté et la miniaturisation a progressé. Il devient ainsi possible de stocker l’ancien data warehouse dans la mémoire vive d’un seul serveur. Certains éditeurs ou constructeurs parlent de bases de données in-memory.
En couplant ces deux progrès technologiques sur un même serveur on obtient un système dont la puissance de traitement est énorme : les traitements qui prenaient auparavant de longues heures et étaient donc inaccessibles deviennent possibles. Par rapport aux technologies dites big data, ce type de technologie permet de continuer à exploiter les mêmes outils logiciels qu’avant : une base de données SQL comme Oracle ainsi qu’un système de reporting comme SAP Business Objects par exemple. Seule la couche physique est impactée. Pas besoin de nouvelles compétences, on capitalise sur l’équipe BI en place. Pas besoin non plus de former les utilisateurs sur un nouvel outil.

Que faire avec cet outil de traitement et d’analyse de données surpuissant ?

Une idée pourrait être de réunir des données qui jusque là se côtoyaient sans jamais se mélanger : les données du système décisionnel (souvent les données transactionnelles issues du site web), les données issues du CRM, les données du web-analytics, du web-analytics du site mobile, de l’appli mobile, les données d’ouverture et de clic dans les newsletters/les e-mails, les données du système de recommandation, les données issues de la régie, des réseaux sociaux...
Ce faisant, en se donnant les moyens de faire la jointure entre ces différentes sources de données, on pourrait construire un super profil client. Ce super profil client permettrait d’aller un cran plus loin dans la personnalisation des actions marketing : on peut alors parler de marketing one-to-one. Passer d’un modèle marketing encore trop souvent “de masse” (envoi de newsletters à toute la base au même moment, même coupon de réduction pour tout le monde, même promo pour tout le monde...) à un modèle marketing user centric, complètement personnalisé : e-mails et notifications ciblées pour chaque utilisateur, page web de plus en plus personnalisée. Il devient donc ainsi possible de déterminer la date optimale, le rythme de communication optimal pour s’adresser à un client.
On ne peut alors même plus parler de newsletter, parce que le canal de communication (mail, notification mobile, SMS ou autre) ainsi que le contenu du message (sélection de produits ou bon de réduction) seront également calculés de façon optimale pour chaque client. Au passage, on réduit considérablement les risques d’assimilation à du spam : tous les mails sont différents, et leur volume est forcément plus réduit puisque on écarte tous les profils peu réceptifs.
Mais pour arriver à ce niveau de personnalisation, il est nécessaire de mettre en œuvre un autre type d’outil dont l’efficacité et la maturité a également progressé ces derniers temps : il s’agit des algorithmes d’analyse prédictive et de “machine learning” utilisés par exemple pour faire les recommandations produit sur un nombre grandissant de site web. Ces derniers fournissent des résultats dont la pertinence est croissante en fonction de la quantité de données analysées. Avec un super datawarehouse construit avec des SSD et beaucoup de mémoire vive, puis rempli avec un maximum de données générées par les utilisateurs d’un site web, les conditions idéales sont réunies pour tirer un maximum de valeur de ces algorithmes.
Pour conclure, avant de faire le big bang dans les architectures techniques, il est nécessaire de se poser la question du besoin métier : quelles data, dans quel but ? Dans beaucoup de cas, il existe des solutions qui ne remettent pas en cause la chaine de traitement des données, que ce soit sur le plan technique ou humain. Pour le reste, lorsque le besoins nécessite de traiter des centaines de terra-octets voire des peta-octets de données, on envisagera des technologies Big Data.
Si tel n'est pas le cas, Small Data is beautiful.