Comment créer son data lake sans ramer

Comment créer son data lake sans ramer Faut-il se lancer ou pas ? Quelles types de données stocker et avec quelle technologie ? Voici de quoi poser les fondations de cet entrepôt de données très stratégique.

Les outils de marketing automation et d'achat média sont de plus en plus consommateurs de données en tous genres. Et face à l'ampleur du chantier, les directions marketing hésitent à franchir le pas du "data lake", cet entrepôt qui rapatrie l'ensemble des données "statiques" qu'une entreprise accumule via des bases de données (client, produit…). "Une entreprise utilise en moyenne 7,5 outils marketing différents, chiffre Romain Chaumais, co-fondateur et chief strategy officer d'Ysance. Cette urbanisation de son système d'information lui assure que ces outils 'parleront' de manière cohérente." Voici nos conseils pour mener à bien ce projet.

Prendre le temps de la réflexion

Il est important, comme pour tout projet data de cette ampleur, de bien prendre le temps de la réflexion. "Le débat a été plutôt long chez Etam pour savoir si on y allait ou pas, confie le CDO de la société, Cédric Taravella. Vouloir maîtriser sa donnée par l'intermédiaire d'un data lake est une décision radicale mais stratégique pour une entreprise comme la nôtre."

Si Etam vient tout juste de jeter les bases de son data lake, rares sont ceux qui ont suivi son exemple. Romain Chaumais rappelle qu'à peine 30% des grandes entreprises françaises sont dans ce cas. " Il faut dire que le projet a un certain coût : une centaine de milliers d'euros par an pour l'infrastructure et le software, auquel il faut ajouter les ressources humaines.

Cartographier l'ensemble des données sources

Une fois le projet entériné, il s'agit de procéder à une véritable cartographie des données dont on dispose. Emmanuel Brunet, le patron de la plateforme de data marketing Eulerian, égrène la série de questions que vous devez vous poser : "Où sont stockées mes données ? A quoi ressemblent-elles et comment vais-je les récupérer ? Sont-elles toutes stockées dans des endroits connectables au data lake ?"

Avez-vous le droit de stocker la donnée récupérée ?

Cédric Taravella rappelle qu'il ne s'agit pas que de données CRM. "Nous allons incorporer une centaine de variables relatives à nos données produits. Le prix, les matériaux, les taux de discount, les taux de clic, les taux d'ajout en panier, le temps qu'il a fallu au produit pour être vu…" Autant d'informations qui vont permettre d'aiguiller aux mieux vos outils d'acquisition et de reciblage cross canaux. Enfin une dernière question, et pas des moindres, avez-vous le droit de stocker la donnée récupérée ? "Impossible par exemple d'intégrer au data lake les commentaires que les vendeurs peuvent formuler sur les clients", rappelle Romain Chaumais.

Identifier les premiers cas d'usage

"Comme tout projet de données, il vous faut lister vos principaux objectifs commerciaux, business et marketing, conseille Emmanuel Brunet. C'est le meilleur moyen d'identifier les indicateurs de performance (KPI) qui vous permettront de juger de la réussite ou non du projet."

A chaque projet correspond son lake shore (littéralement le rivage du lac). "C'est le sous-ensemble des données disponibles dans le data lake qui vont être orientées vers un usage métier", traduit Romain Chaumais. Un data lake compte entre 2 et 50 lake shores selon l'ambition des projets. "Un des lake shores les plus demandés, c'est le référentiel client unique (RCU) qui récupère toutes les informations relatives aux clients pour une vision unifiée et exhaustive", poursuit-il. Ce dernier conseille de lancer un à trois lake shores (RCU, produit, supply chain…) en parallèle du lancement du data lake.

"Etre capable de tester une idée et de trancher sur son industrialisation en moins de deux semaines"

"Il faut être agile et capable de mettre en place les premiers cas d'utilisation rapidement, abonde Emmanuel Brunet. Pas besoin d'avoir un data lake complètement exhaustif pour les lancer." Un constat également partagé par Cédric Taravella qui débutera le premier test fin novembre. "Le data lake est un perpétuel work in progress. On lance un use case et on passe à un autre si ça ne marche pas." Pour lui, il est donc utile de mettre en place une organisation capable en moins de deux semaines de tester une idée et de trancher sur son industrialisation ou pas.

Cloud : infra as a service ou platform as a service ?

Cloud ou pas cloud ? Etam a fait le choix du cloud plutôt que de déployer son data lake sur les propres serveurs de l'entreprise. "Seules les entreprises qui ont un niveau de sécurité maximal comme les banques, les acteurs de la santé ou de l'assurance opteront pour stocker elles-mêmes leur données", juge Romain Chaumais. Les opérateurs telco déjà bien équipés en data centers feront eux aussi le choix de l'interne.

"L'approche managée : plus simple mais plus coûteuse"

La grande majorité des entreprises françaises (retail, tourisme, divertissement) privilégiera la piste du cloud, moins onéreuse et plus facile à déployer et à connecter à Internet. Dans le cloud, les entreprises ont encore deux options : une infra as a service ou une plateforme as a service telle que celles proposées par Amazon ou Google. "Avec ces derniers, on opte pour une approche managée où l'on paie pour ce qu'on utilise. C'est plus simple pour démarrer mais plus coûteux", pointe Romain Chaumais. Ça peut être d'autant plus gênant que cet expert estime que les services managés ne sont pas toujours bien équipés pour gérer le monitoring et le traçage des données personnelles (un enjeu important alors que le RGPD arrive).  

Du côté d'Etam, on a mené un POC (proof oc concept) avec une première technologie avant de regarder du côté d'Amazon et Google. "Ces deux plateformes sont loin devant tout le monde en ce qui concerne l'intelligence artificielle qu'elles mettent à disposition de leur client", tranche Cédric Taravella. Etam a finalement fait le choix d'Amazon. "Ce dernier nous a apporté plus de réassurance sur le sujet du RGPD en garantissant notamment l'installation de serveurs en Europe."

Faire travailler marketing, IT et juridique

L'équipe digitale d'Etam, qui mobilise une quarantaine de collaborateurs, tient le rôle de "start-up en interne". "Nous coordonnons les réunions et actions entre les différents services : IT, marketing, juridique", explique Cédric Taravella. Un travail d'autant plus précieux que ce genre de projet implique d'avoir une logique collégiale, pour ne pas faire en sorte qu'un département impose sa vision aux autres. "Le risque, c'est que l'IT donne une définition trop technique du projet et que le marketing fasse abstraction de certaines difficultés techniques, comme par exemple dans le rapatriement de données", pointe Emmanuel Brunet.

Pas toujours évident de faire travailler ce petit monde et de dépasser les intérêts de chacun. "Le succès d'une collaboration réussie, c'est de montrer à chacun ce qu'il y gagne", note Romain Chaumais. Cela implique de faire comprendre à l'équipe marketing que, oui elle irait plus vite en branchant Adobe Campaign directement à la base CRM pour router ses emails, mais qu'en sautant la case data lake, elle y sera perdante sur le long terme. "A cause du RGPD, le juridique doit être impliqué au plus tôt, prévient en outre Romain Chaumais. Il aura notamment pour rôle de prioriser les éléments de la roadmap en fonction des risques." 

Et toujours :

Martech / Data Lake

Annonces Google