"Enlarge your data" : promesses et réalités du Big Data

Aider les entreprises à réduire les risques et améliorer la prise de décision, permettre l'analyse prédictive et optimiser la relation aux clients : telles sont les promesses du Big Data.

"Le big data, c’est comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, donc tout le monde prétend le faire." Dan Ariely
Big Data. C'est certainement le buzzword de la planète IT en 2014. Tout le monde en parle, mais peu de sociétés ont vraiment franchi le pas. Pourtant une étude de la société Fullsix, réalisée auprès de 100 décideurs français marketing et communication, montre que 81 % d'entre eux sont convaincus de l'importance du Big Data, et 52 % pensent même que la Big Data deviendra incontournable dans un futur proche. Cependant, les résultats de l'étude montrent également une faible mise en œuvre : seulement 18 % des annonceurs ont concrètement lancé des projets, dont 6 % utilisent la Big Data au quotidien.
Sur le papier, le Big Data (ou mégadonnées en français) a pourtant de quoi séduire : assurer la gestion d'une gigantesque quantité de données structurées, semi structurées ou non structurées, quand les outils classiques de gestion de bases de données se voient dépassés. Avec toujours le même objectif : tirer toute la quintessence de l'analyse de ces données, ce nouveau « pétrole numérique », pour anticiper l'avenir, tel que les attentes des clients par exemple.
Reste que la pluralité des données produites aujourd'hui dans le monde (qui peuvent désormais provenir de smartphones, de puces RFID, des différents capteurs placés dans les objets connectés…), et l'explosion du volume qu'elles représentent, impliquent une refonte de leur capture, leur stockage, leur recherche, leur partage, leur analyse et leur visualisation. Ce qui peut vite freiner les ardeurs des entreprises et soulever de très nombreuses questions.

Big Data : promesses...

Aider les entreprises à réduire les risques et améliorer la prise de décision, permettre l'analyse prédictive et optimiser la relation aux clients : telles sont les promesses du Big Data. Pour les décideurs marketing et communication (toujours selon l'étude menée par Fullsix) le Big Data s'applique aux problématiques du CRM (97 %), du web (97 %), du mobile (91 %), de l'achat d'espace (84 %) et de l'expérience en magasin (77 %).
Mais, plus globalement, presque tous les domaines d'activités professionnelles peuvent trouver un intérêt dans le Big Data : analyse tendancielle ou gestion des risques (commerciaux, assuranciels, industriels, naturels..), politiques (campagnes électorales), médecins (épidémiologie), météorologues (changements climatiques), professionnels de l'énergie (smartgrids), etc. Potentiellement, presque tout le monde peut y trouver son compte.

...et réalités

Mais le Big Data n'est pas une formule magique. Ce n'est pas parce que le volume des données augmente rapidement dans le monde que le volume des données « utiles » augmente d'autant.
Ce dernier est en effet borné aux questions que l'entreprise se pose. « Le Big Data, c'est le mythe du Data Scientist qui va chercher des patterns subtiles en explorant la Data, et au bout des utilisateurs qui détiennent un service packagé avec deux gros bouton rouge et vert, pour générer plus de trafic ou plus de chiffre d'affaires », explique avec humour Florian Douetteau, CEO de Dataiku, société spécialisée dans les solutions pour Data Scientists.
Un projet Big Data n'est pas qu'un projet technologique. Il doit relier un problème métier à un modèle mathématique, en s'attaquant par exemple aux problématiques de fidélité des clients, de fraudes (en déterminant les profils à risques), de gestion des stocks, d’ordonnancement et de ranking (dans quel ordre je dois présenter les choses), de prix, d'anticipation de séquences d’événements, etc.
Autant de problématiques qui pourront être automatisées avec des algorithmes. « Avec le Big Data, notre but est de trouver des leviers stratégiques, en améliorant l'expérience utilisateurs, l'analyse et l'innovation » confie Arthur Blanchon, responsable Big Data chez vente-privée.com

Quelles technologies derrière la Big Data ? Hadoop n’est pas seul sur le marché !

« Il n'est pas facile de prendre des décisions technologiques concernant le Big Data de nos jours. Si j'étais CTO en ce moment, je ne serais pas vraiment à l'aise, parce que le nombre d'offres technologiques est supérieur à la demande. II y a presque plus de technologies disponibles que de problèmes », ironise Florian Douetteau de Dataiku.
Un projet Big Data s'articule autour de plusieurs modules, chacun d'eux pouvant être élaboré à partir des nombreuses offres technologiques. Ainsi les Elastic Search et autres Mongo Db peuvent communément répondre aux enjeux de stockage temps réel de type NoSQL, tandis que Hadoop, Spark ou un mix Cassandra/Spark sera utile pour le stockage massif.
En fonction des projets, il peut également être utile d'intégrer du Machine Learning, avec des technologies telles que Weka ou ML Base. Et plus simplement, le traitement des données en entrée du système (en temps réel ou non) représente à lui seul un enjeu auquel plusieurs technologies sont en mesure de répondre.
In fine, Il existe des dizaines de solutions pour chaque module d'un projet Big Data, soit des centaines d'architectures possibles. Dès lors, pas facile de choisir ?

Créé en 2005, Hadoop a aujourd’hui le vent en poupe

« Nous avons deux flux BI qui aliment notre Data Warehouse. Le premier fonctionne en temps réel et provient de nos applications. Il s'agit en fait des logs applicatifs qui sont envoyés dans Hadoop puis importés dans Vertica, explique Gaëlle Périat, Data Nerd en charge du Big Data chez Blablacar, la plateforme de covoiturage présente dans 13 pays. Les données externes, qui peuvent provenir de Facebook ou Twitter, représentent le deuxième flux. Il est géré par Data Science Studio de Dataiku, les données sont ensuite importées dans Vertica ».
Hadoop, un framework Java libre destiné à faciliter la création d'applications distribuées et scalables, a la faveur de nombreux participants. « Hadoop est très bien positionné pour répondre au besoin de la data, confirme Christophe Bourguignat, Senior Data Scientist travaillant pour un grand groupe d'assurance. Il permet une croissance itérative. C'est une solution très élastique, offrant une croissance progressive, selon l'apparition des besoins ». Christophe Bourguignat met également en lumière Elastic Search (NoSQL) pour analyser des données dans un bac à sable en toute sécurité. Il conseille enfin de s'intéresser dès à présent à Spark.

Spark le fédérateur d’une communauté de près 400 contributeurs

Christophe Bourguignat conseille par ailleurs, au même titre que Florian Douetteau de Dataiku, de s'intéresser à Spark. Le nouvel écosystème Spark, porté entre autre par Databriks et Yahoo, est une « véritable tendance techno 2014 dans le domaine du Big Data », selon les 2 protagonistes. En bref, Spark est un nouveau framework de calcul distribué en mémoire, avec une première couche dédiée au calcul, et des couches associées permettant de faire de l'apprentissage automatique, avec un système temps réel.
« Spark pourrait devenir un fédérateur et imposer son écosystème dans le domaine de la Big Data, et simplifier les problématiques d'architectures qui se posent lors du lancement d'un tel projet » ajoute un Florian Douetteau enthousiaste.

Digérer un volume important de données : la loi des 3 V

Volume (des données), Vitesse (des analyses), Variété (des formats) : digérer une très importante masse de données provenant des sources les plus variées avec un traitement proche du temps réel, voici les 3 grands principes qui régissent le Big Data. Des principes qui sont de plus en plus facilement applicables, notamment grâce au prix du stockage en RAM qui ne cesse de baisser.
« Nous faisons l'acquisition de 500 à 1000 documents à la seconde, soit environ 2 milliards de documents par mois, indique Philippe Guillebert, responsable infrastructure chez Linkfluence, société de Social Media Intelligence. Et pour gérer ces données, nous avons une capacité de stockage de 50 To ».
Mais il n'est pas nécessaire de traiter des gros volumes de données pour obtenir des résultats pertinents. Ce qui est le cas de petites sociétés clientes avec une communauté très forte. « Nous n'utilisons pour l'instant qu'1 To, annonce quant à lui Jean-Noël Rivasseau, CTO et fondateur de Kameleoon, société spécialisée dans l'A/B testing. Mais certains clients peuvent tirer beaucoup de valeur avec seulement quelques Go de données ».

Big Data : quand ont-ils sauté le pas ?

Dans de nombreux cas, c'est une limitation technologique qui déclenche un projet Big Data. Il s'agit soit d'un effet palier (limitation dans les temps d'analyses, de volumétrie ou de gestion des formats avec le système en place), ou tout simplement pour mettre en action des leviers business qui requièrent du Big Data.
« Historiquement, LinkFluence utilisait MySQL, qui fonctionnait plutôt bien. Mais quand on a voulu capter "tout" Internet, on s'est retrouvé face à un mur avec nos technologies en place, se souvient Philippe Guillebert. Il n'y a pas eu de déclencheur managérial, mais un besoin logiciel pour franchir un cap ».
Dans certains cas, le Big Data peut aussi permettre à une société de se développer à l'international, en lui apportant un certain nombre de données nécessaires à l'établissement de son business plan. C'est le cas de Blablacar. « Nous avions une courbe de croissance très importante, et la question du développement vers l'étranger s'est posée, détaile Gaëlle Périat. Nous avions besoin de données externes, comme le prix de l'essence ou des courbes démographiques de certains pays. En parallèle, nos logs applicatifs croissaient de façon importante, et nous n'exploitions que peu de ces données. Le Big data est alors devenu une évidence ».

Recueillir les données, la première difficulté

La Big Data a besoin de données, de beaucoup de données. Encore faut-il pouvoir y accéder. Données éparses et hétérogènes, entreprises fonctionnant essentiellement en silos, risques d'arrêts de production lors de récupération des données, etc. : alimenter un Data Warehouse n'est pas toujours une mince affaire !
« Il est indispensable de changer les esprits des équipes autour de la données, explique Arthur Blanchon de vente-privée.com. La fonction de pure support (BI) devient une entité qui contrôle la cohérence des données, du process, etc. Il faut aider les opérationnels à s'auto-corriger ». Mais encore faut-il que ces derniers coopèrent. Se pose alors la problématique du sponsor.
Puisqu'un projet Big Data est transverse par nature, un sponsor de haut niveau en interne saura apporter motivation et cohérence. Idéalement, ce sponsor sera issu de la direction générale. « Un sponsor doit être de haut niveau, pour aligner les intérêts de chacun », commente Christophe Bourguignat, Data Scientist. « Le DSI est aujourd'hui directeur des opérations. Mais c'est le Directeur Général qui a lancé le sujet », poursuit Arthur Blanchon de vente-privée.com.

S'entourer des bons profils et budgétiser : des étapes essentiels du Big Data

Projet bien défini, solutions technologiques approuvées, sponsor désigné : l'étape suivante est l'alignement du budget. Mais à combien est le ticket d'entrée pour un projet Big Data ? Bien sûr, il y a quasiment autant de réponses que de typologies d'entreprises. Par exemple, si  350 000 euros ont suffi Kameleoon pour se lancer, vente-privée.com y a consacré pour un budget important.
La nouveauté, c'est donc l'accessibilité du Big Data aux entreprises de tailles intermédiaires. Il n'a fallu "que" 200 000 euros à Blablacar (50 % de software, 25 % de hardware, 25 % de consulting) ou Lynkfluence (infrastructure et serveurs) pour débuter leur projet Big Data. « Les coûts hardware et les coûts technologiques réduits permettent aujourd'hui de lancer un projet Big Data dans des groupes moyens, ce qui n'était pas possible il y a 4 ans », commente Florian Douetteau.
Mais une fois le budget défini, la problématique de recrutement est sans doute l'un des enjeux majeurs d'un projet Big Data. « Les compétences fortes sur les technologies Big Data sont encore ultra rares » se lamente Jean Noël Rivasseau. Ce qui semble une évidence au simple énoncé des connaissances requises, la perle rare devant à la fois briller en mathématiques, en informatique/IT, tout en ayant une bonne compréhension des enjeux business et des problématiques métiers.
Une des réponses à cette problématique de recrutement semble être la promotion interne, voire la cooptation. « A chaque nouveau besoin, le profil défini semble impossible à trouver en première instance, confie Arthur Blanchon. Mais par le réseau, la ressource miraculeuse apparaît rapidement ». Sans oublier également le formidable vivier que représentent les communautés françaises autour du Big Data. Et elles ne manquant pas, avec, pour ne citer qu'elles : Paris Data Geek, Paris Machine Learning, Paris Data Business, Data Tuesday, Kaggle Paris Meetup et Parisdatascience, etc.
De quoi faire facilement son marché de compétences avant de se lancer à corps perdu dans son projet Big Data !

Autour du même sujet