Retour sur la conférence Big Data Paris 2014

Quels seront les impacts sur les organisations et les entreprises d'un traitement massif et généralisé des données ? Quelles sont les caractéristiques souhaitables pour des algorithmes d’analyse prédictive ? Quels sont les enjeux du marketing digital dans une nouvelle relation de confiance entre clients et entreprises ?

Impressions

Le déluge d’informations, au sens propre du terme, c’est au CNIT qu’il a eu lieu au début de ce mois à l’occasion de la 3ème édition du congrès Big Data Paris. Avec ses dizaines de conférences, de tables rondes et de stands de démonstration, l’évènement avait en effet de quoi submerger les esprits les plus curieux. Dans ces conditions, présenter une synthèse cohérente d’un tel évènement tient de la gageure, tant le sujet paraît aujourd’hui protéiforme, au risque même de devenir un jour un véritable fourre-tout de l’IT. Cependant pour le visiteur qui, comme moi, s’y rend pour la première et, une fois immunisé contre le rabâchage des slogans de circonstance[1], l’impression qui prédomine reste : « c’est là qu’il faut être ! » Voilà un aperçu kaléidoscopique du futur de l’IT où l’on retrouve pêle-mêle toutes les innovations technologiques, métiers ou marketing du moment, qu’elles soient futiles, inquiétantes ou potentiellement révolutionnaires.

La cause première de tout ce chamboulement est bien connue. Les prix en chute libre du stockage depuis une dizaine d’années font qu’il est désormais possible pour une organisation de littéralement tout stocker. Sur cette même période des technologies de traitement massivement parallèles, réservées jusque-là à quelques géants du web, sont devenues accessibles à toutes les entreprises, si bien qu’il est désormais envisageable pour elles de littéralement tout analyser. Passer de «  tout stocker » au « tout analyser » pour en tirer un avantage compétitif ne sera cependant pas une sinécure. Le pas à franchir en effet est immense et il n’est pas, loin s’en faut, purement technologique. Il sera largement culturel et contribuera à la transformation digitale des entreprises, de l’économie, voire à celle de notre civilisation. Certains oracles s’autorisent même à prophétiser que le logiciel va littéralement dévorer le monde, un thème repris à l’envi par de nombreux conférenciers.

La redistribution du pouvoir n’est pas le moindre des effets d’une approche objectivée de la prise de décision. Prises jusque-là par quelques individus, grassement rémunérés sous prétexte d’expérience et d’intuition, assis dans de gros fauteuils capitonnés, elles seront progressivement challengées par des analyses statistiques à grande échelle qui contribueront à rendre les décisions plus froides. Dans ce même sillage de redistribution des rôles, on voit d’ores et déjà apparaître des nouvelles fonctions comme celles de data scientist, d’expert en e-réputation ou de community manager qui joueront un rôle central dans les entreprises digitales. De nombreuses activités existantes seront-elles aussi impactées car elles auront à prendre en compte un paysage technologique plus mouvant que jamais où l’expérience, bien souvent, fera défaut. En première ligne : le management. Après les équipes de développement, il devra lui aussi consentir à devenir agile. D’un rôle de gestionnaire il s’agira de passer à celui d’agent de l’innovation. Valoriser la curiosité, instaurer une culture du prototypage et faire la place belle à l’apprentissage par l’erreur, telles seront ses rôles. Trouver le bon équilibre entre la créativité humaine, qui est une projection dans l’avenir, et l’analyse factuelle de données, qui est un retour vers le passé, fera inévitablement l’objet de tâtonnements dans beaucoup d’entreprises. Enfin, les relations entre les entreprises et leurs clients seront-elles aussi chamboulées, ces derniers étant plus enclins à accorder leur confiance aux avis postés sur les réseaux sociaux par leurs pairs qu’aux lénifiantes déclarations d’autosatisfaction auxquelles se résumait il y encore peu la publicité.

On le voit, un souci d’exhaustivité des thèmes abordés durant ce salon conduirait à faire de ce billet un inventaire à la Prévert auquel je préfère substituer un résumé de deux interventions qui m’ont parues représentatives des enjeux du Big Data.

Quels sont les algorithmes qui comptent ?

Casquette rouge fluo vissée sur le front, Ted Dunning a l’allure débonnaire de ceux pour qui l’habit, depuis belle lurette, ne fait plus le moine, en quoi il se distingue d’ailleurs de l’allure un peu compassée de l’audience à laquelle il s’adresse. Ted est architecte en chef chez MapR dans la Silicon Valley et vient exposer ses idées sur un sujet au cœur même de l’analyse des données : « Quelles sont les caractéristiques des algorithmes de machine learning utiles dans la vraie vie (comprendre ici : le business). Ceux-ci se distinguent nettement, fait observer Ted, des algorithmes qui vaudront des palmes académiques à leur inventeur. Dans cette seconde catégorie prévalent usuellement des algorithmes qui abordent des problèmes nouveaux ou ceux qui fournissent un éclairage théorique original sur des aspects bien identifiés. Dans la première catégorie en revanche, nous explique Ted, ce qui est important ce sont les cinq caractéristiques suivantes :

(1)    La « déployabilté » : les algorithmes astucieux et très élaborés ne sont d’aucune utilité s’il est impossible de passer à l’échelle sur un framework de distribution du calcul comme Hadoop par exemple.

(2)    La robustesse : la vraie vie est pleine de données « sales », à la fois incohérentes et incomplètes, avec lesquelles il faudra compter. Les algorithmes délicats n’y ont donc pas leur place, il s’agit de privilégier une forme de rusticité.

(3)    La transparence : les applications qui intègrent le machine learning devraient en principe voir leur performance s’améliorer au fur et à mesure que progresse leur processus d’apprentissage. Pourtant il arrive aussi que ces performances se dégradent et il est crucial que ces situations soient détectées au plus vite par l’algorithme lui-même.

(4)    L’adéquation aux compétences disponibles : pour être utilisable en pratique, un algorithme ne devrait pas exiger pour son implémentation ou son optimisation d’expertise trop pointue.

(5)    La proportionnalité : la quantité d’énergie ou de temps investi dans l’amélioration ou l’optimisation d’un algorithme doivent être proportionnelle, au moins, au gain apporté. Inutile d’investir un an de R&D pour une amélioration de 10%.

Pour illustrer ce parti-pris de robustesse et de pragmatisme, Ted évoque les systèmes de recommandations auxquels il a largement contribué. Dans ce domaine, explique-t-il, les progrès les plus significatifs de ces dix dernières années ne sont pas venus d’algorithmes très sophistiqués mais de l’observation, d’une simplicité quasi biblique, que l’ajout d’un bruit aléatoire aux recommandations proposées à un utilisateur favorise une « exploration » efficace de ses goûts. Dès lors, l’expérience démontre que la pertinence à long terme des suggestions s’améliore, même si à un instant donné le bruit additionnel les dégrade.

Les suggestions des moteurs de recherche ou les systèmes de traductions automatiques comme ceux de Google ont eux aussi fait d’énormes progrès ces dernières années. Tous utilisent des algorithmes de machine learning relativement peu élaborés mais exploitent une énorme masse de données. Autant d’exemples qui démontrent, selon Ted, la pertinence de ces approches rustiques.

Une table ronde sur le marketing digital

Face à l’efficacité redoutable d’un marketing qui, de plus en plus, s’appuie sur des algorithmes et sur une récolte massive de données clients, faut-il instaurer de nouveaux principes de régulation ? Autour de la table pour en débattre, deux spécialistes du marketing et de la communication, Mats Carduner président de Fifty-Five, Olivier Mathiot directeur marketing chez PriceMinister et Henry Peyret, Principal Analyst chez Forrester Research. L’enjeu ici est de taille, puisqu’il conditionne l’adoption des technologies big data par les entreprises. Des inquiétudes se font jour en effet, non seulement chez les internautes soucieux de ne pas être traqués à chacun de leur clic, mais aussi, et le phénomène est plus récent, dans les entreprises inquiètes des conséquences légales imprévisibles et de l’impact négatif sur leur image d’un déploiement de ces nouveaux outils.

Deux tensions sous-tendent le débat. La première est liée au principe de finalité sur lequel se fonde les législations actuelles en matière de protection des données. Celui-ci stipule que chaque donnée enregistrée doit avoir un usage bien défini. Or les données utiles dans l’analytics s’avèrent être celles qui sont réutilisées dans des contextes différents de ceux pour lesquels elles avaient été prévues à l’origine. La seconde, similaire, est liée à l’anonymisation des données. Plus des données auront été anonymisées pour éviter les recoupements, moins elles sont utiles pour le marketing.

Sans grande surprise, les deux experts en marketing enfourchent rapidement le crédo libéral qui voudrait que le meilleur juge de paix pour arbitrer ces questions délicates reste en définitive le marché. Un consommateur se sent-il traqué ? Eh bien, il délaissera le site qui le harcèle, contribuant du coup à l’autorégulation de l’écosystème publicitaire. Henry Peyret n’est pas de cet avis et pense plutôt que les clients-citoyens seront demandeurs de plus de régulation et qu’il faudrait dès aujourd’hui leur offrir des possibilités d’opt-out de leur participation à une récolte de données. Mieux encore, il faudrait que chaque consommateur puisse savoir ce que lui coutera une telle décision. Tel est le prix du retour à la confiance estime H.P. Sur la confidentialité, O.M. défend le point de vue selon lequel celle-ci serait en dernière analyse liée à notre rapport à l’intimité, ce que l’on dit de soi et à qui on le dit, perception qui varie largement d’une génération à l’autre comme en attestent les pratiques sur les réseaux sociaux. Selon O.M. il y aurait donc d’un côté les jeunes qui façonnent les nouveaux usages et de l’autre les « un peu moins jeunes », plus craintifs. Chaque nouveauté technologique, plaide-t-il, apporte son lot de craintes et, par suite, une rupture générationnelle. Les banques et les commerces traditionnels n’avaient-ils pas eux aussi prédit l’apocalypse lorsque sont apparues les premières plateformes d’e-commerce ? Une réalité sociale que le marketing doit simplement exploiter.

H.P. revenant à la charge argue que sur des choix aussi cruciaux, susceptibles d’influer nos comportement individuels et collectifs, il n’est pas sage de laisser entre eux les seuls experts marketing. Un point de vue que je partage. Tout comme il y a eu des traders fous il y aura inévitablement un jour des marketeurs fous craint H.P. Et ceci pour les mêmes raisons : le fait d’être piloté du matin au soir par, je cite H.P : « le fric, le fric, le fric ». J’ajoute pour ma part, qu’il y a sans doute lieu de s’interroger sur les priorités d’une civilisation qui déploie des prodiges d’ingéniosité pour concevoir des systèmes capables  de nous envoyer un texto durant le seul dixième de seconde où nous pourrions être disposé à acquérir un brownie au chocolat noir.

Et H.P. de conclure pourtant sur une note optimiste. Etudes à l’appui, il se dit convaincu que dans un futur proche le principal différentiateur entre les entreprises de services sera l’adhésion à des valeurs (la fameuse mission value) connues et vérifiées par les clients. Un juste retour à la quête du sens en quelque sorte. On aimerait le croire.

[1] Exemple : « Store Everything, Analyze Everything, Build the Right Thing! ». Pour un effet optimal, répéter dix fois chaque soir avant de s’endormir.

Big Data