Big Data : où en est-on ?

Le Big Data bouleverse depuis maintenant quelques années les marchés et les différentes pratiques des acteurs.

Vers une exploitation des données pertinentes

Travailler sur des données n'est pas une activité nouvelle; cela fait plusieurs dizaines d'années qu'il s'agit d'un lieu commun pour les grands acteurs de la finance et de la grande distribution. La nouveauté est liée à la multiplication des applications mobiles, des objets connectés, des expériences web, qui ont multiplié le volume de données à traiter. L'autre aspect est la diffusion très rapide de ces applications, qui permettent à de nouveaux acteurs d'en profiter.
Aujourd'hui, il y a plusieurs centaines de milliers d'entreprises de par le monde qui collectent des données d'un million d'utilisateurs ou plus, directement ou indirectement. Les données sont là, mais surtout elles sont partout !
Des données sont donc bien présentes et en quantité. La question serait plus de qualifier ces données : sont-elles ‘propres’ c’est-à-dire uniformes et régulières. Ou sont-elles plutôt de qualité variable et noyées dans une masse d’autres informations non pertinentes ? Dans le cas de l’extraction de données de contact, la valeur de l’information tient bien à la qualification de la donnée (ce numéro est bien un n° de mobile) et à sa ‘fraîcheur’ (à telle date, ce numéro appartient à telle personne).
La première question à se poser avant de se lancer dans un projet Big Data serait probablement : puis-je disposer de données suffisamment fiables et qualifiées ou bien suis-je capable de collecter, nettoyer ou qualifier un volume de données suffisant pour mon projet ?

Quel est l’intérêt d’exploiter ces données ? Pour quelles applications ?

Aujourd'hui, collecte et exploitation de données n'ont  de sens que si nous cherchons à optimiser et automatiser la réponse à un problème. Nous sommes passés d'une ère où 80 % de l'effort était concentré pour comprendre ce qui s’est passé, à l'ère de l'automatisation (c’est-à-dire que faire). L'objectif n'est plus seulement de comprendre les phénomènes via la donnée, mais d'améliorer la performance d'un processus existant. Pour ce faire, point de théorie, nous essayons car nous sommes à l'époque de l'A/B test.
Aussi, les données n’ont de valeur que si elles sont interprétées dans un contexte précis. Ce qui fait la valeur d'une information, un clic sur une page par exemple, est bien souvent l'événement qui précède celui-ci, à savoir le clic précédent, ou encore les caractéristiques de la personne qui réalise l'événement, son but, etc. Toutes les informations collectées doivent pour être utiles être représentées et reliées entre elles en fonction de l'exploitation qui en sera faite : un numéro de téléphone n'a d'utilité que s'il est associé à une personne et qu'on peut évaluer sa véracité, comme par exemple : est-ce aujourd’hui le 'bon numéro' pour joindre cette personne ? Ce que nous voulons faire des données doit guider la modélisation des informations. Les meilleurs algorithmes n'auront de résultats pertinents que si le modèle de données qu'ils attaquent est bien pensé, pour un objectif précis. Les corrélations absurdes (‘spurious correlations’) sont de bons exemples de ce que nous obtenons avec des données de qualité mais non modélisées avec un objectif précis.

L’efficacité du Big Data à l’épreuve

Il ne faut pas voir le Big Data forcément comme une révolution dans la production de valeur, mais plutôt dans la manière dont elle est produite. Les algorithmes Big Data sont conçus aussi bien pour structurer des données (passer d’une signature d’e-mail à une fiche contact), relier des données entre elles (entre les relevés de qualité de l’air et les affections respiratoires, par exemple), visualiser les informations (cartographie  des achats de mobile par système d’exploitation).
Les Big Data sont en réalité une boite à outils très sophistiquée qui implémente les raisonnements humains : de même que les premiers ordinateurs ont été conçus comme des super-calculateurs et ont ouvert la voie aux grandes innovations technologiques en aéronautique par exemple, les Big Data permettent de brasser des masses d’informations humaines complexes et hétérogènes et permettront des innovations sociales importantes aussi bien pour les chercheurs (en sociologie, dans le domaine de la santé, …) que pour les entrepreneurs, induisant des changements profonds dans les techniques de marketing, du commerce, de la finance …
Les Big Data permettent à tout le monde  de raisonner sur tous les types de données impliquant l’Homme, la société et l’environnement.
Dans chacun de ces cas d'utilisation du Big Data, on cherche à optimiser et automatiser les décisions prises par des analystes humains. Les bases de données Big Data ont remplacé le tableur. Il est de même pour l’œil où nous utilisons dorénavant un algorithme qui a appris automatiquement sur un historique de données. Il s'agit d'une révolution qui a débuté il y a près de 15 ans déjà, et s'opérera encore dans les deux décennies à venir. Elle touche l’ensemble des métiers qui appréhendent les données : marketing, politique de prix, logistique, réseaux de distribution, analyse du risque.
Est-ce que le succès sera au rendez-vous ? Ceux qui investissent massivement dans la construction des "usines" du Big Data  en font en tout cas le pari. 

--------
Chronique co-rédigée par Gaëlle Recourcé, directrice scientifique d’Evercontact, et Florian Douetteau, co-fondateur et CEO de Dataïku.