10 nouvelles idées reçues sur les Big Data

Les idées reçues sont faites pour être discutées...puis balayées. La Big data fait partie de ces sujets à fort potentiel d'idées reçues. Alors débattons en...

1. Les big data annoncent la fin de la théorie scientifique

Chris Anderson, ancien éditorialiste chez Wired, s'est rendu célèbre avec cette déclaration qui a fait couler beaucoup d'encre. C'est une personnalité très médiatique qui a déjà fait parler de lui par le passé avec des prédictions qui ne se sont pas toujours révélées vraies, notamment :
  • Que la longue traîne (les très nombreux produits peu vendus) pourrait collectivement générer autant de revenus que les best-sellers;
  • Que le web était mort avec l'avènement des applications mobiles.
En réalité les big data soulèvent un certain nombre de problèmes scientifiques qui demandent la collaboration de chercheurs en informatique, mathématiques et en sciences humaines.

2. Un bon data scientist doit être un excellent développeur

Le profil du data scientist, ou analyste de données en milieu professionnel, exige des compétences techniques en programmation informatique et en statistiques au sens large (apprentissage, fouille de données, intelligence artificielle, etc.). Néanmoins ces compétences, si excellentes soient-elles, ne sont que d'une utilité limitée pour une entreprise ou une personne. Il faut aller jusqu'au bout de la démarche, ce qui est le travail de l'expert métier, du chargé d'études, etc. Dans le monde universitaire, certains profils combinent ces deux types de talents. En effet, de plus en plus de sociologues, d'historiens, de politologues, s'approprient les outils informatiques et statistiques pour créer de nouvelles connaissances à partir des big data : ils savent pour cela dépasser un travail purement technique pour donner du sens et une utilité à leurs travaux.

3. Il y a une pénurie de profils compétents pour les big data

L'adoption des big data par les entreprises va reposer de moins en moins sur un besoin de recrutement. Il y a une maturation des outils libres et commerciaux qui va remplacer la question du recrutement par une question d'achat d'outil et de prestation. Pour les entreprises qui ont besoin et ont les moyens d'investir dans le recrutement d'un profil big data, plusieurs configurations sont possibles :
  • de plus en plus d'écoles proposent un cursus en analyse de données (EISTI, ENSAE, ENSTA, X, HEC, etc.);
  • de jeunes chercheurs capables d'analyser les données et de les comprendre sont prêts à passer dans le privé;
  • plutôt qu'un seul profil expérimenté, la gestion des big data par l'entreprise peut être traitée par une équipe avec des profils complémentaires plutôt spécialisés respectivement en informatique, en statistiques et en interprétation de données.

4. Le problème des big data, c'est la confusion entre corrélation et causalité

Cet argument est systématiquement brandi comme épouvantail par les détracteurs des techniques big data. En réalité le problème n'existe pas : seul un statisticien très novice (ou très mauvais) fera la confusion entre un rapport de corrélation et un rapport de causalité, qui repose sur des connaissances métier. A moins de juger le métier de statisticien à l'aune de ceux qui ne savent pas le pratiquer, cet argument n'a donc pas vraiment de sens.

5. Les big data créent des informations objectives

Parmi les promoteurs des big data, on constate souvent une croyance spontanée dans l'objectivité de la donnée. Les données seraient "vraies" parce qu'elles sont produites automatiquement et ne sont pas l'expression de l'avis de quelqu'un ; il y a aussi l'idée qu'une information chiffrée est préférable.
Le fait est que l'on peut faire dire n'importe quoi à des données, mais surtout, que les données ne "parlent" pas ; il faut donc les analyser, les interpréter, afin de produire des informations intéressantes pour les opérationnels métier. Ces informations sont subjectives dans le sens où elles reflètent un point de vue, celui du métier, mais c'est une subjectivité vertueuse, car productive, utile à la décision.

6. Les big data ne sont pas représentatives

Le pendant de la croyance dans l'objectivité de la donnée, c'est le rejet de leur capacité à créer de l'information utile. Dans les métiers des études et des sondages, la valeur de la donnée est fondée sur sa représentativité, c'est-à-dire la possibilité de faire des inférences entre un échantillon et la population entière d'individus représentés par les données. Il est en effet compliqué d'évaluer la valeur des big data à l'aune de ce concept car elles ne reposent pas sur le paradigme de la représentativité mais de l'exhaustivité, avec l'idée que le volume permet statistiquement de créer de l'information fiable; il est vrai cependant que ces méthodes sont émergentes et que le meilleur reste sans doute à venir.

7. Les big data aujourd'hui, c'est tout et n'importe quoi, c'est juste un buzzword

Il est vrai que beaucoup d'individus et d'entreprises ont proposé une définition des big data qui correspond souvent à ce que vend l'entreprise. Il n'y a pas de consensus sur la définition formelle des big data mais certains points sont incontestables :
  • l'informatisation des activités socio-économiques a généré des volumes sans précédent de données;
  • ces volumes soulèvent des enjeux techniques car il faut être en mesure de stocker, manipuler et analyser ces données;
  • ces enjeux techniques s'accompagnent d'enjeux théoriques car il faut construire de nouvelles méthodes et de nouveaux outils pour être en mesure de tirer parti de ces données.

8. Dès que l'on a des téraoctets de données, on fait des big data

Stocker des téraoctets de données ne pose qu'un problème : trouver des disques durs assez gros.
Si les données sont archivées, dormantes, et inutilisées, il ne s'agit que marginalement d'une problématique big data. En réalité les problèmes commencent lorsque l'on souhaite exploiter ces données : il devient alors nécessaire de trouver l'infrastructure technique adaptée, les outils algorithmiques appropriés et les analystes capables de tirer parti de ces outils.

9. Les big data sont un phénomène purement technique

En réalité il n'y a jamais de problème purement technique pour une entreprise. Si vous devez exploiter des données vous devez recruter des personnes ou identifier un prestataire pour cette tâche : vous avez donc des problématiques organisationnelles qui se posent avant même d'avoir touché aux données.
Par ailleurs, l'avènement des big data propose un changement culturel. Lié à la gouvernance des entreprises et à la prise de décision, les big data permettent de modifier ces processus de prise de décision. Plutôt que de décider par soi-même, ou par la discussion en salle de réunion, les big data promettent de rationaliser la prise de décision en la fondant sur les réponses apportées par l'analyse de données. L'aventure de l'entreprise dans les big data ne fait en fait que commencer une fois que son dispositif est en place.

10. Tout le monde peut et doit faire des big data

Les big data étant un changement culturel, il est parfaitement inutile pour une entreprise de céder à la mode et d'investir dans un dispositif de traitement des big data si elle n'est pas prête à sauter le pas. Beaucoup d'entreprises ne souhaitent pas changer et ce n'est pas la mise à disposition d'un outil qui va créer ce désir; celui-ci doit être le moteur de la mise en place du dispositif; il faut, comme toujours, définir les objectifs avant les moyens.
Par ailleurs, l'informatisation de l'activité socio-économique n'a pas créé de données pour tout le monde. Les entreprises du secteur numérique, et les géants du web en particulier, sont les grands gagnants de cette mutation ; néanmoins tout le monde n'est pas riche dans l'économie de la donnée, et certaines décisions ne sont appuyées par aucune donnée.

Big Data