Big Data, cet inconnu

Big Data, cet inconnu ! Rien de ce que l’on entend n’est juste. Oui, c’est une révolution, mais pas celle que l’on croit.

J’entends beaucoup parler de Big Data. J’ai pensé qu’il était temps de mettre à jour mes connaissances. Bien que je me sois spécialisé dans la conduite du changement, toute ma carrière a été marquée par le traitement de données. J’ai été responsable des « algorithmes généraux » de la partie FAO de Dassault Systèmes. Plus tard j’ai travaillé, comme consultant, pour un joint venture entre deux multinationales. Il s’agissait d’analyser le marché potentiel du savoir-faire d’un groupe de mathématiciens. (Le marché civil était colossal, mais elles ont choisi le renseignement…) J’ai aussi accompagné le lancement de start up.

Voici le résultat de quelques entretiens. J’espère que ce qui en sort stimulera votre réflexion.

J’ai toujours tort

Je pensais que Big Data était la promesse d’un avenir totalitaire, bien au-delà des cauchemars les plus violents d’Orwell. Un monde dans lequel Big Google saurait tout de nous, jusqu’à nos pensées et à notre code génétique. Il n’en est rien.

Elasticité et démocratisation

Le monde des systèmes d’information a connu un changement de paradigme, me dit-on. Le système d’information traditionnel c’est « Oracle et Windows ». Les données, nécessaires à la gestion de l’entreprise (Windows), sont stockées dans des bases de données relationnelles (Oracle), elles-mêmes installées dans des serveurs, de plus en plus sophistiqués et coûteux, à mesure qu’ils brassent plus d’informations.

Ce modèle n’est pas adapté à Internet. Internet génère une quantité colossale de données hétérogènes dont la nature n’a rien à voir avec celles que traitait le système d’information traditionnel. Google a le premier découvert cette réalité. Il a créé une architecture logicielle et matérielle adaptée. Sa caractéristique est « l’élasticité ». C’est un monde rustique de stockage et de traitement répartis. Les serveurs sophistiqués sont remplacés par un assemblage de machines frustes, que l’on change quand elles cassent. La gestion de projet s’est transformée. Désormais la structure de stockage est définie au fur et à mesure. On parle de « développement agile » et « d’agilité ».  

Parallèlement, il y a eu « démocratisation » des outils de traitement de données. Ce que l’on appelle « Machine Learning » ne concerne pas une avancée dans l’algorithmique : les techniques utilisées sont connues depuis longtemps. Mais elles étaient réservées au petit nombre. Par ailleurs, contrairement au monde « Oracle et Windows », orienté gestion, l’objet principal du Machine Learning est statistique (extraire la signification d’une masse de données de peu de valeur). Cette « démocratisation » a permis le phénomène « lean start up ». Avec peu de moyens et vite, on monte, par exemple, une boutique en ligne de type Amazon.

Guerre de titans

L’écosystème Oracle et Windows affronte celui de Google. Il est dynamique et foisonnant. Le dinosaure Google y est entouré de petits animaux qui grandissent et disparaissent. Il est mouvant. De nouvelles solutions naissent sans arrêt, se chevauchant les unes les autres. D’ailleurs, on n’a aucune certitude quant à leur durée de vie. Ce qui décontenance les entreprises, qui aiment les solutions pérennes. Ce monde est rythmé par la recherche et développement de Google. Régulièrement, elle met au point de nouvelles techniques. Après avoir exploité son avance pendant quelques années, Google publie ses travaux. La fondation Apache en fait des logiciels Open Source. Puis ils sont transformés en des produits utilisés par l’écosystème de Google.

Le vrai Big Data: Volume, Velocity, Variety, Value

Mais il y a aussi le « vrai » big data. Le monde des matheux. Celui qui me suit depuis mes origines. Et là, il y a eu évolution, importante, mais pas révolution. Son nom : « Volume, Velocity, Variety, Value ».

Ce que l’on sait faire maintenant, et que l’on savait moins bien faire avant, c’est traiter des données exhaustives, et non plus des échantillons, données de natures multiples, et surtout des flux « temps réel » (pas de la donnée statique, comme jadis). Employer l’attirail du Big Data n’est justifié que si l’on cherche du décisif (Value). « Il faut vouloir optimiser quelque-chose, ouvrir de nouveaux horizons… » m’a-t-on dit. Ce sont surtout les usages qui changent. Au lieu d’analyser des données passées, on est dans l’aide à la décision et la prospective.

Comme souvent, les innovateurs ne sont pas où on le croit. L’industrie serait pionnière, avec la maintenance des machines, la recherche d’économie d’énergie, l’optimisation de processus de fabrication complexes... Le secteur financier est à la traîne. Google envisagerait, d’ailleurs, de « disrupter » des assureurs assoupis.

Le problème est humain !

Comment mener un projet Big Data ? Oubliez l’illusion de l’algorithme qui vous donne des idées que vous n’aviez pas ! Big Data ne sourit qu’à l’esprit éclairé. Il permet de résoudre des problèmes bien posés. Et, pour les trouver, les entreprises cherchent l’inspiration chez les autres. « On apprend des autres. » Or, vu l'investissement que représente un projet Big Data, il faut une question qui impressionne le top management.

C’est alors que les difficultés commencent. En effet il y a « rupture totale ». On doit faire collaborer des gens « en silo ». Un projet Big Data demande de recréer une organisation au sein de l’entreprise pour capter et traiter l’information. Il faut aussi inventer des algorithmes et donc disposer de chercheurs du meilleur niveau mondial. Sans compter que l’entreprise n’a pas les compétences pour faire le pont entre une vision stratégique des affaires et la compréhension des outils utilisés par le Big Data. Il lui faut des « data scientists ». Profil rare, car ce doit être des sortes d’humanistes de la Renaissance, et non des autistes ascendant Silicon Valley. Et, quand Big Data a produit une percée, il faut transformer l'entreprise et son écosystème pour la mettre en œuvre... A nous la résistance au changement !

N’écoutez pas les cancrelats, et devenez lean

Formidable nouvelle ? Ce qui ressort de ces entretiens est que l’efficacité commerciale du gang Oracle a plombé les systèmes d’information des entreprises et leurs comptes. Le paradigme Google leur permet de retrouver leur « poids de forme », de devenir « lean ». En outre, la démocratisation et l’avancée de l’algorithmique ouvrent la possibilité de gros gains de productivité par réinvention de modèles économiques. Mais, pour réussir, il va falloir faire preuve de génie.

Bref, ne croyez pas ce que vous disent les marketeurs de tout poil. (Un éminent mathématicien les qualifie de « cancrelats ».) Comme pour toute innovation, rien n’est écrit, tout est à inventer. C’est à vous de tirer les marrons du feu.

Big Data