Le modèle économique actuel de la donnée s’enraye… mais nous pouvons le relancer

Pour les entreprises en pleine transformation numérique, les données sont devenues une ressource incroyablement précieuse. Mais pour beaucoup d’organisations, le modèle économique de la donnée est enrayé. Car plusieurs tendances s’agrègent.

Le premier facteur est la croissance inévitable du volume de données que les entreprises créent et traitent. Ces données émanent des applications, de sites internet, des appareils mobiles, et de nouvelles sources de données semblent émerger tous les jours. Pour ne donner qu’un exemple, la multiplication des objets connectés contribue à générer encore plus de données provenant d’innombrables capteurs qu’ils soient situés dans des bâtiments, voitures, appareils électroménagers etc. Ces nouvelles sources de données viennent s’ajouter à toutes les autres initiatives autour des big data déjà en place dans beaucoup d’entreprises.

En parallèle, toute une nouvelle vague de technologies contribue à l’explosion des données ; c’est le cas de l’intelligence artificielle, du machine learning et de l’analyse prédictive. Le taux de croissance des données, qu’elles soient générées par des hommes ou par des machines, est impressionnant.

Les entreprises comprennent généralement bien la valeur stratégique des données qu’elles stockent, mais, pour beaucoup cette course incessante aux données devient incontrôlable. Ainsi, le cabinet d’analyste IDC estime que d’ici 2025, le monde aura créé et reproduit 163 zettaoctets de données, soit une multiplication par dix du volume de données créées en 2016.

Au-delà de la croissance étourdissante du volume de données, le nombre d’employés dans les entreprises qui demandent à accéder aux données croit également. L’émergence de nouveaux rôles tels que les data scientists, les ingénieurs de données, les data stewards créent encore plus de demande. Dans un récent rapport, Gartner prédisait qu’en 2020, le taux de croissance des analystes et experts de la donnée serait trois fois supérieur à celui des experts informatiques. Cette évolution va forcer les entreprises à revoir leurs modèles organisationnels et leur éventail de compétences.

Une autre tendance est le besoin d’analyse des données en temps réel pour pourvoir réagir rapidement aux demandes des départements métiers. Analyser des données sur plusieurs semaines ou même plusieurs jours avant de prendre des décisions n’est plus une option quand un concurrent agit en quelques heures.

Et malgré ces nouveaux défis, beaucoup d’organisations ne voient pas d’accroissements significatifs de leurs moyens informatiques (qu’ils soient financiers et humains) – voire pas d’augmentation du tout. Et c’est pourquoi le modèle économique de la donnée dysfonctionne. Les entreprises ne peuvent tout simplement pas soutenir durablement un modèle où les coûts liés à la collecte et à la gestion des données ne cessent d’augmenter, où les utilisateurs souhaitant accéder aux données se multiplient, alors que les moyens et budgets à disposition stagnent.

Si rien ne change, le fossé entre les attentes des métiers et ce que les équipes informatiques peuvent effectivement délivrer ne va faire que s'accroître. Dans certains cas, les utilisateurs, tels que des data scientists, achèteront et utiliseront leurs propres outils et applications pour répondre à leurs besoins. Mais cela ne fera qu’aggraver la situation, créant des silos d’informations supplémentaires au sein de l’entreprise.

Si les budgets ne suffisent plus, les entreprises se doivent de recourir à d’autres ressources pour bénéficier du modèle économique de la donnée, à savoir les technologies et les hommes.

De nouvelles technologies big data apparaissent chaque jour, toujours plus performantes et moins chères. Il y a une source quasi intarissable de nouvelles technologies pour gérer et ingérer les données au travers de services cloud, de containers ou serverless. Celles-ci ont le potentiel d’améliorer les performances et de réduire les coûts pour les entreprises.

Le cloud donne aux entreprises une flexibilité et une élasticité sans précèdent. Les fournisseurs de services cloud comme AWS, Microsoft Azure ou Google Cloud fournissent l’infrastructure, réduisant drastiquement les coûts de l’informatique comparé aux traditionnels centres de données sur site. Le serverless s’inscrit dans la même veine en externalisant la gestion et l’administration des serveurs et fermes de serveurs. L’orchestration est gérée via la pré-configuration des serveurs et les coûts sont basés sur l’utilisation.

Mais la solution n’est pas uniquement technologique, les organisations peuvent également compter sur leurs moyens humains pour relancer ce modèle économique de la donnée, en permettant à leurs collaborateurs d’avoir accès à des outils de gestion de données qui démocratisent effectivement l’usage de la donnée.

Parmi les dernières solutions de gestion de données et de big data, certaines offrent des applications en libre-service pour les développeurs, les data scientists et autres utilisateurs de la donnée, pour leur permettre de collaborer, transformer, sélectionner et partager des données fiables.

Grâce à ces applications, les équipes métiers et informatique peuvent collaborer sur les tâches d’intégration et de gouvernance des données plus facilement. Elles peuvent partager leur travail entre applications, coordonner des tâches de préparation et prendre des décisions plus fiables grâce aux données.

Donner accès aux données à plus d’utilisateurs dans une organisation est essentiel et le libre-service rend cela possible. Non seulement le libre-service permet d’augmenter le nombre d’utilisateurs qui peuvent accéder aux sources d’information, mais cela augmente également la diversité des utilisateurs au-delà des équipes informatiques, permettant à ceux qui connaissent le mieux les données de prendre part aux projets d’administration et de gouvernance.

Il est important de souligner l’importance primordiale de la gouvernance des données, en particulier dans un environnement de données en libre-service. La gouvernance n’a pas besoin d’être intrusive et d’enrayer l’innovation, mais elle se doit d’être appliquée en toile de fond et réunir toutes les capacités des outils en libre-service.

Un des développements récents dans la gestion des données est l’utilisation des données en streaming (flux en continu) qui pourrait être une formidable force de démocratisation de la donnée si les entreprises relèvent plusieurs défis.
Le premier défi est la grande variété de nouveaux flux de données, provenant des réseaux sociaux ou d’objets connectés. Par exemple, les données venant d’un objet connecté peuvent être en streaming. Dans ce cas, une approche traditionnelle par lot (batch) ne peut tout simplement pas marcher. Différents objets connectés vont également produire des formats de données hétérogènes.

Du fait de cette diversité de formats et de types de données, le schéma des données est moins prévisible, ce qui pourrait facilement casser les pipelines de données. Compte tenu de cette complexité les données en streaming ne sont généralement traitées que par une poignée de développeurs expérimentés ce qui peut empêcher les analystes de données ou data scientists d’accéder à temps aux données dont ils ont besoin. C’est pourquoi il existe un véritable besoin de se doter de solution d’intégration de données en streaming, basée sur le cloud, et en libre-service, qui soit intuitive, facile à utiliser, tout en s’adaptant aux schémas des pipelines. Cette solution serait portable d’une plateforme cloud à une autre et construite pour rentre les données en streaming accessibles au plus grand nombre d’utilisateurs, pas qu’aux seuls ingénieurs données.

Grâce à ces solutions qui s’adressent au plus grand nombre pour extraire de la valeur des sources d’informations grandissantes via des services en libre-service, les entreprises peuvent faire un grand pas en avant pour débloquer le modèle économique de la donnée. 

Annonces Google