Data lakes : comment tirer le plein potentiel du machine learning ?

Face aux limites des data lakes, la virtualisation des données permet de bénéficier d’un point d’accès unique en associant des données issues de diverses sources pour alimenter les applications adéquates en temps réel.

À l’heure où les données s’imposent comme la source de renseignements n°1 pour les organisations de toutes tailles et de tous secteurs, il est aujourd’hui crucial de les exploiter afin d’obtenir les meilleurs résultats possibles, prendre les décisions les plus éclairées et optimiser la productivité. Chaque action, réaction ou interaction génère cependant la production d’un nouvel ensemble de données, aboutissant ainsi à une avalanche d’informations.

Maîtriser l’avalanche

Il devient indispensable de stocker et de gérer l’intégralité des données d’intérêt – qu’elles soient structurées ou non – dans un référentiel général. Communément appelé « lac de données » (ou data lake en anglais), ce référentiel constitue aujourd’hui le cœur de l’architecture de gestion des données pour les data scientists.

Les data lakes sont bénéfiques à plusieurs égards :

Ils facilitent la découverte de données,
Ils accélèrent les activités de sélection et d’intégration des données pour les data scientists,
Ils permettent de bénéficier d’excellentes capacités de calcul. Les données peuvent être transformées et associées efficacement, répondant ainsi aux exigences de tout processus.

Un récent rapport d’analyse confirme les avantages des data lakes, observant une croissance organique supérieure de 9 % chez les acteurs employant cette architecture. Les capacités de machine learning offertes par les data lakes constituent peut-être l’un de leurs principaux atouts, notamment pour les organisations désirant avoir une longueur d’avance sur leurs concurrents. En tirant parti du machine learning afin d’analyser les données historiques enregistrées, les entreprises glanent suffisamment d’informations et d’enseignements pour esquisser les scénarios les plus probables et déterminer les moyens d’aboutir aux meilleurs résultats pour la productivité des employés, les processus, etc.

Le revers de la médaille

Malgré tous ces avantages, les organisations ne maîtrisent pas encore entièrement la livraison et l’intégration des données. Pour preuve, une étude révèle que les data scientists consacrent parfois 80 % de leur temps à ces tâches, véritable frein opérationnel !

Pourquoi les organisations éprouvent-elles tant de difficultés ? Tout d’abord, le stockage de données dans leur forme d’origine n’empêche malheureusement pas de devoir les adapter ultérieurement aux fins du machine learning, ce qui peut s’avérer particulièrement complexe. Au cours des dernières années, des outils de préparation des données ont vu le jour dans le but précis de rendre plus accessibles pour les data scientists les tâches d’intégrations basiques. Ces outils montrent toutefois rapidement leurs limites : ils n’aident guère les data scientists à accomplir des opérations plus complexes, qui requièrent des compétences plus pointues. Dans ces cas de figure, les organisations font souvent appel à leur service informatique afin de créer – spécifiquement pour le machine learning – de nouveaux ensembles de données dans le data lake, ce qui ralentit bien sûr le rythme des avancées.

Par ailleurs, cette centralisation physique ne facilite pas vraiment la découverte des données, qui s’apparente alors à la recherche d’une aiguille dans une botte de foin. Enfin, les grandes entreprises disposent aujourd’hui de plusieurs centaines de référentiels répartis sur des plateformes sur site, des data centers, des services cloud, etc. Il n’est donc pas surprenant que le data lake ne contienne qu’un petit sous-ensemble de données.

Quelle est donc la solution ?

Tôt ou tard, les organisations devront surmonter leurs difficultés de distribution et d’intégration des données si elles souhaitent libérer le plein potentiel des data lakes. C’est là qu’entre en jeu la virtualisation des données.

Quel que soit le format ou le lieu de stockage des données, la virtualisation des données permet de bénéficier d’un point d’accès unique en associant des données issues de diverses sources sous-jacentes pour alimenter les applications adéquates en temps réel. Ainsi, les data scientists ont la possibilité d’exploiter des données qui n’ont même pas encore été copiées dans le data lake.

La virtualisation des données permet également de relever d’autres défis auxquels sont confrontés les data scientists :

Découverte des données – La virtualisation des données offre un point d’accès unique à l’ensemble des données disponibles pour les consommateurs de ces données. Cette technologie est facile à exploiter, notamment grâce aux outils intégrant le catalogage des données, qui permet aux data scientists de parcourir l’intégralité des jeux de données disponibles. La virtualisation des données libère les utilisateurs et organisations en démocratisant les données et en offrant un moyen rapide et économique d’y accéder.
Intégration des données – L’organisation des données est régie par un seul et même modèle d’interrogation et de représentation des données : quel que soit l’emplacement d’origine des données, les data scientists ont la possibilité de consulter l’ensemble des informations comme si elles étaient stockées au même endroit. Il est possible de créer des ensembles de données logiques réutilisables, qui peuvent être adaptés selon les exigences de chaque processus de machine learning, facilitant ainsi grandement l’intégration et la préparation des données pour les data scientists.

Améliorer la productivité des data scientists

Le marché mondial du machine learning devrait progresser de 44 % au cours des quatre prochaines années, les organisations étant toujours plus en quête d’informations significatives issues de leurs données. Le besoin de technologies comme la virtualisation des données ne fera lui aussi que croître, les entreprises continuant de se tourner vers les outils d’analyse modernes et le machine learning en vue d’optimiser leur efficacité opérationnelle.

Synonyme de découverte et d’intégration facilitées pour les data scientists, la virtualisation des données peut leur mettre en évidence les résultats des analyses du machine learning et leur ouvrir tout un monde de possibilités de création de valeur grâce à des données disponibles en abondance.