La virtualisation des données, un atout de taille pour les data scientists

De nombreuses techniques et technologies permettent d'accélérer la phase de préparation des données en amont de l'entrainement des modèles d'apprentissage, c'est le cas de la virtualisation des données.

L'intérêt pour les entreprises de tirer parti de la data science est incontestable. Les modèles prescriptifs et descriptifs peuvent en effet contribuer à l’amélioration des processus métiers et décisionnels. Les activités liées à la data science peuvent être divisées en deux catégories : la préparation et l’analyse des données. Les activités de préparation des données consistent par exemple à organiser l’accès aux sources de données, à extraire les données sources, à les transformer, les intégrer et à supprimer les valeurs non-nécessaires.

Les études et la pratique prouvent malheureusement que les data scientists consacrent environ 80% de leur temps à la préparation des données et seulement 20% au véritable travail analytique. Ils seraient plus productifs si la phase de préparation des données était plus courte car cela leur permettrait de consacrer davantage de temps à la création de nouveaux modèles scientifiques.

De nombreuses techniques et technologies permettent d’accélérer la phase de préparation des données, c’est le cas de la virtualisation des données.

Intégrer les données des systèmes sources

Les données nécessaires à la création de modèles doivent provenir de plusieurs systèmes sources. Pour chaque système, les data scientists doivent organiser l’accès aux données, utiliser un mécanisme de sécurité spécifique et extraire les données. Le déploiement de la virtualisation des données simplifie et accélère l’accès à tous les systèmes sources, de sorte à ce que toutes les données soient accessibles à partir d’un même endroit. Cette technologie facilite également l’intégration des données provenant de différents systèmes sources pour simplifier l’accès à l’information.

Un langage universel

Les différents systèmes sources peuvent prendre en charge des interfaces, des langages et des concepts de base de données différents comme par exemple ceux pris en charge par les systèmes Hadoop, les bases de données SQL, les applications cloud propriétaires ou encore les systèmes NoSQL. Certaines sources peuvent aussi utiliser un format de fichier CSV. Cependant, lorsque la virtualisation des données est déployée, tous les systèmes sont accessibles via une seule et même interface.

Transformation à la demande

Les données des systèmes sources doivent être traitées, filtrées, masquées, validées, et transformées avant de pouvoir être utilisées à des fins analytiques. Cela peut se faire en prenant les données sources, en appliquant toutes les opérations requises, puis en stockant le résultat dans une base de données ou sur un fichier séparé. Mais, cela crée des données répétitives qui doivent être gérées et sécurisées. Grâce à la virtualisation des données, toutes ces opérations peuvent également être définies, mais sont exécutées à la demande et sans avoir à stocker les données. Ce qui permet d’éviter une grande partie des problèmes liés au stockage de données redondantes.

Partage des spécifications

Tout ce qui est défini pour un data scientist peut être partagé à d’autres. Il suffit par exemple de définir une seule fois les spécifications pour l’intégration de deux systèmes sources, le masquage des données, la sécurisation des données, le filtrage des données et la transformation des valeurs des données. Tous les data scientists peuvent ensuite réutiliser ces spécifications. Grâce à la virtualisation des données, même les collaborateurs utilisant d’autres outils de data science peuvent bénéficier de ces spécifications.

Mise en cache si nécessaire

Si nécessaire, par exemple pour des raisons de performance ou pour minimiser les interférences sur les systèmes sources, les données peuvent être physiquement copiées vers un autre système de stockage en utilisant la technologie de mise en cache soutenue par la virtualisation des données. Cela ne modifie pas l’interface ni les applications des data scientists.

La puissance des métadonnées

Sans métadonnées de définition et descriptives, les données sont inutiles. En effet, pour correctement interpréter les données, les data scientists ont besoin d’accéder aux métadonnées. Grâce à la virtualisation des données, chaque data scientist peut saisir, consulter et rechercher facilement des métadonnées. Les données et les métadonnées peuvent également être combinées et présentées à tous les data scientists.

Plus de temps pour l’analyse

Grâce aux caractéristiques ci-dessus, la virtualisation des données raccourcit la phase de préparation des données pour les data scientists. Elle permet de définir et de partager de nombreuses spécifications beaucoup plus facilement. Mais, il y a encore du travail à faire : par exemple, la façon dont le serveur de virtualisation des données doit se connecter à un système source doit encore être étudiée et définie, ce qui peut être fait par les data engineers.

En conclusion : la virtualisation des données est l’allié idéal des data scientists puisqu’elle leur fait gagner un temps précieux et leur permet de se concentrer sur l’essentiel.