Libérez vos données avec la data virtualisation !

Avec l'essor des SI orientés data, le besoin d'un accès simple et performant aux données se fait de plus en plus pressant. C'est dans cette optique que les outils de data virtualisation émergent de plus en plus.

Les besoins de données facile d’accès explosent ! Développements agiles d'applications mobiles et web, citizen data scientist, vision 360, Agile BI, on veut tout tout de suite ! Que l'on soit développeur ou métier, la donnée devient le "matériel" de travail de base de chacun. Or en dépit de la vague du data lake, l'accès à ces données n'est toujours pas à la portée de chacun. Entre la complexité de l’accès, des modèles hétérogènes et le caractère explosé des données dans les silos du SI, la donnée n'est pas encore accessible en libre-service. Alors comment l’affranchir et ainsi faciliter son usage ?

La data virtualisation, le point d'accès unique de la donnée.

Face à ce défi, les solutions de data virtualisation vivent un véritable momentum. Le Forrester a ainsi vu en 2017 56% de ses sondés répondre vouloir ou avoir déjà mis en place ce genre de solution. Mais d'abord en quoi consiste ce type de solution ? La data virtualisation consiste à rassembler des données disparates en les virtualisant dans une vue et donc un modèle unique et consolidée. Le tout en ne stockant aucune donnée ! En se reliant ainsi aux données indépendamment de l'origine et de la technologie de stockage, et en les rendant facilement accessibles à tout un chacun par simple requête SQL ou API REST, la data virtualisation permet un accès accéléré aux données. On peut ainsi effectuer une jointure entre une base SQL, un base NoSQL, un fichier CSV & un service REST, et restituer ce résultat par simple requête SQL ou REST. On obtient alors un self-service de la donnée, accessible à tout public. Le tout sans avoir de données qui se retrouvent répliquées dans ces solutions, car aucune ne se trouve stockée.

De plus la donnée ainsi exposée gagne deux atouts précieux :

La performance, via les optimisations de requête entre les différents systèmes sources et l'utilisation intelligente de cache. On arrive ainsi dans certains cas à passer de plusieurs minutes à l'instantané en termes de temps de réponse.
Une sécurisation des données plus simple vers les consommateurs extérieurs des applications sources, puisque centrée sur une solution qui fait alors office de point d’entrée unique aux données.

On se retrouve ainsi avec un point d'entrée unique, rapide à mettre en place, et qui saura remplacer dans bon nombre de cas un MDM ou une réplication de base via ETL ou CDC.

La data virtualisation, un nouveau point d'intégration qui se fait sa place.

Quand on discute de ce sujet, la question qui revient quasiment à chaque fois est "Mais en quoi cela diffère d'un ESB ?".

Bien sur un ESB saura exposer des données venant de sources disparates. Mais il n'atteindra jamais la même facilité d'exposition de données et les mêmes performances. Pour ainsi dire, l'ESB est le 4X4 de l'intégration, quand la data virtualisation est la Ferrari de l'intégration par la donnée.

En effet, avec un ESB on peut effectivement exposer des données, mais de manière plus chronophage, plus complexe et avec des performances non optimisées. D’un autre côté, on peut y développer des services métier complexes et utiliser des connecteurs non data-centric.

A contrario, un outil de data virtualization ne permettra que d’exposer des services de données, de manière optimisé, avec un outillage dédié et productif.

On voit donc que ces deux solutions sont finalement plus complémentaires que concurrentes en termes d’usage.

Quelles solutions sur le marché ?

De nombreux éditeurs sont présents sur le marché, du pure player comme Denodo, à l'éditeur open source Red Hat avec Jboss Data Virtualization, et aux éditeurs plus généralistes comme Tibco avec Tibco Data Virtualization. Tous ont en tout cas bien conscience que les places sont à prendre et accélèrent leurs communications sur ce sujet. Il y’a donc fort à parier que les choses vont bouger, et les produits avec.

Quel gain client ?

En termes de Rex client, le retour qui revient à chaque fois est l'extrême rapidité de mise en place de la solution. Là ou un ETL nécessitait une semaine de travail en termes de préparation, les solutions de data virtualisation peuvent ne nécessiter qu'une heure ! En termes de cas d'usage, la vision 360 revient souvent. En effet, les données du client sont souvent dispersées dans de multiples applications, et une solution de data virtualisation permet d'avoir très rapidement une vision unifiée d'un client. C'est d'ailleurs un outil très utilisé par les projets frontend, comme le démontre très bien Facebook avec sa solution maison GraphQL.

L'émergence de ce type de technologie va permettre ainsi une consommation de la donnée beaucoup plus facile, rapide et performante qu'on avait pu avoir par le passé. C'est une réelle simplification, qui va permettre de donner l'accès à la donnée à beaucoup plus d'utilisateurs, tout en restant complémentaire des autres technologies d'intégration.