Big Data : l’heure est-elle à l’externalisation ?

Sur le terrain du Big Data, la tentation de se tourner vers le "As-A-Service" est de plus en plus forte encouragée et nourrie par la prolifération des offres Cloud de Big Data prêtes-à-l’emploi avec un paiement à l’usage.

Après une première vague qui a vu les grandes entreprises investir « on-premise » dans les technologies Big Data, les entreprises de taille intermédiaire attirées également par les sirènes du Big Data, séduites par ces premiers retours d’expérience probants, s’interrogent à l’inverse sur l’opportunité d’externaliser leur « Data Factory », ne disposant pas en interne des moyens, des ressources et des compétences.

Cette tentation de se tourner vers le « As-A-Service » est de plus en plus forte encouragée et nourrie par la prolifération des offres « Cloud » Big Data « prêtes-à-l’emploi » avec « paiement à l’usage ». Cette formule trouve auprès de ces entreprises un écho naturel leur permettant de s’affranchir de cette complexité et d’engager progressivement leurs investissements (OPEX vs CAPEX). Ces offres « As-A-Services » s’étendent du traditionnel IaaS (Infrastructure-As-A-Service) à l’ambitieux « Analytics-As-A-Service », souvent verticalisé à un domaine métier (Marketing Analytics, Video Analytics) en passant par les offres classiques PaaS (Platform-As-A-Service) qui permettent de disposer d’une « stack » Big Data « off-the-shelf » comportant l’écosystème standard (Hadoop-As-A-Service).

Mais le concept « As-A-Service » va désormais plus loin et touche au centre névralgique des entreprises auparavant exclusivement « on-premise » : les données via des offres de type « Data Lab-As-A-Service » à destination des acteurs métiers, incluant pour certaines des services de conseil en Data Science en plus d’un environnement virtualisé de Lab pour faire parler ses données. Certaines offres vont même jusqu’à proposer l’externalisation de l’activité Data Science (Data Science-As-A-Service).

Malgré cette pléthore d’offres, il n’existe pas aujourd’hui d’offre de services managés industrielle complète pour externaliser auprès d’un unique tiers les activités de sa Data Factory dans une logique de mensualisation des coûts et de maintenance et de supports des usages Big Data, qu’ils soient opérationnels, décisionnels/analytiques, voire expérimentaux. Est-ce si étonnant ? Pas tant que cela. Pour qu’une offre « Data Factory-As-A-Service » soit viable pour l’ensemble des parties prenantes, de nombreux ingrédients, parfois encore manquants, sont nécessaires.

Le manque de maturité des technologies sous-jacentes

Pour garantir la maîtrise des coûts, des engagements de services et de compatibilité ascendante face aux évolutions technologiques, la maturité du Big Data n’a pas encore été atteinte. Néanmoins, les technologies de base, initiées par les géants de la données (GAFA), et qui bénéficient pour partie du modèle « Open Source », sont remarquablement fiables et peuvent se contenter de « commodity hardware ».

De plus, l’offre « Data Factory-As-A-Service » ne serait complète sans des outils d’industrialisation permettant entre autres de masquer la pluralité des technologies, de gérer le multi-tenant/multi-instance, d’unifier la gestion de la sécurité d’accès aux données et de centraliser la gestion des logs. Un outillage qui reste aujourd’hui le maillon faible des technologies Big Data. Il faut développer en spécifique de nombreux composants d’industrialisation, quasiment sur toute la chaine de valeur du Big Data.

Des interconnexions réseaux performantes et sécurisées pour absorber les flux de données sont également indispensables à défaut de pouvoir projeter le socle logiciel Big Data sur les infrastructures de l’entreprise. La collocalisation des données reste un sujet majeur pour limiter les coûts de transfert et les temps de transit, notamment dès lors que les usages nécessitent du temps réel.

Des conditions indispensables à proposer par les éditeurs et prestataires

Le choix de la bonne solution Big Data et du bon prestataire sont également des critères pour une externalisation de sa Data factory. Ainsi, le fournisseur du service doit pouvoir être en mesure de proposer un catalogue de modèles d’usages banalisés et industrialisés pour maîtriser les coûts de réalisation tout le long de la chaîne de valeur (acquisition, transformation…). Le modèle de « licencing » des éditeurs de logiciels Big Data doit aussi être adapté à un paiement à l’usage, sachant que sur la partie infrastructure, ce type d’offre existe déjà. Or nombre d’entre eux, financés pour la plupart par du capital risque n’ont pas encore atteint le seuil de rentabilité et ne sont, de fait, pas nécessairement enclin à s’inscrire dans ce type de modèle locatif, sauf à proposer eux-mêmes du « Managed services » autour de leur offre logicielle.

Des mécanismes robustes et performants (en volume et vélocité) d’intégration de flux, services et APIs pour interopérer avec les systèmes existants, les partenaires et les systèmes d’authentification de l’entreprise doivent aussi être intégrés à l’offre de service. Enfin la capacité à proposer potentiellement une liberté sur le choix de certains composants logiciels périphériques comme les outils d’analyse parait indispensable pour réussir la transition du décisionnel vers l’analytique. Des clauses de réversibilité doivent aussi figurer dans les contrats « As-A-Service » pour autoriser la ré-internalisation possible de tout ou partie de l’activité Big Data, par exemple être en mesure de réinternaliser la gestion des données, réaliser certains usages banalisés.

Un cadre légal visant à protéger les données

Concentrer toutes ses données dans un lac de données confié au management d’un tiers ne va pas sans poser des problèmes juridiques épineux. L’externalisation doit pouvoir s’effectuer dans un cadre légal strict qui est encore flou aujourd’hui notamment lorsque celle-ci est mondiale, chaque pays ou zone ayant des contraintes réglementaires spécifiques.

Cette dimension nécessite d’être contractualisée pour cadrer la responsabilité vis-à-vis des données, leur localisation physique, leur organisation, leur usage vis-à-vis de la législation et de l’éthique de l’entreprise ainsi qu’un cadre de propriété intellectuelle pour les éléments développés par le fournisseur pour le compte de l’entreprise, qu’ils s’agissent des algorithmes d’analyses (e.g. Sentiment Analysis, Behavioral Analysis, Next Best Action) ou des modèles d’usage « prêts-à-l’emploi » (e.g. v360°)

Des conditions qui restent difficiles à réunir en une seule offre aujourd’hui, qui plus est, au travers d’un seul partenaire. De fait, une entreprise qui souhaiterait externaliser sa « Data Factory » devra vraisemblablement faire des compromis et adapter ses exigences au champ des possibles. Elle devra accepter de se caler sur les services et les niveaux de services proposés par le fournisseur pour contenir ses coûts. A défaut, elle pourra suivre la stratégie engagée par certaines entreprises, à savoir de construire en interne sa propre offre « Data Factory & Data Lab-As-A-Service », en s’appuyant sur du « multi-sourcing » c’est-à-dire en confiant potentiellement les activités à assurer à des tiers différents (socle, usage, production & exploitation), tout en conservant la coordination transverse comme la gestion de relation avec les clients, la gouvernance des différentes trajectoires et l’alignement des offres de services entre le socle technique, le socle de données et les usages.