Quatre pistes pour optimiser vos investissements dans le Big Data

DSI et directeurs marketing ne parlent plus du Big Data comme de la prochaine frontière à explorer. Les analystes et experts n’évoquent plus non plus ce concept comme la nouvelle tendance incontournable. Cela ne signifie pas que c’en est fini du Big Data...

Le Big Data est bien là et il gagne en maturité. Par conséquent, un nombre croissant de décideurs IT ne réfléchissent plus à l’éventualité d’investir dans les plateformes Big Data mais se demandent plutôt comment valoriser les investissements qu’ils ont déjà engagés dans Hadoop et les autres plateformes et technologies Big Data.

Quand il s’agit d’extraire de la valeur du Big Data, l’adage anglais « build it and they will come » (Contentez-vous de construire, l'usage viendra tout seul) ne suffit pas. Piloter un cluster Hadoop ou investir dans une nouvelle plateforme Big Data ou une application analytique n’est qu’une étape (et ce ne doit pas être la première, la première étape devant être d’identifier une question dont la réponse pourrait profiter à votre entreprise) sur le chemin de l’analyse des données pour en retirer des renseignements décisionnels. Ceci dit, examinons quatre pistes d’optimisation des investissements dans le Big Data. 

Répliquer les contenus essentiels

La réplication reste l’une des possibilités les plus stratégiques et pourtant négligées d’optimiser les investissements dans le Big Data. Pour analyser correctement des données, il faut actuellement regrouper les données non structurées et les données structurées traditionnelles. Cette consolidation de données demeure un challenge pour bon nombre d’organisations, que la réplication peut permettre de relever.
En répliquant les données de vos systèmes transactionnels sur une plateforme Big Data comme Hadoop, non seulement vous économisez les frais de licences et vous bénéficiez de performances accrues en réduisant les sollicitations de ces systèmes transactionnels, mais surtout vous obtenez une vue à 360° des données, indispensable pour créer un environnement analytique optimal. Grâce à la réplication, vous pouvez créer plusieurs sandboxes analytiques et partager l’information à l’échelle de l’entreprise, pour encourager la découverte des données (data discovery).  

Utiliser le pouvoir de prédiction

Aussi utile que soit la réplication, on aurait tort de penser que la vraie valeur analytique s’obtient en consolidant les données sur une même plateforme. C’est un bon moyen pour analyser l’historique, mais ce dont nous avons surtout besoin c’est de pouvoir établir des prédictions pour mieux préparer le futur. La prédiction est un atout de taille dans le monde du Big Data, peut-être le meilleur moyen d’augmenter la valeur du gisement de données.

Alors que leur utilité est évidente, l’adoption des outils d’analyse prédictive ne progresse qu’assez lentement au fil des années. Ceci s’explique en partie par le manque de compétences (celles de data scientists), mais aussi surtout par l’évolution du paysage des données. On ne disposait pas hier des données disponibles aujourd’hui. On commence donc à peine à mesurer l’intérêt des analyses prédictives pour mieux se positionner face à la concurrence, et encore.  Certaines entreprises l’ont compris et elles veulent pouvoir faire des prédictions, surtout celles qui doivent rivaliser avec des concurrents en ligne habiles. Il est important d’investir dès maintenant pour conserver votre longueur d’avance. 

Compléter les applications analytiques prépackagées

De nombreux fournisseurs se sont mis à distribuer des applications analytiques prépackagées plus ou moins fonctionnelles et efficaces. Les clients ont investi,  conscients que ces applications prépackagées simplifiées leur font gagner de nombreuses heures de développement. Mais la plupart de ces offres prépackagées ne vont répondre qu’à une partie de vos besoins analytiques. Pour optimiser l’investissement, il est recommandé de compléter ces applications analytiques prépackagées avec de plus petits entrepôts de données davantage alignés sur les besoins analytiques propres à chaque entreprise.

S’aider de la gestion des métadonnées

L’explosion des volumes de données que doivent traiter les entreprises de toute taille a eu pour corollaire l’explosion des métadonnées : les données sur vos données. Il faut impérativement gérer intelligemment cette couche de métadonnées pour espérer rentabiliser au maximum les investissements dans le Big Data. Vous pouvez suivre et analyser ces métadonnées dans Hadoop directement. Ce faisant, vous apprendrez quelle est l’ancienneté d’un dossier, à quelle fréquence il est actualisé, s’il vous sert régulièrement pour vos rapports et si vous devez ou non l’archiver. En d’autres termes, comprendre vos métadonnées vous aide à déterminer la valeur d’un dossier. Ainsi, vous pourrez créer un système plus robuste où seront concentrées vos données les plus demandées. Les solutions actuelles de gestion des métadonnées permettent désormais de prédire quelles données vont probablement devoir être archivées ou détruites au bout d’un moment. 

Il faut reconnaître que les projets de gestion des métadonnées ne sont pas si simples à mettre en œuvre. La grande majorité des architectes rechignent à toucher à leurs entrepôts de données de peur que le moindre changement opéré au niveau de l’architecture ne bouleverse complètement leur fonctionnement. Mais si vous prenez le temps de bien comprendre vos métadonnées, vous pourrez intervenir sur les dossiers dont vous savez qu’ils sont en sommeil si bien que le risque de perturber les futures requêtes sera nul. Et le jeu en vaut la chandelle si vous obtenez des performances accélérées et des analyses plus précises.

Quels que soient le chemin que vous avez emprunté et les investissements que vous avez consentis à ce jour, n’oubliez pas que la mise en œuvre de technologies d’analyse du Big Data n’a plus rien d’optionnelle. Si vous avez déjà investi mais que les résultats se font attendre, ne déployez pas à la hâte une solution de remplacement. Réfléchissez plutôt aux moyens d’optimiser l’existant. La meilleure solution est peut-être plus simple et moins onéreuse que vous l’imaginez.

Licences / Big Data