Big Data : quelles sont les 10 tendances majeures pour 2017

Durant l'année qui vient de passer, de plus en plus d’organisations se sont vues stocker, traiter et exploiter leurs données. En 2017, les systèmes qui prennent en charge une grande quantité de données, structurées et non structurées, continueront à se développer.

Les dispositifs devront permettre aux personnes qui s'occupent des données d'assurer la gouvernance et la sécurité du Big Data tout en donnant aux usagers finaux les moyens d'analyser ces données. Une fois arrivées à maturité, elles s'intégreront facilement et rapidement aux systèmes et aux normes informatiques des entreprises. Voici nos prédictions pour 2017.

1. Le Big Data devient transparent et rapide

Il est évidemment possible de mettre en œuvre du machine learning et de réaliser des analyses de sentiments sur Hadoop, mais la première question posée généralement par les utilisateurs est : Quelle est la performance du SQL interactif ? SQL, après tout, reste le moyen dont dispose l’utilisateur métier pour utiliser les données dans Hadoop à des fins d’analyses exploratoires plus rapides ou de tableaux de bords de pilotage ré utilisables. En 2017, les possibilités pour accélérer Hadoop vont se multiplier. Ce changement a déjà commencé, comme en témoigne l’adoption de bases de données hautes performances comme Exasol ou MemSQL, de technologie de stockage comme Kudu, ou encore d’autres produits permettant l’activation d’exécution de requêtes plus rapides.

2. Le Big Data ne se cantonne plus à Hadoop

Ces dernières années, nous avons vu plusieurs technologies se développer avec l’arrivée du Big Data pour couvrir le besoin de faire des analyses sur Hadoop. Mais pour les entreprises avec des environnements complexes et hétérogènes, les réponses à leurs questions sont réparties dans de multiples sources allant du simple fichier aux entrepôts de données dans le Cloud, de données structurées stockées dans Hadoop ou dans d’autres systèmes. En 2017, les clients demanderont à analyser toutes leurs données. Les plateformes agnostiques au niveau des données comme au niveau des sources de données se développeront, tandis que celles conçues spécifiquement pour Hadoop ne pourront pas être déployées pour tous les cas d'utilisation et tomberont dans l'oubli. La fin de Platfora constitue un premier signe de cette tendance.

3. Un atout pour les entreprises : L'exploitation des lacs de données

Un lac de données est similaire à un réservoir artificiel. Il est nécessaire de construire un barrage à l'extrémité du lac (créer un cluster), puis le laisser se remplir d'eau (de données). Ensuite, seulement, on pourra utiliser les données à diverses fins, comme l'analyse prédictive, le Machine Learning, la cybersécurité, etc. Jusqu'à présent, le remplissage du lac constituait une fin en soi. Ce ne sera plus le cas en 2017. Pour obtenir plus rapidement des réponses, les entreprises voudront utiliser leur lac d'une manière plus agile et reproductible. En 2017, cela évoluera au fur et à mesure de l’adoption d’Hadoop dans les entreprises.

4. Les architectures matures permettent de laisser les frameworks généraux

Hadoop est devenu une technologie multi usage pour faire de l’analyse ad hoc. Elle est même utilisée pour du reporting opérationnel journalier (d’habitude géré via des entrepôts de données). En 2017, les entreprises tiendront compte de cette diversité de besoins en favorisant l'architecture adaptée à chaque cas d'usage. Elles étudieront une multitude de facteurs, tels que les profils utilisateurs, les questions, les volumes, la fréquence d’accès et plus, avant de s’engager sur une stratégie de données. Et ces stratégies elles-mêmes combineront les meilleurs outils de préparation de données en self-service, le Core Hadoop, et les plateformes d’analyse utilisées directement par les utilisateurs finaux, pour que ceux-ci puissent les reconfigurer en fonction de l’évolution de leurs besoins.

5. C'est la variété qui génère les investissements dans le Big Data, non la vélocité ou le volume

Gartner définit le Big Data en utilisant les 3 V : gros Volume, grande Vélocité, grande Variété des données. Bien que ces trois V évoluent, c'est la Variété qui s'impose comme le principal moteur des investissements dans le Big Data. Cette tendance va s'accentuer, puisque les entreprises cherchent à y intégrer davantage de sources et se concentrent sur le long terme. Des fichiers JSON sans schéma prédéfini aux types imbriqués dans d'autres bases de données (relationnelles et NoSQL) en passant par les données non plates (Avro, Parquet, XML), les formats de données se multiplient et les connecteurs natifs deviennent indispensables. En 2017, les plateformes d'analyse seront évaluées en fonction de leur capacité à fournir une connexion directe vers ces sources disparates.

6. Spark et le Machine Learning rendent le Big Data indéniable

Dans un sondage mené auprès de Data Architect, de responsables informatiques et d'analystes, près de 70% des répondants ont privilégié Apache Spark par rapport à MapReduce, qui est orienté batch et ne se prête ni aux applications interactives ni au traitement de flux en temps réel. Ces grandes capacités de traitement sur des environnements Big Data ont fait évolué ces plateformes vers des utilisations de calculs intensifs pour du Machine Learning, de l’IA, et des algorithmes de graphe. Microsoft Azure ML tout particulièrement a décollé grâce à sa facilité de mise en œuvre et son intégration avec les plateformes Microsoft existantes. L’ouverture du ML au plus grand nombre conduira à la création de plus de modèles et d’applications qui généreront des peta-octets de données. Tous les regards seront alors tournés vers les éditeurs de logiciels en mode self-service pour voir comment ils vont pouvoir rendre ces données accessibles aux utilisateurs.

7. La concentration de l’IoT, du Cloud et du Big Data engendre de nouvelles opportunités pour l'analyse en self-service

Il semble, qu’en 2017, tous les objets seront équipés de capteurs qui renverront des informations vers le « vaisseau mère ». Les données provenant de l’IoT sont souvent hétérogènes et stockées dans de multiples systèmes relationnels ou non, de cluster Hadoop à des bases de données NoSQL. Alors que les innovations en matière de stockage et de services intégrés ont accéléré le processus de capture de l’information, accéder et comprendre la donnée elle-même reste le dernier défi. La conséquence est que la demande augmente de plus en plus pour les outils analytiques qui se connectent nativement et combinent des grandes variétés de sources de données hébergées dans le Cloud.

8. La préparation des données en self-service se généralise peu à peu car l’utilisateur final commence à travailler dans un cadre Big Data

La montée en puissance des plateformes analytiques self-service a amélioré l’accessibilité de Hadoop aux utilisateurs métier. Mais ceux-ci veulent encore réduire le temps et la complexité de la préparation des données pour l’analyse. Les outils de préparation de données self-service agiles permettent non seulement aux données Hadoop d'être préparées à la source mais aussi de les rendre accessibles sous forme d'instantanés pour une exploration plus rapide et plus facile. Nous avons vu une multitude d’innovations dans cet écosystème, faite par des sociétés spécialisées dans la préparation de données pour des environnements Big Data réalisée par l’utilisateur final, comme Alteryx, Trifacta et Paxata. Ces outils réduisent les barrières à l’entrée pour ceux qui n’ont pas encore adopté Hadoop et continueront à gagner du terrain en 2017.

9. Le Big Data s'étend, Hadoop vient s'ajouter au standard de l’entreprise

Nous constatons une tendance grandissante au fait que Hadoop devient une partie centrale du paysage IT de l’entreprise. Et en 2017, nous verrons encore plus d’investissements dans les composants de sécurité et de gouvernance qui entourent les systèmes de l’entreprise. Apache Sentry fournit un système d’autorisations très fines d’accès à la donnée, basé sur les rôles et les métadonnées stockées dans un cluster Hadoop. Apache Atlas permet aux organisations d’appliquer une classification uniforme des données sur l’ensemble de leur écosystème. Apache Ranger fournit une administration centralisée de gestion de la sécurité pour Hadoop. Ces capacités passent maintenant au premier plan des technologies Big Data émergeantes, éliminant ainsi une autre barrière à l’adoption en Entrerpise.

10. L’augmentation des catalogues de métadonnées aide tous les utilisateurs à trouver les données primordiales pour l’analyse.

Pendant longtemps, les sociétés ont jeté leurs données parce qu’elles en avaient trop à traiter. Avec Hadoop, elles peuvent traiter beaucoup plus de données, mais la donnée n’est généralement pas organisée de façon à être trouvée rapidement. Les catalogues de métadonnées peuvent aider les utilisateurs à découvrir et comprendre les données pertinentes grâce aux outils d’analyse self-service. Cela aide à la fois les consommateurs de données et les administrateurs de données à réduire le temps qu’il faut pour faire confiance, trouver et requêter avec précision les données. En 2017, nous verrons une plus grande sensibilisation et une plus grande demande pour la découverte en mode self-service, qui deviendra une extension naturelle à l’analyse self-service.