Big data : 7 tendances qui vont faire évoluer votre activité

Le thème de Big Data continue de faire parler de lui, comme en témoignent la grande variété d’innovations qui émergent chaque jour et le nombre important de professionnels qui exploitent avec succès des solutions en lien avec ce sujet.

Nous assistons à un changement important : le buzz autour du "Big Data", concept souvent jugé confus pour le plus grand nombre, tend à être remplacé par de plus en plus de cas concrets d’entreprises qui ont su tirer parti de leurs données.
Tout comme n’importe quel changement de modèle dans l’informatique, le « Big Data » a passionné la presse, les investisseurs et les innovateurs avant même que des éléments sérieux n’en prouvent la valeur pour l’entreprise. Cela avait été précédemment le cas avec le modèle client-serveur, la virtualisation, Internet, les architectures orientées services et les langages de programmation tels que Java.
Nous assistons à l’émergence d’un écosystème qui complète ou enrichit rapidement les fonctionnalités des technologies déjà en place. C’est notamment le cas des technologies dites « Big Data » : Hadoop, Cassandra, Accumulo et les solutions de géants du secteur des données comme Oracle et IBM.

Quelles tendances verrons-nous probablement émerger dans l’écosystème du « Big Data » ?

Le développement accru et l’unification du SQL (Structured Query Language) sur Hadoop. Différents acteurs du secteur concentrent leurs efforts à la construction d’une couche technologique sur les solutions de « Big Data » n’exploitant pas le SQL, comme Hadoop. La prise en charge du langage SQL est variable, mais les professionnels avisés sauront tirer parti de ces avancées pour offrir un SQL hautement interactif à l’environnement du « Big Data ». Dans ce domaine, on peut citer les exemples d’Hadapt, Impala, Teradata Aster et Pivotal HD d’EMC Greenplums.

La prise en charge unifiée des données structurées, non structurées et semi-structurées dans le sillage du développement des données non-structurées.
Selon le cabinet IDC, le volume des données numériques, principalement sous la forme de données non structurées, va augmenter de 40 à 50 % chaque année, pour atteindre un volume total de 40 zêta-octets en 2020. On trouve des données non structurées dans les emails, forums, blogs, réseaux sociaux, systèmes de point de vente et autres sources provenant de machines. Pour pouvoir collecter et analyser ce gigantesque volume de données variées, les pionniers du « Big Data » étendent la portée de leurs solutions pour ne pas se limiter à telle ou telle source de données.
De nouvelles solutions ont vu le jour, comme le moteur MDEX d’Oracle, Accumulo et Attivio, qui permettent de capturer les données variées dans un seul et même « magasin ».

Des fonctions de recherches avancées

 Examiner des volumes de données gigantesques à la recherche de la fameuse aiguille dans la botte de foin n’est pas une tâche aisée. Nous verrons probablement de plus en plus de solutions « Big Data » inclure la prise en charge de fonctionnalités de recherche. Certains montrent déjà la voie, comme LucidWorks, IBM, Oracle (à travers l’acquisition d’Endeca), Autonomy et MarkLogic. LucidWorks associe Lucene/Solr, Hadoop, Mahout et NLP dans une pile Open Source.

L’extension d’ETL (Extract-Transform-Load) et la prise en charge ELT

Pour beaucoup, la principale fonction de Hadoop est d’exécuter les flux ETL par lots. Cependant, la simple observation des éléments d’infrastructures nécessaires pour construire et préserver un environnement Hadoop complexe basé sur une solution ETL, peut conduire à se tourner vers des solutions spécialisées telles qu’ETL d’Informatica, Talend, Syncsort et CloverETL. Depuis des années, les éditeurs se sont concentrés sur le développement de solutions ETL de référence, plus couramment appelées « Solutions d’intégration de données ».
Les fournisseurs dédiés aux solutions ETL ont travaillé pour garantir la prise en charge des solutions « Big Data ». Cela inclut le support non seulement du procédé ETL, mais aussi ELT, durant lequel les transformations sont exécutées par Hadoop à l’intérieur même de celui-ci. Grâce à cela, il est possible d’utiliser les environnements des solutions ETL les plus répandues pour exploiter les fonctionnalités robustes d’Hadoop. Avec le temps, ces solutions dédiées ETL prendront en charge un large éventail de solutions « Big Data » proposées par les fournisseurs NewSQL et NoSQL.

Par ailleurs, je m’attends à ce qu’un grand nombre des solutions de « Big Data » intègrent l’ETL et l’ELT au sein de leurs piles (« stack »), tout comme l’ont fait de nombreux fournisseurs traditionnels de base de données, que ce soit par l’intégration ou par l’acquisition de solutions ETL.

L’avènement du « Big Data » en mouvement

 Le Framework Open Source Apache Hadoop est traditionnellement utilisé pour les traitements par lots de jeux de données très volumineux en environnement distribué, principalement utilisé pour l’analyse. Les marques concentrent de plus en plus leurs efforts sur la maîtrise et l’exploitation des mannes de données aujourd’hui disponibles, pour prendre des décisions en temps réel. Nous nous attendons ainsi à un développement et un impact significatifs du « Big Data en mouvement ». « En mouvement » désigne le flux des informations en temps réel permettant de manipuler les importants volumes de données présents dans des secteurs aussi divers et variés que les marchés financiers, la santé, l’énergie et les médias sociaux.

Les nouvelles fonctions de data mining et d’analyse

 Les entreprises leaders dans le secteur du « Big Data » comprennent qu’elles doivent impérativement développer les fonctionnalités analytiques et statistiques de leur plate-forme. Dépassant le cadre des fonctions d’analyse classiques, cette nécessité les fait pénétrer dans le monde des fonctionnalités très sophistiquées du data mining. Ainsi, Aster Data de Teradata inclut un large choix de fonctionnalités analytiques : statistiques, analyses textuelles, graphiques, analyse de tonalité (ou « sentiment analysis ») et exécution du langage PMML (Predictive Model Markup Language) dans la base de données, grâce à la prise en charge de Zementis. D’autres éditeurs, comme IBM Netezza, ont intégré la prise en charge du fameux langage de programmation R, ainsi que le moteur Matrix (pack d’algèbre linéaire parallélisé). Avec le temps, nous verrons ces fonctionnalités se généraliser sur un large éventail de solutions de « Big Data ».

La popularisation du langage R

 À n’en pas douter, le logiciel libre R est en train de se populariser. Revolution Analytics a réalisé des progrès significatifs en développant une version au stade de production, offrant de meilleures performances et des fonctionnalités spécifiques pour les entreprises. Cette société a également développé des solutions intégrant R pour Hadoop, IBM PureData.
Les universités emboîtent également le pas en proposant des cours sur le langage R pour que leurs étudiants en découvrent le potentiel et acquièrent les compétences nécessaires à l’exécution d’analyses statistiques complexes. Nous allons donc vraisemblablement assister à sa généralisation dans des solutions « Big Data », ainsi qu’à des améliorations et à l’optimisation des performances de ses fonctionnalités.
Votre activité doit évoluer au diapason de l’écosystème du « Big Data ». Sur le marché actuel, les entreprises qui mettront en œuvre des stratégies centrées sur les données surclasseront leurs concurrents.

Autour du même sujet