Les innovations des technologies Big Data

Selon une étude Gartner , le volume de données généré sur la seule année 2009 était plus important que le cumul des 5000 années précédentes. Les technologies doivent suivre.

L'expression Big Data, apparue pour la première fois en 2008, se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. Car aujourd'hui, le nombre de données à traiter est sans égal et augmente de manière exponentielle.

Les matériels de base courants ("commodity"), moins onéreux, permettent également de développer des solutions destinées à analyser et agréger instantanément des pétaoctets de données (1 pétaoctet = 1 000 téraoctets).

A partir de quelle taille un volume de données est-il important ?

"Les hommes ont généré 150 exaoctets (milliards de gigaoctets) de données en 2005. Cette année, ils en génèreront 1 200 exaoctets." The Economist, 27/02/2010

Bien que la plupart des entreprises soient encore loin d'avoir un pétaoctet de données aujourd'hui, toute entreprise stockant plus de quelques téraoctets peut bénéficier des technologies Big Data.

Avec les bases de données, l'entreposage de données et les technologies d'informatique décisionnelle traditionnelles, il est difficile, même avec les meilleures pratiques actuelles, de dépasser les 10 To[1]. Les prévisions de taux de croissance des données signifient pour les entreprises que seuls deux ou trois To de données suffiront bientôt pour dépasser les limites des technologies traditionnelles.

Les technologies  "Big Data" permettront également aux entreprises de réduire considérablement le temps de réponse pour traiter les requêtes ou pour terminer les tâches d'analyse complexes dans des intervalles de temps plus courts.

 

Innovations Big Data

Les nouvelles technologies pour stocker et accélérer le traitement des gros volumes de données sont classées en trois catégories (certains fournisseurs offrent des solutions hybrides comprenant deux approches ou plus) :

1. Accélération matérielle. Ces équipements matériels pour bases de données utilisent des mémoires dynamiques DRAM ou flash au lieu de disques durs, ce qui améliore la performance d'accès en lecture/écriture, et peuvent également modifier le code de la base de données pour tirer un meilleur bénéfice des processeurs multicoeurs ainsi que d'autres avancées technologiques.

2. Bases de données d'analyse massivement parallèle (MPP). Ces bases de données conformes SQL sont conçues pour répartir le traitement des données sur plusieurs machines - appelés généralement "commodity servers". Certaines bases de données MPP utilisent également les architectures sans partage, dites "shared nothing", qui répartissent également le stockage des données sur plusieurs machines, supprimant ainsi les possibles goulets d'étranglement de l'extensibilité.

3. Modèle Map-Reduce, Hadoop, et autres approches NoSQL. Ces approches, appelées collectivement "NoSQL" ou "Not Only SQL" permettent d'accéder aux données via des langages de programmation sans utiliser les interfaces basées sur SQL et permettent de répartir les données sur plusieurs machines distinctes. Les structures de données sont de type fichier plat ou d'autres formats non-relationnels.

Les approches NoSQL sont particulièrement importantes pour les tâches d'analyse qui ne peuvent pas être codées efficacement dans SQL. Cela comprend les analyses qui impliquent plusieurs passages des données - comme les simulations avec la méthode de Monte Carlo - et les cas où les données ne sont pas structurées, ou sont semi-structurées, comme l'analyse de textes.

Map-Reduce et Hadoop sont les modèles NoSQL les plus répandus. Map-Reduce est un algorithme qui répartit les tâches d'analyse de données sur plusieurs noeuds, et qui "réduit" ensuite tous les résultats des noeuds en un jeu unique. Hadoop est une implémentation Open source de Map-Reduce, avec des fonctionnalités supplémentaires disponibles à partir d'Apache.

Grâce à ces innovations technologiques Big Data, les entreprises peuvent désormais réaliser des analyses qui étaient considérées jusqu'à présent comme infaisables, soit parce qu'il y avait trop de données à traiter, les analyses prenant alors trop de temps, soit parce que le traitement requis était peu approprié pour SQL.

 

Vers une informatique décisionnelle - BI - Big Data.

Quelles que soient les technologies Big Data utilisées pour les tâches d'analyse, les utilisateurs professionnels doivent pouvoir visualiser et comprendre les résultats. Etant donné le volume potentiellement important des résultats, les utilisateurs ont besoin d'outils de reporting et d'analyse ad hoc conçus pour pouvoir trouver "une aiguille dans une botte de foin", y compris des outils de visualisation et d'exploration performants, ainsi que de filtrage et de tri dynamiques.

Ces fonctionnalités de reporting, d'analyse et d'interface utilisateur doivent pouvoir traiter tout type de format de données et travailler en continuité avec les bases de données traditionnelles RDBMS, MPP, ou les fichiers répartis sur le réseau.


[1] TDWI "Next Generation Data Warehouse Platforms" par Philip Russo, 2009. Page 11.