Big Data : technos, actualités, conseils...
Le big data ou mégadonnée regroupe l'ensemble des technologies visant à faire face à l'explosion du volume d'informations. L'enjeu de cette discipline : se donner la capacité de traiter les données en masse, rapidement, et quel que soit le format.
Derniers articles
Le big data, c'est quoi ?
Le big data regroupe les technologies visant à traiter les données en masse à la fois rapidement et quel que soit leur format. Cette discipline que l'on traduit aussi par "données massives" ou "mégadonnée" a émergé avec le développement d'internet et l'explosion du volume d'informations numériques de tous types depuis le début des données 2000 : textes, chiffres, graphiques, images, vidéos...
Le terme même de big data a été évoqué la première fois par le Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001. Elles sont évoquées par le cabinet Meta Group racheté en 2005 par le Gartner.
Quels sont les 3 grands principes du big data ?
D'après la définition du Gartner, le big data répond à trois enjeux : un Volume de données important à traiter, une Variété d'informations (en provenance de plusieurs sources, non-structurées, structurées...), et un certain niveau de Vélocité, c'est-à-dire de fréquence de création, de collecte, de traitement/analyse et de partage de ces données. C'est la règle dite des 3V. A ces termes, on ajoute souvent Véracité et Valeur (5V), ou encore Visualisation (6V), voire Variabilité (7V).
Dictionnaire du big data
Comment fonctionne le big data ?
Derrière la notion de big data se cache l'idée selon laquelle plus les informations sont nombreuses, riches et variées sur un sujet, plus elles permettent d'en tirer des enseignements pertinents. Partant de là, le big data est mis en œuvre par le biais d'une data platform conçue à la fois pour stocker les données et les traiter.
En amont, le big data s'adosse en général à des outils d'intégration visant à fédérer les informations issues de multiples sources : bases de données applicatives, sites web, réseaux sociaux... En aval, il permet de les exploiter via des outils de traitement et de restitution, combinant de plus en plus souvent tableau de bord et machine learning prédictif.
Quels sont les types de big data ?
Le big data recouvre trois principaux types de données :
- Les données structurées qui sont généralement issues d'une base de données, d'un data warehouse ou d'un data lake.
- Les données non-structurées qui renvoient au fichier : texte brut, document bureautique, image, vidéo...
- Les données semi-structurées qui renvoient typiquement à des fichiers contenant des méta données (date de création, origine, auteur...) qui permettent de les analyser, de les classer...
Chroniques
Quelles sont les technologies du big data ?
Pour analyser les hautes et disparates volumétries de données, les technologies du big data s'appuient sur trois types de technologies distinctes : une accélération matérielle à l'aide de mémoires dynamiques DRAM ou Flash, le recours à des bases de données massivement parallèles (massively parallel processing) ou encore les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL.
L'un des principaux points forts de la base de donnée NoSQL est sa performance. Ce n'est d'ailleurs pas pour rien que des géants du Web comme Facebook, Twitter et ou LinkedIn ont choisi de migrer une partir de leurs données dessus. Les atouts de NoSQL sont au moins au nombre de trois : cohérence (visibilité par tous les nœuds d'un système des données identiques à un instant T), haute disponibilité des données même en cas de panne, et possibilité de partitionner tout système distribué.
Les outils du big data
Quels sont les métiers du big data ?
On distingue de multiples métiers touchant de près ou de loin au big data :
- L'architecte big data est en charge comme son nom l'indique de concevoir l'architecture d'une plateforme big data,
- L'ingénieur de données (ou data engineer) a pour mission de déployer et d'exploiter la plateforme big data,
- Le développeur big data a pour objectif de développer les briques de la data platform,
- Le data analyst utilise les applications de restitution (requêtage, analytics, data visualisation) pour répondre aux besoins business,
- Le data scientist est à même de mettre au point des modèles prédictifs mathématiques et statistiques en tirant parti de la data platform.