Le vocabulaire du Big Data

Vocabulaire du Big Data Comme pour toute nouvelle technologie, le Big Data apporte son lot de nouveaux termes. Certains sont nés dans le cerveau des développeurs, d'autres viennent de la statistique.

 3V : Volume, Vitesse, variété, c'est, selon les consultants, les trois critères clés qui définissent une plateforme Big Data. Le volume est le critère le plus souvent évoqué, avec la capacité de traiter des To voire des Po de données, mais ce n'est pas le seul. Le critère vitesse est important pour bon nombre d'applications Big Data dont certaines sont temps réel, le critère variété évoque la capacité d'un système à pouvoir traiter des données hétérogènes et non structurées. A ces 3V initiaux, certains ont ajouté le V de Valeur et le V de véracité.

 Algorithmes : Si dans le Big Data, la donnée est le sang du système, le moteur d'intégration de données, le cœur, les algorithmes en sont le cerveau. Ce sont les algorithmes, basés sur les statistiques, l'intelligence artificielle qui analysent les données.

 Algorithmes de Boosting : Les algorithmes de Boosting ou encore de stratégies adaptatives sont une classe d'algorithmes de Machine Learning permettant d'améliorer la précision d'algorithme peu précis.

 Algorithmes génétiques : Algorithmes calqués sur les principes des évolutions génétiques d'une population et permettant d'améliorer une solution par calculs successives, comme des générations de populations, jusqu'à arriver à un optimum.

 Analyse discriminante linéaire : Algorithme prédictif permettant de classifier un individu dans un segment.

 Arbres de décision : Algorithme permettant la résolution de problèmes en les représentant sous forme d'arbre dans lequel chaque feuille représente une solution possible, les branches les choix à suivre.

 BigTable : Base de données distribuée développée par Google pour ses propres besoins, BigTable n'est pas disponible en open source mais peut être exploitée sur Google App Engine qui l'a récemment commercialisé sous forme de service Cloud.

 Churn : Le churn ou taux d'attrition correspond à la part des clients perdus sur une période.

 Clickstream : Il s'agit du flux de clics généré en permanence par les internautes sur un site Internet. C'est une source précieuse d'information pour les algorithmes de Machine Learning.

 Data Cleansing : Littéralement nettoyage des données. C'est une phase qui consiste à supprimer les données incohérentes, corriger les erreurs comme, par exemple, des données mal saisies. Disposer d'informations d'un bon niveau de qualité est un préalable à l'élaboration d'algorithmes de Machine Learning.

 Data Analyst : Maitrisant les outils du Big Data et les statistiques, le Data Analyst code les algorithmes prédictifs sur la plateforme analytique.

 Data Scientist : A la fois statisticien de haut vol, capable de manipuler les outils informatiques du Big Data et comprendre les enjeux business de ses analyses. Le Data Scientist (parfois traduit en scientifique des données) est l'homme clé du Big Data.

 Data Lake : L'approche Data Lake ou lac de données consiste à mettre en place un cluster Hadoop où vont converger toutes les données brutes que l'entreprise peut capter. Un moyen de casser les silos instaurés avec les approches datawarehouse.

 Hadoop : Initialement développé par Doug Cutting et Mike Cafarella alors employés chez Yahoo!, Hadoop, du nom de l'éléphant en peluche du fils de Doug Cutting, est une implémentation open source du modèle de programmation MapReduce, initialement imaginé par Google. Le projet est aujourd'hui placé sous l'égide de la fondation Apache. Ce framework a fédéré de nombreux autres projets Apache autour de lui qui en font la plateforme de référence du Big Data.

 HBase : Projet open source, Apache HBase est la base de données distribuée qui s'appuie sur Hadoop et son système de fichiers HDFS. La base de données est ACID et de classe NoSQL.

 HDFS : Composant clé de la plateforme Apache Hadoop, HDFS (Hadoop Distributed File System) est un système de fichiers distribué. Il permet de stocker de très gros volumes de données sur un grand nombre de nœuds.

 Hive : Solution d'entrepôt de données, Apache Hive s'appuie sur Hadoop. Ce logiciel permet de structurer les données en tables, lignes, colonnes comme sur un datawarehouse traditionnel et propose aux développeurs et analystes un langage de requêtage sur les données, HiveQL (un langage proche du langage SQL).

 Machine Learning : Discipline issue de l'intelligence artificielle, le Machine Learning ou apprentissage automatique consiste au développement d'algorithmes qui apprennent un phénomène à partir des données. L'apprentissage est automatique, à la différence du Data Mining classique, où les analyses sont réalisées par le statisticien, a posteriori.

 Machines à vecteurs de support : Appelé aussi Support Vector Machine en anglais, les machines à vecteurs de support sont des techniques de Machine learning notamment issues de la bioinformatique et utilisées dans des problèmes de discrimination, par exemple pour classer des acheteurs dans des segments.

 MapReduce : C'est le modèle de programmation (framework) à la base du mouvement Big Data. Il consiste à prendre des données et traitements, les décoder et les répartir sur un grands nombre de nœuds. C'est la phase "Map". Ensuite, les données sont réassemblées pour obtenir le résultat souhaité, c'est la phase "Reduce". C'est cette capacité à distribuer les tâches qui a permis d'envisager le traitement de grandes masses de données à faible coût.

 Méthode des k plus proches voisins : Appelé k Nearest Neighbors (kNN) en anglais, il s'agit d'un algorithme de classification simple. Il permet de placer un nouvel élément dans une classe en le comparant au k éléments les plus proches.

 NoSQL : Acronyme de "Not only SQL", il désigne les bases de données de nouvelle génération qui se démarquent des bases de données relationnelles classiques et ne sont plus forcement interrogeables en SQL. 

 OpenData : Si le mouvement données ouvertes / OpenData n'est pas directement lié au Big Data, ce dernier tire très directement profit des données publiques pour enrichir les données issues des capteurs ou les données clients avec les informations librement accessibles sur le Web.

 Pig : Langage de scripting de la plateforme Hadoop.

 Prédictif : Les algorithmes prédictifs constituent une application directe des techniques de Machine Learning dans le Big Data. A partir d'un historique d'achats, de sessions de navigation sur un site internet, ces algorithmes vont prédirent quels seront les prochains besoins d'un consommateur. A partir de l'analyse des vibrations d'un moteur, un algorithme prédictif va diagnostiquer une panne avant qu'elle ne survienne.

 Qualité des données : C'est l'un des problèmes clés du Big Data : pour que les algorithmes fonctionnent correctement, ils doivent pouvoir s'appuyer sur des données fiables et cohérentes. Cela impose un gros travail de nettoyage en amont pour ne pas faire ce qu'on appelle du "Machine Learning on dirty data".

 R : Langage lié à l'analyse statistique, R s'impose de plus en plus comme le langage du Big Data. Projet open source, R bénéficie d'un fort soutien du secteur universitaire ainsi que de la société Revolution Analytics, rachetée par Microsoft en 2015.

 Régression logistique : algorithme prédictif utilisé dans le scoring des clients.

 Réseaux de neurones : algorithmes inspirés par le fonctionnement des neurones biologiques. Le fonctionnement d'un réseau de neurones éventuellement disposés en plusieurs couches est simulé. On définit le nombre de neurones, le nombre de couches et l'algorithme fonctionne en boite noire.

 Scoring : Note attribuée à un prospect pour évaluer son appétence à une offre, le risque de perte de son client (attrition) ou encore un risque d'impayé. Un scoring peut notamment être calculé selon la méthode RFM (Récence, Fréquence, Montant).

 Spark : Modèle de programmation Big Data publié sous licence open source sous l'égide de la fondation Apache. La solution est de type distribuée et "in-memory" et s'avère bien plus rapide qu'Hadoop.

 Surapprentissage : Phénomène qui affecte certains algorithmes de Machine Learning, notamment les réseaux de neurones, et qui voit leur efficacité décroitre au-delà d'un certain seuil. Engorgé par trop de données, l'algorithme perd peu à peu son pouvoir prédictif.

 YARN : Outil de gestion des tâches d'un cluster Hadoop.

Big Data / Apache