Données volumineuses : hors du nuage, point de salut !

Chaque fois que l’on clique sur une page, effleure ou tapote un écran, que l’on aime une page Facebook, que l’on s’enregistre et que l’on se connecte à un site, que l’on partage des données et que l’on utilise une interface API, de grands volumes de données sont générés.

Grâce à ces précieux renseignements, les entreprises qui les récupèrent pourront alors prendre des décisions commerciales judicieuses, le tout aussi rapidement que possible.
Dans un environnement économique concurrentiel, les données représentent aujourd’hui un atout qui peut être décisif pour le succès des entreprises. Elles peuvent fournir de précieuses indications quant au comportement des consommateurs, contribuer à l’amélioration de la qualité et à la réduction des coûts d’exploitation, favoriser le développement de fonctionnalités innovantes et, à terme, améliorer les résultats financiers de l’entreprise.
Par exemple, Climate Corporation, une entreprise américaine analyse, tous les jours, des mesures météorologiques relevées dans 2,5 millions endroits et établit des prévisions en s’appuyant sur des modèles climatiques majeurs. L’entreprise traite ces données, ainsi que 150 milliards d’observation du sol, pour générer quelque 10 trillions[1] de points de données utilisés pour effectuer des simulations météorologiques.
Ces analyses permettent le développement d’un programme d’assurances météorologiques qui couvre des saisons entières et dont le rôle est de protéger l’agriculture mondiale — un secteur qui pèse pas moins de 3 trillons de dollars — contre les conséquences que peut avoir le mauvais temps sur le plan financier. Dans un autre domaine, le site Yelp.com à destination des consommateurs et son application mobile enregistrent 100 gigaoctets d’informations chaque jour et analysent en permanence des données afin d’optimiser des rubriques de son site, telles que « les internautes qui ont vu ceci ont également vu cela ».
Les visiteurs du site yelp.com peuvent ainsi vivre une expérience réellement personnalisée. Ces deux sociétés utilisent les données comme un actif métier majeur. Chaque jour, de nouvelles entreprises découvrent la valeur invisible de leurs données grâce au nuage informatique (« cloud computing »).

Big Data et Cloud Computing
Chaque fois que l’on clique sur une page, pince, effleure ou tapote un écran, que l’on aime une page Facebook, que l’on s’enregistre et que l’on se connecte à un site, que l’on partage des données et que l’on utilise une interface API, de grands volumes de données sont générés. Les entreprises qui les récupèrent doivent ensuite les stocker, les traiter, les analyser, les organiser, les partager, les distribuer et les visualiser afin d’en retirer la substantifique moelle. Grâce à ces précieux renseignements, elles pourront alors prendre des décisions commerciales judicieuses, le tout aussi rapidement que possible.
Avec le cloud computing, notre aptitude à analyser des volumes de données très importants et à en extraire des renseignements pertinents n’est pas bridée par la capacité ou la puissance de calcul. Le « nuage informatique » permet en effet d’accéder à une capacité virtuellement illimitée, dont l’utilisation à la demande est facturée en fonction des ressources effectivement utilisées. Outre une diminution du coût total, cette approche maximise les recettes, et traite les données plus rapidement et avec une efficacité optimale.
L’élasticité, c’est à dire la capacité à adapter l’infrastructure informatique à la demande, est une propriété fondamentale du cloud computing, dont l’impact est positif sur les coûts. Alors que les entrepôts de données traditionnels, qui sont prévus pour répondre à des demandes courantes (générer le rapport des ventes nocturnes, par exemple), disposent d’une capacité qui peut être facilement prévue, les activités analytiques chargées de détecter de nouvelles tendances et les corrélations entre données nécessitent un nombre de cycles de calcul et une capacité de stockage difficilement prévisibles. Par exemple, pour traiter des données volumineuses dans une configuration sur site classique, les entreprises doivent prévoir la puissance maximale dont elles pourraient avoir besoin ultérieurement.
A contrario, les entreprises qui traitent des données en environnement Internet peuvent augmenter ou diminuer les ressources utilisées en fonction de leurs besoins à l’instant T. Elles ne sont plus obligées de consacrer des semaines, voire des mois, à l’achat, à l’installation et à la configuration de nouveaux serveurs et autres périphériques de stockage. Avec le cloud computing, des centaines, voire des milliers de serveurs peuvent être déployés en quelques heures.

Quelques astuces pour exploiter les données volumineuses grâce au cloud computing
Voici quelques indications pour analyser des données volumineuses grâce à l’environnement de cloud computing :

Enrichir les données
En ce qui concerne les données, la qualité est souvent préférable à la quantité. Il y a effectivement de fortes chances que des données incorrectes ou incohérentes produisent des résultats erronés. Par exemple, si vous devez analyser des données provenant de centaines de sources disparates, les différences qui existent entre la structure et le format des jeux de données aboutiront dans de nombreux cas à des conclusions peu fiables, notamment lorsque les données ne sont pas transposées, ni converties dans un format commun. Pour obtenir des données cohérentes et correctes, il est important de les enrichir en supprimant les informations erronées, notamment en validant, en normalisant, en déduisant et en collationnant les données.
Si les entreprises peuvent améliorer leurs données à l’aide de scripts et de programmes, certaines tâches d’analyse (marquage de photos, normalisation de catalogues ou, tout simplement, vérification de l’orthographe) requièrent une intervention manuelle pour en assurer l’exactitude. Pour enrichir les données, il est indispensable de recourir à une main d’œuvre variée, évolutive et disponible à la demande. Découpée en tâches courtes, l’analyse des données volumineuses s’effectue rapidement, tout en évaluant la qualité et la fiabilité des données — ce dont un ordinateur est difficilement capable.

Connectez vos sources de données à Internet
Si votre philosophie est de collecter le maximum de données et de tout mesurer, une capacité de stockage massive s’avèrera nécessaire. Le stockage sur le nuage est une solution à la fois évolutive, durable, fiable et hautement disponible, et avant tout, peu onéreuse.
Autre avantage du stockage sur Internet, au lieu de déplacer les données périodiquement par lots, il est possible de pointer votre source de données vers Internet, ce qui rapproche les données des ressources informatiques aux fins d’analyse et réduit les délais de traitement.
De plus, en étant stockées sur Internet, les données peuvent être partagées facilement avec d’autres utilisateurs ou partenaires, ces derniers ayant la possibilité d’accéder aux données à tout moment, quel que soit lieu où ils se trouvent ; en outre, ils utilisent les mêmes ressources accessibles et payantes à la demande pour extraire et traiter les données.

Analyser les données en parallèle avec un super calculateur élastique !
Pour procéder de façon efficace à une analyse des données volumineuses, il est nécessaire d’installer et de gérer des éléments matériels, d’augmenter et de réduire la capacité de manière élastique, et d’agréger les données issues de sources multiples. De plus, les systèmes de traitement des données doivent permettre de gérer les données volumineuses moyennant un faible coût, dans la mesure où les requêtes dont elles feront l’objet risquent d’évoluer au fil du temps. Avec son écosystème d’outils, la plate-forme open source Hadoop résout ces problèmes en évoluant horizontalement pour prendre en charge des volumes de données croissants, et en traitant des données structurées et non-structurées au sein d’un environnement unique. Hadoop s’intègre à de nombreuses technologies telles que des solutions statistiques et de nombreux langages de programmation afin de prendre en charge l’analyse de données complexes.
L’utilisation de Hadoop en environnement Internet élimine la complexité inhérente à la configuration et à la gestion d’une version installée sur site. Ceci signifie que tout développeur ou entreprise a la possibilité d’analyser des données sans procéder à de gros investissements. Aujourd’hui, il est possible d’activer un cluster Hadoop sur Internet en quelques minutes en utilisant un réseau et une infrastructure matérielle de hautes performances dernier cri, sans investir pour acquérir ces ressources. Les entreprises ont la possibilité d’étendre et de rétrécir sur demande un cluster, ce qui signifie que si elles ont besoin plus rapidement de réponses à leurs requêtes, elles peuvent augmenter les dimensions de leur cluster sans délai et ainsi accélérer le passage des données à la moulinette.
Accéder en temps réel aux données agrégées avec un modèle de traitement à 2 niveaux
Pour simplifier l’analyse des données volumineuses, il est conseillé d’optimiser les données sur deux niveaux. Primo, en utilisant un niveau « par lots » (Batch Tier) pour analyser les jeux de données massifs en parallèle et, secundo, en stockant les données agrégées dans un magasin de données NoSQL, appelé le niveau requêtes (Query Tier). Dans ce format, les données sont organisées et indexées à l’entrée, de sorte que les entreprises peuvent en permanence et en temps réel envoyer des requêtes à leurs jeux de données. Ceci est tout particulièrement utile pour visualiser les données volumineuses.

Conclusion
Le cloud computing accélère l’analyse des données volumineuses. Elle permet aux services des grandes entreprises d’exploiter de grands volumes de données en bénéficiant d’une énorme puissance et sans limitation. Compte tenu du faible coût inhérent au nuage informatique, les entreprises peuvent « expérimenter » leurs données autant de fois qu’elles le souhaitent pour répondre rapidement à des requêtes métiers complexes. L’environnement Internet apporte une évolutivité et une élasticité instantanées, et permet aux entreprises de se concentrer sur la valeur que ces données peuvent leur apporter au lieu de gérer et d’entretenir leur infrastructure informatique. Cet environnement accroît la capacité et la possibilité de lancer des requêtes intéressantes à propos des données et d’obtenir des réponses pertinentes à un coût que ne peuvent offrir les technologies traditionnelles.

-----------------------------

[1] Un trillion = 1 000 milliards