5 conseils (majeurs) pour la mise en œuvre d’un projet « Big Data »

Les data étant devenues le nouveau nerf de la guerre au sein des organisations, les professionnels de tous les secteurs d’industrie, et ce, quelle que soit leur fonction, doivent désormais se muer en véritables experts des données... Mais encore faut-il que les entreprises aient amorcé le changement ....

On comprend aisément que l’idée de se plonger dans des tableaux de bord, dans SQL ou dans Hadoop n’a rien d’évident si l’on n’est pas informaticien. Mais il existe désormais des outils d’exploration des données qui n’exigent pas plus de compétences que celles requises pour une utilisation basique d’Excel. 
Par ailleurs, une nouvelle catégorie d’outils de détection des données voit actuellement le jour. Ces outils dits de "Data discovery" permettent d’explorer très intuitivement les données par un simple glisser-déposer de variables, et de produire des visualisations instantanées sans avoir à taper la moindre ligne de code. La création d’applications conviviales peut suffire à rendre opérationnel n‘importe quel utilisateur concerné.

Mais il reste beaucoup à faire en termes de mise en œuvre des infrastructures IT et de définition de modèles, afin de stimuler l’adoption, mais aussi pour valoriser au maximum ces précieuses informations.

La véritable émergence des projets de Big Data dépend à présent de la capacité des entreprises à développer des solutions analytiques avancées, sur la base des données spécifiques de leurs clients et au service de leurs objectifs stratégiques propres.

La volumétrie des données est certes une problématique dont il faut tenir compte, mais ce n‘est pas la seule : les entreprises traitent des données qui proviennent de multiples sources, dans de très nombreux formats. Les systèmes de gestion des données conçus dans les années 1980-90 ne sont pas en mesure de supporter ce nouveau cycle de vie des données, beaucoup plus itératif par nature. Les nouveaux modèles de traitement des données exigent une impulsion managériale, de nouveaux procédés pour l’acquisition, le déploiement et l’extension des infrastructures informatiques.

Voici donc quelques mesures à prendre en considération au début d’un projet Big Data :

1) Les entreprises qui recherchent une solution Big Data doivent privilégier une architecture validée qui conjugue performance, évolutivité et simplicité d’administration avec des garanties de rapidité de déploiement. Au moment de l’implémentation, elles sont certaines de gagner du temps et de l’argent du fait d’une plus grande simplification. Les entreprises utilisent couramment Hadoop, framework logiciel Open Source qui permet de stocker et de traiter les métadonnées d’une façon distribuée sur de vastes clusters de serveurs bon marché. Hadoop réalise deux tâches : le stockage massif de données et le traitement accéléré. Les entreprises doivent aussi supporter leur architecture Big Data avec des éléments modulaires flexibles, qui s’adaptent aux nouveaux besoins et aux innovations technologiques, comme par exemple le stockage hiérarchisé pour le Big Data.

2) Les entreprises doivent comprendre que les standards ouverts sont essentiels pour réduire les coûts de leurs solutions IT. 
Ce sont les conditions de l’interopérabilité et donc de systèmes robustes et flexibles, capables d’évoluer au gré des nouveaux besoins de l’entreprise. Pour leurs infrastructures IT, les entreprises doivent fonder leur stratégie sur les logiciels Open Source, pour leur puissance et leur qualité. Le moyen le plus rapide pour innover consiste à collaborer avec la communauté Open Source, à exposer les exigences fonctionnelles de l’entreprise dans le domaine public et à contribuer aux progrès de projets Open Source en cours et initier d’autres projets d’incubation en fonction des besoins. Les entreprises qui envisagent d’adopter Hadoop doivent privilégier des solutions qui sont bien représentées dans la catégorie Open Enterprise Hadoop. Ces solutions Hadoop s’appuient à 100% sur des projets Open Source, elles sont gérées à 100% par YARN pour les questions d’hétérogénéité et le support du « multi-tenancy », et sont compatibles avec les standards existants.

3) Les DSI doivent comprendre que le Big Data est plus une démarche qu’une fin en soi.
Selon les prévisions, quelque 25 milliards de terminaux seront connectés d’ici à 2015 et 50 milliards d’ici à 2020. Dans ce contexte de développement exponentiel de l’Internet des objets, sans cesse plus complexe (avec de nouveaux types d’objets), les responsables de l’information et des données (Chief Information & Chief Data Officers) se retrouvent au cœur de la stratégie. Mais sans fondation IT et solution appropriée, les approches les plus innovantes et visionnaires sont vouées à l’échec. Les responsables commerciaux et IT doivent travailler main dans la main pour imaginer de nouveaux modèles de données, valoriser de nouvelles sources et exploiter l’analytique itératif. Cela suppose de changer l’angle d’approche du traitement des données et de la conception des systèmes IT. En résumé, les données nous ouvrent les portes de tout un monde de possibilités, mais aussi de nouvelles attentes !

4) Les entreprises qui privilégient une approche tout Open Source du Big Data peuvent compter sur un certain nombre de fournisseurs. 
Ceux-ci proposent une conception éprouvée et un système complet adapté aux impératifs actuels concernant les données : déploiement de Hadoop à l’échelle de l’entreprise, intégration des données en tous points, et déploiement facilité d’applications innovantes.

La solution combinée intègre les investissements actuels, valorise les technologies préexistantes, et étend le ROI sans qu’il faille revoir intégralement l’infrastructure. Elle est prête à accueillir de futures innovations et à monter en charge, si bien que les entreprises peuvent commencer petit et étendre progressivement leurs déploiements.

5) Une stratégie Big Data nécessite une vision à long terme.
Les entreprises qui utilisent ou initient des projets Open Source sont souvent attirées par les coûts avantageux en termes d’acquisition, de développement et de maintenance. Mais la meilleure qualité des logiciels et l’accès au code source sont aussi des avantages cités en priorité par les adeptes de l’Open Source. Or comme avec n’importe quel autre type de projet IT, le risque des contraintes propriétaires est un autre argument en faveur des logiciels Open Source. Les entreprises doivent veiller à ne pas se retrouver dépendantes de certains produits et services de leur fournisseur Hadoop au point qu’elles soient pénalisées financièrement si elles décident de changer de fournisseur. 
La façon dont un fournisseur Hadoop aménage l’organisation de son infrastructure peut comporter un risque de verrouillage propriétaire sur le long terme. 
Il faut donc s’en méfier !

Stockage / Serveurs