Big Bata : trois projets Apache qui vont marquer 2015

Big data : les 3 projets Apache qui vont marquer 2015 Parmi les solutions open source qui ont reçu le label "Top-Level Project" de la Fondation Apache, beaucoup sont liées au Big Data. Trois devraient briller l'année prochaine.

Plusieurs projets open source très connus sont des "Top-Level Projects" de la Fondation Apache : le fameuse solution serveur HTTP Apache bien sûr, mais aussi le moteur Lucene, Open Office, CloudStack... Les solutions au cœur du Big Data ont aussi obtenu ce label : Hadoop, la plus connue, mais aussi Hive ou HBase, entre autres. Le procédé pour devenir un Top-Level Projet est complexe, et requiert du mérite (lire : Comment fonctionne la Fondation Apache). Cette année une douzaine de projets ont eu droit à ce label. Ces solutions devraient grandement aider la Fondation à garder son rôle moteur majeur dans le Big Data : la moitié d'entre elles sont en effet liées aux "mégadonnées" (voir tableau ci-dessous) !

En voici trois qui devraient particulièrement briller l'année prochaine.

1- Spark : le couteau suisse pour Hadoop

Surnommée le "couteau suisse d'Hadoop" notamment à cause de sa polyvalence et de sa facilité de prise en main, la solution Spark est aussi officiellement décrite comme "un moteur ultra-rapide d'analyse et de traitement de données à grande échelle". Elle a notamment été pensée pour être utilisée dans le cadre de machine learning.

Développé à l'origine à l'université californienne de Berkeley, Spark est désormais utilisé par de grands noms comme la Nasa, Alibaba, Cloudera, IBM, Intel, MapR, ou Yahoo!. La solution bénéficie d'une communauté très active : plus de 100 personnes ont contribué au patch de la version 1, qui est sortie fin mai dernier, trois mois après que cette technologie ait obtenu le label "Top-Level".

2- Storm : l'analyse en temps réel d'énorme quantité de données

Taillé pour les systèmes distribués et les énormes volumes, Storm est prisé pour ses calculs en temps réel très performants. Un cluster Hadoop peut l'utiliser pour ajouter des capacités proches du "temps réel" aux traitements de données. Comme Spark, Storm fonctionne très bien avec Mesos, le système de gestion de cluster pour les applications distribuées (lire : Pourquoi Mesos excite le secteur informatique)

C'est Yahoo! qui l'a offert à la Fondation Apache. Le projet sera resté dans l'incubateur à peine un an avant de devenir un "Top-Level Project" en septembre dernier. Pas encore en version 1 (en version 0.9.3 actuellement), il compte là aussi une impressionnante liste d'utilisateurs prestigieux, comme Yelp, Groupon, Flipboard, Spotify ou Alibaba. Les contributions au code proviennent d'employés d'Hortonworks, Twitter, Verisign, ou Yahoo!.

3- Drill : un moteur de requêtes pour Hadoop

Drill est un moteur de requêtes pour Hadoop reposant sur des traitements massivement parallèles et pouvant traiter très rapidement des pétaoctets de données. Les utilisateurs de Drill peuvent exécuter des requêtes SQL ANSI interactives sur des données complexes (Json, Parquet, HBase). La solution s'est clairement inspirée de Dremel, le système développé par Google qui motorise son service Big Data BigQuery

Drill vient de passer au stade "Top-Level" début décembre, après avoir passé deux ans dans l'incubateur de la Fondation Apache. La solution repose sur des contributions d'employés de MapR, Hortonworks, Pentaho ou Cisco. A suivre de près également.

Les solutions devenues "Top-Level Project" en 2014
Date de l'obtention du label "Top-Level Project"Nom de la solution open sourceDescription
Source : JDN / Fondation Apache
19 février 2014Knox GatewayAPI REST passerelle permettant d'interagir avec les clusters Hadoop.
27 février 2014SparkMoteur d'analyse pouvant traiter rapidement de grandes quantités de données.
3 mars 2014Open Climate WorkbenchBoite à outils permettant de réaliser des évaluations et des analyses. Utilisée dans le domaine de la recherche météo et la modélisation des climats dans le monde.
1er avril 2014TajoSystème d'entreposage de données dans Hadoop.
1er avril 2014AlluraPlateforme collaborative pensée pour le développement de logiciel, permettant de gérer les référentiels de codes sources, les rapports de bugs, les discussions, wiki, etc.
7 avril 2014OlingoLibraire Java pour les implémentations d'Odata - l'Open Data Protocol, qui permet de partager et d'interroger des données.
23 mai 2014PhoenixMoteur de base de données SQL sur HBase.
3 juin 2014StratosFramework de PaaS open source
16 juillet 2014CelixImplémentation de la spécification OSGi (Open Services Gateway initiative) adapté à C.
22 juillet 2014TezFramework open source pour les traitements Yarn d'Hadoop.
23 septembre 2014 StormSolution de traitement en temps réel pour les applications distribuées qui ajoute des capacité de traitements de données à Hadoop.
2 décembre 2014DrillMoteur de requêtes pour Hadoop et le NoSQL.
9 décembre 2014MetamodelSolution d'exploration et de requêtage pour différents types de base de données - y compris NoSQL

Big Data / Hadoop