Hadoop et In-memory sont complémentaires

Un récent rapport du Gartner met en évidence le rôle majeur de l'in-memory dans la transformation de la supply chain. L'occasion de relancer le débat sur les bénéfices d'Hadoop face au traitement en mémoire.

Le récent rapport de Gartner sur les technologies in-memory dans la gestion de la supply chain met en évidence leur rôle majeur dans la transformation des processus supply chain. C’est aussi l’occasion de relancer le débat entre deux approches technologiques de la base de données à l’heure de la transformation numérique : d’un côté, les plateformes de type Hadoop, popularisées par les GAFA, et de l’autre le traitement en mémoire, préconisé par Quartet FS depuis près de 10 ans et adopté par d’autres.

L’origine d’Hadoop et de l’in-memory
Jusqu’aux années 2000, le marché de la base de données était figé, accaparé depuis les années 80 par les technologies d’Oracle, IBM, Microsoft pour gérer les bases de données relationnelles et SQL. Leurs logiciels de traitement de données étaient si optimisés qu’il n’y avait pas de place pour de nouveaux entrants.

Avec le développement de l’internet et la baisse brutale et continue du prix de la mémoire à partir des années 2000, de nouveaux éditeurs ont émergé. Certains ont utilisé la mise en réseau des ordinateurs pour se substituer au traitement des bases de données. C’est ce système qui a donné naissance à la technologie Hadoop.
D’autres ont profité de la baisse du prix de la mémoire - aujourd’hui un million de fois moins chère qu’il y a 15 ans – pour exploiter pleinement le potentiel du traitement in-memory. La technologie in-memory a été conçue pour traiter un grand nombre de requêtes en parallèle sans subir la contention résultant du nombre exponentiel d’I/O (entrées/sorties) des disques durs. Cette architecture offre des services d’analyses et de simulations très performants, en temps réel.

La différence entre Hadoop et in-memory
Les concepts sous-jacents à Hadoop ont été conçus initialement pour le moteur de recherche Google. Certaines applications web pouvant passer de 1000 à 500 millions d’utilisateurs en très peu de temps, l’entreprise avait besoin d’une solution pour gérer la croissance des utilisateurs. Conçu comme un système d’investigation et d’analyse, Hadoop a été développé pour gérer cette élasticité.
A contrario, l’in-memory est un système transactionnel et décisionnel. Il répond aux nouveaux besoins de l’informatique agile, indispensable pour les entreprises qui opèrent dans des environnements à flux tendus et en évolution permanente. Dans ce contexte, la seule analyse des données ne suffit pas pour répondre au besoin de prise de décision opérationnelle. L’in-memory permet d’avoir une application qui interagit avec la base de données à la vitesse de la pensée d’un être humain. Elle permet de tester différents scénarios de décisions, de gérer l’interactivité.


Deux approches complémentaires
Aujourd’hui, même chez le porte étendard du big data Google, les requêtes ne sont pas traitées dans une base de données Hadoop. Le processus serait trop lent. Google utilise donc une solution in-memory propriétaire en complément de Hadoop. Les résultats sont stockés, préparés via des pré-requêtes, et traités périodiquement dans Hadoop, avant d’être envoyés vers une base in-memory pour supporter le processus décisionnel.

En fonction de leurs problématiques, les entreprises peuvent utiliser Hadoop pour leurs besoins d’analyse, et l’in-memory pour optimiser leur prise de décision opérationnelle, tant que leurs données n’excèdent pas quelques dizaines de téraoctets. Au-delà de ce volume il devient intéressant de combiner les deux approches si l’entreprise a un besoin décisionnel.
Les deux technologies sont donc complémentaires.


Une erreur de compréhension généralisée

Beaucoup d’éditeurs de solutions in-memory font l’erreur de vendre leurs solutions pour leur capacité à « booster » la vitesse des bases de données. Mais avec cette approche, on fait l’impasse sur toute la réserve de puissance et d’innovation qu’offre la technologie in-memory. Le in-memory, ce n’est pas faire la même chose plus vite, c’est avant tout faire les choses autrement. C’est justement parce que l’in-memory révolutionne la manière de travailler qu’il représente une véritable innovation. Les décisions opérationnelles se prennent en continu, de manière collaborative, en réponse à de vraies problématiques métiers. Initialement réservée aux salles de marché, l’approche s’est démocratisée et de plus en plus de secteurs l’adoptent : le supply chain, l’e-commerce, la distribution, les transports et la logistique.

Dans son rapport « How In-Memory Computing Technologies Enable Digital Business »* le Gartner confirme cet avis. Pour l’analyste, aujourd’hui la plupart des éditeurs de base de données in-memory ne proposent pas de changer la manière de travailler, mais uniquement d’aller plus vite.


*How In-Memory Computing Technologies Enable Digital Business, publié le 31 Juillet 2014

Analystes: Massimo Pezzini, W. Roy Schulte, Donald Feinberg, Keith Guttridge, Roxane Edjlali

Hadoop