Ceph, la technologie qui "disrupte" le marché du stockage

Solution open source de stockage en mode distribué, Ceph permet de bâtir des infrastructures à moindre coût à la fois évolutives et tolérantes aux pannes.

Qu'est-ce que la technologie Ceph ?

Ceph est une plateforme open source de stockage distribué. Elle fait partie de la famille des solutions de Software-defined Storage (SDS). Cette approche SDS dissocie le matériel de stockage physique de l'intelligence propre à la gestion du stockage des données. Ce qui présente plusieurs avantages. Ainsi distribuée, la plateforme présente une capacité de dimensionnement très importante, étendant le stockage jusqu'à plusieurs pétaoctets ; tout en offrant une forte résilience, les données étant répliquées à différents endroits d'un cluster. En cas de panne de disque, la plateforme se "reconstruit". L'administration est également simplifiée grâce à une gestion automatisée basée sur des règles.

Grâce à sa couche d'abstraction Rados (pour Reliable Autonomic Distributed Object Store), Ceph autorise un stockage en mode bloc, objet ou par système de fichiers compatible Posix, le standard qui définit les interfaces communes aux systèmes de type Unix.

A quand remonte-t-elle ?

Ceph – du grec kephalê (qui veut dire tête) - est la plus ancienne des solutions de SDS en open source. On la doit à l'Américain Sage Weil qui l'a conçue dans le cadre de sa thèse de doctorat en 2004. A la fin de ses études, il continuera à développer Ceph, soutenu par la communauté du Libre. En 2012, Sage Weil crée Instank, société de services autour de Ceph. Elle sera rachetée par Red Hat en avril 2014. En avril dernier, Ceph sortait en version 10.2.010, dite Jewel, avec un système de fichiers (CephFS), considéré comme stable.

Pour Florent Manens, dirigeant de la société de services BeeZim, Ceph est "la solution open source SDS qui offre à la fois le plus d'antériorité et de stabilité". Il rappelle que, dès 2010, le client Ceph a été fondu dans le Kernel Linux. Parmi les alternatives du Libre à Ceph, on peut citer Lustre, MooseFS, Riak ou Gluster. Ce dernier a été lui aussi repris par Red Hat.

Comment fonctionne Ceph ?

Un cluster Ceph comprend N nœuds de stockage. Au niveau de chacun de ces nœuds, on trouve plusieurs éléments de base. Le disque physique, puis le système de fichiers (file systems) et, encore au-dessus, le demon qui va piloter le disque, baptisé OSD (pour Object Storage Daemon).

Des nœuds de monitoring viennent compléter cette architecture en apportant la couche d'intelligence. Grâce à l'algorithme Crush, pour Controlled Replication Under Scalable Hashing, les nœuds de monitoring vont détecter la défaillance d'un nœud de stockage en notant que les données qu'il contient ne sont plus accessibles. En cas de défaillance, le système ira alors chercher les données répliquées dans les nœuds survivants puis les recopier automatiquement (processus dit de self healing) jusqu'à ce que le cluster recouvre son intégrité. En parallèle, une alerte sera envoyée à l'administrateur pour qu'il aille porter secours au nœud de stockage défaillant.

Ceph jette un pont avec
le monde du cloud

Pour Julien Niedergang, ingénieur système chez Suse, ce type d'architecture dit scale-out (par apposition au modèle de stockage traditionnel dit scale-up) permet un stockage extensible "à l'infini" avec la possibilité d'ajouter des nœuds à chaud. "Elle offre aussi un maintien en conditions opérationnelles des données très élevé", ajoute-t-il.

Quels sont ses atouts ?

Outre ses capacités de dimensionnement et de tolérance aux pannes, Ceph a pour avantage d'être agnostique au niveau matériel. Cette solution ne dépend pas des systèmes propriétaires des équipementiers. Ce qui offre la possibilité de construire des clusters hétérogènes avec des serveurs dits de commodité voire décommissionnés, sans être liés à une marque en particulier. Ce qui réduit les coûts de stockage.

Ceph jette aussi un pont avec le monde du cloud. Son interface RESTful fournit un accès aux API pour S3 d'Amazon ou Swift d'OpenStack. Florent Manens met, enfin, en avant le niveau de performance de la plateforme. "Pas d'intermédiaire ou de passerelle http, la communication est directe entre l'applicatif et la donnée sur le disque", indique l'expert.

Qui utilise Ceph ?

Historiquement, Ceph est prisée par le monde de la recherche académique – le Cern l'a déployée à grande échelle – et le milieu universitaire. Les universités de Nantes et de Lorraine ont recours à Ceph, celle d'Auvergne devrait suivre. Les entreprises s'y mettent aussi. Une caisse régionale d'une banque a déjà expérimenté Ceph. De son côté, Deezer indiquait récemment au Journal du Net vouloir tester Ceph pour le stockage de son catalogue musical.

Les retours d'expérience disponibles publiquement sont peu nombreux. "Les entreprises sont extrêmement précautionneuses en termes d'environnement et d'architecture de stockage. L'enjeu est crucial et le circuit de validation particulièrement long", observe Julien Niedergang.

Florent Manens note pour sa part que beaucoup d'entreprises restent sur des infrastructures propriétaires type VMware et n'ont pas franchi le pas d'OpenStack. Dans le cadre de son activité chez BeeZim, il associe Ceph à la messagerie open source Zimbra. Il utilise notamment son composant Rados pour restaurer des données dans une nouvelle boîte aux lettres ou pour dédupliquer des mails en doublon.

Quelles sont ses limites ?

Ceph permet de faire face à l'explosion des données tout en diminuant les coûts

En dépit des efforts de la communauté et d'acteurs comme Red Hat ou SuSe pour accompagner les projets, la prise en main de Ceph peut s'avérer complexe. "Son pilotage n'est pas simple. Il y a beaucoup de lignes de commandes. Cela peut déstabiliser un administrateur qui n'est pas spécialisé", note Florent Manens.

Pour simplifier l'approche, Intel a conçu sa propre console VSM (pour Virtual Storage Manager). Florent Manens utilise, lui, deux outils open source : Calamari (proposé par Inktank / Red Hat) et Inkscope (développé par des chercheurs d'Orange Labs). Par ailleurs, Ceph n'est pas à l'abri des failles de sécurité. Red Hat a dû changer les clés de signature pour certaines distributions Linux après avoir été piraté.

Pourquoi la plateforme Ceph va-t-elle se développer ?

Ces dernières années, Ceph est devenue le chouchou des fournisseurs IT. Red Hat a racheté Inktank et son concurrent Suse édite Suse Enterprise Storage, une solution de stockage logicielle basée sur Ceph. Fujitsu distribue, pour sa part, une solution packagée où Ceph est associée à son offre matérielle. Intel propose, lui, une architecture adaptée aux clusters Ceph.

Et ce n'est que le début pronostique Julien Niedergang. "Le marché du stockage est en voie de recomposition et le rachat d'EMC par Dell n'est pas un hasard. Il s'agit de faire face à l'explosion du volume de données tout en faisant diminuer le coût au Go. Les entreprises ne comprennent plus qu'elles doivent payer des disques jusqu'à sept fois plus chers que les disques grand public", analyse le spécialiste. Ceph répond à cette double attente.

Stockage / Serveurs