OVH façonne un cloud d'infrastructure taillé pour l'IA

Optimisé pour le machine et deep learning, le IaaS a pour vocation de proposer toute une pléiade de services complémentaires pour gérer les pipelines d'entrainement et de déploiement.

La stratégie d'OVH dans l'intelligence artificielle se dessine. Premier étage de la fusée, le cloud français entend bâtir une infrastructure de calcul taillée pour le machine learning. Un IaaS à la fois optimisé en termes de performance réseau, de calcul informatique (CPU) et d'accélération graphique (GPU). Second étage : concevoir des serveurs virtuels ou bare metal répondant aux cas d'usage les plus courants en matière d'IA. Enfin, dernier étage, OVH compte proposer toute une série de services cloud managés visant à faciliter le déploiement de pipelines d'apprentissage machine sur ses infrastructures. Une stratégie qui a le mérite d'être claire et précise.

Dès 2017, OVH livrait ses premières instances GPU sur son cloud public (OpenStack) avec en ligne de mire le machine learning parmi les principaux cas d'usage ciblés. A l'occasion de son dernier événement clients en octobre 2018, le groupe de Roubaix complétait l'édifice de machines virtuelles GPU Nvidia Tesla V100 façonnées pour accélérer les phases d'apprentissage des réseaux de neurones. "Dans les jours qui viennent, nous commercialiserons en plus des instances à base de stockage Flash NVMe ciblant les applications intensives", confie Alain Fiocco, chief technical officer d'OVH. Pour les entreprises préférant un environnement de training dédié, le groupe affiche au catalogue des serveurs barre metal combinant CPU (Intel Xeon) et GPU (GPU Nvidia V100) avec de pas moins 96 Go de RAM.

Pour couronner le tout, OVH vient d'annoncer la prise en charge de la technologie Nvidia GPU Cloud (NGC) par ses instances GPU Nvidia Tesla V100. Elle ouvre à ses clients l'accès à un catalogue de librairies de machine learning (Caffe2, MXNet, PyTorch, TensorFlow...), toutes optimisées pour les processeurs graphiques du fondeur américain. Disponibles sous forme de containers, ces frameworks pré-intégrés embarquent les briques nécessaires à leur exécution, de l'environnement Nvidia Cuda à l'OS en passant par les bibliothèques Nvidia.

"Nous pourrions envisager de construire notre propre machine multi-GPU"

Mieux encore, les logiciels NGC sont également compatibles avec l'offre de serveur dédié DGX-1 proposée en bêta par OVH. Equipé de 8 processeurs graphiques, ce calculateur multi-GPU signé Nvidia vise les besoins d'entrainement intensif de l'apprentissage profond. "Cette offre nous permet de tester l'appétence du marché pour ce type de configuration. S'il y a du répondant, nous pourrions envisager de construire notre propre machine multi-GPU", confie Alain Fiocco.

A la question de savoir si OVH pourrait aller jusqu'à concevoir ses propres processeurs graphiques taillés pour le deep learning, à l'image de Google avec ses TPU, le directeur technique d'OVH répond par la négative. "Notre vocation n'est pas de fabriquer des puces, mais plutôt d'assembler des serveurs à partir de composants du marché en vue d'atteindre un ratio prix / performance / densité qui permette de faire la différence." Une voie que Facebook emprunte déjà pour ses besoins internes avec des machines physiques GPU à huit cœurs faites maison. Comme pour le reste de son infrastructure, OVH adosse déjà ses VM et solutions barre metal destinées à l'IA à des serveurs conçus par sa R&D de Roubaix et assemblés au sein de son usine de Croix à quelques kilomètres de-là.

En parallèle, OVH entend capitaliser sur ses développements en IA à usage interne pour proposer à ses clients de nouveaux produits. Exemple de cette démarche : la plateforme de machine learning proposée sur son Labs (en version alpha) est issue d'un projet interne centré sur l'analyse prédictive du cycle de vie de ses infrastructures informatiques. "Nous avons décidé de l'étendre pour le rendre généralisable et répondre à des cas d'usage d'autres entités métier. Depuis, nous exploitons également cette application pour la détection de fraude", explique Alain Fiocco.

De-là à la packager et la commercialiser sous forme de service cloud, il y a qu'un pas. "Dans la même logique, nous pourrions dans l'avenir faire bénéficier nos clients de nos modèles prédictifs en matière de gestion des capacités informatiques", complète le CTO.

Un service Spark testé dans le Labs

Autre illustration de cette logique de reconversion de briques internes sous forme de produits : les processeurs FPGA (pour Field-Programmable Gate Array). Historiquement, OVH a recours à ces puces reprogrammables dans le cadre de son système de lutte contre les attaques par déni de service (lire le post d'OVH sur le sujet). Ce dernier s'adosse à des serveurs FPGA assemblés, là-encore, par les équipes du groupe. "Nous pourrions tout à fait envisager de les commercialiser si le besoin s'en fait sentir chez nos clients", reconnait Alain Fiocco. Au sein de son Labs, OVH propose par d'ailleurs (en version bêta) un service d'accélération de base de données PostgreSQL qui profite déjà de ces machines FPGA.

Au total, OVH a déployé une équipe d'une vingtaine de personnes dédiée à ses chantiers de R&D en data science et intelligence artificielle (hors business intelligence). Aux côtés des initiatives évoquées plus haut, elle planche sur d'autres projets d'IA expérimentaux accessibles sur le Labs d'OVH. C'est le cas par exemple d'un moteur de reconnaissance d'images ou encore d'un service cloud de cluster de calcul Apache Spark. Directement basé sur l'infrastructure de cloud public OpenStack de l'entreprise, celui-ci permet d'entrainer des modèles de machine learning en s'adossant à la librairie SparkML. Côté prix, ces solutions cloud managées seront dans un premier temps mises à disposition gratuitement. Seules les ressources machines sous-jacentes (virtuelles ou barre metal) et réellement consommées par le client seront facturées.

Parmi ses premières références clients sur le terrain de l'IA, l'entreprise d'Octave Klaba met en avant Systran. L'expert en traduction automatique de texte a recours à ses serveurs NVIDIA DGX-1 pour mettre en musique ses calculs intensifs de réseaux de neurones appliqués au traitement linguistique.

OVH façonne un cloud d'infrastructure taillé pour l'IA

Un service Spark testé dans le Labs

Guides

Repères