Décrypter l'ADN grâce au Big Data : une réalité à l'INRA

Décrypter l'ADN grâce au Big Data : une réalité à l'INRA Pour mieux appréhender des maladies comme le diabète ou l'obésité, l'INRA analyse des milliards de fragments de séquences ADN des bactéries du microbiote intestinal.

Notre tube digestif héberge 100 000 milliards de bactéries. Nécessaires au processus de digestion, elles jouent aussi un rôle fondamental dans le cadre de nos défenses immunitaires. Dans l'objectif de mieux comprendre les relations qui peuvent exister entre ces bactéries et certaines pathologies, comme la maladie de Crohn et l'obésité, l'Institut National de la Recherche Agronomique (INRA) contribue en 2008 au lancement d'un vaste programme de recherche européen : MetaHit (Metagenomics of the Human Intestinal Tract). Il est directement coordonné par Stanislav Dusko Ehrlich, expert mondial en microbiologie et pionnier de la métagénomique.

"Alors que le génome humain atteint des variabilités de 5% entre les individus, l'ADN présent dans la flore microbienne intestinale peut atteindre des variabilités de 50%. Cette approche métagénomique va permettre de déceler beaucoup plus rapidement que pour le génome humain des liens entre la signature d'une bactérie du microbiote intestinal et une maladie", explique Jean-Michel Batto à l'INRA. Une analyse qui passe notamment par l'étude du nombre de gènes microbiens, qui se révèle différents selon les types de microbiote. "Ce qui revient à décrire une analyse par une colonne de plusieurs millions de chiffres", précise Jean-Michel Batto.

Dans le cadre de MetaHit, l'INRA met au point un premier cluster de calcul, reposant sur des processeurs graphiques. Capable de traiter de 200 à 300 échantillons métagénomiques sur deux à quatre jours, l'infrastructure de l'institut, combinée à celle d'autres laboratoires européens, a déjà permis de réaliser un certain nombre de découvertes (lire l'article : Pauvre ou riche en bactéries intestinales : pas tous égaux face aux maladies liées à l'obésité).

Objectif : multiplier par 5 les capacités de traitement

Mais, l'INRA souhaitait passer à la vitesse supérieure en se dotant d'une nouvelle plate-forme, mieux intégrée, centrée à la fois sur la métagénomique quantitative mais aussi la métagénomique fonctionnelle (étude notamment centrée sur le dialogue entre bactéries et cellules humaines). C'est dans cette optique que l'institut a déposé en 2011 un dossier de financement dans le cadre des investissements d'avenir. Un dossier retenu d'ailleurs parmi de nombreux autres, également portés par l'INRA.

"Notre principal objectif était de multiplier par 5 nos capacités de traitement, et passer de 1000 à 1500 échantillons traités en 2 à 4 jours", précise Jean-Michel Batto. "Le but de ce projet est de pouvoir produire 200 To, non plus en 4 ans, mais en une année." Le tout représentant des milliards de fragments de séquences d'ADN bactérien compulsés et associés. Et défi majeur : l'INRA entendait réaliser ce bond technologique, sans devoir recruter (l'équipe du projet de bio-informatique compte trois permanents) ni faire évoluer de trop l'infrastructure matérielle existante. Le nouveau projet est baptisé MetaGenoPolis. Mais "l'informatique n'est qu'une composante transversale au sein de ce projet articulé autour de plateformes d'analyses biologiques", pondère Jean-Michel Batto.

C'est à l'issue d'un séminaire de l'association Aristote, lors duquel différents fournisseurs de serveur de données (dont Google et Palantir) sont confrontés au monde de la recherche, que Jean-Michel Batto décide de se tourner vers la technologie ParStream. Une solution propriétaire qui présente pour principal avantage d'accueillir les algorithmes de calcul (GPU) définis par MetaGenoPolis, tout en permettant à l'institut de pouvoir internaliser à terme les compétences requises sans pour autant impliquer de nouveaux recrutements.

Un cluster de 10 nœuds sous ParStream

Les principales caractéristiques de ParStream ? Basée sur SQL, cette base de données repose sur un mode de recherche à facettes pour éviter la lourdeur d'un cube multidimensionnel traditionnel. Pour optimiser sa performance d'exécution et sa consommation en ressources machines (CPU, RAM et i/o), l'éditeur a fait appel à plusieurs méthodes : compression d'index, stockage des données en mémoire, structuration hybride (colonnes / lignes) et traitement massivement parallèle.

"L'efficacité énergétique de la solution a été pour nous un argument clé, tout comme la possibilité de la porter sur une architecture GPU. Les bases optimisées pour ce type de configuration sont rares", note Jean-Michel Batto. Quant à la promesse de ParStream en matière de performance (sur le sharding, l'exécution de code binaire...), elle a aussi contribué à faire pencher la balance. L'éditeur revendique en effet des temps de réponse de l'ordre de quelques millisecondes, même pour des milliards d'enregistrements. Suite à cette décision, Jean-Michel Batto définit une infrastructure cible : un cluster de 10 nœuds, avec à la clé des serveurs intégrant des cartes graphiques NVIDIA Kepler, et une capacité de stockage de 500 To. 

 

La datavisualisation : l'étape ultime

Grâce aux capacités de ParStream, MetaGenoPolis compte s'adosser à la base de données pour stocker tout son historique de données en sortie d'analyse, c'est-à-dire toutes les séquences et leur adressage dans un lexique décrivant le métagénome bactérien. "Ce qui aurait été impossible avec la plate-forme actuelle", note-t-on au sein de l'INRA. Reste à savoir comment les chercheurs peuvent ensuite accéder à toutes ces informations. Dans un premier temps, elles seront mises à la disposition d'analystes R pour réaliser des analyses statistiques. Mais, MetaGenoPolis commence à étudier des solutions de datavisualisation. "Nous voulons contribuer au projet open source de datavisualisation Tulip. Mais la question de la représentation graphique des données est l'un des points les plus difficiles", confie Jean-Michel Batto.