Comment le stockage de données favorise-t-il la recherche scientifique ?

Voici les 5 facteurs qui permettent à l’infrastructure de stockage de faire toute la différence dans le domaine de la recherche scientifique.

Cela fait référence par exemple, à l’informatique hautes performances (HPC) et les technologies d’accélération du calcul telles que les processeurs graphiques (GPU), aux  drones et robots qui permettent aux scientifiques d’explorer des territoires inaccessibles à l’Homme, que ce soit dans l’espace, sur terre et en mer, aux formats vidéo ultra-haute définition 4K et 8K, ou encore aux capteurs avancés infrarouge, ultraviolet, micro-onde et radar. L’analytique facilite l’interprétation de toutes ces données.

Le buzz autour de la détection d’ondes gravitationnelles par l’observatoire LIGO en février dernier, une première mondiale, confirme à quel point la technologie nous aide à mieux appréhender le monde physique.

Quelle que soit la discipline, chimie, génomique, bioinformatique, science du climat, physique des particules ou recherche en cancérologie, les données peuvent aujourd’hui être analysées et exploitées plus efficacement que jamais. Néanmoins, pour gérer des pétaoctets de données scientifiques, prendre en charge des workflows ultrarapides exigeants, et favoriser la collaboration entre les équipes, les départements et les instituts ; une infrastructure de stockage spécialisée s’impose.

Comment le stockage favorise-t-il la recherche scientifique ? Voici les 5 facteurs qui permettent à l’infrastructure de stockage de faire toute la différence dans le domaine de la recherche scientifique

1. Facilité d'accès

Le stockage ne se limite pas à enregistrer des bits de données sur disque. Le but d’une solution de stockage est d’assurer aux utilisateurs un accès aux informations dont ils ont besoin, quand ils en ont besoin et selon les modalités qui leur conviennent.

La plupart des chercheurs ont besoin d’un accès partagé, en libre-service et, dans certains cas, ultrarapide.

L’accès partagé aux données renforce l’efficacité des workflows pour la collaboration entre les personnes et les équipes. Les solutions de stockage ne sont cependant pas toutes optimisées pour le partage. Certaines offrent des performances d’E/S par seconde élevées sur le stockage local au détriment du partage. L’impossibilité de partager les données entre les systèmes et les utilisateurs peut déboucher sur des workflows sérialisés inefficaces dans lesquels les données doivent préalablement être transférées du stockage local vers un autre référentiel en vue de leur exploitation par d’autres équipes. Une situation loin d’être idéale !

Avec l’accès en libre-service, les scientifiques ne perdent pas une minute. Pour accéder aux données archivées, la plupart des chercheurs n’ont pas le temps d’ouvrir un ticket auprès du département informatique et d’attendre plusieurs heures (voire plusieurs jours) que leur requête soit traitée. Lorsque des données sont archivées pendant de longues périodes sur une infrastructure différente, les chercheurs doivent idéalement pouvoir accéder eux-mêmes aux fichiers dont ils ont besoin à l’endroit où ils s’attendent à les trouver, sans intermédiaires ni délais d’attente.

Un accès ultrarapide est indispensable aux applications et charges de travail traitant d’importants volumes de données, en particulier dans le cas de l’informatique hautes performances (HPC). Les équipes de recherche ont aussi besoin d’une infrastructure de stockage capable d’offrir aux applications et aux clusters HPC la vitesse requise, tout en permettant de répartir les données sur différents niveaux afin d’éviter de toutes les stocker sur des disques onéreux.

2. Réanalyse, réplication, reproduction

Lorsque je discute avec des clients d’autres secteurs d’activité, comme l’industrie audiovisuelle, j’emploie parfois l’expression « réutilisation et remonétisation » pour désigner cette exigence. Dans le monde de l’audiovisuel, une vidéo réalisée il y a plusieurs années peut très bien être réutilisée dans un nouveau film, documentaire ou programme télévisé. Il arrive que des vidéos d’événements sportifs remontant à quelques décennies soient remastérisées et remonétisées pour être présentées sous une nouvelle forme.

Les producteurs de contenu tirent ainsi parti d’anciens contenus en les remixant et en les intégrant à de nouvelles vidéos, d’où l’importance d’un archivage efficace. Car « la valeur d’une archive dépend de la capacité à en restituer rapidement le contenu ».

Il est évident que les scientifiques ne poursuivent pas le même objectif. Leur mission est de trouver un traitement au cancer et non de divertir les clients. La possibilité, pour eux, d’accéder aux anciennes données archivées n’en revêt que plus d’importance.

Les projets de recherche s’étendent parfois sur plusieurs années. Avant de publier un article sur la génomique, par exemple, les chercheurs peuvent avoir besoin de réanalyser certains des résultats de séquençage bruts d’origine à l’aide de techniques bioinformatiques plus récentes de manière à compléter l’analyse initiale.

La difficulté à reproduire les résultats des tests scientifiques a suscité de nombreuses discussions et controverses ces dernières années. Le débat semble avoir largement influé sur la nécessité de conserver les données brutes d’origine, ainsi que les données secondaires (celles résultant de l’analyse), plutôt que de se contenter de publier les résultats.

Par conséquent, s’il est fort probable que les scientifiques veuillent réanalyser leurs données, il est également possible qu’ils (ou d’autres personnes) aient besoin de s’y référer à nouveau pour tenter de reproduire les résultats obtenus.

Autrement dit, une infrastructure de stockage qui permet, mais aussi facilite, la restitution et l’analyse d’anciennes données archivées augmentera considérablement l’efficacité des workflows scientifiques.

3. Facilité de croissance et d'évolution

La nécessité de réanalyser d’anciennes données nous amène à une autre exigence clé du stockage pour la recherche scientifique. Les équipes doivent être à même de gérer un nombre croissant de données, à très grande échelle. Il n’est pas rare que nos clients traitent aujourd’hui un volume de données de 15 pétaoctets (oui, j’ai bien dit pétaoctets) et qui risque d’atteindre 25 ou 30 Po au cours des prochaines années.

Les équipes de recherche ont donc besoin d’une solution de stockage qui permet d’augmenter aisément la taille d’un système de fichiers à la volée sans entraîner d’interruption de service ni empêcher les utilisateurs d’accomplir leurs tâches.

Elles s’attendent également à ce qu’une solution de stockage offre la possibilité d’étendre la capacité en utilisant différents types de support afin de trouver le meilleur compromis entre coûts et risques, pour une infrastructure de stockage entièrement évolutive.

Et ce n’est pas tout. Une solution de stockage doit aussi faciliter l’archivage lors de l’ingestion et créer des copies quasi immédiates des données sans le casse-tête des sauvegardes, en particulier lorsque le volume de données atteint un tel niveau que la sauvegarde n’est plus une option viable.

Bien entendu, l’évolutivité ne concerne pas uniquement la capacité de stockage. De nombreux instituts et départements obtiennent de plus en plus de subventions et sont amenés à gérer un nombre accru de projets, ce qui augmente leurs besoins en performances et multiplie le nombre d’utilisateurs exigeant un accès au référentiel de données.

Par conséquent, l’évolutivité de l’infrastructure de stockage, que ce soit en termes de capacité, de nombre d’utilisateurs ou de performances, est un autre facteur d’optimisation des workflows scientifiques.

4. Allocation économique des ressources

Pour vivre, nous disposons tous d’un budget que nous ne devons pas dépasser.

Dans le monde des sciences, les subventions et les dons caritatifs créent certes des opportunités, mais imposent également des limites. Des disciplines aussi nobles que les sciences doivent elles aussi payer leurs factures et trouver des compromis.

Avec une infrastructure de stockage permettant de combiner différents types de supports, comme la technologie flash, les disques, le stockage objets, les bandes et le Cloud, chacun ayant un coût différent, les organisations sont en mesure de déployer le type de stockage qui répond le mieux à leurs besoins en termes de performances, d’évolutivité, d’accessibilité et de budget.

Lors du Converged IT Summit qui s’est tenu à San Francisco fin 2015, l’un des fondateurs de BioTeam, Chris Dagdigian, a expliqué en quoi le stockage multiniveau représentait l’avenir des données scientifiques. Il a décrit les solutions de stockage multiniveau suivantes :

  • Les disques SSD pour workflows ultrarapides et gourmands en IOPS (de 5 à 50 To),
  • Les disques hautes performances pour les projets actifs et « scratch » (de 50 à 500 To),
  • Le stockage objets en tant qu’extension massivement évolutive du stockage en ligne (de 100 To à plusieurs pétaoctets),
  • La bande pour une rétention à long terme au coût le plus bas (de 100 To à plusieurs pétaoctets),
  • La rétention à long terme dans le Cloud.

Le problème est simple : l’utilisation de 2 000 cœurs de processeur et de plusieurs pétaoctets d’espace disque étant devenue la norme, les clients doivent pouvoir déployer plusieurs niveaux de stockage (chacun possédant des caractéristiques de performances et de coût différentes) pour répondre aux besoins de leur workflow et de leurs données.

Une solution de stockage multiniveau combinant technologie flash, disques, stockage objets, bandes et Cloud aide les organisations à respecter leur budget tout en permettant aux scientifiques de faire avancer la recherche.

5. Interopérabilité et intégration

Pour finir, les stratégies de remplacement intégral ne conviennent pas aux environnements exigeant une allocation prudente des ressources.

Une solution de stockage capable d’éviter un tel scénario peut, par conséquent, faire toute la différence. Et un stockage qui s’intègre aisément avec l’infrastructure et les applications existantes constitue un réel avantage pour les équipes de recherche.

Une infrastructure de stockage multiniveau conçue pour une parfaite interopérabilité assure une prise en charge hétérogène des principaux systèmes d’exploitation, que ce soit Linux, Windows, UNIX et même Mac OS.

De plus, ce type de solution prend en charge différentes options de connectivité réseau, notamment Fibre Channel, Ethernet, iSCSI et InfiniBand, et offre des protocoles haute vitesse garantissant un plus haut niveau de performances sur FC et Ethernet.

Stockage