Les nouvelles technologies, un nouvel élan pour le secteur de la recherche

Alors que la médecine du XXIè siècle repose de plus en plus sur les données, la conception de nouvelles infrastructures de données fiables et évolutives doit désormais reposer sur des technologies de nouvelle génération.

Tous les chercheurs sont unanimes : il n'y a pas assez de ressources pour alimenter convenablement "la machine à innover". C’est d’autant plus vrai pour la recherche en génomique et la médecine de précision. Ces dernières années, ces deux disciplines ont rapidement évolué, contribuant largement à transformer la compréhension, le traitement et, dans le futur, la guérison de certaines des maladies les plus complexes.

Le domaine des infrastructures, dont le stockage, est particulièrement affecté par ce manque de ressources. La croissance exponentielle des données et des algorithmes et pipelines de nouvelles générations a créé des exigences que les infrastructures ont des difficultés à respecter.

De nombreuses organisations ne sont pas encore prêtes pour adopter rapidement les nouvelles technologies, comme l’apprentissage automatique et l’intelligence artificielle (IA), qui sont pourtant nécessaires au développement de la médecine de précision.

Beaucoup de données... et de potentiel

En prenant en compte le rythme actuel d'accélération des données, on estime qu’un exaoctet de données stocké sera produit chaque année par le séquençage et l'analyse génomique d’ici 2020. D’ici 2025, les besoins en données passeront à 1 zetta octet - soit un trillion de milliards d'octets - par séquence et par an.

Les efforts de recherche collectifs de différentes universités, partenaires de l'industrie privée et autres experts de la santé ont rendu disponible 500 000 séquences du génome humain en 2017. Grâce à l’élan d’instituts de recherche, dont l’objectif est d’atteindre jusqu’à 2 millions de séquences génomiques uniques, ce nombre devrait dès maintenant doubler chaque année. Lorsque l’on sait que 5 téraoctets de stockage de données brutes sont nécessaires au séquençage d’un unique génome, on comprend alors pourquoi les plateformes capables de prendre en charge l'évolutivité, la réduction des données et le coût total de possession d'un exaoctet sont essentielles.

Passer à la vitesse supérieure

Malgré la croissance importante du nombre de plateformes de stockage de données, elles sont encore peu nombreuses aujourd’hui à être assez agiles, performantes et rentables pour exploiter les nouvelles technologies. 

En effet, les technologies de stockage traditionnelles, utilisant les disques mécaniques mis au point dans les années 1950, n'ont bien évidemment pas été conçues pour ces nouvelles charges de travail et forment un goulet d'étranglement de plus en plus important pour les chercheurs. Elles sont encore moins adaptées au développement de l’IA, de l'apprentissage profond (DL) ou aux unités de traitement graphique (GPU), car elles sont dans l’incapacité de stocker et de traiter de très grands ensembles de données à grande vitesse. Les attentes en matière de vitesse, de capacité et de densité étaient très différentes à l’époque où les technologies de stockage existantes ont été conçues. Imaginer de nouvelles plateformes de données adaptées aux nouvelles technologies et aux applications d’analytique est désormais fondamental.

Cette nouvelle architecture centrée sur les données doit notamment respecter plusieurs conditions essentielles, comme un stockage à base de mémoire Flash plutôt que sur disque, pouvant assurer une bande passante qui se compte en gigaoctets/seconde, avec des performances dépassant largement celles du stockage sur disque. L’architecture doit aussi être hautement parallèle, afin de supporter des milliers voire des dizaines de milliers d'applications et de partager des pétaoctets de données. Autre élément clé : le modèle de financement, qui doit s’adapter à la consommation de pétaoctets des organisations, au fur et à mesure qu’elles grandissent, avec un modèle de consommation sur abonnement, soutenant véritablement l’innovation. L’infrastructure ne doit pas être un écosystème fermé sur des solutions logicielles complexes de stockage. Au contraire, elle doit être en mesure de prendre en charge plusieurs types d’environnements cloud, ainsi que les fournisseurs d'infrastructures multi-cloud (IaaS) et de logiciels en tant que services (SaaS).

L’avancée des pratiques de génomique et de médecine de précision dépend grandement de la collecte, de la gestion, de l’analyse et de l’obtention rapide et efficace d’informations à partir d’importants volumes de données. C’est pourquoi les équipes informatiques jouent un rôle clé dans la mise à disposition de cette infrastructure centrée sur les données permettant d’accompagner en toute sécurité les progrès de ces disciplines.