Les coulisses de la pathologie numérique

Vous connaissez peut-être les interfaces numériques utilisées en pathologie, mais que savez-vous de l’infrastructure sous-jacente sur laquelle elles reposent ?

La pathologie numérique est un concept à la mode qui n’est pas sans nous rappeler la technologie de pointe, les incroyables images numérisées et les gigantesques projets de séquençage que l’on peut voir dans les laboratoires en apparence bien équipés de certaines séries télé. La question que les spectateurs (et de nombreux pathologistes) se posent rarement, c’est où sont stockées toutes ces images haute résolution et comment les pathologistes accèdent à l’ensemble des données de séquençage. Dans la réalité, pour mener à bien sa mission, chaque praticien spécialisé en pathologie numérique doit s’appuyer sur une infrastructure hautes performances intelligente spécialement conçue pour les workflows les plus exigeants traitant d’importants volumes de données.

À la recherche du stockage
Le séquençage fait peser une lourde pression sur le stockage des données. Beaucoup moins onéreuses qu’auparavant (en particulier dans le cas de grands volumes), mais aussi plus rapides que jamais, les opérations de séquençage sont en forte hausse et produisent une masse croissante de données. Les activités de séquençage de l’Institut Suisse de Bioinformatique (ISB, ou SIB pour Swiss Institute of Bioinformatics en anglais) a augmenté de façon spectaculaire au cours des vingt dernières années. Aujourd’hui, l’institut gère environ cinq projets différents par semaine et soutient quelque 300 équipes de recherche actives réparties dans six centres de séquençage. Générant jusqu’à 43 téraoctets de données chaque semaine, il a dû placer le stockage au cœur de son infrastructure.

Avec le système actuel, les chercheurs de l’ISB bénéficient d’un accès haut débit aux données de séquençage et d’analyse via plusieurs systèmes de stockage distincts, représentant près d’1,5 Po de stockage primaire et 5 Po d’archives sur bande (plus économique), et d’un traitement hautes performances des données génomiques. L’approche multiniveau adoptée par l’ISB conserve les données actives sur le stockage primaire en vue d’analyses complexes et les transfère automatiquement vers l’archive à long terme à mesure qu’elles vieillissent. Plus de 600 utilisateurs accèdent aux données génomiques séquencées, en local via le réseau d’un des datacenters affiliés à l’ISB ou par le biais d’une interface distante.

Les pathologistes se sont récemment mis en quête de solutions pour gérer les volumes de données à forte croissance générés par la microscopie haute résolution. En début d’année, par exemple, les chercheurs du Massachusetts ont développé une technologie qui permet de produire des images très haute résolution à un coût nettement inférieur (1). Face aux progrès de la technologie d’imagerie et à sa plus grande facilité d’utilisation, les pathologistes auront besoin d’une capacité de stockage supérieure capable de répondre aux besoins de la microscopie.

Facteurs à prendre en considération
Au lieu d’adopter une approche cloisonnée du stockage, nous devons élargir notre perspective et considérer le stockage comme une composante clé de l’infrastructure qui soutient nos opérations. Du point de vue des données, qu’est-ce que l’infrastructure ? Le terme désigne un système qui englobe la topologie du réseau, les ressources de calcul et le stockage. Lorsque nous abordons la question du stockage, nous devons tenir compte de facteurs tels que la capacité, les performances, les coûts et la connectivité, sans oublier leur importance respective pour le laboratoire. Il convient bien entendu de réfléchir avec soin aux besoins actuels en données, mais aussi à la manière de gérer ces dernières avec un maximum de simplicité et d’efficacité.L’une des erreurs les plus courantes des laboratoires lors de leur migration vers un workflow numérique consiste à investir dans une infrastructure "fermée" incapable de s’interfacer en toute transparence avec leurs technologies existantes ou futures. Pour créer une infrastructure de stockage à même de gérer la croissance des volumes de données scientifiques, les organismes de recherche doivent trouver des moyens de combiner plusieurs technologies de stockage : disques primaires haute vitesse, stockage objets, archives sur bande et cloud.

De nombreux organismes commencent par acheter une quantité de stockage hautes performances adaptée à leur environnement initial de faible capacité et sont par la suite condamnés à ajouter des ressources de stockage onéreuses chaque fois que leurs besoins augmentent. Résultat : des coûts qui finissent par atteindre des niveaux prohibitifs et des sauvegardes inefficaces. Et que se passe-t-il ensuite ? Insuffisamment protégées, les données deviennent vulnérables. Ces laboratoires sont le plus souvent dans l’impossibilité d’étendre leurs services faute des budgets nécessaires à l’achat de l’espace de stockage requis. Conclusion ? La pathologie numérique est là pour durer et l’infrastructure des laboratoires doit pouvoir répondre à ses exigences.

Le stockage des données n’est cependant pas le seul facteur à prendre en considération. Après la mise en place de l’espace de stockage initial, vous devez encore organiser, gérer et tenir à jour vos données. Plusieurs outils sont disponibles pour aider les utilisateurs à gérer leurs fichiers de manière logique et efficace, selon une approche pensée pour eux et leurs workflows, et non pas dictée par des professionnels non-praticiens. En moyenne, 70 à 80 % des fichiers de données stockés ne sont pas activement utilisés. Laisser les utilisateurs déterminer quelles données archiver sur des médias à faible coût libère de l’espace sur le stockage primaire coûteux pour les informations que les pathologistes doivent garder à portée de main. La convivialité de ces logiciels est essentielle. Au lieu de s’appuyer sur l’intervention du département informatique pour des opérations telles que l’archivage, ils permettent aux pathologistes de se charger eux-mêmes de l’organisation et de la gestion des données, et de prendre des décisions sur la base des connaissances qu’ils sont les seuls à posséder.

Cloud ou pas Cloud ?

Quelle est la meilleure approche : un environnement de stockage physique ou virtuel ? En fait, tout dépend de la stratégie de stockage globale de l’organisme, et de l’équilibre souhaité entre capacité, performances, accessibilité et coûts. L’élasticité et l’aspect distant du stockage dans le cloud représentent des avantages considérables pour certaines applications, comme les workflows temporaires à court terme, mais sont contre-indiquées pour d’autres. Les solutions cloud répondent aux besoins en stockage fluctuants qui augmentent de manière soudaine ou imprévisible. Elles sont également idéales pour effectuer des sauvegardes hors site visant à protéger les données contre les sinistres. Le cloud se distingue en outre par son modèle de tarification souple. Mais si la plupart des fournisseurs proposent un coût par gigaoctet assez faible, des activités telles que le déplacement des données, la restitution des fichiers, la suppression et l’assistance sont souvent facturées en sus. D’où des contrats parfois complexes et des coûts qui peuvent très vite s’additionner. 

Les options cloud peuvent par ailleurs présenter des difficultés lorsque vous changez de fournisseur dans la mesure où les outils de migration des données sont généralement spécifiques au fournisseur et complexes à utiliser. En comparaison, le stockage sur site accompagne la croissance des laboratoires tout en garantissant la sécurité et l’accessibilité de leurs données. Pour un stockage continu et à grande échelle des données, cette formule est beaucoup plus économique que le stockage virtuel. Pas de frais récurrents : un simple investissement initial suffit. 

Il ne faut pas non plus négliger la question du déplacement des données. Leur transfert répété entre votre système sur site et le Cloud peut non seulement se révéler chronophage, mais aussi entraîner des coûts de bande passante et de restitution élevés. Il faut toutefois savoir que les médias physiques ne se valent pas tous. Êtes-vous certain que les disques flash soient le meilleur endroit pour stocker vos images les plus précieuses ? Envisagez-vous réellement d’utiliser cette pile de disquettes 3,5” rangées dans le tiroir de votre bureau pour vos données de séquençage ? En quoi consiste exactement le stockage objets ? Devant tant d’options, choisir une solution de stockage efficace et sécurisée, parfaitement adaptée à vos besoins, n’est pas chose aisée.

Le meilleur conseil que je puisse donner aux laboratoires désireux de prendre le virage du numérique est de déterminer les ressources dont ils disposent, puis d’étudier attentivement les besoins des pathologistes et des professionnels de laboratoire qui utiliseront le système. Pas question pour eux de perdre un temps précieux à rechercher des données, ni à se demander s’ils seront ou non en mesure de stocker et de protéger leurs informations. Une gestion des données aussi simple, sécurisée et conviviale que possible est la clé du succès de la pathologie numérique.

1. A Trafton, « High-resolution imaging with conventional microscopes » (2017). Disponible sur : http://bit.ly/2zGphsA. Consulté le 15 novembre 2017.