Pourquoi les données connectées sont-elles cruciales pour la recherche pharmaceutique et médicale ?

Collecter et mutualiser des données permet à plusieurs chercheurs de collaborer plus efficacement et in fine d'accélérer la recherche et la découverte de médicaments.

La technologie traditionnellement utilisée pour travailler avec des données volumineuses, les SGBDR (Systèmes de gestion de bases de données relationnelles), n'a jamais été conçue pour être flexible ou évolutive et pour détecter les connexions et les modèles au sein des ensembles de données. Ce qui pose un réel problème pour un secteur comme celui de l'industrie pharmaceutique comme pour la recherche médicale. Et si les graphes permettaient d'éviter cet écueil ?

Les outils d'analyse classiques ne permettent pas de tirer le meilleur parti des informations contenues dans les données des sciences de la vie. Quels que soient les outils historiquement utilisés dans le secteur (SQL, base de données relationnelles…).

En effet, les données médicales sont très hétérogènes et complexes par nature. Des interactions moléculaires aux études épidémiologiques à l'échelle d'une population, en passant par le suivi de réseaux de maladies à l'échelle macro, ces données sont souvent en silo, qu’elles soient ou non au sein d'un même corps de recherche.

En parallèle, les chercheurs qui travaillent sur de nouveaux traitements médicaux prometteurs examinent également d'énormes quantités de données, qui se chiffrent souvent en milliers de téraoctets. Il est également difficile de déterminer comment plusieurs chercheurs peuvent accéder à un ensemble de données et y collaborer. Pour fusionner des données qui se présentent souvent sous un format non structuré, de différents sites ou en différents formats en une base de données centrale avec des données accessibles - et non pas simplement analysées et stockées au départ - nous avons clairement besoin d'un moyen dynamique et évolutif pour exploiter leur potentiel.

La réalité d’aujourd’hui est que seules les relations entre les données détiennent la clé de véritables percées. Ainsi, mettre en commun et s’intéresser aux relations entre les données, à travers l’utilisation des graphes, devrait permettre de découvrir des informations jusqu'alors inaccessibles, susceptibles d'améliorer - voire de sauver - des vies.

Relier les données entre elles...

Sans entrer trop dans le détail des différentes technologies, une base de données relationnelle stocke les données sous forme de tableau. Or, l'approche "lignes et colonnes" ne correspond pas à notre visualisation mentale d'un problème, et plus précisément, les lignes et les colonnes ne correspondent pas aux données de biologie systémique du monde réel auxquelles sont confrontés quotidiennement les chercheurs. En effet, nous percevons visuellement naturellement les connexions entre les points de données, ce qui rend les représentations sous formes de graphes beaucoup plus conformes à la façon dont notre esprit associe et organise les informations, par exemple un médecin A connaît un patient B, un médicament contient telle molécule.

Les capacités d'exploration de données de la technologie des graphes permettent, quant à elles, d'obtenir un état des données et des systèmes qui les lient afin de les utiliser dans la recherche pharmaceutique et médicale de pointe. On parle souvent de volumes de données massifs non consolidés. Or la technologie est en effet capable, de façon innée, de découvrir les relations entre les points de données et de les comprendre, les analyser et les interpréter à grande échelle. Cela représente une avancée passionnante pour les chercheurs médicaux, leur permettant de découvrir des schémas cachés dans leur propre recherche et dans celles qui précèdent la leur, comme la recherche de nouvelles molécules et les grands travaux d'essais cliniques. D’autre part, la mise en commun de certaines informations et l’identification de relations entre certaines données pourront ensuite être approfondies dans de nouveaux projets de recherche.

La technologie des graphes détient ainsi le pouvoir inné de filtrer les données de manière collaborative, en faisant grand usage des informations recueillies par de multiples utilisateurs. En outre, la capacité de filtrage collaboratif permet d'examiner les informations ou les modèles via des sources de données, des points de vue, des agents multiples, etc. Cette approche permet alors aux équipes de recherche de travailler en parallèle sur un grand nombre de données prometteuses. Les scientifiques peuvent ainsi travailler sur des données pertinentes, au bon niveau de granularité, sans être déconnectés du contexte global. 

… pour pouvoir accélérer la découverte de médicaments

Comme l'interrogation des données et des connaissances dans la recherche nécessite la modélisation de modèles souvent incomplets, il est essentiel de trouver un meilleur moyen de modéliser cette complexité pour accélérer la recherche. Ces modèles changent au fur et à mesure que notre niveau de connaissances s'élargit.

Ainsi, un grand groupe pharmaceutique peut dorénavant concevoir une vaste base de données de graphes sur la base de données biologiques hétérogènes, que son équipe combine avec les informations médicales de PubMed, le plus grand moteur de recherches de données bibliographiques des domaines de la biologie et de la médecine (environ 25 millions de résumés provenant de quelque 5600 revues scientifiques).

Sur la base de cette technologie, ce groupe pharmaceutique établit une base de données centrale pour voir comment elle peut utiliser ces vastes connaissances scientifiques pour développer la prochaine génération de médicaments. Et le groupe dispose même de la capacité d’ajouter des dizaines d'années de données sur la manière dont divers composés affectent des cibles protéiques, telles que les enzymes, soit environ un milliard de points de données supplémentaires. Et tout cela permet d'accélérer la découverte de médicaments.

Ainsi ce groupe pharmaceutique, parce qu’il peut dorénavant relier les gènes, les maladies et les composés selon un schéma triangulaire, a la possibilité de découvrir plus facilement de nouveaux médicaments. En outre, par ses fonctionnalités temps réel , la technologie des graphes permettra, à l’avenir et à tous moments, d’intégrer de nouvelles données scientifiques à mesure que la recherche avancera.

Mais comment cela fonctionne-t-il ?

Le text mining est utilisé au début du pipeline pour extraire des concepts et des faits pertinents de PubMed. Ces données sont ensuite importées dans la base de données de graphes, avec les données historiques et les images propres au groupe pharmaceutique. Le flux de données alimente ainsi les différents types de nœuds qui ont été conçus pour représenter les données. La phase suivante consiste à renseigner les informations sur les relations qui relient les nœuds entre eux.

On utilise alors des algorithmes de graphe pour parcourir le graphe et identifier un modèle de nœud triangulaire reliant les trois classes de données entre elles. L'analyse de ce graphe de connaissance permet non seulement de trouver les nœuds pertinents dans la relation triangulaire, mais aussi des indicateurs et des résultats pouvant orienter les recherches dans de nouvelles directions. La navigation peut alors se faire avec souplesse dans toutes les sources de données, et les corrélations apportées constituent une énorme avancée dans la recherche.

En conclusion

En résumé, quelle que soit l’utilisation que les chercheurs feront de cette technologie afin d’identifier les relations entre les données, les bases de données de graphes promettent d'être très présente dans l'avenir de la recherche médicale. La recherche basée sur les graphes, permettra, de la même façon, a un centre de recherche d’intégrer rapidement des données d’essais cliniques et de doter ses chercheurs de moyens de recherche plus efficaces pour prévenir et soigner certaines maladies. Dans d’autres cas d’usages, il permettra d’aider à la recherche de contacts dans le cas de maladies transmissibles.

N’oublions pas que tout est connecté, mais encore faut-il être capable d’explorer ses connexions. Grâce à la technologie des graphes, les enjeux des recherches pharmaceutiques et médicales pourront ainsi être abordées sous différents angles et de manière plus flexible et plus efficace.