Open source et data science accélèrent la découverte de médicaments

Le prix, la complexité et le taux d'échec des projets big data et de machine learning ont créé des obstacles à une adoption plus répandue. Comment les laboratoires pharmaceutiques surmontent-ils ces barrières ?

Dans certaines disciplines, les solutions open source sont devenues la norme pour exécuter des tâches telles que la dynamique et la visualisation moléculaire. Alors que l’open source stimule l'innovation dans ces domaines, les feuilles de calcul restent utilisées dans d’autres disciplines pour importer et analyser des données. Des solutions commerciales telles que Matlab, Spotfire et Autonomy ont également été déployées par certains avant-gardistes pour extraire des quantités de données cliniques, commerciales et légales, et ainsi déterminer sur quels marchés potentiels de nouveaux médicaments étaient susceptibles d'être commercialisés. Mais les entreprises croulaient sous le poids des contrats de gestion et des cycles de mise à jour, puis découvraient souvent qu'elles avaient investi des millions dans des technologies incapables d'évoluer. Cela a contribué à ralentir l’adoption des technologies liées à la donnée dans le secteur. Pour y remédier, il a été nécessaire que les plateformes de données associent évolutivité et puissance à la flexibilité. Ceci a permis au marché pharmaceutique de ré-exploiter des investissements technologiques dans une variété de projets et sans limite d’expansion au fil du temps. C'est dans le domaine de l'open source que les technologies ont avancé le plus rapidement. Disponibles gratuitement, elles commencent à susciter l'intérêt des grandes sociétés pharmaceutiques.

L’exemple des données génomiques permet de constater que les chercheurs s'intéressent de plus en plus aux méthodes qui permettent de regrouper des millions de rapports sur les effets néfastes de la MHRA (Medicines and Healthcare Products Regulatory Agency) et de la FDA (Food and Drug Administration). De même, lorsqu'il est question de découverte de médicaments ou de mise en correspondance de type génétique avec des traitements médicamenteux particuliers, la priorité des chercheurs est d’analyser des millions de rapports de recherche, afin d'établir des liens. Comment certaines des sociétés internationales pharmaceutiques et de santé ont-elles commencé à utiliser des logiciels open source pour résoudre ces problèmes ?

Une base unifiée de données génétiques pour la découverte de médicaments

Le laboratoire Merck a inventé une méthode d'analyse des données génétiques à grande échelle, afin de mieux comprendre l'impact génétique sur l'efficacité des médicaments et d’accélérer la disponibilité de nouveaux traitements. Très peu de médicaments passent le cap de la commercialisation, si bien que l'objectif de Merck est d'extraire des péta-octets de données génétiques de manière plus efficace et plus rapide, afin d'augmenter les chances de réussite. Dans la phase initiale de découverte des médicaments, Merck fait appel à des analystes de données. En collaborant avec des pharmaciens, ils analysent les données génétiques pour contrôler l'efficacité des médicaments et comprendre comment ces derniers interagissent en fonction des différences génétiques des sujets. Ils s'assurent ainsi de l’innocuité et de l'efficacité des médicaments avant qu'ils ne soient disponibles à la consommation humaine.

Alors que les coûts du séquençage d'un génome ont considérablement diminué, les chercheurs sont submergés de données génétiques dans la perspective de nouvelles recherches. Les outils existants et les méthodes d'analyse ne sont pas parvenus à se développer en termes de volume et d'harmonisation des données. Ils nécessitent également des saisies manuelles pénibles et une intégration experte significative. En s’appuyant sur une plateforme de recherche open source, Merck a développé un système coordonné universel des variantes génétiques. Cette base unifiée aide les chercheurs à découvrir de nouveaux indicateurs sur la génétique humaine à travers un large spectre de maladies, et facilite la mise au point de nouvelles thérapies.

De nouvelles utilisations de médicaments grâce à la recherche sémantique

Avec les restrictions budgétaires de la recherche, la requalification de médicaments existants s’impose aux compagnies pharmaceutiques confrontées aux délais et coûts énormes de développement et de commercialisation de nouvelles molécules. Parallèlement, une quantité exponentielle de contenu scientifique essentiel au processus d'innovation est consignée dans des documents électroniques. Comment numériser des milliers de publications, de brevets, de rapports et d'autres types de documents pour accéder à des informations cruciales ? Comment interroger des informations non structurées à l'aide d'une approche exhaustive et inclusive ?

Une entreprise britannique, SciBite, a trouvé la réponse : un moteur de reconnaissance d'entités nommées (REN) du nom de TERMite et une plateforme de recherche sémantique Doscstore. Par exemple, pour trouver dans un texte le mot « GSK », celui-ci se réfère-t-il à l'entreprise (Glaxosmithkline) ou à la protéine (glycogène synthase kinase) ? TERMite englobe les connaissances du domaine qui permettent d'enrichir le texte du point de vue sémantique, afin d'identifier le contexte et d'ajouter des informations pertinentes au cadre des sciences du vivant. Ces données enrichies sont ensuite indexées dans le moteur de recherche sous-jacent, afin de fournir rapidement des résultats à de nouvelles demandes de recherche sémantique complexe dans de larges recueils de littérature biomédicale.

Ces exemples illustrent la manière dont les technologies de recherche open source permettent aux grandes sociétés pharmaceutiques d'être plus innovantes et plus efficaces lorsqu'elles manipulent et analysent de grands volumes de données. Le faible investissement initial suscite l'intérêt des ingénieurs et des chercheurs qui se prêtent de façon illimitée à des approches plus expérimentales et plus créatives dans le cadre de projets de données. Des plateformes flexibles et réutilisables ne nécessitent plus de tests d'hypothèses prédéfinies, et permettent aux laboratoires d'explorer les données librement, de conserver ce qui leur est utile, et de ne pas tenir compte du reste.