Déluge de données dans la recherche fondamentale et conformité GDPR : revoyons toute l’organisation !

Dans la recherche fondamentale et la R&D en biologie, les besoins de transversalité liés à la réorganisation des différentes étapes d’un processus de découverte nécessitent de repenser complètement l’architecture des données.

Notamment sur les problèmes de sécurisation, de stockage et d’organisation de toutes ces données.

Repensons la confidentialité des données structurées

Les données peuvent concerner les laboratoires, l’ensemble de la recherche, les partenaires et sous-traitants, celles soumises à la propriété industrielle ou celles concernant les salariés de la société. Dans tous les cas, il est important de prendre en compte les différents types de données et de définir leur niveau de confidentialité. Les données structurées sont celles intégrées dans une base de données et identifiées de façon unique ; les autres sont dans des éditeurs de texte, des tableurs ou tout autre logiciel. Elles nécessitent l’indexation par des moteurs de recherche.

Faisons coexister stockage en mode cloud et stockage local

Il est possible de stocker toutes ces données localement. Mais dès lors qu’on adresse des sites différents, le stockage en mode cloud devient incontournable. Que ce cloud soit privé, mutualisé, interne ou hébergé, dans tous les cas c’est bien la sécurisation des accès et du stockage qui doit déterminer vos choix.

Dans la plupart des cas, il ne faut pas trop centraliser les données afin qu’une fuite de données ait un impact modéré tout en permettant de les partager, en particulier les données non structurées. Cela est aussi valable lorsque les données ont un caractère personnel avec le RGPD.

Faire coexister les deux, et surtout permettre aux chercheurs d’accéder à ces données, est devenu un enjeu primordial. Que de temps perdu ou d’argent dépensé à refaire une expérience déjà réalisée plutôt qu’à échanger avec un collègue ayant déjà effectué ce test !

Recourons à des solutions spécifiques à chaque type de données

Alors quelles sont les hypothèses à prendre en compte ? Tout dépend en définitive du type de données.

Tout d’abord les données locales à un laboratoire : pour protéger celles-ci tout en facilitant leur accès, il convient de crypter les bases pour les données structurées et installer une Gestion Electronique des Documents (GED) de type Alfresco ou un Sharepoint pour le reste. Pour le stockage physique, les serveurs locaux ou séparés du reste du SI sont à privilégier.

Les données partagées entre différents sites de recherche ou avec des partenaires : le cloud va être incontournable soit chez un hébergeur régional qui vous fournira vos propres serveurs soit des serveurs mutualisés. La difficulté est l’interopérabilité avec les partenaires et la gestion des habilitations pour les salariés, sous-traitants, doctorants, stagiaires. Une responsabilisation locale de la gestion des habilitations avec une interface simple est généralement plus efficace que les gros annuaires LDAP (Lightweight Directory Access Protocol) trop permissifs. Chez INEON, cette réflexion a été menée pour aboutir à gérer des droits sur les applications et sur les données : les utilisateurs ont accès en lecture ou en mise à jour à certaines données et aussi à certaines fonctions des logiciels.

Les autres données : pour celles-ci, la problématique est davantage de permettre un accès à l’information qui ne nécessite pas d’avoir un diplôme de détective ou une formation de cinq jours. Des solutions métiers de type Inquiro (Knowledge Management) existent pour cela. Elles fournissent des moteurs intelligents, intégrant des recherches par structure ou du deep learning. Ces solutions possèdent des ontologies puissantes qui guident chaque recherche.

Hiérarchisons les données selon le rôle de chacun et en conformité avec la GDPR

En définitive, la réflexion sur la structure de données idéale s’apparente à celle mise en place pour la conformité au règlement européen sur la protection des données (GDPR ou RGPD).

Prenons l’exemple d’un dossier de Crédit Impôt Recherche qui contient des données personnelles sensibles : CV (parfois avec une photo), salaires, diplômes... Au sein du projet de recherche, tout le monde a accès en mise à jour à l’ensemble des documents. L’administratif dispose ensuite des accès en lecture seule. Pour la plupart des salariés, une simple fiche expliquant les grandes lignes du projet sera accessible.

On peut aisément comprendre que les informations disponibles hors membres du projet sont non structurées. Pour autant une large diffusion du projet lui-même doit être assurée afin d’enrichir l’entreprise. Les équipes en charge de l’information médicale ont, par exemple, besoin de certaines de ces informations pour renseigner des médecins.

Vous avez maintenant sécurisé et hiérarchisé vos données en fonction des rôles de chacun, Le plus compliqué reste à venir… Il va vous falloir les agréger, les structurer et les analyser. A suivre...