L'apprentissage fédéré, la clé pour développer des solutions de santé plus intelligentes

Les soins de santé modernes sont devenus plus intelligents.

Grâce à l'utilisation de technologies telles que l'intelligence artificielle (IA), via laquelle des modèles d'apprentissage automatique (ML) apprennent à prendre des décisions sur la base de modèles trouvés dans de grands ensembles de données sur les patients. Cela a permis d'améliorer la précision des diagnostics médicaux et d'accélérer la recherche et le développement de médicaments indispensables.

Cependant, ces dernières années, les experts ont réalisé que le processus traditionnel de développement d'applications d'apprentissage automatique par la collecte centralisée de données est insuffisant, car les modèles ML efficaces pour les soins de santé nécessitent plus de données que celles qui seraient librement partagées, en raison de problèmes de sécurité et de confidentialité. Ces difficultés ont empêché l'IA de faire passer le secteur des soins de santé au niveau supérieur, où les modèles qui atteignent une précision de niveau clinique ne peuvent être dérivés que d'ensembles de données suffisamment vastes, diversifiés et conservés.

Pour démocratiser l'IA et tirer profit des données dans le secteur de la santé, il est nécessaire de disposer d'une méthode d'entraînement pour les modèles ML qui ne soit pas soumise aux risques de partage de données sensibles en dehors de l'institution qui les détient. L'apprentissage fédéré fournit une telle méthode.

L'apprentissage centralisé n'est plus viable dans le secteur des soins de santé

L'apprentissage centralisé a longtemps été la norme traditionnelle dans la modélisation de l'IA. Cette méthode consiste à collecter des ensembles de données à partir de divers endroits et dispositifs, puis à les envoyer à un endroit centralisé où se déroule l'apprentissage du modèle ML.

Cela entraîne plusieurs risques. Tout d'abord, les données stockées en un seul endroit peuvent être volées et exposées, entraînant d'énormes responsabilités pour l'institution responsable de leur stockage. Deuxièmement, les propriétaires des données peuvent ne pas vouloir partager leurs données brutes. Bien que ces propriétaires puissent être disposés à ce que celles-ci soient utilisées pour la formation, les données brutes elles-mêmes peuvent être trop sensibles pour être partagées.

Les préoccupations en matière de sécurité et de confidentialité rendent également difficile l'extension à l'échelle mondiale, notamment en raison des questions relatives à la propriété des données, à la propriété intellectuelle (PI) et à la conformité à des réglementations telles que le règlement général sur la protection des données (RGPD) dans l'Union européenne.

Les problèmes décrits ci-dessus font que moins d'institutions fournissent des données. Cela empêche à son tour le modèle d'apprentissage automatique d'apprendre à partir d'un ensemble diversifié et augmenté de données obtenues de différentes institutions et de différents lieux géographiques, ce qui conduit à des informations inexactes et biaisées.

Ce que l'apprentissage fédéré apporte

L'idée principale de l'apprentissage fédéré est de former un modèle d'apprentissage automatique sur les données de l'utilisateur sans avoir à les transférer vers un emplacement unique. Il s'agit de déplacer les calculs de formation vers l'infrastructure de l'institution propriétaire des données, au lieu de déplacer les données vers un seul endroit pour la formation. Un serveur d'agrégation central est ensuite chargé d'agréger les informations résultant des calculs de formation de plusieurs propriétaires de données.

Dans le cadre de l'apprentissage fédéré, les itérations de formation sont effectuées sur des dispositifs locaux, ce qui constitue le principal avantage de ne pas compromettre ou exposer les données d'origine lorsqu'elles sont en transit. Cela signifie que les données restent avec leur propriétaire, tout en étant utilisées pour créer des informations globales. Les paramètres du modèle local résultant de la formation du propriétaire des données sont envoyés à un serveur central, qui les agrège pour former le prochain modèle global, puis les partage avec tous les participants.

Déjà, l'apprentissage fédéré a fait la différence en utilisant une IA de pointe pour mieux détecter les tumeurs cérébrales. Depuis 2020, Intel et l'Université de Pennsylvanie ont mené la plus grande étude d'apprentissage fédéré du secteur médical. Avec des ensembles de données provenant de 71 institutions sur six continents, l'étude a démontré sa capacité à améliorer de 33% la détection des tumeurs cérébrales.

L'établissement d'une base solide pour l'apprentissage fédéré commence par la confiance

Comme les données jouent un rôle essentiel, il est impératif que les organisations mettent en place une stratégie solide de sécurité des données. La clé de cette stratégie consiste à conserver les données sensibles dans le cloud à l'intérieur d'une enclave à accès restreint, communément appelée environnement d'exécution de confiance (TEE). De telles protections sont essentielles pour assurer une protection continue des charges de travail soumises à des exigences réglementaires ou d'autres données sensibles dans les réseaux distribués.

À mesure que l'informatique s'étend à de multiples environnements, du site au cloud public en passant par la périphérie, les entreprises ont besoin de contrôles de protection qui contribuent à sauvegarder les données sensibles relatives à la propriété intellectuelle et aux charges de travail, quel que soit l'endroit où elles se trouvent, et à garantir que les charges de travail distantes s'exécutent avec le code prévu. C'est là qu'intervient l'informatique de confiance. Contrairement au chiffrement traditionnel des données au repos ou en transit, l'informatique de confiance s'appuie sur un TEE pour renforcer la protection et la confidentialité du code à exécuter et des données utilisées.

L'informatique de confiance permet de traiter des ensembles de données de manière beaucoup plus sûre et de réduire le risque d'attaques en isolant le code et les données des incursions extérieures. En tant que technologie informatique de confiance la plus étudiée et la plus déployée aujourd'hui dans les centres de données, Intel Software Guard Extensions (Intel SGX) offre une solution de sécurité matérielle qui contribue à protéger les données en cours d'utilisation grâce à une technologie unique d'isolation des applications.

Avec une base de sécurité matérielle, les surfaces d'attaque auparavant vulnérables peuvent être renforcées pour non seulement se protéger contre les attaques logicielles, mais aussi contribuer à éliminer les menaces contre les données en cours d'utilisation. Les organisations peuvent donc avoir l'assurance que leur modèle d'apprentissage automatique peut utiliser en toute sécurité différents ensembles de données et former des algorithmes avec ceux-ci tout en restant conforme aux réglementations et à la sécurité.

L'avenir de l'apprentissage fédéré

En permettant aux modèles ML d'acquérir des connaissances à partir de données nombreuses et diverses qui ne seraient pas disponibles autrement, l'apprentissage fédéré a le potentiel d'apporter des avancées significatives dans les soins de santé, d'améliorer les diagnostics et de mieux lutter contre les disparités en matière de santé.

Bien que nous n'en soyons qu'au début de l'exploration de l'apprentissage fédéré, il est très prometteur en rapprochant les organisations pour qu'elles collaborent et résolvent des problèmes difficiles, tout en atténuant les problèmes liés à la confidentialité et à la sécurité des données. En fait, l'apprentissage fédéré peut étendre son application au-delà des soins de santé, avec de grandes possibilités dans des domaines tels que l'Internet des objets, la fintech, et bien plus encore.

L'avenir de l'apprentissage fédéré fera passer les applications de l'IA à un niveau supérieur, et nous ne faisons qu'effleurer la surface de son véritable potentiel.