Big Data : vos données au service de votre santé

La Big Data est l'un des termes phares de cette rentrée 2013. Et si, derrière cette notion complexe, se cachait un formidable outil pour améliorer votre santé ? Explications, et prospective dans un monde ou la data vous veut du bien.

La « Big Data » est l’un des concepts du moment, de ceux qui voient fleurir nombre de hashtags populaires sur Twitter, des présentations Slideshare se partager chaque jour, et des grands groupes de communication se rapprocher (semble t-il).
Si tout le monde en parle, il n’évoque pour beaucoup pas grand chose de plus que le boson de Higgs : tout le monde connaît, mais de là à se le représenter concrètement, il y a un monde. Normal, car le sujet est complexe : ne représentant pas directement une technologie, ni complètement une approche marketing, il fait de plus appel à des volumes de données défiant notre imagination à coup de Tera, de Peta, et maintenant de YottaOctet – et cela ne fait que commencer.

Petite introduction sur le sujet, suivi de réflexions sur un domaine où cette Big Data a sans doute le plus de services à rendre : celui de la santé.

A l’origine de la Big Data

Si le terme Big Data est apparu à la fin des années 2000, les problématiques liées à l’explosion du nombre de données disponibles sont apparues, notamment chez Google, dès le début du siècle. Car oui, du fait d’internet, du web, des devices mobiles, des objets connectés, des capteurs de toute sorte, chaque jour de nouvelles données apparaissent, suivant une courbe exponentielle. IBM estime que 90% des données disponibles dans le monde depuis sa création ont été créées ces deux dernières années – et de nombreuses études estiment que le volume global de ces données va doubler chaque année. Selon Cisco, dans trois ans, l’équivalent du volume de données que représenterait l’ensemble des films jamais tournés sera échangé sur internet … toutes les trois minutes.
Hors, les systèmes d’information d’aujourd’hui, et encore moins ceux d’hier, ne peuvent intégrer correctement ce flux de nouvelles données, qui de plus brillent par leur hétérogénéité. Que ce soit d’un point de vue physique (le stockage), de ressource (mémoire, puissance) ou d’approche fondamentale (les relations des bases de données d’antan, bien structurées) – l’Informatique se trouve bien démunie quand il s’agit d’intégrer, de gérer chaque jour des volumes de données qui, il y a quelques années, étaient créées en plusieurs mois, voire des années.

Une nouvelle approche

Google, l’un des premiers acteurs confronté à cette expansion, a alors démocratisé au milieu des années 2000 une approche basée sur un nouveau modèle d’architecture de programmation, empruntant sa syntaxe aux langages fonctionnels de l’époque, appelé MapReduce. En simplifiant, cette nouvelle approche (couplée à des frameworks tels que Hadoop, et un nouveau système de gestion de fichiers) permettait de faire fonctionner un grand nombre d’ordinateurs classiques en parallèle, chacun s’occupant d’une partie de la donnée à traiter. Il ne s’agit pas d’additionner les ressources, mais de découper la tâche à effectuer en de multiples très petites tâches, chacune prise en charge par une machine lambda.
C’est ainsi qu’il y a quelques années, lorsque le New York Times a décidé d’indexer sous format pdf l’ensemble des centaines de milliers de scans d’articles écrits depuis le XIXe siècle, l’opération, qui aurait pu prendre des mois avec une architecture classique… a été effectuée en moins de 24 heures, pour un coût de moins de 250 dollars.

Il n’y a pas que la technique, dans la vie

Là où le concept de Big Data prend tout son sens, c’est qu’il n’est pas qu’un concept technique : oui, les avancées technologiques présentées ci-dessus permettent de gérer la donnée créée par notre monde. Mais la Big Data va plus loin, car il est possible de créer une nouvelle valeur de l’analyse de volumes de données gigantesques, au delà des représentations attendues par notre esprit humain.

En d’autres termes, au lieu d’analyser des données pour y chercher des corrélations qui valident l’une ou l’autre de vos intuitions … laissez les machines s’occuper toutes seules de ces données et, sans a priori, uniquement en exploitant des modèles statistiques classiques, elles arriveront sans doute à extraire de l’ensemble des données des corrélations inédites. Et des corrélations plus justes, car n’étant plus limités à gérer des échantillons faute de puissance, les modèles statistiques s’affinent, et deviennent de plus en plus prédictifs.
C’est ainsi qu’en 2009, au plus fort de la crise de la grippe H1N1, les autorités sanitaires américaines ont demandé à Google de les aider à endiguer l’épidémie ; prises de court face à la vitesse de propagation, incapables de faire remonter les données du terrain assez vite pour avoir une idée en temps réel de l’épidémie, elles ne pouvaient gérer convenablement la crise. Une approche aurait pu être de mettre sous « surveillance » l’ensemble des recherches faites sur Google, en relation avec la maladie (ex : « symptômes de la grippe »), et en fonction des remontées, en extrapoler des indications: cela aurait déjà été une formidable avancée.
Mais au contraire, l’approche de la Big Data a été poussée jusque dans les fondements du concept : au lieu de cloisonner leurs analyses avec leurs intuitions, les ingénieurs de Google ont laissé leurs machines comparer, sur une période de temps donnée, l’ensemble des recherches effectuées sur Google, avec les données de progression de l’épidémie. En procédant ainsi, le logiciel de recherche a pu extraire des modèles précis de corrélation entre des termes recherchés, et l’avancée de l’épidémie : un modèle prédictif, quasi temps réel, a ainsi été mis en place.

Imaginons …

Nous venons de voir l’impact que peut avoir le concept de Big Data, dans la prévention, et la gestion des épidémies, mais allons plus loin. Nous pouvons disposer aujourd’hui d’une quantité de données sur nos habitudes de vie, nos comportements. Il nous sera bientôt possible de mettre en relation ces données, et d’en tirer une analyse précise de notre vie, et des risques potentiels auxquels nous devrons faire face.
La médecine d’aujourd’hui connaît parfaitement les plus grands facteurs de risque, pour la majeure partie des maladies, transmissibles ou non, affectant l’homme en ce début de XXIe siècle.
Nous connaissons les causes : en analysant les comportements, nous pourrons prédire les conséquences, et, dans nos rêves les plus fous, les prévenir.
Amazon vous prédit bien aujourd’hui, quel bien culturel est susceptible de vous plaire: nous pourrions sur le même principe vous conseiller un comportement afin de limiter vos risques d’être affecté par la maladie à laquelle, d’un point de vue Big Data, votre vie, vos habitudes, votre histoire génétique vous prédisposent.
Certes, la route est encore longue, mais ce n’est plus de la science fiction, car la science est là : l’être humain doit l’intégrer, et construire autour les applications et les services qui serviront, demain, à sauver des vies.