Stockage de données dans l'ADN : les USA investissent dans une biotech française
Le stockage dans de l'ADN humain peut-il être la réponse à l'accroissement exponentiel du volume de données ? C'est du moins ce que pense le gouvernement américain qui investit dans DNA Script.
Les supports de stockage actuels ont l’inconvénient d’avoir une durée de vie limitée : le contenu des disques durs, des bandes magnétiques ou des CD doit être répliqué tous les cinq à dix ans pour garantir l’intégrité des données. Sans parler de la multiplication des formats : les disques Blu-ray ont supplanté les CD et DVD, qui, eux-mêmes, ont remplacé les cassettes VHS et les vinyles. "Gérer l’obsolescence représente une part importante des coûts de stockage", constate Luis Ceze, professeur d’informatique à l’université de Washington et auteur d’une étude sur le sujet. Aux Etats-Unis, "la bibliothèque du Congrès consacre ainsi des ressources considérables à transférer ses données sur une nouvelle génération de cassettes".
L'ADN offre une réponse à chacun de ces problèmes. C'est d'abord un mode de stockage très compact. "Sous cette forme, on pourrait stocker toutes les données créées par l'humanité dans un coffre de voiture", avance Xavier Godron, cofondateur et directeur scientifique de DNA Script. La start-up française a annoncé en janvier dernier avoir reçu un financement du gouvernement américain en vue de mettre au point une machine capable d'encoder dans une molécule un téraoctet de données.

Conservé dans de bonnes conditions, l’ADN a aussi l’avantage d’être très stable dans le temps, avec une durée de vie de plusieurs centaines, voire milliers d’années. En 2013, l’ADN d’un homme vieux de 400 000 ans a ainsi pu être reconstitué et la même année des chercheurs ont réussi à décrypter le génome d’un cheval vieux de 700 000 ans. Enfin, aucun risque d’obsolescence du code : "Tant qu’il y aura des hommes, on aura besoin de lire l’ADN", souligne Xavier Godron.
Quatre étapes
Pour stocker des données dans l’ADN et les récupérer, quatre étapes sont nécessaires : le codage qui permet de convertir un code binaire (des 0 et des 1) en un code quaternaire (des A, T, C, G), la synthèse des molécules d’ADN correspondantes (l’écriture), le séquençage des brins obtenus et enfin le décodage. A chaque étape, des algorithmes permettent de repérer et de corriger les éventuelles erreurs.
Grâce aux progrès du séquençage, lire un génome humain coûte aujourd’hui moins d’un millier de dollars et peut être réalisé en moins d’une journée. Mais écrire est une tout autre affaire. "Avec les technologies actuelles, il est possible de synthétiser quelques millions de fragments d’ADN en vingt-quatre heures. Pour atteindre l’objectif défini par l’IARPA, il faudra en synthétiser des milliards", explique Xavier Godron, en soulignant qu’avec les trois milliards de bases du génome humain il est tout juste possible d’encoder un film.
Des applications grand public
A la différence de ses concurrents qui synthétisent l’ADN par voie chimique, comme c’est par exemple le cas pour Twist Bioscience, la start-up tricolore mise sur des enzymes génétiquement modifiées pour faire le travail. Sa technologie, qui n'est pas encore commercialisée, nécessite moins d’étapes, génère moins de déchets dangereux et est potentiellement beaucoup plus rapide que la synthèse chimique conventionnelle.
Si les chercheurs gagnent leur pari, le stockage moléculaire pourrait être utilisé d’ici cinq à dix ans et permettrait d’archiver des données bien précises, qu’il importe de conserver plusieurs centaines d’années. Par exemple : des informations portant sur la localisation des déchets nucléaires, ou destinées à être envoyées dans l’espace.
Des applications plus grand public pourraient voir le jour d’ici quinze à vingt ans, dès que la vitesse de transmission et de récupération des données sera suffisante. Cela permettrait aux grands acteurs du cloud et de la tech de conserver les données à proximité de leurs clients, avec un coût bien moindre.
Quelques chiffres
1 000 dollars : c’est l’objectif de coût (902 euros) fixé par le gouvernement américain pour encoder dans l’ADN 1 téraoctet de données en vingt-quatre heures. 48 millions de dollars : c’est la somme (43 millions d’euros) investie par le gouvernement américain dans le développement du stockage moléculaire de données. 33 zettaoctets : c’est la quantité de données stockées par l’humanité en 2018. Elle devrait atteindre 175 en 2025. En sachant qu’un zettaoctet équivaut à 1 milliard de teraoctets.