Vers de nouveaux supports pour le numérique ?

 

Votre dernier post sur Facebook, vos photos de vacances  ou encore vos vidéos YouTube, chaque jour, vous produisez des données numériques à la pelle. Et l’Humanité n’est pas en reste, depuis que vous lisez cet article, 174 000 Gigaoctets de données ont été produites. D’ailleurs, chaque année, l’on créé près de 915 milliards de Gigaoctets de données, soit l’équivalent de… toutes les oeuvres et manuscrits depuis la naissance de l’écriture, il y a 6000 ans.

Et la tendance n’est pas prête de s’inverser, avec l’explosion de la classe moyenne dans le “Tiers-Monde”, toujours plus de personnes utilisent internet. De plus, de nouvelles sources de production de données s’ajoutent assez régulièrement, notamment les objets connectés qui devraient atteindre le chiffre de 32 milliards d’objets en 2020 d’après l’International Data Corporation (soit 10% de la création de données numériques). Il est plus qu’évident que l’Humanité doit trouver un nouveau moyen pour stocker les données. L’on ne peut en effet plus continuer à construire toujours plus de datas centers ou de disques, le risque étant de se retrouver à court de matières premières et d’espace…

La solution semble tenir en trois lettres : A-D-N.

Pour l’introduire, l’Acide DésoxyriboNucléique est une molécule qui possède un code génétique de 3,5 milliards de paires de bases (Adénine, Thymine, Guanine et Cytosine), elle est la base du vivant.

L’ADN présente de nombreux avantages :

  • Ses bases azotées sont vraiment très petites : de 0,2 à 0,3 nanomètres, en un gramme, on peut stocker 700 To ! En effet, même le disque dur le plus performant sur le marché ( le Ultrastar He10 de la compagnie HGST)  possède une capacité de stockage de 10 To et ses sous-unités, les “bits” font environ 200 nanomètres. L’ADN stocke donc dans le même volume, 1000 fois plus de données que les disques durs.
  • De plus, l’ADN a une longévité hors normes, les scientifiques ont déjà pu récupérer de l’ADN de mammouth vieux de plus de 10 000 ans, contrairement à nos CDs qui ont une durée de vie moyenne de… 100 ans.
  • S’ajoute à cela, une bonne connaissance et maîtrise de l’ADN par l’Homme, découvert en 1953 par Francis Crick et James Watson, il a été approfondi jusqu’à la production maîtrisée de l’ADN d’humain par Craig Venter en 2000 et de bactéries synthétiques en 2010 par l’institut de Craig Venter (le même).

Pour la petite histoire, c’est Leonard Adleman qui a le premier, imaginé et testé une méthode pour traduire des données informatiques en code génétique en 1994. Par la suite, certains grands groupes et universités ont commencé à s’intéresser au système:

-Entre 2012 et 2013, George Church (Université de Harvard, E-U) et Nick Goldman (Institut     européen de bioinformatique, G-B) ont encodé un livre de 300 pages, un PDF, une image      et même du son sur l’ADN.

-En 2016, Technicolor a réussi à enregistrer un million de copie du film de Georges Méliés, Le voyage sur la lune avec seulement un flacon de quelques centimètres d’ADN. La même année, Microsoft encodait près de 200 Mo sur quelques brins d’ADN réduit.

 

Mais comment fait-on pour passer d’un format numérique à un acide ?

Petit rappel pour l’encodage d’une image en informatique

Quand une image est numérisée, l’ordinateur se base sur la synthèse additive.En effet, chaque pixel qui va composer l’image numérique et composé de trois sous-pixels : un Rouge, un Vert et un Bleu, on appelle d’ailleurs cette technique “le codage RVB” (ou RGB pour l’anglais), ces sous-pixels se superposent pour donner la couleur perçue du pixel. Chaque sous-pixel dispose de 1 octet d’espace pour indiquer son intensité, elle varie donc entre 0 et 255 car 1 octet équivaut à 8 bits soit 2^8 possibilités.Donc un pixel de l’image pourra être de 16 777 216 couleurs « vraies » possibles, le tout sur 3 octets.

Quelques exemples de couleurs “vraies” :

intensité du Rougeintensité du Vertintensité du Bleu

résultat visible

000noir
25500rouge “pur”
02550vert “pur”
00255bleu “pur”
128128128gris

 

Petit exemple de numérisation : la couleur blanche. En binaire, 255 vaut 11111111, or le blanc équivaut aux trois sous-pixels à leur maximum (255, 255, 255). Donc en binaire, le blanc est égal à 3 séries de 8 “1”.

De plus, chaque couleur est aussi définie par une position sur l’image, on utilise pour cela des coordonnées cartésiennes (x ; y) qui sont elles aussi retranscrites en binaire. Par exemple, (55,56) devient 110111  111000.

Pour conclure, le format numérique d’une image est basé sur le codage RVB des couleurs et leur position, le tout en binaire : sous forme de 0 et de 1. Passons à présent à la partie sur le codage sur ADN.

L’encodage sur ADN

 

C’est exactement la même chose que l’encodage en binaire mais au lieu d’avoir une base binaire, on a un système basé sur les bases azotées de l’ADN. Le 0 correspondant  aux bases Adénine ou Thymine et le 1 aux bases Guanine ou Cytosine. Pourquoi un tel choix ? Les bases A et T se font face sur l’ADN, de même pour les bases G et C.

Pour reprendre notre exemple du blanc et de la position (55,56), on obtient donc sur l’ADN une section de 3 séries de 8 bases C ou G :

CGGGCGCG GCCGGGCC GGGCCGCG (couleur) puis CGTCCC GCCTTT (position)

Cette séquence, ainsi que celle de millions d’autres sont synthétisées en plusieurs séquences d’ADN de 100 à 200 lettres. Chaque fragment d’ADN possédant une “adresse” indiquant sa position dans la séquence complète. Pour plus de sûreté, des milliers de copies sont effectuées. L’on obtient donc une “soupe” d’ADN dans une fiole qui fait office de clé USB. Le blanc pris dans notre exemple pouvant être une partie d’une image, d’un texte, d’un GIF, d’une des 24 images/seconde d’un film,… Et, comme dit plus haut, la même technique s’applique aussi au son. 

Cette fiole est à conserver dans un Data Center ou chez vous, de préférence dans un endroit sombre, sec et froid. Si l’on veut regarder le fichier enregistré, il suffit de placer la fiole dans un séquenceur qui remet en ordre les fragments d’ADN et les lit pour les convertir en binaire. Le séquenceur est relié à un ordinateur qui lit le langage binaire et exécute le fichier.

 

Pour l’instant, l’ADN reste encore un moyen marginal de stockage et seul l’ADN synthétique reste utilisé, même si le 13 juillet 2017, un GIF a été encodé dans l’ADN d’une bactérie.

 

 

(Persistance de l’information, multiplication des supports de stockage, Tupinier Vincent TS°5), 12/10/2017