La méthode AI accélère la récupération des données par 3 200 fois
Des chercheurs de la Faculté d’informatique de Henry et Marilyn Taub ont développé une méthode basée sur l’IA qui accélère la récupération des données basée sur l’ADN par trois ordres de grandeur tout en améliorant considérablement la précision. L’équipe de recherche comprenait un doctorat. L’étudiant Omer Sabary, le Dr Daniella Bar-Lev, le Dr Itai Orr, le professeur Eitan Yaakobi et le professeur Tuvi Etzion.
La recherche est publiée dans la revue Intelligence de la machine de la nature.
Le stockage de données ADN est un champ émergent qui exploite l’ADN comme une plate-forme pour stocker des informations. L’ADN offre des avantages importants en tant que support de stockage, notamment:
- Préservation à long terme: en 2013, les chercheurs du Danemark ont réussi à extraire l’ADN d’un os de cheval datant de 700 000 ans. En 2021, une équipe internationale a récupéré l’ADN de mammouths qui vivaient il y a plus d’un million d’années. En revanche, les disques magnétiques utilisés dans les centres de données ont une durée de vie mesurée en années ou, au mieux, quelques décennies. Cela met en évidence le potentiel de l’ADN pour le stockage à long terme.
- Énergie et rentabilité: le « nuage » qui alimente la plupart des services informatiques d’aujourd’hui repose sur des centres de données qui consomment environ 3% de l’électricité mondiale et émettent environ 2% des émissions totales de carbone. Avec la croissance exponentielle des données, l’impact environnemental des technologies existants devrait augmenter considérablement.
- Densité de données inégalée: le stockage d’ADN offre une densité de données jusqu’à 100 millions de fois plus que le stockage numérique traditionnel. Cela signifie qu’un volume contenant actuellement un mégaoctet pourrait théoriquement stocker jusqu’à 100 téraoctets à l’aide d’ADN.
L’ADN est une molécule composée d’une séquence de composés organiques appelés nucléotides. Ces nucléotides sont classés en quatre types, représentés par les lettres A, C, G et T. Contrairement à l’informatique traditionnelle, où les données sont codées en utilisant seulement deux chiffres (0 et 1), le stockage de l’ADN est basé sur des séquences de quatre lettres, augmentant considérablement le nombre de combinaisons possibles.
Pour écrire des données (stocker) dans cette technologie, une synthèse de l’ADN est requise – créant des molécules d’ADN basées sur les séquences codant pour les informations. Pour lire les données stockées, le séquençage d’ADN est nécessaire.

Défis dans le stockage des données ADN
Le développement de la technologie de stockage basée sur l’ADN présente plusieurs défis technologiques:
- La synthèse et le séquençage sont des processus longs et sujets aux erreurs, introduisant les erreurs de suppression, d’insertion et de substitution
- En raison des limites du processus de synthèse, plusieurs copies de chaque molécule d’ADN codant pour les données sont produites. Ces copies sont stockées ensemble, non ordonnées, dans un conteneur de stockage
- Pendant le séquençage, de nombreuses copies erronées de ces molécules sont récupérées – la plupart des erreurs contenant, tandis que certains disparaissent entièrement
DnaFormer: récupération de données alimentée par AI
La recherche actuelle présente une solution de calcul complète pour récupérer et corriger les erreurs dans des systèmes de stockage basés sur l’ADN complexes. En utilisant des algorithmes avancés et des techniques d’encodage, les chercheurs ont démontré que leur solution réduit le temps de récupération des données et de lecture de plusieurs jours à seulement 10 minutes.
La méthode développée par Technion, DnaFormer, est basée sur un modèle de transformateur formé sur des données simulées (générées à l’aide d’un simulateur, qui a également été développé à Technion) pour reconstruire des séquences d’ADN précises à partir de copies erronées. La méthode comprend également un code de correction d’erreur personnalisé adapté à l’ADN, garantissant une intégrité de données robuste.
De plus, un mécanisme de marge de sécurité supplémentaire détecte des séquences d’ADN particulièrement bruyantes (signaux ou erreurs indésirables qui se produisent pendant le processus de séquençage, qui peuvent interférer avec l’interprétation précise des données) et applique de puissants outils algorithmiques pour les gérer efficacement. À la fin du processus, les données sont converties en informations numériques.
La nouvelle méthode permet la lecture de 100 mégaoctets de données à une vitesse 3 200 fois plus rapidement que la méthode existante la plus précise – sans aucune perte de précision. Par rapport aux méthodes rapides précédemment connues, DNAFORMER améliore également la précision jusqu’à 40% tout en réduisant considérablement le temps de traitement. Cela a été démontré sur un ensemble de données de 3,1 mégaoctets, qui comprenait:
- Une image de couleur encore
- Un clip audio de 24 secondes des mots de l’astronaute Neil Armstrong sur la lune
- Un texte écrit discutant des avantages de l’ADN en tant que méthode de stockage de données prometteuse
- Données aléatoires pour illustrer l’applicabilité aux données cryptées ou compressées
Les chercheurs prévoient de développer des versions personnalisées de DnaFormer adaptées à différents besoins. Ils soulignent que leur technologie est évolutive et adaptable, ce qui signifie qu’elle peut être optimisée pour les applications de stockage de données à grande échelle, répondant aux demandes du marché et aux avancées futures de l’ADN et aux progrès.