Un nouveau modèle d'IA apprend le langage caché de l'ADN

L'ADN contient des informations fondamentales nécessaires au maintien de la vie. Comprendre comment ces informations sont stockées et organisées a été l'un des plus grands défis scientifiques du siècle dernier.

Grâce à GROVER, un nouveau modèle de langage à grande échelle formé sur l’ADN humain, les chercheurs pourraient désormais tenter de décoder les informations complexes cachées dans notre génome.

Développé par une équipe du Centre de biotechnologie (BIOTEC) de l'Université technique de Dresde, GROVER traite l'ADN humain comme un texte, apprenant ses règles et son contexte pour en tirer des informations fonctionnelles sur les séquences d'ADN. Ce nouvel outil, publié dans Nature Intelligence artificiellea le potentiel de transformer la génomique et d’accélérer la médecine personnalisée.

Depuis la découverte de la double hélice, les scientifiques cherchent à comprendre l’information codée dans l’ADN. 70 ans plus tard, il est clair que l’information cachée dans l’ADN est multicouche. Seuls 1 à 2 % du génome sont constitués de gènes, les séquences qui codent les protéines.

« L’ADN a de nombreuses fonctions au-delà du codage des protéines. Certaines séquences régulent les gènes, d’autres servent à des fins structurelles, la plupart des séquences remplissent plusieurs fonctions à la fois. À l’heure actuelle, nous ne comprenons pas la signification de la majeure partie de l’ADN. Lorsqu’il s’agit de comprendre les régions non codantes de l’ADN, il semble que nous n’ayons fait qu’effleurer la surface. C’est là que l’IA et les grands modèles linguistiques peuvent aider », explique le Dr Anna Poetsch, chef du groupe de recherche chez BIOTEC.

L'ADN comme langage

Les grands modèles de langage, comme GPT, ont transformé notre compréhension du langage. Formés exclusivement sur du texte, les grands modèles de langage ont développé la capacité d'utiliser le langage dans de nombreux contextes.

« L’ADN est le code de la vie. Pourquoi ne pas le traiter comme un langage ? », explique le Dr Poetsch. L’équipe de Poetsch a formé un modèle de langage de grande envergure sur un génome humain de référence. L’outil qui en résulte, appelé GROVER (Genome Rules Obtained via Extracted Representations), peut être utilisé pour extraire le sens biologique de l’ADN.

« GROVER a appris les règles de l'ADN. En termes de langage, nous parlons de grammaire, de syntaxe et de sémantique. Pour l'ADN, cela signifie apprendre les règles qui régissent les séquences, l'ordre des nucléotides et des séquences, et la signification des séquences. Tout comme les modèles GPT apprennent les langues humaines, GROVER a essentiellement appris à « parler » l'ADN », explique le Dr Melissa Sanabria, chercheuse à l'origine du projet.

L'équipe a montré que GROVER peut non seulement prédire avec précision les séquences d'ADN suivantes, mais peut également être utilisé pour extraire des informations contextuelles ayant une signification biologique, par exemple pour identifier les promoteurs de gènes ou les sites de liaison des protéines sur l'ADN. GROVER apprend également des processus généralement considérés comme « épigénétiques », c'est-à-dire des processus régulateurs qui se produisent au-dessus de l'ADN plutôt que d'être codés.

« Il est fascinant de constater qu’en entraînant GROVER avec seulement la séquence d’ADN, sans aucune annotation de fonctions, nous sommes réellement capables d’extraire des informations sur la fonction biologique. Pour nous, cela montre que la fonction, y compris certaines informations épigénétiques, est également codée dans la séquence », explique le Dr Sanabria.

Le dictionnaire ADN

« L’ADN ressemble au langage. Il est composé de quatre lettres qui forment des séquences et ces séquences ont un sens. Cependant, contrairement au langage, l’ADN n’a pas de mots définis », explique le Dr Poetsch. L’ADN est composé de quatre lettres (A, T, G et C) et de gènes, mais il n’existe pas de séquences prédéfinies de différentes longueurs qui se combinent pour former des gènes ou d’autres séquences significatives.

Pour entraîner GROVER, l’équipe a d’abord dû créer un dictionnaire d’ADN. Elle a utilisé une astuce issue des algorithmes de compression. « Cette étape est cruciale et distingue notre modèle de langage ADN des tentatives précédentes », explique le Dr Poetsch.

« Nous avons analysé l'ensemble du génome et recherché les combinaisons de lettres les plus fréquentes. Nous avons commencé avec deux lettres et avons parcouru l'ADN, encore et encore, pour le construire jusqu'aux combinaisons de plusieurs lettres les plus courantes. De cette manière, en environ 600 cycles, nous avons fragmenté l'ADN en « mots » qui permettent à GROVER d'être le plus performant lorsqu'il s'agit de prédire la séquence suivante », explique le Dr Sanabria.

La promesse de l’IA en génomique

GROVER promet de décrypter les différentes couches du code génétique. L’ADN contient des informations clés sur ce qui fait de nous des êtres humains, nos prédispositions aux maladies et nos réponses aux traitements.

« Nous pensons que la compréhension des règles de l’ADN à travers un modèle de langage va nous aider à découvrir les profondeurs de la signification biologique cachée dans l’ADN, faisant ainsi progresser à la fois la génomique et la médecine personnalisée », explique le Dr Poetsch.