Les ingénieurs ont simulé 500 millions d’années d’évolution avec une IA. Nous avons maintenant une protéine fluorescente

En octobre dernier, le comité chargé d’attribuer le prix Nobel de chimie a décerné le prix à David Baker « pour la conception informatique des protéines » ; et Demis Hassabis et John M. Jumper « pour la prédiction de la structure des protéines ». Les travaux de ces chercheurs ont ouvert une nouvelle voie dans l’étude des protéines.

Une voie que suivent aujourd’hui divers laboratoires.

De nouvelles protéines. Parmi eux, l’entreprise américaine, qui a récemment réussi à créer une protéine fluorescente artificielle grâce à un modèle d’intelligence artificielle. La création de cette protéine aboutit, selon les mots de l’équipe, à la simulation de 500 millions d’années d’évolution naturelle.

GFP. La nouvelle protéine créée par l’équipe appartient à une « famille » de protéines appelées protéines fluorescentes vertes, ou GFP (). Ce type de protéines peut être trouvé dans la nature, par exemple dans certaines méduses. Sa découverte lui a également valu le prix Nobel de chimie en 2008.

Bien que l’on puisse placer cette protéine artificielle dans le contexte de la « famille » des GFP, la nouvelle protéine (appelée esmGFP) en diffère par sa structure et sa forme, conservant une portion qui ressemble à celles déjà connues.

Evolution, simulée. Nous ne savons pas que la protéine simulée existe dans la nature, mais son existence et sa fonctionnalité nous permettent d’imaginer une réalité alternative dans laquelle l’évolution aurait emprunté d’autres chemins, privilégiant cette conception en principe théorique par rapport à celles que nous pouvons observer dans la nature.

Comme l’explique l’équipe responsable de Les différences entre l’un et l’autre sont, selon les estimations de l’équipe, comparables à 500 millions d’années d’évolution naturelle.

ESM3. L’équipe a développé un modèle de langage génératif, ESM3() dont la fonction peut être quelque peu contre-intuitive puisque, malgré son nom, ce qu’il génère n’est pas du texte, mais des protéines.

Le modèle permet d’étudier la séquence, la structure tridimensionnelle et la fonction du nombre infini de combinaisons, une amélioration substantielle par rapport aux modèles qui prennent en compte uniquement la séquence d’acides aminés qui forme la molécule et non la forme que donnent ses plis. Quelque chose d’extrême importance puisque la séquence et la forme affectent la fonction des protéines.

La formation du modèle a nécessité 771 milliards de packages créés à partir de 3,15 milliards de séquences protéiques, 236 millions de structures et 539 millions de protéines avec leurs fonctions associées. Les détails du processus suivi par l’équipe et ses résultats ont été publiés dans un article du magazine.

Plus que de l’histoire-fiction. Le développement de protéines qui auraient pu être ou non issues de l’évolution peut nous permettre de spéculer sur « ce qui aurait pu être », en imaginant des réalités alternatives où l’évolution a emprunté d’autres chemins. Mais cela peut aussi nous donner des résultats plus pratiques.

L’une des principales applications pratiques de ces protéines est la médecine. Trouver de nouvelles protéines ayant des fonctions similaires à celles exercées par celles naturellement synthétisées par notre organisme peut être utile dans la lutte contre certains troubles.

À Simseo | Ce plant de tomate produit des protéines fluorescentes pour avertir l’agriculteur qu’il est en danger ou qu’il a besoin d’eau

Images | Échelle Évolutionnaire