La recherche maintient l'IA compatible avec les appareils intelligents

Une photo de chat à l’envers reste une photo de chat

Crédit : Pixabay/CC0 Domaine public

Les gènes ne représentent qu’une petite fraction du génome humain. Entre elles se trouvent de larges séquences d’ADN qui dirigent les cellules quand, où et combien chaque gène doit être utilisé. Ces manuels d’instructions biologiques sont appelés motifs réglementaires. Si cela semble complexe, eh bien, ça l’est.

Les instructions pour la régulation des gènes sont écrites dans un code compliqué, et les scientifiques se sont tournés vers l’intelligence artificielle pour le déchiffrer. Pour apprendre les règles de régulation de l’ADN, ils utilisent des réseaux de neurones profonds (DNN), qui excellent à trouver des modèles dans de grands ensembles de données. Les DNN sont au cœur des outils d’IA populaires comme ChatGPT. Grâce à un nouvel outil développé par le professeur adjoint du laboratoire de Cold Spring Harbor, Peter Koo, les DNN d’analyse du génome peuvent désormais être formés avec beaucoup plus de données que celles qui peuvent être obtenues par les seules expériences.

« Avec les DNN, le mantra est que plus il y a de données, mieux c’est », déclare Koo. « Nous avons vraiment besoin que ces modèles voient une diversité de génomes afin qu’ils puissent apprendre des signaux de motif robustes. Mais dans certaines situations, la biologie elle-même est le facteur limitant, car nous ne pouvons pas générer plus de données qu’il n’en existe à l’intérieur de la cellule.

Si une IA apprend à partir de trop peu d’exemples, elle peut mal interpréter l’impact d’un motif régulateur sur la fonction des gènes. Le problème est que certains motifs sont rares. Très peu d’exemples se trouvent dans la nature.

Pour surmonter cette limitation, Koo et ses collègues ont développé EvoAug, une nouvelle méthode pour augmenter les données utilisées pour former les DNN. EvoAug a été inspiré par un ensemble de données caché à la vue de tous : l’évolution. Le processus commence par générer des séquences d’ADN artificielles qui correspondent presque aux séquences réelles trouvées dans les cellules. Les séquences sont modifiées de la même manière que les mutations génétiques ont naturellement modifié le génome au cours de l’évolution.

Ensuite, les modèles sont formés pour reconnaître les motifs régulateurs à l’aide des nouvelles séquences, avec une hypothèse clé. Il est supposé que la grande majorité des ajustements ne perturberont pas le fonctionnement des séquences. Koo compare l’augmentation des données de cette manière à l’entraînement d’un logiciel de reconnaissance d’images avec des images miroir du même chat. L’ordinateur apprend qu’une photo de chat à l’envers est toujours une photo de chat.

La réalité, dit Koo, est que certaines modifications de l’ADN perturbent la fonction. Ainsi, EvoAug comprend une deuxième étape de formation utilisant uniquement des données biologiques réelles. Cela ramène le modèle « à la réalité biologique de l’ensemble de données », explique Koo.

L’équipe de Koo a découvert que les modèles formés avec EvoAug fonctionnent mieux que ceux formés uniquement sur des données biologiques. En conséquence, les scientifiques pourraient bientôt avoir une meilleure lecture de l’ADN régulateur qui écrit les règles de la vie elle-même. En fin de compte, cela pourrait un jour fournir une toute nouvelle compréhension de la santé humaine.

La recherche a été publiée dans Biologie du génome.