GPT-Rosalind : l'IA pour la recherche sur les médicaments et les sciences de la vie

OpenAI présente GPT-Rosalind, un modèle d’intelligence artificielle conçu pour soutenir la recherche en sciences de la vie. Cette annonce intervient à un moment où l’industrie pharmaceutique est confrontée à des coûts élevés et à de longs délais de développement de médicaments. Aux États-Unis, selon les données consolidées de l’industrie, il faut en moyenne entre 10 et 15 ans pour passer de la découverte d’une cible biologique à l’approbation réglementaire d’un nouveau médicament.

Le modèle a été créé dans le but d’intervenir dans les phases initiales du processus, celles qui influencent de manière décisive la qualité de l’ensemble du processus : sélection des cibles, formulation d’hypothèses biologiques et conception des expériences.

Le modèle porte le nom de Rosalind Franklin, la scientifique britannique dont les travaux sur la diffraction des rayons X ont permis de clarifier la structure de l’ADN. Ses recherches, publiées dans les années 1950, ont jeté les bases de la biologie moléculaire moderne.

Le goulot d’étranglement de la recherche scientifique

La recherche biomédicale est ralentie non seulement par la complexité de la biologie, mais également par la structure des flux de travail. Les scientifiques doivent intégrer de grandes quantités d’informations : littérature scientifique, bases de données spécialisées, données expérimentales et modèles théoriques en constante évolution.

Ces processus sont souvent fragmentés et difficiles à mettre à l’échelle. L’analyse de la littérature peut prendre des semaines, l’analyse des données des semaines ou des mois, tandis que la conception expérimentale dépend d’une combinaison d’expérience, d’intuition et de tests de suivi.

Dans ce contexte, l’adoption de systèmes avancés d’intelligence artificielle vise à réduire le temps et à augmenter la qualité des décisions, notamment dans les étapes préliminaires de la découverte.

Comment fonctionne GPT-Rosalind

GPT-Rosalind est une famille de modèles optimisés pour les flux de travail scientifiques. Intégrez des compétences de raisonnement avancées avec l’utilisation directe d’outils et de bases de données, dans des domaines tels que la chimie, l’ingénierie des protéines et la génomique.

Selon OpenAI, le modèle est capable de :

analyser des molécules, des protéines et des gènes ;
interpréter des données expérimentales complexes ;
générer et évaluer des hypothèses biologiques ;
planifier des expériences en plusieurs phases ;
utiliser les outils et bases de données scientifiques de manière intégrée.

Les évaluations internes indiquent des améliorations dans les tâches qui nécessitent un raisonnement sur les structures moléculaires, les séquences génétiques et les voies biologiques, ainsi que dans la capacité à relier des informations provenant de différentes sources.

De la théorie à l’utilisation industrielle

GPT-Rosalind est disponible en avant-première pour la recherche via ChatGPT, Codex et API, mais l’accès est limité aux organisations qualifiées via un programme contrôlé.

OpenAI collabore avec des entreprises et des institutions telles que Institut Amgen, Moderna et Allenainsi que des groupes comme Thermo Fisher Scientifique. L’objectif est d’appliquer le modèle à des cas concrets de recherche et développement.

Sean Bruich, vice-président senior de l’intelligence artificielle et des données chez Amgen, a souligné que la collaboration nous permet d’expérimenter de nouvelles façons d’accélérer la production de médicaments, dans une industrie où la précision est cruciale et les erreurs coûtent cher.

Les résultats sur des benchmarks scientifiques

Les performances du modèle ont été testées sur plusieurs benchmarks publics et industriels.

Sur BixBench, conçu pour simuler des problèmes réels de bioinformatique et d’analyse de données, GPT-Rosalind a obtenu des résultats supérieurs par rapport à d’autres modèles avec des scores publiés.

Sur LABBench2, qui mesure des tâches telles que la recherche de littérature, l’accès aux bases de données et la conception de protocoles, le modèle surpasse GPT-5.4 dans 6 cas sur 11. La plus grande amélioration est ClonageQAun test qui nécessite la conception complète de réactifs ADN et d’enzymes pour le clonage moléculaire.

En collaboration avec Dyno Therapeutics, GPT-Rosalind a également été évalué sur des tâches de prédiction et de génération de séquences d’ARN à l’aide de données non publiées. Les résultats placent les meilleures performances du modèle au-dessus du 95e centile des experts humains en prédiction et autour du 84e centile en génération de séquences.

Intégration avec des instruments scientifiques

Un élément central du projet est le plugin des sciences de la vie développé pour le Codex. Le package vous permet de connecter le modèle à plus de 50 bases de données et outils scientifiques publics.

Les fonctionnalités couvrent différents domaines :

génétique humaine et génomique fonctionnelle;
structure protéique et biochimique;
preuves cliniques;
analyse de la littérature;
accès aux ensembles de données publics.

Le plugin agit comme une couche d’orchestration, facilitant la gestion de requêtes complexes en plusieurs étapes. Elle permet par exemple de passer de la recherche d’une protéine à son analyse structurale, jusqu’à la conception d’une expérience.

Impacts économiques pour le secteur pharmaceutique

L’introduction d’outils comme GPT-Rosalind s’inscrit dans un contexte où les coûts de la recherche pharmaceutique sont croissants. Selon des études publiées ces dernières années par des instituts comme le Tufts Center for the Study of Drug Development, le développement d’un nouveau médicament peut dépasser les 2 milliards de dollars compte tenu des échecs et des coûts indirects.

Réduire le temps dans les premières étapes peut avoir des effets cumulatifs :

moins d’expériences ratées ;
sélection de cibles plus précise ;
une plus grande probabilité de succès dans les phases cliniques ;
réduction des délais de mise sur le marché.

Pour les entreprises, cela se traduit par des avantages compétitifs et des économies potentielles significatives.

Accès contrôlé et sécurité

OpenAI a choisi un modèle de distribution basé sur un accès contrôlé. Les organisations doivent répondre à des exigences liées à trois critères :

utilisation avec des avantages publics ;
les systèmes de gouvernance et de conformité ;
gestion sécurisée des accès.

Le système est conçu pour éviter toute utilisation abusive, en particulier dans des domaines sensibles tels que la biologie. Le modèle a été développé avec des normes de sécurité au niveau de l’entreprise, avec des contrôles d’accès et d’utilisation.

Pour demander l’accès à GPT-Rosalind

Perspectives d’avenir

GPT-Rosalind représente la première étape d’une série de modèles dédiés aux sciences de la vie. OpenAI prévoit d’améliorer encore les capacités de raisonnement biologique et d’étendre la prise en charge de flux de travail de plus en plus complexes.

Les collaborations en cours incluent celle avec le laboratoire national de Los Alamos, où des applications dans la conception de protéines et de catalyseurs assistées par l’IA sont explorées.

L’objectif affiché est de réduire la distance entre la question scientifique et les résultats concrets, en passant plus rapidement de l’analyse des données à la découverte de nouveaux traitements.

Une transformation progressive mais structurelle

L’introduction de modèles spécialisés tels que GPT-Rosalind marque une étape dans la digitalisation de la recherche scientifique. L’intelligence artificielle ne remplace pas le travail des scientifiques, mais modifie leurs outils et leurs temps.

La valeur économique dépendra de la capacité des organisations à intégrer ces systèmes dans les processus existants, en surmontant les résistances culturelles et les limitations infrastructurelles. Les premières applications indiquent une amélioration dans les phases d’analyse et de conception, mais l’impact global sera mesurable à moyen terme, lorsque les résultats atteindront le développement clinique.

Le secteur pharmaceutique suit de près. Si les bénéfices promis se traduisent par des médicaments développés plus rapidement et avec des taux de réussite plus élevés, l’effet pourrait s’étendre à l’ensemble de la chaîne d’approvisionnement de la santé, de la recherche fondamentale à la production industrielle.