Un nouvel outil pour la découverte scientifique alimentée par l'IA

Dans un article publié dans Intelligence de la machine de la natureune équipe australienne dirigée par des chercheurs de l’Université de Monash a développé un outil d’IA génératif qui imite les scientifiques pour soutenir et accélérer le processus de découvertes scientifiques.

Nommé LLM4SD (grand modèle de langue 4 Scientific Discovery), le nouveau système d’IA est un outil de modèle interactif de grand langage (LLM) qui peut effectuer des étapes de base de la recherche scientifique, c’est-à-dire récupérer des informations utiles de la littérature et développer des hypothèses à partir de l’analyse des données. L’outil est disponible librement et open source.

Lorsqu’on lui a demandé, le système est également en mesure de fournir des informations pour expliquer ses résultats, une fonctionnalité qui n’est pas disponible pour de nombreux outils de validation scientifique actuels.

LLM4SD a été testé avec 58 tâches de recherche distinctes relatives aux propriétés moléculaires dans quatre domaines scientifiques différents: physiologie, chimie physique, biophysique et mécanique quantique.

Co-auteur principal de la recherche, Ph.D. Le candidat Yizhen Zheng est du Département des sciences des données et de l’IA de la Faculté de technologie de l’information de l’Université Monash.

« Tout comme Chatgpt écrit des essais ou résout des problèmes mathématiques, notre outil LLM4SD lit des décennies de littérature scientifique et analyse les données de laboratoire pour prédire comment les molécules se comportent – des questions qui répondent aux questions telles que » ce médicament peut-il traverser la barrière protectrice du cerveau? » ou « ce composé se dissoudra-t-il dans l’eau? », A déclaré Zheng.

« En plus de surpasser les outils de validation actuels qui fonctionnent comme une« boîte noire », ce système peut expliquer son processus d’analyse, ses prédictions et ses résultats en utilisant des règles simples, ce qui peut aider les scientifiques à faire confiance et à agir sur ses idées. »

L’outil LLM4SD a surpassé les outils scientifiques de pointe qui sont actuellement utilisés pour effectuer ces tâches; Par exemple, il a augmenté la précision jusqu’à 48% pour prédire les propriétés quantiques critiques pour la conception des matériaux.

Les co-auteurs principaux de l’étude comprennent le doctorat. Le candidat Huan Yee Koh qui est conjointement au Département des sciences des données de l’Université Monash et à l’IA et au Monash Institute of Pharmaceutical Sciences, et Ph.D. Le candidat Jiaxin Ju de la School of Information and Communication Technology de l’Université Griffith.

« Plutôt que de remplacer les modèles d’apprentissage automatique traditionnels, LLM4SD les améliore en synthétisant les connaissances et en générant des explications interprétables », a déclaré Ju.

« Cette approche garantit que les prédictions axées sur l’IA restent fiables et accessibles aux chercheurs de différentes disciplines scientifiques », a ajouté Koh.

Data Scientist, expert en IA et co-auteur de la recherche, le professeur Geoff Webb de la faculté de technologie de l’information de Monash, a déclaré que les LLM peuvent imiter avec précision les principales compétences de découverte scientifique de synthèse des connaissances de la littérature et de développement d’hypothèses en interprétant les données.

« Nous sommes déjà entièrement immergés à l’ère de l’IA générative et nous devons commencer à exploiter cela autant que possible pour faire progresser la science, tout en veillant à ce que nous le développez de manière éthique », a déclaré le professeur Webb.

« Cet outil a le potentiel de faciliter le processus de découverte de médicaments plus facile, plus rapide et plus précis et de devenir un soutien de recherche suralimenté aux scientifiques dans tous les domaines du monde entier. »

Le co-auteur de la recherche, le professeur Shirui Pan, est un expert en data et apprentissage automatique et un futur boursier avec la School of Information and Communication Technology de l’Université Griffith.

« Un modèle comme LLM4SD peut rapidement synthétiser des décennies de connaissances antérieures, puis se retourner pour repérer de nouveaux modèles dans les données qui pourraient ne pas être largement rapportées », a déclaré le professeur Pan.

« Nous considérons cela comme un développement clé pour accélérer les processus de recherche et de développement et au-delà. »