Un nouveau « scientifique IA » peut rédiger des articles scientifiques sans aucune intervention humaine : voici pourquoi c'est un problème

La découverte scientifique est l’une des activités humaines les plus sophistiquées. Les scientifiques doivent d’abord comprendre les connaissances existantes et identifier une lacune importante. Ensuite, ils doivent formuler une question de recherche et concevoir et mener une expérience pour trouver une réponse. Ils doivent ensuite analyser et interpréter les résultats de l’expérience, ce qui peut soulever une autre question de recherche.

Un processus aussi complexe peut-il être automatisé ? La semaine dernière, Sakana AI Labs a annoncé la création d'un « IA scientifique » : un système d'intelligence artificielle qui, selon eux, peut faire des découvertes scientifiques dans le domaine de l'apprentissage automatique de manière entièrement automatisée.

En utilisant des modèles de langage génératifs à grande échelle (LLM) comme ceux de ChatGPT et d'autres chatbots IA, le système peut réfléchir, sélectionner une idée prometteuse, coder de nouveaux algorithmes, tracer les résultats et rédiger un article résumant l'expérience et ses conclusions, avec références. Sakana affirme que l'outil d'IA peut prendre en charge le cycle de vie complet d'une expérience scientifique pour un coût de seulement 15 dollars par article, soit moins que le prix du déjeuner d'un scientifique.

Voilà de grandes affirmations. Sont-elles fondées ? Et même si c'était le cas, une armée de scientifiques IA produisant des articles de recherche à une vitesse inhumaine serait-elle vraiment une bonne nouvelle pour la science ?

Comment un ordinateur peut « faire de la science »

Une grande partie des travaux scientifiques sont menés en public, et presque toutes les connaissances scientifiques ont été écrites quelque part (sinon nous n'aurions aucun moyen de les « connaître »). Des millions d'articles scientifiques sont disponibles gratuitement en ligne dans des référentiels tels qu'arXiv et PubMed.

Les LLM formés avec ces données saisissent le langage scientifique et ses modèles. Il n’est donc pas surprenant qu’un LLM génératif puisse produire quelque chose qui ressemble à un bon article scientifique : il a ingéré de nombreux exemples qu’il peut copier.

Ce qui est moins évident, c’est de savoir si un système d’IA peut produire un article scientifique intéressant. Fondamentalement, une bonne science a besoin de nouveauté.

Mais est-ce intéressant ?

Les scientifiques ne veulent pas qu'on leur parle de choses déjà connues. Ils veulent plutôt apprendre de nouvelles choses, en particulier des choses qui sont très différentes de ce qu'ils connaissent déjà. Cela nécessite de savoir évaluer la portée et la valeur d'une contribution.

Le système Sakana tente de répondre à la question de l'intérêt de deux manières. Tout d'abord, il « note » les nouvelles idées d'articles en fonction de leur similarité avec les recherches existantes (indexées dans le référentiel Semantic Scholar). Tout ce qui est trop similaire est rejeté.

Deuxièmement, le système de Sakana introduit une étape de « révision par les pairs » : utiliser un autre LLM pour juger de la qualité et de la nouveauté du document généré. Là encore, il existe de nombreux exemples de révision par les pairs en ligne sur des sites tels que openreview.net qui peuvent vous guider dans la manière de critiquer un document. Les LLM les ont également intégrés.

L’IA peut être un mauvais juge de ses résultats

Les retours sur les résultats de Sakana AI sont mitigés. Certains l'ont décrit comme produisant « une quantité infinie de bêtises scientifiques ».

Même si le système lui-même évalue ses résultats, les articles sont au mieux médiocres. Cette situation devrait s'améliorer à mesure que la technologie évolue, mais la question de la valeur des articles scientifiques automatisés demeure.

La capacité des LLM à juger de la qualité de la recherche est également une question ouverte. Mon propre travail (bientôt publié dans Méthodes de synthèse de la recherche) montre que les LLM ne sont pas très doués pour évaluer le risque de biais dans les études de recherche médicale, même si cela peut également s'améliorer avec le temps.

Le système de Sakana automatise les découvertes dans la recherche informatique, ce qui est beaucoup plus facile que dans d'autres types de sciences qui nécessitent des expériences physiques. Les expériences de Sakana sont réalisées avec du code, qui est également un texte structuré que les LLM peuvent être formés à générer.

Des outils d’IA pour soutenir les scientifiques, et non les remplacer

Les chercheurs en intelligence artificielle développent depuis des décennies des systèmes destinés à soutenir la science. Compte tenu du volume considérable de recherches publiées, il peut s’avérer difficile de trouver des publications pertinentes sur une question scientifique spécifique.

Des outils de recherche spécialisés utilisent l'IA pour aider les scientifiques à trouver et à synthétiser les travaux existants. Il s'agit notamment de Semantic Scholar, mentionné ci-dessus, mais aussi de systèmes plus récents tels qu'Elicit, Research Rabbit, scite et Consensus.

Les outils d'exploration de texte tels que PubTator explorent en profondeur les articles pour identifier les points clés, tels que les mutations et maladies génétiques spécifiques et leurs relations établies. Cela est particulièrement utile pour organiser et organiser les informations scientifiques.

L'apprentissage automatique a également été utilisé pour soutenir la synthèse et l'analyse des preuves médicales, dans des outils tels que Robot Reviewer. Les résumés qui comparent et contrastent les affirmations des articles de Scholarcy aident à effectuer des revues de la littérature.

Tous ces outils visent à aider les scientifiques à faire leur travail plus efficacement, et non à les remplacer.

La recherche sur l’IA pourrait aggraver les problèmes existants

Bien que Sakana AI affirme ne pas voir le rôle des scientifiques humains diminuer, la vision de l'entreprise d'un « écosystème scientifique entièrement piloté par l'IA » aurait des implications majeures pour la science.

L’une des préoccupations est que si les articles générés par l’IA inondent la littérature scientifique, les futurs systèmes d’IA pourraient être formés à partir des résultats de l’IA et subir un effondrement du modèle. Cela signifie qu’ils pourraient devenir de plus en plus inefficaces en matière d’innovation.

Toutefois, les implications pour la science vont bien au-delà des impacts sur les systèmes scientifiques d’IA eux-mêmes.

Il existe déjà des acteurs malhonnêtes dans le monde scientifique, notamment des « usines à papier » qui produisent de faux articles. Ce problème ne fera qu'empirer lorsqu'un article scientifique pourra être produit pour 15 dollars et une demande initiale vague.

La nécessité de vérifier les erreurs dans une montagne de recherches générées automatiquement pourrait rapidement dépasser les capacités des scientifiques actuels. Le système d'évaluation par les pairs est sans doute déjà défaillant, et y introduire davantage de recherches de qualité douteuse ne suffira pas à le résoudre.

La science est fondamentalement basée sur la confiance. Les scientifiques mettent l'accent sur l'intégrité du processus scientifique afin que nous puissions être sûrs que notre compréhension du monde (et désormais des machines du monde) est valable et s'améliore.

Un écosystème scientifique dans lequel les systèmes d’IA jouent un rôle clé soulève des questions fondamentales sur le sens et la valeur de ce processus, et sur le niveau de confiance que nous devrions accorder aux scientifiques spécialisés en IA. Est-ce le type d’écosystème scientifique que nous souhaitons ?