Un nouveau « scientifique en intelligence artificielle » combine théorie et données pour découvrir des équations scientifiques
En 1918, le chimiste américain Irving Langmuir a publié un article examinant le comportement des molécules de gaz adhérant à une surface solide. Guidé par les résultats d’expériences minutieuses, ainsi que par sa théorie selon laquelle les solides offrent des sites discrets pour les molécules de gaz à remplir, il a élaboré une série d’équations qui décrivent la quantité de gaz qui collera, compte tenu de la pression.
Aujourd’hui, environ cent ans plus tard, un « scientifique de l’IA » développé par des chercheurs d’IBM Research, de Samsung AI et de l’Université du Maryland, comté de Baltimore (UMBC) a reproduit une partie clé du travail lauréat du prix Nobel de Langmuir. Le système – l’intelligence artificielle (IA) fonctionnant comme un scientifique – a également redécouvert la troisième loi du mouvement planétaire de Kepler, qui peut calculer le temps qu’il faut à un objet spatial pour orbiter autour d’un autre compte tenu de la distance qui les sépare, et a produit une bonne approximation du temps relativiste d’Einstein. -la loi de dilatation, qui montre que le temps ralentit pour les objets en mouvement rapide.
Un article décrivant les résultats est publié dans Communication Nature le 12 avril.
Un outil d’apprentissage automatique qui raisonne
Le nouveau scientifique de l’IA – surnommé « AI-Descartes » par les chercheurs – rejoint AI Feynman et d’autres outils informatiques récemment développés qui visent à accélérer la découverte scientifique. Au cœur de ces systèmes se trouve un concept appelé régression symbolique, qui trouve des équations pour ajuster les données. Compte tenu des opérateurs de base, tels que l’addition, la multiplication et la division, les systèmes peuvent générer des centaines, voire des millions d’équations candidates, en recherchant celles qui décrivent le plus précisément les relations dans les données.
AI-Descartes offre quelques avantages par rapport aux autres systèmes, mais sa caractéristique la plus distinctive est sa capacité à raisonner logiquement, explique Cristina Cornelio, chercheuse scientifique chez Samsung AI à Cambridge, en Angleterre, qui est la première auteure de l’article. S’il existe plusieurs équations candidates qui correspondent bien aux données, le système identifie les équations qui correspondent le mieux à la théorie scientifique de base. La capacité à raisonner distingue également le système des programmes « d’IA générative » tels que ChatGPT, dont le grand modèle de langage a des compétences logiques limitées et perturbe parfois les mathématiques de base.
« Dans notre travail, nous fusionnons une approche basée sur les premiers principes, qui a été utilisée par les scientifiques pendant des siècles pour dériver de nouvelles formules à partir de théories de fond existantes, avec une approche basée sur les données qui est plus courante à l’ère de l’apprentissage automatique », explique Cornelio. . « Cette combinaison nous permet de tirer parti des deux approches et de créer des modèles plus précis et significatifs pour un large éventail d’applications. »
Le nom AI-Descartes est un clin d’œil au mathématicien et philosophe du XVIIe siècle René Descartes, qui soutenait que le monde naturel pouvait être décrit par quelques lois physiques fondamentales et que la déduction logique jouait un rôle clé dans la découverte scientifique.
Adapté aux données du monde réel
Le système fonctionne particulièrement bien sur les données bruyantes du monde réel, qui peuvent déclencher des programmes de régression symbolique traditionnels qui pourraient ignorer le signal réel dans le but de trouver des formules qui capturent chaque zig et zag errant des données. Il gère également bien les petits ensembles de données, même en trouvant des équations fiables lorsqu’il ne contient que dix points de données.
Un facteur qui pourrait ralentir l’adoption d’un outil comme AI-Descartes pour la science des frontières est la nécessité d’identifier et de coder la théorie de fond associée aux questions scientifiques ouvertes. L’équipe travaille à créer de nouveaux ensembles de données qui contiennent à la fois des données de mesure réelles et une théorie de fond associée pour affiner leur système et le tester sur un nouveau terrain.
Ils aimeraient également éventuellement former des ordinateurs à lire des articles scientifiques et à construire eux-mêmes la théorie de base.
« Dans ce travail, nous avions besoin d’experts humains pour écrire, en termes formels et lisibles par ordinateur, quels sont les axiomes de la théorie d’arrière-plan, et si l’humain en manquait ou se trompait, le système ne fonctionnerait pas, » déclare le co-auteur Tyler Josephson, professeur adjoint de génie chimique, biochimique et environnemental à l’UMBC. « A l’avenir », dit-il, « nous aimerions également automatiser cette partie du travail, afin de pouvoir explorer de nombreux autres domaines de la science et de l’ingénierie. »
Cet objectif motive les recherches de Josephson sur les outils d’IA pour faire progresser le génie chimique.
En fin de compte, l’équipe espère que leur AI-Descartes, comme la personne réelle, pourra inspirer une nouvelle approche productive de la science. « L’un des aspects les plus passionnants de notre travail est le potentiel de faire des progrès significatifs dans la recherche scientifique », déclare Cornelio.