Tirer parti des modèles linguistiques pour la recherche sur l’énergie de fusion

Tirer parti des modèles linguistiques pour la recherche sur l’énergie de fusion

Depuis l’avènement de la recherche sur la fusion, les scientifiques ont publié des milliers de documents sur le sujet : articles, actes de conférences et même rapports écrits d’expériences antérieures sur des réacteurs à fusion du monde entier. Il faudrait facilement toute une vie pour lire une telle source d’informations, et encore plus pour la comprendre.

Cependant, au cours d’une véritable expérience de fusion au centre national de fusion DIII-D de San Diego, les chercheurs ne disposent que d’environ 10 minutes entre les essais pour localiser ces informations et les utiliser pour effectuer des ajustements en vue de l’exécution suivante.

« Chaque tir de fusion est terminé en quelques secondes, et vous disposez ensuite d’un laps de temps étroit avant le suivant pour résoudre tout problème et apporter les modifications nécessaires », a déclaré Joseph Abbate, doctorant en sixième année. candidat au programme de Princeton en physique des plasmas. « Il faut prendre beaucoup de décisions en très peu de temps. »

Abbate a déclaré que les chercheurs qui dirigent les expériences travaillent régulièrement jusqu’au bout pour affiner l’expérience suivante, et que les changements sont souvent apportés en interrogeant la salle pour obtenir des réponses, une technique qui repose sur l’expertise partagée des opérateurs en poste ce jour-là.

Aujourd’hui, des scientifiques de l’Université de Princeton, de l’Université Carnegie Mellon et du Massachusetts Institute of Technology (MIT) ont appliqué de grands modèles de langage – les forces motrices derrière des outils tels que ChatGPT, Bard et LLaMA – pour aider les chercheurs en fusion à passer rapidement au crible des quantités impressionnantes de données. données pour prendre des décisions plus éclairées à la volée. Le modèle permet aux utilisateurs d’identifier des expériences antérieures présentant des caractéristiques similaires, de fournir des informations sur les systèmes de contrôle d’un appareil et de répondre rapidement aux questions sur les réacteurs à fusion et la physique des plasmas.

« La recherche sur la fusion est, étonnamment, un scénario idéal pour appliquer de grands modèles de langage pour aider les humains », a déclaré Viraj Mehta, titulaire d’un doctorat. candidat à l’Université Carnegie Mellon et premier auteur d’un document d’atelier détaillant le travail des chercheurs. « D’une part, il existe une multitude d’écrits disponibles sur la fusion, dans des articles, des résumés et des affiches, ainsi que dans les notes que les chercheurs et les opérateurs rédigent après chaque essai de fusion. Et d’un autre côté, vous devez avoir accès rapide à ces informations. C’est un domaine dans lequel ces modèles brillent.

Les chercheurs ont jeté les bases de leur projet lors d’un hackathon organisé par des étudiants diplômés et organisé sur le campus de Princeton, au cours duquel l’équipe a identifié les ajustements qu’elle pourrait apporter aux modèles de langage existants afin d’exploiter leur puissance pour la recherche sur la fusion. De tels modèles sont rapidement devenus célèbres pour leur capacité à générer du texte de type humain après avoir été formés sur des milliards de mots sur Internet.

En seulement quelques soirées de codage collaboratif, l’équipe a jeté les bases de son travail en améliorant le grand modèle de langage brut avec un processus connu sous le nom de génération augmentée par récupération. La génération augmentée par récupération permet de compléter l’ensemble de données général du modèle (qui est souvent basé sur du texte provenant d’Internet publié avant une date limite spécifique) avec des sources de données supplémentaires pour améliorer la précision et la qualité des réponses du modèle. Dans ce cas, les chercheurs ont ajouté une base de données d’informations comprenant des journaux de tir et des notes d’expériences précédentes au DIII-D, qui n’existent pas publiquement sur Internet.

« Lors du hackathon, nous avons pu obtenir des commentaires instantanés et l’inspiration de tout un groupe de personnes pour faire avancer le projet, ce qui nous a permis de surmonter tous les obstacles et de disposer d’une base solide pour notre modèle », a déclaré Abbate.

Avec le modèle augmenté, les chercheurs ont reçu des réponses utiles à diverses demandes, depuis des informations sur la manière de faire fonctionner des équipements spécifiques jusqu’aux modifications recommandées des paramètres de l’appareil. De plus, ils pourraient structurer leur question de manière à exiger que le modèle fasse référence aux expériences ou aux articles exacts à partir desquels il a généré ses réponses, renforçant ainsi la crédibilité du modèle.

« C’est comme avoir toujours un autre assistant avec vous dans la pièce, qui connaît tous les essais de fusion qui ont eu lieu au réacteur et peut fournir des recommandations basées sur ce qui s’est passé dans le passé », a déclaré Abbate.

Alors que les chercheurs ont jeté les bases de leur modèle lors du hackathon, ils ont depuis affiné leur travail afin qu’il puisse être reproduit dans de véritables installations de fusion. Par exemple, Abbate travaille avec les opérateurs du DIII-D pour explorer les moyens de mettre en œuvre le cadre dans l’installation, afin que chaque groupe de recherche y effectuant des expériences puisse y accéder.

L’équipe a également noté que le cadre peut être appliqué aux réacteurs à fusion qui ne sont plus opérationnels, permettant ainsi aux scientifiques d’accéder à une source d’informations qui pourrait autrement être oubliée lorsque les exploitants de réacteurs prendront leur retraite ou déménageront dans d’autres installations. Le co-auteur Allen Wang, étudiant diplômé du MIT, a démontré que le même cadre développé pour DIII-D pouvait être adapté pour Alcator C-Mod, un réacteur à fusion du MIT qui a cessé ses activités en 2016.

« Il y a des machines qui ont été arrêtées pendant une vingtaine d’années, et personne ne se souvient de ce qui s’est passé pendant ces expériences », a déclaré l’auteur principal Egemen Kolemen, professeur agrégé de génie mécanique et aérospatial et du Centre Andlinger pour l’énergie et l’environnement. , ainsi que physicien de recherche au Laboratoire de physique des plasmas de Princeton (PPPL). « Mais en rassemblant toutes les données textuelles et en les connectant à un modèle de langage, nous pourrions réapprendre certaines informations clés qui peuvent nous aider à résoudre un problème auquel nous sommes confrontés avec les futurs réacteurs. »

Mehta a ajouté que le modèle pourrait également être un outil précieux pour les jeunes chercheurs sur la fusion qui dirigent des sessions dans les réacteurs, un rôle que lui et Abbate ont rempli à plusieurs reprises au cours de leurs carrières universitaires.

« En disposant de ce modèle capable de référencer tous les articles de fusion existants, nous avons créé un outil qui permet à la prochaine génération de chercheurs d’accéder à l’information beaucoup plus facilement qu’auparavant », a-t-il déclaré.

L’article, « Vers les LLM en tant que copilotes opérationnels pour les réacteurs à fusion », a été présenté le 16 décembre lors de l’atelier NeurIPS 2023 sur l’IA pour la science.