Explorer l’apprentissage par renforcement pour contrôler les réactions de fusion nucléaire
Un étudiant de la School of Computer Science (SCS) de l’Université Carnegie Mellon a utilisé l’apprentissage par renforcement pour aider à contrôler les réactions de fusion nucléaire, une étape importante vers l’exploitation de l’immense puissance produite par la fusion nucléaire en tant que source d’énergie propre et abondante.
Ian Char, doctorant au département d’apprentissage automatique, a utilisé l’apprentissage par renforcement pour contrôler le plasma d’hydrogène de la machine tokamak du DIII-D National Fusion Facility à San Diego. Il a été le premier chercheur de la CMU à mener une expérience sur les machines recherchées, le premier à utiliser l’apprentissage par renforcement pour affecter la rotation d’un plasma tokamak et la première personne à essayer l’apprentissage par renforcement sur la plus grande machine tokamak en fonctionnement aux États-Unis. . Char a collaboré avec le Princeton Plasma Physics Laboratory (PPPL) sur les travaux.
« L’apprentissage par renforcement a affecté la pression du plasma et sa rotation », a déclaré Char. « Et c’est vraiment notre grande première ici. »
La fusion nucléaire se produit lorsque des noyaux d’hydrogène se brisent ou fusionnent ensemble. Ce processus libère une énorme quantité d’énergie mais reste difficile à maintenir aux niveaux nécessaires pour mettre l’électricité sur le réseau. Les noyaux d’hydrogène ne fusionnent qu’à des températures et à des pressions extrêmement élevées telles que celles que l’on trouve au centre du soleil, où la fusion nucléaire se produit naturellement. Les physiciens ont également réalisé la fusion nucléaire dans les armes thermonucléaires, mais celles-ci ne sont pas utiles comme sources d’énergie.
Une autre méthode pour produire la fusion nucléaire utilise des champs magnétiques pour contenir un plasma d’hydrogène à la température et à la pression requises pour fusionner les noyaux. Ce processus se produit à l’intérieur d’un tokamak, une machine massive qui utilise des champs magnétiques pour confiner le plasma d’hydrogène dans une forme de beignet appelée tore. Contenir le plasma et maintenir sa forme nécessitent des centaines de micromanipulations des champs magnétiques et des explosions de particules d’hydrogène supplémentaires.
Il existe peu de tokamaks à grande échelle fonctionnant dans le monde qui peuvent faciliter ce type de recherche, et le temps nécessaire pour mener des expériences sur eux est convoité. Le DIII-D National Fusion Facility est le seul en activité aux États-Unis.
DeepMind, une filiale d’intelligence artificielle d’Alphabet, la société mère de Google, a été la première à utiliser l’apprentissage par renforcement pour contrôler le champ magnétique contenant la réaction de fusion. Le laboratoire a réussi à maintenir le plasma stable et à le sculpter en différentes formes. DeepMind a mené son expérience sur le tokamak à configuration variable (TCV) à Lausanne, en Suisse, et a publié ses résultats en février dans La nature.
Char a été le premier à mener une expérience similaire d’apprentissage par renforcement au DIII-D. L’apprentissage par renforcement utilise les données des tentatives passées pour obtenir un résultat optimal. Au cours de l’expérience de Char, des algorithmes d’apprentissage par renforcement ont examiné des données historiques et en temps réel pour faire varier et contrôler la vitesse de rotation du plasma à la recherche d’une stabilité optimale.
Le beignet de plasma tourne lorsque des particules d’hydrogène supplémentaires y sont projetées. Faire varier la vitesse de ces particules de tir peut potentiellement stabiliser le plasma et le rendre plus facile à contenir. Char a utilisé deux algorithmes d’apprentissage pour son expérience. Dans l’un, il a utilisé les données du tokamak recueillies sur plusieurs années pour l’entraîner sur la façon dont le plasma réagit. Le deuxième algorithme observe l’état du plasma et décide ensuite à quelle vitesse et dans quelle direction tirer dans les particules supplémentaires pour affecter sa vitesse.
« L’objectif à court terme est de donner aux physiciens les outils nécessaires pour provoquer cette rotation différentielle afin qu’ils puissent faire les expériences pour rendre ce plasma plus stable », a déclaré Jeff Schneider, professeur-chercheur à l’Institut de robotique et titulaire du doctorat de Char. conseiller. « À plus long terme, ce travail montre une voie vers l’utilisation de l’apprentissage par renforcement pour contrôler d’autres parties de l’état du plasma et finalement atteindre les températures et les pressions suffisamment longtemps pour avoir une centrale électrique. Cela signifierait une énergie propre et illimitée pour tout le monde.
Char a présenté le projet à DIII-D, qui est une installation utilisateur du bureau des sciences du département américain de l’énergie gérée par General Atomics, l’année dernière et a obtenu un créneau de trois heures pour exécuter ses algorithmes le 28 juin. Assis dans la salle de contrôle de l’énorme installation DIII-D et entouré d’opérateurs, Char a chargé ses algorithmes.
Char a démontré que ses algorithmes pouvaient contrôler la vitesse de rotation du plasma. C’était la première fois que l’apprentissage par renforcement était utilisé pour contrôler la rotation. Certains problèmes se sont glissés pendant la session de contrôle et davantage de tests sont nécessaires. Char est retourné à DIII-D fin août pour continuer son travail.
« Ian a montré une formidable capacité à digérer les problèmes de contrôle spécifiques aux dispositifs de fusion et la physique des plasmas qui le sous-tendent », a déclaré Egemen Kolemen, professeur agrégé au département de génie mécanique et aérospatial de l’Université de Princeton et l’un des collaborateurs de Char au PPPL. « C’est une grande réussite d’appliquer la théorie qu’il a apprise à la CMU à un problème de fusion réel et de mener une expérience sur une installation nationale de fusion. Ce travail nécessite normalement des années de formation en physique des plasmas et en ingénierie. »