Compagnon virtuel interactif pour accélérer les découvertes dans les installations d'utilisateurs scientifiques
Une équipe de scientifiques du laboratoire national de Brookhaven du département américain de l'énergie (DOE) a imaginé, développé et testé un nouveau assistant d'intelligence artificielle (IA) de nouveauté conçu pour décomposer les barrières quotidiennes pour les scientifiques occupés.
Connu sous le nom de compagnon scientifique virtuel, ou vision, l'outil d'IA génératif – développé par des chercheurs du Lab's Center for Functional Nanomaterials (CFN) avec le soutien d'experts du National Synchrotron Light Source II (NSLS-II) – offrez une opportunité de combler les lacs de connaissances à des instruments complexes, à effectuer des expériences plus efficaces, des sauvegardes de temps et un accéléré de la découverte.
L'idée est qu'un utilisateur doit simplement dire à la vision en langage clair ce qu'il aimerait faire dans un instrument et le compagnon d'IA, adapté à cet instrument, prendra la tâche – qu'il s'agisse d'une expérience, de lancement d'analyse des données ou de visualiser les résultats. L'équipe de Brookhaven a récemment partagé des détails sur la vision dans un article publié dans Apprentissage automatique: science et technologie.
« Je suis vraiment enthousiasmé par la façon dont l'IA peut avoir un impact sur la science et c'est quelque chose que nous, en tant que communauté scientifique, devrions certainement explorer », a déclaré Esther Tsai, scientifique du groupe nanoscience accéléré de l'AI à CFN. « Ce que nous ne pouvons pas nier, c'est que les brillants scientifiques consacrent beaucoup de temps à un travail de routine. La vision agit comme un assistant à qui les scientifiques et les utilisateurs peuvent parler pour des réponses aux questions de base sur la capacité et le fonctionnement de l'instrument. »
Vision met en évidence le partenariat étroit entre CFN et NSLS-II, deux installations d'utilisateurs du bureau des sciences du DOE à Brookhaven Lab. Ensemble, ils collaborent avec les utilisateurs des installations sur la configuration, la planification scientifique et l'analyse des données d'expériences à trois lignes de faisceau NSLS-II, des outils de mesure hautement spécialisés qui permettent aux chercheurs d'explorer la structure des matériaux à l'aide de faisceaux de rayons X.
Tsai, inspiré pour soulager les goulots d'étranglement qui accompagnent l'utilisation de lignes de faisceau de NSLS-II, ont reçu un prix de début de carrière en 2023 pour développer ce nouveau concept. TSAI mène désormais l'équipe CFN derrière Vision, qui a collaboré avec les scientifiques de la ligne de faisceau NSLS-II pour lancer et tester le système à la ligne de faisceau de diffusion des matériaux complexes (CMS) à NSLS-II, démontrant la première expérience de découverte par les rayons X-Ray vers le monde de la découverte de l'ajustement.
« Chez Brookhaven Lab, nous ne dirigeons pas seulement dans la recherche de ce concept de compagnon virtuel scientifique frontière, nous sommes également pratiques, en déploiement de cette technique d'IA sur le plancher expérimental de NSLS-II et en explorant comment il peut être utile aux utilisateurs », a déclaré Tsai.
Parler à l'IA pour les flux de travail flexibles
Vision tire parti des capacités croissantes des modèles de grande langue (LLMS), la technologie au cœur des assistants d'IA populaires tels que Chatgpt.
Un LLM est un programme vaste qui crée du texte modélisé sur le langage humain naturel. Vision exploite ce concept, non seulement pour générer du texte pour répondre aux questions mais aussi pour générer des décisions sur ce qu'il faut faire et le code informatique pour conduire un instrument. En interne, la vision est organisée en plusieurs «blocs cognitifs» ou rouages, chacun comprenant un LLM qui gère une tâche spécifique. Plusieurs COG peuvent être mis en place pour former un assistant capable, les COG effectuant des travaux de manière transparente pour le scientifique.
« Un utilisateur peut simplement aller sur la ligne de faisceau et dire: » Je veux sélectionner certains détecteurs « ou » Je veux prendre une mesure chaque minute pendant cinq secondes « ou » Je veux augmenter la température « et la vision traduirea cette commande en code », a déclaré Tsai.
Ces exemples d'entrées de langage naturel, que ce soit la parole, le texte ou les deux, sont d'abord alimentés au COG « Classifier » de Vision, qui décide du type de tâche que l'utilisateur demande. Le classificateur se rend vers le COG droit pour la tâche, tel qu'un COG « Opérateur » pour le contrôle des instruments ou le COG « Analyste » pour l'analyse des données.
Ensuite, en quelques secondes, le système traduit l'entrée en code qui est transmis à la station de travail de Beamline, que l'utilisateur peut examiner avant l'exécution. À l'arrière, tout est exécuté sur « Hal », un serveur CFN optimisé pour exécuter des charges de travail AI sur les unités de traitement graphiques.
L'utilisation par la vision du langage naturel – c'est-à-dire comment les gens parlent normalement – est son principal avantage. Étant donné que le système est adapté à l'instrument que le chercheur utilise, ils sont libérés de passer du temps à mettre en place des paramètres logiciels et peuvent plutôt se concentrer sur la science qu'ils poursuivent.
« La vision agit comme un pont entre les utilisateurs et l'instrumentation, où les utilisateurs peuvent simplement parler au système et le système s'occupe des expériences de conduite », a déclaré Noah van der Vleuten, un co-auteur qui a aidé à développer la capacité de génération de code de Vision et le cadre de test. « Nous pouvons imaginer que cela rende des expériences plus efficaces et donner aux gens beaucoup plus de temps pour se concentrer sur la science, plutôt que de devenir des experts dans le logiciel de chaque instrument. »
La capacité de parler à la vision, non seulement de taper une invite, pourrait rendre les flux de travail encore plus rapidement, a noté les membres de l'équipe.
Dans le monde rapide et en constante évolution de l'IA, les créateurs de Vision ont également décidé de construire un outil scientifique qui peut suivre l'amélioration de la technologie, intégrer de nouvelles capacités d'instruments et augmenter au besoin pour naviguer de manière transparente.
« Un principe directeur clé est que nous voulions être modulaires et adaptables, nous pouvons donc rapidement échanger ou remplacer par de nouveaux modèles d'IA à mesure qu'ils deviennent plus puissants », a déclaré Shray Mathur, premier auteur du journal qui a travaillé sur les capacités de compréhension audio de Vision et l'architecture globale. « À mesure que les modèles sous-jacents deviennent meilleurs, la vision devient meilleure. C'est très excitant parce que nous travaillons sur certaines des technologies la plus récentes et la déployons immédiatement. Nous construisons des systèmes qui peuvent vraiment profiter aux utilisateurs dans leur recherche. »
Ce travail s'appuie sur une histoire de l'IA et de l'apprentissage automatique (ML) développé par CFN et NSLS-II pour aider les scientifiques des installations, y compris pour des expériences autonomes, l'analyse des données et la robotique. Les versions futures de la vision pourraient agir comme une interface naturelle à ces outils AI / ML avancés.

Une vision du partenariat humain-ai
Maintenant que l'architecture de vision est développée et à un stade où elle a une démonstration active à la ligne de faisceau CMS, l'équipe vise à la tester davantage avec des scientifiques et des utilisateurs de la ligne de faisceau et finalement apporter le compagnon d'IA virtuel à des lignes de faisceau supplémentaires.
De cette façon, l'équipe peut avoir de vraies discussions avec les utilisateurs sur ce qui leur est vraiment utile, a déclaré Tsai.
« La collaboration CFN / NSLS-II est vraiment unique dans le sens où nous travaillons ensemble sur ce développement de l'IA frontalière avec des modèles de langue à l'étage expérimental, aux utilisateurs de première ligne », a déclaré Tsai. « Nous obtenons des commentaires pour mieux comprendre ce dont les utilisateurs ont besoin et comment nous pouvons le mieux les soutenir. »
Tsai a offert un grand merci au scientifique de la ligne de faisceau CMS Ruipeng Li pour son soutien et son ouverture aux idées de vision.
La ligne de faisceau CMS a déjà été un terrain d'essai pour les capacités AI / ML, y compris des expériences autonomes. Lorsque l'idée d'apporter une vision à la ligne de faisceau est apparue, Li a vu cela comme une opportunité passionnante et amusante.
« Nous sommes des collaborateurs et des partenaires proches depuis que la ligne de faisceau a été construite il y a plus de huit ans », a noté Li. « Ces concepts nous permettent de s'appuyer sur le potentiel de notre ligne de faisceau et de continuer à repousser les limites des applications d'IA / ML pour la science. Nous voulons voir comment nous pouvons apprendre de ce processus parce que nous montons maintenant sur la vague d'IA maintenant. »
Dans la vue d'ensemble de la recherche scientifique AI-Augmentation, le développement de la vision est une étape vers la réalisation d'autres concepts d'IA à travers le complexe DOE, y compris un exocortex scientifique.
Kevin Yager, le chef du groupe nanoscience accéléré de l'AI chez CFN et co-auteur de Vision, envisage l'exocortex comme une extension du cerveau humain avec lequel les chercheurs peuvent interagir par la conversation pour générer l'inspiration et l'imagination pour la découverte scientifique.
« Quand j'imagine l'avenir de la science, je vois un écosystème d'agents d'IA travaillant en coordination pour m'aider à faire avancer mes recherches », a déclaré Yager. « Le système de vision est un exemple précoce de cet avenir – AI assistant qui vous aide à utiliser un instrument. Nous voulons construire plus d'assistants d'IA et les connecter ensemble à un réseau vraiment puissant. »