Les scientifiques articulent de nouvelles normes de données pour les modèles d'IA

Visualisation scientifique des pics de diffraction de Bragg dans un patch de 15×15 pixels d’un échantillon d’or bi-cristallin non déformé. La hauteur indique le nombre de photons. Ces données ont été acquises à l’Advanced Photon Source et traitées au supercalculateur ThetaGPU. Crédit : Laboratoire national d’Argonne/Eliu Huerta.

Les boulangers en herbe sont fréquemment appelés à adapter des recettes primées en fonction de différentes configurations de cuisine. Quelqu’un pourrait utiliser un batteur à œufs au lieu d’un batteur sur socle pour faire des biscuits aux pépites de chocolat primés, par exemple.

Être capable de reproduire une recette dans différentes situations et avec des configurations variées est essentiel à la fois pour les chefs talentueux et les informaticiens, ces derniers étant confrontés à un problème similaire d’adaptation et de reproduction de leurs propres « recettes » lorsqu’ils tentent de valider et de travailler avec de nouvelles Modèles d’IA. Ces modèles ont des applications dans des domaines scientifiques allant de l’analyse climatique à la recherche sur le cerveau.

« Lorsque nous parlons de données, nous avons une compréhension pratique des actifs numériques avec lesquels nous traitons », a déclaré Eliu Huerta, scientifique et responsable de l’IA translationnelle au Laboratoire national d’Argonne du Département américain de l’énergie (DOE). « Avec un modèle d’IA, c’est un peu moins clair ; parlons-nous de données structurées de manière intelligente, ou est-ce de l’informatique, ou des logiciels, ou un mélange ? »

Dans une nouvelle étude, Huerta et ses collègues ont défini un nouvel ensemble de normes pour la gestion des modèles d’IA. Adaptées de recherches récentes sur la gestion automatisée des données, ces normes sont appelées FAIR, ce qui signifie trouvable, accessible, interopérable et réutilisable.

« En rendant les modèles d’IA FAIR, nous n’avons plus besoin de construire chaque système à partir de zéro à chaque fois », a déclaré Ben Blaiszik, scientifique en informatique d’Argonne. « Il devient plus facile de réutiliser des concepts de différents groupes, ce qui contribue à créer une pollinisation croisée entre les équipes. »

Selon Huerta, le fait que de nombreux modèles d’IA ne soient actuellement pas FAIR pose un défi à la découverte scientifique. « Pour de nombreuses études qui ont été réalisées à ce jour, il est difficile d’accéder et de reproduire les modèles d’IA référencés dans la littérature », a-t-il déclaré. « En créant et en partageant des modèles FAIR AI, nous pouvons réduire la quantité de duplication des efforts et partager les meilleures pratiques sur la façon d’utiliser ces modèles pour permettre une grande science. »

Pour répondre aux besoins d’une communauté diversifiée d’utilisateurs, Huerta et ses collègues ont combiné une suite unique de plates-formes de gestion de données et de calcul haute performance pour établir un protocole FAIR et quantifier le « FAIR-ness » des modèles d’IA. Les chercheurs ont associé les données FAIR publiées dans un référentiel en ligne appelé Materials Data Facility, avec des modèles FAIR AI publiés dans un autre référentiel en ligne appelé Data and Learning Hub for Science, ainsi qu’avec des ressources d’IA et de supercalcul à l’Argonne Leadership Computing Facility (ALCF ).

De cette façon, les chercheurs ont pu créer un cadre de calcul qui pourrait aider à relier divers matériels et logiciels, créant des modèles d’IA qui pourraient être exécutés de la même manière sur toutes les plateformes et qui donneraient des résultats reproductibles. L’ALCF est une installation utilisateur du DOE Office of Science.

Deux clés pour créer ce cadre sont des plates-formes appelées funcX et Globus, qui permettent aux chercheurs d’accéder à des ressources de calcul haute performance directement à partir de leurs ordinateurs portables. « FuncX et Globus peuvent aider à transcender les différences d’architectures matérielles », a déclaré le co-auteur Ian Foster, directeur de la division Data Science and Learning d’Argonne. « Si quelqu’un utilise une architecture informatique et que quelqu’un d’autre en utilise une autre, nous avons maintenant un moyen de parler un langage d’IA commun. C’est un élément important pour rendre l’IA plus interopérable. »

Dans l’étude, les chercheurs ont utilisé un exemple d’ensemble de données d’un modèle d’IA qui utilisait les données de diffraction de la source avancée de photons d’Argonne, également une installation utilisateur du DOE Office of Science. Pour effectuer les calculs, l’équipe a utilisé le système SambaNova d’ALCF AI Testbed et les GPU NVIDIA (unités de traitement graphique) du supercalculateur Theta.

« Nous sommes ravis de voir les avantages de productivité FAIR du partage de modèles et de données pour fournir à davantage de chercheurs un accès à des ressources informatiques hautes performances », a déclaré Marc Hamilton, vice-président de NVIDIA pour l’architecture et l’ingénierie des solutions. « Ensemble, nous soutenons l’univers en expansion du calcul haute performance qui combine des données expérimentales et le fonctionnement d’instruments à la pointe de l’IA pour accélérer le rythme des découvertes scientifiques. »

« SambaNova est ravie de s’associer aux chercheurs du Laboratoire national d’Argonne pour poursuivre l’innovation à l’interface de l’IA et des architectures matérielles émergentes », a ajouté Jennifer Glore, vice-présidente de l’ingénierie client chez SambaNova Systems. « L’IA jouera un rôle important dans l’avenir du calcul scientifique, et le développement des principes FAIR pour les modèles d’IA ainsi que de nouveaux outils permettront aux chercheurs de permettre une découverte autonome à grande échelle. Nous nous réjouissons de la poursuite de la collaboration et du développement à l’ALCF. Banc d’essai d’IA. »

Un article basé sur l’étude, « Principes FAIR pour les modèles d’IA, avec une application pratique pour la microscopie à diffraction accélérée à haute énergie », est paru dans Données scientifiques le 10 novembre 2022.

Fourni par Laboratoire National d’Argonne