La collaboration NASA-IBM développe de grands modèles de langage INDUS pour la recherche scientifique avancée

Les collaborations avec des partenaires privés non fédéraux dans le cadre des accords Space Act sont un élément clé du travail effectué par l'équipe interagences de mise en œuvre et de concepts avancés (IMPACT) de la NASA. Une collaboration avec International Business Machines (IBM) a produit INDUS, une suite complète de grands modèles de langage (LLM) adaptés aux domaines des sciences de la Terre, des sciences biologiques et physiques, de l'héliophysique, des sciences planétaires et de l'astrophysique et formés à l'aide de corpus scientifiques sélectionnés. à partir de diverses sources de données.

INDUS contient deux types de modèles ; encodeurs et transformateurs de phrases. Les encodeurs convertissent le texte en langage naturel en codage numérique pouvant être traité par le LLM. Les codeurs INDUS ont été formés sur un corpus de 60 milliards de jetons englobant des données d'astrophysique, de sciences planétaires, de sciences de la Terre, d'héliophysique, de biologie et de sciences physiques. Son tokenizer personnalisé développé par l'équipe collaborative IMPACT-IBM améliore les tokenizers génériques en reconnaissant des termes scientifiques tels que biomarqueurs et phosphorylés.

Plus de la moitié du vocabulaire de 50 000 mots contenu dans INDUS est propre aux domaines scientifiques spécifiques utilisés pour sa formation. Les modèles d'encodeur INDUS ont été utilisés pour affiner les modèles de transformateur de phrases sur environ 268 millions de paires de textes, y compris les titres/résumés et les questions/réponses.

En fournissant à INDUS un vocabulaire spécifique à un domaine, l'équipe IMPACT-IBM a obtenu des performances supérieures par rapport aux LLM ouverts et non spécifiques à un domaine sur un test de référence pour les tâches biomédicales, un test de réponse aux questions scientifiques et des tests de reconnaissance d'entités des sciences de la Terre. En concevant diverses tâches linguistiques et en génération augmentée de récupération, INDUS est capable de traiter les questions des chercheurs, de récupérer des documents pertinents et de générer des réponses aux questions. Pour les applications sensibles à la latence, l’équipe a développé des versions plus petites et plus rapides des modèles d’encodeur et de transformateur de phrases.

Les tests de validation démontrent qu'INDUS excelle dans la récupération des passages pertinents des corpus scientifiques en réponse à un ensemble de tests d'environ 400 questions organisé par la NASA. Bishwaranjan Bhattacharjee, chercheur chez IBM, a commenté l'approche globale : « Nous avons obtenu des performances supérieures en disposant non seulement d'un vocabulaire personnalisé, mais également d'un vaste corpus spécialisé pour la formation du modèle d'encodeur et d'une bonne stratégie de formation. Pour les versions plus petites et plus rapides, nous avons utilisé une architecture neuronale. recherche pour obtenir une architecture modèle et distillation des connaissances pour la former avec la supervision du modèle plus large.

INDUS a également été évalué à l’aide des données de la Division des sciences biologiques et physiques (BPS) de la NASA. Le Dr Sylvain Costes, chef de projet NASA BPS pour la science ouverte, a discuté des avantages de l'intégration d'INDUS : « L'intégration d'INDUS avec l'interface de programmation d'application (API) de l'Open Science Data Repository (OSDR) nous a permis de développer et de tester un chatbot qui offre plus capacités de recherche intuitives pour naviguer dans des ensembles de données individuels. Nous étudions actuellement des moyens d'améliorer le système de données de conservation interne d'OSDR en tirant parti d'INDUS pour améliorer la productivité de notre équipe de conservation et réduire l'effort manuel requis quotidiennement.

Au Centre de données et d'informations sur les sciences de la Terre Goddard de la NASA (GES-DISC), le modèle INDUS a été affiné à l'aide de données étiquetées provenant d'experts du domaine pour classer les publications citant spécifiquement les données GES-DISC dans des domaines de recherche appliquée.

Selon le Dr Armin Mehrabian, scientifique principal des données à la NASA, ce réglage « améliore considérablement l'identification et la récupération des publications faisant référence aux ensembles de données GES-DISC, ce qui vise à améliorer le parcours de l'utilisateur dans la recherche des ensembles de données requis ». De plus, les modèles d'encodeurs INDUS sont intégrés au graphe de connaissances GES-DISC, prenant en charge divers autres projets, notamment le système de recommandation d'ensembles de données et GES-DISC GraphRAG.

Kaylin Bugbee, chef d'équipe du Science Discovery Engine (SDE) de la NASA, a évoqué les avantages qu'offre INDUS aux applications existantes : « Les grands modèles linguistiques modifient rapidement l'expérience de recherche. Le Science Discovery Engine, une interface de recherche unifiée et perspicace pour toutes les données et informations scientifiques ouvertes de la NASA, a réalisé un prototype en intégrant INDUS dans son moteur de recherche. Les premiers résultats ont montré qu'INDUS améliorait la précision et la pertinence des résultats renvoyés. »

INDUS améliore la recherche scientifique en offrant aux chercheurs un meilleur accès à de vastes quantités de connaissances spécialisées. INDUS peut comprendre des concepts scientifiques complexes et révéler de nouvelles orientations de recherche basées sur les données existantes. Cela permet également aux chercheurs d’extraire des informations pertinentes à partir d’un large éventail de sources, améliorant ainsi l’efficacité. Conformément à l'engagement de la NASA et d'IBM en faveur d'une intelligence artificielle ouverte et transparente, les modèles INDUS sont librement disponibles sur Hugging Face.

Pour le bénéfice de la communauté scientifique, l'équipe a publié les modèles développés et publiera les ensembles de données de référence qui couvrent la reconnaissance d'entités nommées pour le changement climatique, l'assurance qualité extractive pour les sciences de la Terre et la récupération d'informations pour plusieurs domaines. Les modèles d'encodeur INDUS sont adaptables aux applications du domaine scientifique, et les modèles de récupération INDUS prennent en charge la récupération d'informations dans les applications RAG.

L'ouvrage est publié sur le arXiv serveur de préimpression.