Les grands modèles de langage utilisent un mécanisme étonnamment simple pour récupérer certaines connaissances stockées

Le nouveau modèle de langue open source offre un support multilingue et une transparence publique

Cet été, EPFL et ETH Zurich publieront un modèle grand langage (LLM) développé sur les infrastructures publiques. Formé sur le supercalculateur ALPS au Swiss National Supercomputing Center (CSCS), le nouveau LLM marque une étape importante dans l'IA open source et l'excellence multilingue.

Plus tôt cette semaine à Genève, environ 50 initiatives et organisations mondiales de premier plan dédiées aux LLMS open-source et à l'IA digne de confiance convoquées au Sommet international des constructeurs LLM Open-source. Hébergé par les centres d'IA de l'EPFL et ETH Zurich, l'événement a marqué une étape importante dans la construction d'un écosystème international dynamique et collaboratif pour les modèles de fondation ouverts. Les LLM ouvertes sont de plus en plus considérées comme des alternatives crédibles aux systèmes commerciaux, dont la plupart sont développés à huis clos aux États-Unis ou en Chine.

Les participants au Summit ont présenté en avant-première la prochaine sortie d'un LLM entièrement ouvert et développé publiquement – créé par des chercheurs de l'EPFL, ETH Zurich et d'autres universités suisses en étroite collaboration avec des ingénieurs chez CSCS. Actuellement dans les tests finaux, le modèle sera téléchargeable sous une licence ouverte. Le modèle se concentre sur la transparence, les performances multilingues et la large accessibilité.

Le modèle sera entièrement ouvert: le code source et les poids seront accessibles au public, et les données de formation seront transparentes et reproductibles, soutenant l'adoption à travers la science, le gouvernement, l'éducation et le secteur privé. Cette approche est conçue pour favoriser l'innovation et la responsabilité.

« Les modèles entièrement ouverts permettent des applications à haute confiance et sont nécessaires pour faire progresser les recherches sur les risques et les opportunités de l'IA. Les processus transparents permettent également la conformité réglementaire », explique Imanol Schlag, chercheur et professeurs et professeurs et professeurs de l'ETH AI, qui dirige les efforts aux côtés de l'EPFL AI Center les membres du corps professoral et des professeurs Antoine Bosselut et Martin Jaggi.

Multilingue par conception

Une caractéristique déterminante du LLM est sa maîtrise de plus de 1 000 langues. « Nous avons mis l'accent sur la fabrication des modèles massivement multilingues dès le début », explique Bosselut.

La formation du modèle de base a été effectuée sur un grand ensemble de données de texte dans plus de 1 500 langues – environ 60% d'anglais et 40% de langues non anglophones – ainsi que les données de code et de mathématiques. Compte tenu de la représentation du contenu de toutes les langues et cultures, le modèle résultant maintient l'applicabilité globale la plus élevée.

Le modèle sera publié en deux tailles – 8 milliards et 70 milliards de paramètres, ce qui représente un large éventail de besoins des utilisateurs. La version 70b se classera parmi les modèles entièrement ouverts le plus puissants dans le monde. Le nombre de paramètres reflète la capacité d'un modèle à apprendre et à générer des réponses complexes.

Une grande fiabilité est obtenue grâce à une formation sur plus de 15 billions de jetons de formation de haute qualité (unités représentant un mot ou une partie du mot), permettant une compréhension solide du langage et des cas d'utilisation polyvalents.

Le LLM est en cours d'élaboration avec en considération dûment aux lois sur la protection des données suisses, aux lois sur le droit d'auteur suisse et aux obligations de transparence en vertu de la loi sur l'UE AI. Dans une étude récente publiée sur le arxiv Preprint Server, les chefs de projet ont démontré que pour la plupart des tâches quotidiennes et l'acquisition générale des connaissances, le respect des opt-outs de rafraîchissement Web pendant l'acquisition de données ne produit pratiquement aucune dégradation des performances.

Supercalculateur en tant que catalyseur de Sovereign IA

Le modèle est formé sur le supercalculateur ALPS au CSCS à Lugano, l'une des plates-formes d'IA les plus avancées au monde, équipées de plus de 10 000 superchips Nvidia Grace Hopper. L'échelle et l'architecture du système ont permis de former efficacement le modèle à l'aide d'électricité 100% neutre en carbone.

La réalisation réussie des Alpes a été considérablement facilitée par une collaboration de longue date couvrant plus de 15 ans avec Nvidia et HPE / Cray. Ce partenariat a été essentiel pour façonner les capacités des Alpes, garantissant qu'elle répond aux exigences exigeantes des charges de travail d'IA à grande échelle, y compris la pré-formation des LLM complexes.

« La formation de ce modèle n'est possible qu'en raison de notre investissement stratégique dans les Alpes, un supercalculateur spécialement conçu pour l'IA », explique Thomas Schulthess, directeur des CSC et professeur chez ETH Zurich. « Notre collaboration durable avec NVIDIA et HPE illustre comment les efforts conjoints entre les institutions de recherche publique et les chefs de file de l'industrie peuvent conduire une infrastructure souveraine, favoriser l'innovation ouverte – pas juste pour la Suisse, mais pour la science et la société dans le monde. »

Accès public et réutilisation mondiale

À la fin de l'été, le LLM sera publié sous la licence Apache 2.0. La documentation accompagnée détaillera l'architecture du modèle, les méthodes de formation et les directives d'utilisation pour permettre une réutilisation transparente et un développement ultérieur.

« En tant que scientifiques des institutions publiques, nous visons à faire progresser les modèles ouverts et à permettre aux organisations de s'appuyer sur eux pour leurs propres applications », explique Bosselut.

« En adoptant la pleine ouverture – contrairement aux modèles commerciaux qui sont développés à huis clos – nous espérons que notre approche stimulera l'innovation en Suisse, à travers l'Europe et à travers des collaborations multinationales. En outre, c'est un facteur clé pour attirer et nourrir les meilleurs talents », explique le professeur de l'EPFL Jaggi.