Le projet de recherche OpenGPT-X publie un grand modèle de langage

par Katrin Berkler, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Le grand modèle linguistique du projet de recherche OpenGPT-X est désormais disponible en téléchargement sur Hugging Face : « Teuken-7B » a été entièrement formé dans les 24 langues officielles de l'Union européenne et contient 7 milliards de paramètres.

Les chercheurs et les entreprises peuvent exploiter ce modèle open source commercialement utilisable pour leurs propres applications d’intelligence artificielle. Le consortium OpenGPT-X, dirigé par les instituts Fraunhofer pour les systèmes d'analyse et d'information intelligents IAIS et pour les circuits intégrés IIS, a développé un modèle de langage d'IA open source et ayant une perspective distinctement européenne.

« Dans le projet OpenGPT-X, nous avons passé les deux dernières années à rechercher les technologies sous-jacentes aux grands modèles de base d'IA et aux modèles de formation avec des partenaires industriels et de recherche de premier plan. Nous sommes ravis de pouvoir réaliser notre modèle 'Teuken-7B' disponible gratuitement, offrant une alternative publique basée sur la recherche à utiliser dans le monde universitaire et l'industrie », déclare le professeur Stefan Wrobel, directeur du Fraunhofer IAIS.

« Notre modèle a démontré ses capacités dans un large éventail de langues, et nous espérons que le plus grand nombre possible de personnes adapteront et développeront le modèle pour leurs propres travaux et applications. De cette manière, nous souhaitons contribuer, tant au sein de la communauté scientifique et en collaboration avec des entreprises de différents secteurs, à la demande croissante de solutions d'IA générative transparentes et personnalisables.

Teuken-7B est actuellement l'un des rares grands modèles linguistiques développés de manière multilingue à partir de zéro. Il contient environ 50 % de données de pré-formation non anglaises et a été formé dans les 24 langues officielles européennes. Il s’est avéré stable et fiable dans ses performances dans plusieurs langues.

Cela apporte une valeur ajoutée, en particulier pour les entreprises et organisations internationales ayant des besoins, des produits et des services de communication multilingues. Le modèle open source permet aux entreprises et aux organisations d'exécuter leurs propres modèles personnalisés dans des applications réelles. Les données sensibles de l’entreprise peuvent rester au sein de l’entreprise.

En plus de la formation de modèles, l'équipe OpenGPT-X a également abordé un certain nombre de questions de recherche, telles que la manière de former et d'exploiter des modèles linguistiques d'IA multilingues de manière plus efficace en termes d'énergie et de coût. À cette fin, le projet a développé un « tokenizer » multilingue.

La tâche d'un tokenizer est de décomposer les mots en composants de mots individuels : moins il y a de jetons, plus un modèle de langage peut générer la réponse de manière (énergétique) efficace et rapide. Le tokenizer développé entraîne une réduction des coûts de formation par rapport à d'autres tokenizers multilingues comme Llama3 ou Mistral. Ceci est particulièrement utile pour les langues européennes avec des structures de mots plus longues comme l'allemand, le finnois ou le hongrois.

Teuken-7B est accessible via l'infrastructure Gaia-X. Les acteurs de l'écosystème Gaia-X peuvent ainsi développer des applications linguistiques innovantes et les transférer dans des scénarios d'application concrets dans leurs domaines respectifs. Contrairement aux solutions cloud existantes, Gaia-X est un écosystème fédéré qui permet aux fournisseurs de services et aux propriétaires de données de se connecter. Les données restent en toute sécurité chez leurs propriétaires et ne sont partagées que dans des conditions définies.

« Je suis ravi d'assister à la publication aujourd'hui de Teuken-7B, un grand modèle de langage basé sur Gaia-X, et je voudrais féliciter le projet OpenGPT-X pour avoir franchi cette étape importante.

« Une particularité de Teuken-7B est qu'il permet une utilisation sécurisée des données sensibles de l'entreprise, car les normes Gaia-X garantissent le stockage et le traitement des données conformément aux réglementations européennes les plus strictes en matière de protection et de sécurité des données.

« Ce nouveau modèle et des innovations comme celle-ci renforcent la souveraineté numérique, la compétitivité et la résilience de l'Allemagne et de l'Europe », déclare Franziska Brantner, secrétaire d'État parlementaire du BMWK.

Le professeur Bernhard Grill, directeur du Fraunhofer IIS, souligne le potentiel du modèle pour les applications critiques en matière de sécurité. « Avec ce modèle de langage développé indépendamment, les partenaires du projet démontrent leur capacité à générer leurs propres grands modèles.

« L'accès à un vaste modèle de langage permet des applications qui offrent un contrôle bien plus important sur cette technologie sans avoir besoin de composants tiers opaques, par exemple dans des domaines critiques pour la sécurité tels que l'automobile, la robotique, la médecine et la finance. à une application spécifique et en utilisant des architectures spécifiques à l'application, les entreprises peuvent créer des solutions d'IA personnalisées qui ne nécessitent pas de composants de « boîte noire ».

L’IA générative par un consortium solide – avec une perspective européenne

Des résultats de recherche importants du projet OpenGPT-X ont été intégrés au développement du modèle, tels que des outils et des technologies permettant de traiter de grandes quantités de données, d'exploiter la puissante infrastructure HPC européenne et d'effectuer une formation efficace des modèles.

Teuken-7B a été formé sur le supercalculateur JUWELS du Forschungszentrum Jülich. Outre les deux instituts Fraunhofer et le Forschungszentrum Jülich, les partenaires du consortium comprennent la TU Dresden, le Centre allemand de recherche sur l'intelligence artificielle (DFKI), IONOS, Aleph Alpha, ControlExpert, Westdeutscher Rundfunk (WDR) et l'Association allemande de l'IA (KI Bundesverband). .

La technologie développée dans OpenGPT-X fournira également aux partenaires une base pour former leurs propres modèles à l'avenir.

« OpenGPT-X est un exemple de la manière dont les ressources d'un projet financé par des fonds publics et les efforts de collaboration d'un vaste consortium peuvent fournir une technologie fondamentale précieuse, depuis l'infrastructure sous-jacente jusqu'aux applications productives en passant par la formation sur modèles.

« Dans l'intérêt de la souveraineté technologique et des données, il est important de s'appuyer sur cette base : nous espérons qu'OpenGPT-X posera les bases de nombreuses activités ultérieures », souligne Daniel Abbou, directeur général de l'association allemande d'IA et président de le Forum européen de l’IA.

Le projet de recherche, lancé début 2022, est désormais en voie d’achèvement. Il se déroulera jusqu'au 31 mars 2025 afin que de nouvelles optimisations et évaluations des modèles puissent avoir lieu.

Le chemin vers l’utilisation de Teuken-7B

Les développeurs intéressés du monde universitaire ou de l'industrie peuvent télécharger gratuitement Teuken-7B depuis Hugging Face et travailler avec lui dans leur propre environnement de développement. Le modèle a déjà été optimisé pour le chat grâce au « réglage des instructions ». Le réglage des instructions est utilisé pour adapter de grands modèles de langage afin que le modèle comprenne correctement les instructions des utilisateurs, ce qui est important lors de l'utilisation pratique des modèles, par exemple dans une application de chat.

Teuken-7B est disponible gratuitement en deux versions : une à des fins de recherche uniquement et une version sous licence « Apache 2.0 » qui peut être utilisée par les entreprises à des fins de recherche et commerciales et intégrée dans leurs propres applications d'IA. Les performances des deux modèles sont à peu près comparables, mais certains des ensembles de données utilisés pour le réglage des instructions excluent toute utilisation commerciale et n'ont donc pas été utilisés dans la version Apache 2.0.

Fourni par le Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS