Un modèle de langue multilingue entièrement ouvert, transparent et multilingue

En juillet, EPFL, ETH Zurich et CSCS ont annoncé leur initiative conjointe pour construire un modèle grand langage (LLM). Désormais, ce modèle est disponible et sert de construction pour les développeurs et les organisations pour de futures applications telles que les chatbots, les systèmes de traduction ou les outils éducatifs.

Le modèle est nommé Apertus – Latin pour « Open » – Highlighting sa caractéristique distinctive: l'ensemble du processus de développement, y compris son architecture, ses poids de modèle, ses données et recettes de formation, est ouvertement accessible et entièrement documentée.

Les chercheurs d'IA, les professionnels et les amateurs expérimentés peuvent soit accéder au modèle via le partenaire stratégique Swisscom, soit le télécharger en étreignant le visage – une plate-forme pour les modèles et les applications d'IA – et le déployer pour leurs propres projets.

Apertus est disponible gratuitement en deux tailles, ce qui représente 8 milliards et 70 milliards de paramètres, le modèle plus petit étant plus approprié pour l'utilisation individuelle. Les deux modèles sont publiés sous une licence open-source permissive, permettant une utilisation dans l'éducation et la recherche ainsi que de larges applications sociétales et commerciales.

Un LLM entièrement open-open

En tant que modèle entièrement ouvert, Apertus permet aux chercheurs, aux professionnels et aux amateurs de s'appuyer sur le modèle et de l'adapter à leurs besoins spécifiques, ainsi que d'inspecter toute partie du processus de formation. Cela distingue les apertus des modèles qui rendent uniquement les composants sélectionnés accessibles.

« Avec cette version, nous visons à fournir un plan pour comment un modèle d'IA digne de confiance, souverain et inclusif peut être développé », explique Martin Jaggi, professeur d'apprentissage automatique chez EPFL et membre du comité directeur de l'initiative Swiss IA. Le modèle sera régulièrement mis à jour par l'équipe de développement qui comprend des ingénieurs spécialisés et un grand nombre de chercheurs de CSCS, ETH Zurich et EPFL.

Un moteur de l'innovation

Avec son approche ouverte, EPFL, ETH Zurich et CSCS s'aventurent dans un nouveau territoire. « Apertus n'est pas un cas conventionnel de transfert de technologie de la recherche au produit. Au lieu de cela, nous le voyons comme un moteur de l'innovation et un moyen de renforcer l'expertise de l'IA à travers la recherche, la société et l'industrie », explique Thomas Schulthess, directeur des CSC et professeur chez Eth Zurich. Conformément à leur tradition, EPFL, ETH Zurich et les CSC fournissent à la fois une technologie fondamentale et une infrastructure pour favoriser l'innovation à travers l'économie.

Formé sur 15 billions de jetons sur plus de 1 000 langues – 40% des données sont non anglophones – Apertus comprend de nombreuses langues qui ont jusqu'à présent été sous-représentées dans les LLM, comme l'allemand suisse, le Romansh et bien d'autres.

« Apertus est conçu pour le bien public. Il fait partie des quelques LLM entièrement ouvertes à cette échelle et est le premier du genre à incarner le multilinguisme, la transparence et la conformité en tant que principes de conception fondamentale », explique Imanol Schlag, chef technique du projet LLM et chercheur scientifique chez Eth Zurich.

« Swisscom est fier d'être parmi les premiers à déployer ce modèle de grande langue pionnier sur notre plate-forme Souerie Swiss IA. En tant que partenaire stratégique de l'initiative Suisse AI, nous soutenons l'accès d'Epertus pendant les semaines Suiss {AI}. Dobos, directeur de recherche chez Swisscom.

Accessibilité

Bien que la configuration d'Apertus soit simple pour les professionnels et les utilisateurs compétents, des composants supplémentaires tels que les serveurs, l'infrastructure cloud ou des interfaces utilisateur spécifiques sont nécessaires pour une utilisation pratique. Les prochaines semaines Swiss {AI} seront la première occasion pour les développeurs d'expérimenter les actions avec Apertus, de tester ses capacités et de fournir des commentaires pour des améliorations aux versions futures.

Swisscom fournira une interface dédiée aux participants à Hackathon, ce qui facilite l'interaction avec le modèle. À ce jour, les clients commerciaux de Swisscom pourront accéder au modèle Apertus via la plate-forme Sovereign Swiss AI de Swisscom.

En outre, pour les personnes en dehors de la Suisse, le service public d'inférence de l'IA publique rendra Apertus accessible dans le cadre d'un mouvement mondial pour l'IA publique. « Actuellement, Apertus est le principal modèle d'IA public: un modèle construit par les institutions publiques, pour l'intérêt public. C'est notre meilleure preuve que l'IA peut être une forme d'infrastructures publiques comme les autoroutes, l'eau ou l'électricité », explique Joshua Tan, responsable principal de l'utilité publique d'inférence de l'IA.

Transparence et conformité

Apertus est conçu avec la transparence à son cœur, garantissant ainsi la reproductibilité complète du processus de formation. Parallèlement aux modèles, l'équipe de recherche a publié une gamme de ressources: documentation complète et code source du processus de formation et des ensembles de données utilisés, les poids du modèle, y compris les points de contrôle intermédiaires, tous publiés sous la licence open-source permissive, qui permet également une utilisation commerciale. Les termes et conditions sont disponibles via un visage étreint.

Apertus a été élaboré avec dûment compte tenu des lois sur la protection des données suisses, des lois sur le droit d'auteur suisses et des obligations de transparence en vertu de la loi sur l'UE AI. Une attention particulière a été accordée à l'intégrité des données et aux normes éthiques: le corpus de formation s'appuie uniquement sur les données accessibles au public. Il est filtré pour respecter les demandes d'opt-out lisibles par machine à partir de sites Web, même rétroactivement, et pour supprimer les données personnelles, et d'autres contenus indésirables avant le début de la formation.

Le début d'un voyage

« Apertus démontre que l'IA génératrice peut être à la fois puissante et ouverte », explique Antoine Boselut, professeur et chef du laboratoire de traitement du langage naturel à EPFL et co-dirigeant de l'initiative Swiss IA.

« La sortie d'Apertus n'est pas une étape finale, mais plutôt le début d'un voyage, un engagement à long terme à ouvrir, digne de confiance et des fondations souverains de l'IA, pour le bon monde dans le monde. Nous sommes ravis de voir les développeurs s'engager avec le modèle des futurs générations du modèle. »

Les versions futures visent à étendre la famille des modèles, à améliorer l'efficacité et à explorer les adaptations spécifiques au domaine dans des domaines comme le droit, le climat, la santé et l'éducation. Ils devraient également intégrer des capacités supplémentaires, tout en maintenant de fortes normes de transparence.