Italia 9b iGenius

Voici « Italia 9b », l'IA générative formée entièrement en italien

Il s'appelle « Italie 9b » le modèle fondamental de langage large (LLM) de IGenius et a été formé sur des sources en langue italienne et publié en open source sous la licence MIT.

Qu'est-ce que « Italia 9b », le LLM iGenius

« Italia 9b » est un modèle linguistique créé conformément à la réglementation européenne sur l'intelligence artificielle. Il est conçu pour aider les entreprises à introduire l'IA générative dansn des secteurs très réglementés tels que les services financiers, l'industrie et l'administration publique. Le processus de formation de « Italia » se poursuivra même après son lancement initial. En effet, iGenius travaille sur de futures versions qui seront encore plus puissantes, précises et polyvalentes, ainsi qu'une version multilingue.

Entraînement

Le modèle « Italia 9b » a été développé en cinq mois par l'équipe iGenius, active dans le domaine des modèles linguistiques depuis 2016. Le modèle a été formé sur le supercalculateur Leonardo du Consortium Interuniversitaire Cineca, l'une des structures informatiques les plus puissantes au monde. . De plus, iGenius a collaboré avec Editoriale Nazionale, qui fait partie du groupe Monrif, pour utiliser leurs archives historiques d'articles de presse comme ressource supplémentaire pour améliorer le modèle. Cette collaboration se poursuivra avec la formation des futures versions de « Italia », pour élargir encore sa base de connaissances.

« Italia 9b » a été entièrement formé en italien sur plus de mille milliards de mots, en utilisant diverses sources : données publiques, données synthétiques et contenus sectoriels fournis par des partenaires commerciaux sélectionnés par iGenius.

Pour garantir l'intégrité éthique des contenus générés par le modèle, des filtres de sécurité spécifiques ont été mis en place pour la langue italienne. Ceux-ci sont conçus pour éliminer les contenus sensibles, explicites et potentiellement empêchant biaisainsi que de limiter autant que possible l’exposition du contenu protégé par le droit d’auteur.

Les caractéristiques de « Italia 9b » par iGenius

La première version de « Italia 9b » est un LLM fondamental basé sur l'architecture. Transformateurs avec 9 milliards de paramètres (d'où « 9b » en milliards), une fenêtre contextuelle de 4 096 tokens et un vocabulaire composé de 50 000 tokens. Contrairement à d'autres modèles linguistiques, « Italia9b » se distingue par son efficacité dans la gestion des mots italiens. Grâce à un Tokenizer propriétaire développé par l'équipe iGenius spécifiquement pour ce modèle, il peut traiter et générer des tokens en italien avec des performances équivalentes à une augmentation de 60% de sa fenêtre contextuelle.

Cela se traduit par une efficacité significative en termes de coûts et de ressources nécessaires à la gestion du modèle, un aspect fondamental pour une solution d'IA conçue pour l'environnement d'entreprise.

« Italie9b » peut être téléchargé sur le site iGenius et sera bientôt également disponible sur Hugging Face et sur les principales plateformes de développement de produits d'IA, telles que Model Catalogs ou AI Studios.

Bientôt une version avec 10 milliards de paramètres

« Le choix de développer Italia en tant que modèle open source reflète pleinement notre mission d'humaniser les données et de démocratiser les connaissances des entreprises. Nous pensons que l'Italie représente le premier pas vers un nouveau Renaissance numérique, où les solutions d'IA sont conçues en mettant les personnes au centre, et non la technologie. Notre objectif est désormais d’investir dans de nouveaux modèles représentatifs d’autres langues et cultures. Nous travaillons pour publier prochainement une version de l'Italie avec 10 milliards de paramètres et, par la suite, une version multilingue », a-t-il expliqué. Uljan Sharkafondateur et PDG d'iGenius.

« Une entreprise italienne, avec un projet innovant et très intéressant, a eu l'opportunité d'accéder à la puissance de calcul de Leonardo, l'un des supercalculateurs les plus avancés au monde : tout cela confirme le rôle de Cineca en tant que catalyseur de l'innovation numérique et de la compétitivité du pays. Notre infrastructure, publique et ouverte par définition, trouve dans cette aventure l'une de ses expressions les moins évidentes, mais certainement la plus cohérente avec la volonté de planifier l'avenir, d'innover et de générer de la valeur pour notre communauté. il a souligné Alessandra Poggianidirecteur général de Cineca.