TinyLlama, le mini-modèle d'IA entraîné sur un billion de tokens

Compact, mais très puissant. Petit Lama, le modèle open source très attendu, est arrivé. Pesant moins de 640 mégaoctets, le modèle a été formé sur un billion de jetons et surpasse ses concurrents de taille similaire.

Le projet TinyLlama a débuté en septembre dernier, lorsqu’un groupe de développeurs a commencé à former un petit modèle sur des milliards de jetons. Après beaucoup de travail et quelques déboires, l’équipe TinyLlama a désormais publié le modèle. LELe modèle a une taille de 1 milliard de paramètres et a été formé sur environ un billion de jetons pendant environ trois cycles via les données de formation.

Index des sujets :

Basculer

TinyLlama surpasse les autres LLM « open source » « dimensions « comparable

Selon l’article décrivant le modèle, le TinyLlama fini surpasse les modèles de langage open source existants de taille comparable, notamment Pythia-1.4B, OPT-1.3B et MPT-1.3B.

Les cas d’utilisation potentiels de TinyLlama ils ont pu voir le modèle déployé sur les appareils périphériques, car il ne prend que 637 Mo. Le modèle pourrait également être utilisé pour faciliter le décodage spéculatif de modèles plus grands ; l’équipe qui l’a créé a fait référence à un tutoriels de l’ancien directeur principal de l’intelligence artificielle de Tesla Andreï Karpathyqui travaille maintenant chez OpenAI.

Le modèle lui-même a été conçu pour être une version compacte de Lama 2le modèle de langage open source de Moitiéqui possède même la même architecture et le même tokenizer, ce qui signifie qu’il peut être branché et utilisé dans des projets basés sur Llama.

Malgré sa petite taille, TinyLlama peut être utilisé pour des tâches en aval, et l’équipe qui l’a créé le qualifie de « plate-forme attrayante pour les chercheurs et les praticiens de la recherche en modélisation linguistique ».

Par exemple, Awni Hannounun chercheur en apprentissage automatique d’Apple, a construit TinyLlama avec LoRA localement, en utilisant seulement un Mac Mini de 8 Go, via MLXla suite d’outils de formation open source d’Apple.

« Grâce à son architecture compacte et à ses performances prometteuses, TinyLlama peut activer des applications d’utilisateur final sur des appareils mobiles et servir de plate-forme légère pour tester un large éventail d’idées de modèles de langage innovants », a déclaré l’équipe à l’origine du mini-modèle.

Et d’autres TinyLlamas sont en route : les développeurs prévoient de développer des « versions améliorées », incluant des performances et une polyvalence accrues dans diverses tâches.

Comment accéder à TinyLlama

Vous pouvez télécharger TinyLlama gratuitement via GitHub. Tous les modèles de points de contrôle sont également disponibles. TinyLlama peut être utilisé à des fins commerciales sous la licence Apache-2.0.

L’équipe qui a créé le modèle recommande d’utiliser la version chat de TinyLlama, car le taux d’apprentissage du modèle de base « n’a pas encore refroidi ».

Les petits modèles grandissent

Une vague de modèles d’IA plus petits a émergé récemment alors que les entreprises cherchent à réduire le coût de fonctionnement du matériel.

Microsoft, par exemple, a son propre projet Phiqui fonctionne sur des modèles plus petits, larges de quelques milliards de paramètres, mais capables de battre les plus gros. Phi-2lancé en décembre dernier, a surpassé des modèles jusqu’à 25 fois plus grands.

Le lancement de Gemini Nano, la version plus petite du nouveau modèle phare de Googlequi aura une taille d’environ 3,2 milliards de paramètres, est attendu plus tard cette année.

Selon Bradley Shimmin, analyste principal pour l’IA et l’analyse de données au sein du cabinet de recherche Omdia, ces petits modèles fonctionnent bien car ils sont formés sur des données synthétiques générées par des modèles plus grands.

« Les données synthétiques sont déjà à l’origine de nombreuses innovations que nous constatons provenant de l’espace de l’IA générative lui-même, où il existe de nombreux modèles plus petits qui impressionnent actuellement les gens avec leurs capacités qui correspondent à celles de modèles pionniers comme le GPT d’OpenAI. « .