Hugging Face et Nvidia présentent StarCoder2

Hvisage a présenté la dernière version de son modèle de génération de code, Codeur étoileavec l'aide de Nvidia pour le mettre en lumière. Le premier StarCoder, développé en collaboration avec ServiceMaintenant, a été lancé en mai dernier. Cette nouvelle version, StarCoder2peut générer du code dans plus de 600 langages de programmation.

Index des sujets :

Basculer

StarCoder2, disponible en trois tailles

StarCoder2 est disponible en trois tailles mais est conçu pour être petit – la version la plus grande contient 15 milliards de paramètres – pour permettre aux développeurs de l'exécuter plus efficacement sur leurs PC. Les nouvelles versions de StarCoder sont également plus puissantes : le plus petit modèle correspond aux performances du modèle original à 15 milliards de paramètres. StarCoder2-15B est le meilleur de sa catégorie et se compare aux modèles deux fois plus grands. Lisez le document technique.

Nvidia entre en jeu

Une nouveauté dans le projet StarCoder a été l'entrée de Nvidia. L'infrastructure du géant de la fabrication de puces IA a été utilisée pour entraîner la version à 15 milliards de paramètres. ServiceNow a formé le modèle 3B tandis que Hugging Face a formé la version 7B.

Nvidia a également utilisé son framework NéMo dans le développement du plus grand modèle StarCoder2. NeMo permet aux utilisateurs de créer des modèles et des services d'IA génératifs personnalisés. Jonathan Cohen, vice-président de la recherche appliquée chez Nvidia, a déclaré que l'implication de l'entreprise dans le projet StarCoder « introduit des modèles sécurisés et développés de manière responsable et soutient un accès plus large à une IA générative responsable qui, selon nous, profitera à la communauté mondiale ».

Nouvel ensemble de données

Les modèles de 3 et 7 milliards de paramètres ont été formés sur 3 000 milliards de jetons, tandis que le modèle de 15 milliards a été formé sur plus de 4 000 milliards de jetons. StarCoder2 a été construit à l'aide de The Stack v2, un nouvel ensemble de données important pour alimenter les modèles de génération de code. Le Stack v2 est plus grand que le Stack v1, à 67,5 téraoctets contre seulement 6,4 To. Le Stack v2 provient de l'archive Software Heritage, une archive publique du code source des logiciels. Le nouvel ensemble de données présente des procédures améliorées pour la détection de la langue et des licences et de meilleures heuristiques de filtrage.

Les données présentent également de meilleures heuristiques de filtrage, qui, selon Hugging Face, permettent aux modèles d'être formés avec le contexte du référentiel.

Pour accéder à l'ensemble de données, visitez Hugging Face. Pour le télécharger en masse, les utilisateurs doivent obtenir l’autorisation de Software Heritage et d’Inria. Étant donné que The Stack v2 est composé de divers codes sources, plusieurs licences doivent être prises en compte. Il n'est donc pas clair si l'ensemble des données dans son ensemble peut alimenter des applications commerciales. Hugging Face a compilé une liste de licences pertinentes pour garantir la conformité.