Microsoft affirme que les petits modèles de langage localisés peuvent également être puissants

Microsoft affirme que les petits modèles de langage localisés peuvent également être puissants

Microsoft a annoncé le développement d'une petite famille de modèles de langage d'IA gérée localement appelée Phi-3 mini. Dans leur rapport technique publié sur le arXiv serveur de préimpression, l'équipe derrière le nouveau SLM le décrit comme plus performant que d'autres de sa taille et plus rentable que les modèles plus grands. Ils affirment également qu’il surpasse de nombreux modèles de sa catégorie et même certains plus grands.

Comme indiqué lors de la sortie des nouveaux modèles, les SLM sont développés pour permettre l'exécution d'applications localement, ce qui signifie qu'elles peuvent s'exécuter sur des appareils qui ne sont pas connectés à Internet. Toujours dans la nouvelle version, Microsoft décrit les mini-applications Phi-3 comme des modèles de langage de 3,8 milliards, un chiffre qui représente le nombre de paramètres que les applications peuvent utiliser.

Plus il y a de paramètres, plus le modèle est puissant. GPT-4, par exemple, aurait plus d’un billion de paramètres, ce qui nécessite une puissance de calcul considérable et explique pourquoi il ne peut pas fonctionner localement.

Microsoft note également que le nouveau SLM a été formé à l'aide de 3 300 milliards de jetons, ce qui signifie que malgré sa petite taille, il peut toujours fournir un degré raisonnable d'intelligence artificielle. Phi-3, soulignent-ils également, est une progression de deux modèles précédents, Phi-1 et 2, qui ont été rendus publics l'année dernière.

Dans son annonce, Microsoft affirme que les modèles Phi-3 rivalisent avec les performances du GPT-3.5 et de certains autres LLM. Ils disent que les utilisateurs les trouveront « incroyablement bons » par rapport à d’autres petits modèles. Ils fonctionneraient sur un ordinateur doté de seulement 8 Go de RAM.

L'équipe note également que malgré leur taille, ils ont pu atteindre de très bonnes performances en utilisant des données de qualité particulièrement élevée pour leur formation, notamment des données Web filtrées et des informations provenant de manuels scolaires. Ils ont également ajouté de nouvelles fonctionnalités pour offrir une expérience utilisateur interactive plus robuste, plus sûre et plus agréable.

Microsoft a mis les nouveaux modèles à la disposition gratuite de tous ceux qui choisissent de les essayer : ils peuvent tous être téléchargés à partir du service cloud de l'entreprise sur Azure et via les sites des entreprises partenaires. Ils peuvent être exécutés aussi bien sur MAC que sur PC.