Le petit modèle de langage de Microsoft surpasse les modèles plus grands lors des tests mathématiques standardisés
Une petite équipe de chercheurs en IA de Microsoft rapporte que le petit modèle de langage Orca-Math de la société surpasse les autres modèles plus grands lors des tests mathématiques standardisés. Le groupe a publié un article sur arXiv serveur de prépublication décrivant leurs tests d'Orca-Math sur le benchmark Grade School Math 8K (GSM8K) et leurs résultats par rapport aux LLM bien connus.
De nombreux LLM populaires tels que ChatGPT sont connus pour leurs impressionnantes compétences conversationnelles. Ce que l'on sait moins, c'est que la plupart d'entre eux peuvent également résoudre des problèmes de mots mathématiques. Les chercheurs en IA ont testé leurs capacités dans de telles tâches en les comparant au GSM8K, un ensemble de données de 8 500 problèmes de mots mathématiques d'école primaire qui nécessitent un raisonnement en plusieurs étapes pour être résolus, ainsi que leurs réponses correctes.
Dans cette nouvelle étude, l'équipe de recherche de Microsoft a testé Orca-Math, une application d'IA développée par une autre équipe de Microsoft spécialement conçue pour résoudre les problèmes de mots mathématiques, et a comparé les résultats avec des modèles d'IA plus vastes.
Microsoft souligne dans son article de blog de recherche qu'il existe une différence majeure entre les LLM populaires tels que ChatGPT et Orca-Math. Le premier est un grand modèle de langage et le second est un petit modèle de langage : la différence réside dans le nombre de paramètres utilisés ; généralement en milliers ou en quelques millions pour les SLM, plutôt qu'en milliards ou en milliers de milliards utilisés par les LLM. Une autre différence est que, comme son nom l'indique, Orca-Math a été conçu spécifiquement pour résoudre des problèmes mathématiques ; ainsi, il ne peut pas être utilisé pour mener des conversations ou répondre à des questions aléatoires.
Orca-Math est relativement grand par rapport aux autres SLM, avec 7 milliards de paramètres, mais reste beaucoup plus petit que la plupart des LLM bien connus. Cependant, il a quand même réussi à obtenir un score de 86,81 % sur le GSM8k, proche du GPT-4-0613, qui a obtenu 97,0 %. D'autres, comme Llama-2, n'ont pas obtenu de aussi bons résultats, avec des scores aussi bas que 14,6 %.
Microsoft révèle qu'il a pu obtenir un score aussi élevé en utilisant des données de formation de meilleure qualité que celles disponibles pour les LLM à usage général et parce qu'il a utilisé un processus d'apprentissage interactif que l'équipe d'IA de Microsoft a développé, un processus qui améliore continuellement les résultats. en utilisant les commentaires d'un enseignant. L'équipe de Microsoft conclut que les SLM peuvent être aussi performants que les LLM sur certaines applications lorsqu'ils sont développés dans des conditions spécialisées.