Microsoft présente un modèle d’IA qui fonctionne sur des processeurs réguliers
Un groupe d’informatique de Microsoft Research, travaillant avec un collègue de l’Université de l’Académie des sciences de l’Université de Chine, a introduit le nouveau modèle d’IA de Microsoft qui fonctionne sur un CPU ordinaire au lieu d’un GPU. Les chercheurs ont publié un article sur le arxiv Un serveur préalable décrivant la façon dont le nouveau modèle a été construit, ses caractéristiques et la façon dont il a fait jusqu’à présent pendant les tests.
Au cours des dernières années, les LLM sont devenues à la mode. Des modèles tels que Chatgpt ont été mis à la disposition des utilisateurs du monde entier, présentant l’idée de chatbots intelligents. Une chose que la plupart d’entre eux ont en commun, c’est qu’ils sont formés et courent sur des puces GPU. Cela est dû à la quantité massive de puissance de calcul dont ils ont besoin lorsqu’ils sont formés sur des quantités massives de données.
Plus récemment, des préoccupations ont été soulevées concernant les énormes quantités d’énergie utilisées par les centres de données pour soutenir tous les chatbots utilisés à diverses fins. Dans ce nouvel effort, l’équipe a trouvé ce qu’elle décrit comme une façon plus intelligente de traiter ces données, et ils ont construit un modèle pour le prouver.
L’une des parties les plus à forte intensité d’énergie des modèles d’IA de fonctionnement implique la façon dont les poids sont utilisés et stockés – en tant que nombres flottants de 8 ou 16 bits. Une telle approche implique beaucoup de mémoire et de traitement CPU, ce qui nécessite à son tour beaucoup d’énergie. Dans leur nouvelle approche, les chercheurs ont supprimé l’utilisation totalement des numéros de points flottants et proposent plutôt l’utilisation de ce qu’ils décrivent comme une architecture 1 bits.
Dans leur innovation, les poids sont stockés et traités en utilisant seulement trois valeurs: -1, 0 et 1. Cela permet d’utiliser rien de plus qu’un simple ajout et de soustraction pendant le traitement – des opérations qui se font facilement à l’aide d’un ordinateur basé sur le processeur.
Les tests du nouveau type de modèle ont montré qu’il était en mesure de tenir le coup contre les modèles basés sur GPU dans sa taille de classe et même de surperformer certains d’entre eux – tout en utilisant beaucoup moins de mémoire et, en fin de compte, beaucoup moins d’énergie.
Pour exécuter un tel modèle, l’équipe a créé un environnement d’exécution pour cela. Le nouvel environnement est appelé bitnet.cpp et a été conçu pour tirer le meilleur parti de l’architecture 1 bits.
Si les affirmations de l’équipe se tenaient, le développement de Bitnet B1.58 2B4T pourrait changer la donne. Au lieu de compter sur des fermes de données massives, les utilisateurs pourraient bientôt exécuter un chatbot sur leur ordinateur ou peut-être, leur téléphone. En plus de réduire les demandes d’énergie, la localisation du traitement LLM améliorerait considérablement la confidentialité et permettrait de travailler sans même être connecté à Internet.