Le « cerveau » des semi-conducteurs combine l'intelligence du transformateur et l'efficacité du Mamba
À mesure que la capacité des modèles récents d'intelligence artificielle (IA) à comprendre et à traiter des phrases longues et complexes augmente, la nécessité de nouvelles technologies de semi-conducteurs capables d'augmenter simultanément la vitesse de calcul et l'efficacité de la mémoire augmente.
Au milieu de cela, une équipe de recherche conjointe composée de chercheurs du KAIST et de collaborateurs internationaux a développé avec succès une technologie de base de « cerveau » de semi-conducteurs d’IA basée sur un transformateur hybride et une structure Mamba, qui a été implémentée pour la première fois au monde sous une forme capable de calcul direct à l’intérieur de la mémoire, ce qui a permis de multiplier par quatre la vitesse d’inférence des grands modèles de langage (LLM) et de réduire de 2,2 fois la consommation d’énergie.
Une équipe de recherche dirigée par le professeur Jongse Park de la KAIST School of Computing, en collaboration avec le Georgia Institute of Technology aux États-Unis et l'Université d'Uppsala en Suède, a développé PIMBA, une technologie de base basée sur le semi-conducteur de mémoire de l'IA (PIM, traitement en mémoire), qui agit comme le cerveau des modèles d'IA de nouvelle génération.
La recherche doit être présentée au 58e Symposium international sur la microarchitecture (MICRO 2025) et est actuellement disponible sur le arXiv serveur de préimpression.
Actuellement, les LLM tels que ChatGPT, GPT-4, Claude, Gemini et Llama fonctionnent sur la base de la structure cérébrale transformatrice, qui voit tous les mots simultanément. Par conséquent, à mesure que le modèle d’IA se développe et que les phrases traitées s’allongent, la charge de calcul et les besoins en mémoire augmentent, entraînant des réductions de vitesse et une consommation d’énergie élevée, qui constituent des problèmes majeurs.
Pour surmonter ces problèmes liés au transformateur, la structure Mamba basée sur la mémoire séquentielle récemment proposée a introduit une méthode de traitement des informations au fil du temps, augmentant ainsi l'efficacité. Cependant, des goulots d'étranglement en matière de mémoire et des limites de consommation d'énergie subsistaient.
L'équipe de recherche du professeur Park Jongse a conçu PIMBA, une nouvelle structure semi-conductrice qui effectue directement des calculs à l'intérieur de la mémoire afin de maximiser les performances du modèle hybride transformateur-Mamba, qui combine les avantages du transformateur et de Mamba.
Alors que les systèmes GPU existants déplacent les données hors de la mémoire pour effectuer des calculs, PIMBA effectue des calculs directement dans le périphérique de stockage sans déplacer les données. Cela minimise le temps de déplacement des données et réduit considérablement la consommation d'énergie.
En conséquence, PIMBA a montré une amélioration des performances de traitement jusqu'à 4,1 fois et une diminution moyenne de 2,2 fois de la consommation d'énergie par rapport aux systèmes GPU existants.
