NPU Core améliore les performances d'inférence de plus de 60%

Les derniers modèles d'IA génératifs tels que le ChatGPT-4 d'OpenAI et GEMINI 2.5 de Google nécessitent non seulement une bande passante de mémoire élevée mais aussi une grande capacité de mémoire. C'est pourquoi les sociétés d'exploitation générationnaires de l'IA Cloud comme Microsoft et Google achètent des centaines de milliers de GPU NVIDIA.

En tant que solution pour relever les principaux défis de la construction d'une infrastructure d'IA à haute performance, les chercheurs coréens ont réussi à développer une technologie de base NPU (Unit de traitement neuronal) qui améliore les performances d'inférence des modèles d'IA génératifs par une moyenne de plus de 60% tout en consommant environ 44% moins de pouvoir par rapport aux derniers GPU.

L'équipe de recherche du professeur Jongse Park de la Kaist School of Computing, en collaboration avec Hyperaccel Inc., a développé une technologie de base de NPU à faible performance et à faible puissance spécialisée pour des nuages d'IA génératifs comme Chatgpt.

La technologie proposée par l'équipe de recherche a été présentée par Ph.D. L'étudiant Minsu Kim et le Dr Seongmin Hong de Hyperaccel Inc. en tant qu'auteurs co-prirs au 2025 International Symposium on Computer Architecture (ISCA 2025), tenu à Tokyo, du 21 au 25 juin.

L'objectif clé de cette recherche est d'améliorer les performances des services d'IA génératifs à grande échelle en mettant légèrement le processus d'inférence, tout en minimisant la perte de précision et en résolvant les problèmes d'étranglement de la mémoire. Cette recherche est très reconnue pour sa conception intégrée de semi-conducteurs d'IA et de logiciels système d'IA, qui sont des composants clés de l'infrastructure d'IA.

Bien que l'infrastructure IA basée sur GPU existante nécessite plusieurs appareils GPU pour répondre à une bande passante élevée et à des demandes de capacité, cette technologie permet la configuration du même niveau d'infrastructure d'IA en utilisant moins de périphériques NPU via la quantification du cache KV. KV Cache explique la majeure partie de l'utilisation de la mémoire, ce qui est ainsi que sa quantification réduit considérablement le coût de la construction de nuages d'IA génératifs.

Technologie de l'unité de traitement neuronal de base pour améliorer les performances d'inférence de Chatgpt de plus de 60%

L'équipe de recherche l'a conçue pour être intégrée aux interfaces de mémoire sans modifier la logique opérationnelle des architectures NPU existantes. Cette architecture matérielle implémente non seulement l'algorithme de quantification proposé, mais adopte également des techniques de gestion de la mémoire au niveau de la page pour une utilisation efficace de la bande passante et de la capacité de mémoire limitée, et introduit de nouvelles techniques de codage optimisées pour le cache KV quantifié.

En outre, lors de la construction d'un nuage d'IA basé sur NPU avec un coût et une efficacité énergétiques supérieurs par rapport aux derniers GPU, la nature haute performance et faible puissance des UNP devrait réduire considérablement les coûts d'exploitation.

Professor Jongse Park said, « This research, through joint work with HyperAccel Inc., found a solution in generative AI inference light-weighting algorithms and succeeded in developing a core NPU technology that can solve the memory problem. Through this technology, we implemented an NPU with over 60% improved performance compared to the latest GPUs by combining quantization techniques that reduce memory requirements while maintaining inference accuracy, and hardware designs optimized for ce.

« Cette technologie a démontré la possibilité de mettre en œuvre une infrastructure à haute puissance à haute performance spécialisée pour l'IA générative, et devrait jouer un rôle clé non seulement dans les centres de données cloud AI, mais également dans l'environnement de transformation de l'IA (AX) représenté par une IA dynamique et exécutable telle que l'agent AI. »