Il a trouvé un moyen de tirer la compétitivité de la Chine face aux États-Unis
Il y a deux jours, nous vous avons dit quelque chose de très intéressant: le temps de titres moyens de l'État chinois avait révélé que Huawei était sur le point de présenter une avancée technologique qui a poursuivi pour réduire la dépendance en Chine à l'égard des puces mémoire HBM () de l'étranger. Selon cette source, Huawei allait officiellement annoncer sa jalon technologique quelques heures plus tard, pendant la célébration à Shanghai (Chine) du forum de demande et le développement du raisonnement de financier 2025.
Huawei a réalisé ce qui a été promis, mais pas comme nous l'avions prévu. Dans tous les cas, avant de se lancer dans la farine, il est important que nous nous rappelions que les fabricants de puces chinoises ne produisent pas de solutions capables de rivaliser avec les souvenirs les plus avancés que les entreprises sud-coréennes fabriquent Samsung et SK Hynix, ou la technologie américaine du micron. Les GPU pour IA travaillent côte à côte avec des puces mémoire HBM. En fait, ses performances sont largement conditionnées par ces souvenirs.
Comme l'expliquent les éditeurs semi-santé, la bande passante totale des puces mémoire HBM3 qui coexistent avec certains des GPU pour les NVIDIA ou AMD les plus avancés dépassent 819 Go / s, tandis que les souvenirs DDR5 et GDDR6X atteignent beaucoup plus de 70,4 Go / Sy 96 GB / s. Les souvenirs HBM3E et le futur HBM4 sont encore meilleurs. Les fabricants chinois de ce type de puces ne produisent pas encore ce type de souvenirs, mais il semble que Huawei modifie profondément ce scénario.
Un algorithme expressément conçu pour accélérer l'inférence dans l'IA
La filtration qui s'est produite à peine 48 heures a suggéré que ce que Huawei allait présenter était une technologie d'emballage avant-gardée qui, peut-être, rivaliserait avec celles utilisées par SK Hynix, Samsung ou Micron pour produire leurs mémoires HBM3 et 3E. Et c'est que la fabrication de ces circuits intégrés est complexe car ils nécessitent l'empilement de plusieurs puces dramatiques et la mise en œuvre d'une interface entre l'unité de traitement XPU () ou étendue et les puces HBM extraordinairement denses. Comme le montre un bouton: dans une pile HBM3E, le XPU et la mémoire HBM sont liés par plus de 1 000 pilotes.
Selon Huawei, l'algorithme UCM est capable d'accélérer considérablement l'inférence dans les grands modèles d'IA
Cependant, Huawei a finalement présenté une technologie différente: un algorithme avancé appelé UCM () qui, selon cette société, est capable d'accélérer considérablement l'inférence dans de grands modèles d'intelligence artificielle (IA). Une note pertinente: l'inférence est largement le processus de calcul effectué par les modèles de langage dans le but de générer les réponses qui correspondent aux demandes qu'ils reçoivent.
Pour atteindre son objectif, l'algorithme UCM affiche une stratégie très ingénieuse: décidez du type de mémoire qu'il est nécessaire de stocker chaque données en prenant comme indicateur fondamental les exigences de latence. En pratique, cet algorithme se comporte comme un cache gigantesque qui garantit que chaque données ira à la bonne mémoire, y compris HBM3, dans le but de minimiser la latence pendant l'inférence. S'il s'agit d'une données très souvent utilisées, elle sera stockée dans une mémoire très rapide, comme HBM3. Selon Huawei, cette technologie est en mesure de réduire la latence de l'inférence de 90%. Fait intéressant, cette entreprise prévoit de faire l'algorithme ouvert de l'UCM Source en septembre.
Plus d'informations | SCCP
Dans Simseo | Nvidia doit faire face à la méfiance absolue envers plusieurs législateurs américains. Son plan en Chine est en danger
Dans Simseo | Les États-Unis veulent mettre fin aux jetons pour les Chinois vendus à l'étranger. Et la Chine sait comment se défendre
