avec sa nouvelle puce B200 à 208 milliards de transistors
NVIDIA n'est pas disposé à céder du terrain sur le marché en pleine croissance des intelligence artificielle. Des concurrents comme Cerebras et Rebellions commencent à émerger, mais la société dirigée par Jensen Huang a une nouvelle proposition pour ses clients les plus ambitieux : elle vient de présenter une nouvelle architecture haute performance appelée Blackwell qui se matérialise dans deux nouvelles puces, la B200 et Go200.
Ces dernières années, nous avons assisté à l’évolution de l’entreprise américaine. En 2020, nous avons assisté au lancement des puces A100, arrivées avec 54 milliards de transistors, en 2022, les H100 sont arrivées, cette fois avec 80 milliards de transistors. Et voilà, avec un H200 qui n'est pas encore disponible, le constructeur vient d'annoncer le passage à 208 milliards de transistors.
B200, la nouvelle puce NVIDIA avec un tas de transistors sauvages
Dans les opérations FP4, la nouvelle puce B200 de NVIDIA promet de fournir jusqu'à 18 pétaFLOPS de performances dans une configuration HGX ou DGX refroidie par air. Cependant, les entreprises clientes qui souhaitent obtenir un supplément peuvent le faire en équipant leurs centres de données de réfrigération liquide. En répondant à cette exigence, la puce pourra atteindre 20 pétaFLOPS de performances.
Au niveau mémoire, le B200 dispose d'une bande passante de 8 To/s et prend en charge jusqu'à 192 Go de VRAM. Nous examinons une puce à architecture Blackwell qui, selon son fabricant, peut réduire la consommation électrique jusqu'à 25 fois par rapport au H100. Lorsque nous parlons de la puce H100, nous faisons référence au produit à succès de l'architecture Hopper que l'on trouve, par exemple, dans les centres de données Azure AI de Microsoft.
NVIDIA a également annoncé la puce GB200. Dans ce cas, nous recherchons une solution qui combine un processeur Grace à 72 cœurs avec deux GPU B200 pour atteindre une performance théorique maximale de 40 pétaFLOPS dans les opérations FP4 et augmenter la quantité de mémoire HBM3e à 384 Go. L'essence de cette « superpuce » est prise en charge par le système d'interconnexion à haut débit NVLink-C2C.
Face à l’essor de l’intelligence artificielle, ce type de solutions matérielles est devenu indispensable pour former des modèles linguistiques. Nous disposons aujourd'hui de modèles comme le GPT-4 d'OpenAI ou le Claude 3 d'Anthropic, qui ont été entraînés avec des équipements moins puissants et moins efficaces. La nouvelle génération de matériel pourrait contribuer à accélérer les modèles en cours que nous n’avons pas encore vus.
Lorsque les GPU sont déployés dans leurs centres de données, ils sont situés dans d'immenses racks. Une configuration DGX avec 18 nœuds GB200 peut prendre en charge des modèles jusqu'à 27 milliards de paramètres. Au niveau des performances, cela se traduit par plus d'un exaFLOP de performances. Une vraie folie si l'on tient compte du fait que le premier système DGX que NVIDIA a livré à OpenAI a atteint un maximum de 0,17 pétaFLOPS.
Images | Nvidia
À Simseo | Supermicro est le géant caché de l'ère de l'IA. Il croît plus que NVIDIA