Le supercalculateur de Nvidia coûte des millions de dollars. Et pour travailler, nous utilisons un interrupteur avec trois kilomètres de câble

Lorsque Nvidia a présenté ses nouvelles puces d'IA, la B200 avec Blackwell Architecture, a profité de l'occasion pour présenter un accélérateur du GB200 So called. Et en rejoignant 36 de ces accélérateurs ont créé son serveur AI, le monstrueux DGX GB200 NVL72, qui conserve également des surprises spectaculaires.

Chaque nœud est bestial. Chacun de ces accélérateurs GB200 a un CPU Nvidia Grace avec 72 noyaux V2 Neoverse V2 et avec deux GPU B200. En combinant sa puissance, nous finissons par avoir une sorte de GPU bestial combiné avec une puissance de 1,44 exaflops dans la précision FP4.

Un placard qui pèse un quintal. L'apparition du GB200 NVL72 DGX est celle d'un petit placard étroit qui est surtout très dense: ce rack pèse 1,36 tonne. À l'intérieur, il y a 18 nœuds informatiques Bianca au format 1U, et chacun d'eux a deux GB 200, ou ce qui est le même, avec quatre GPU B200 (d'où 18 x 4 = 72). Le coût estimé de ce serveur d'IA est d'environ trois millions.

Le refroidissement du liquide est la clé. La chaleur dissipée par ces composants est remarquable, ce qui fait dans ce cas la meilleure option pour refroidir ces éléments est le refroidissement du liquide. Ce système s'applique non seulement à la grâce du CPU ou dans les GPU B200, mais dans les puces NVLink des commutateurs, qui peuvent également être beaucoup chauffées en raison du transfert massif de données entre les accélérateurs.

Interconnections partout. Pour que tous ces GPU fonctionnent ensemble, chacune des 36 GB200 a des cartes réseau spécialisées avec une prise en charge NVLink de cinquième génération qui permettent à chacun des nœuds informatiques d'être connectés à d'autres. Pour cela, il y a neuf commutateurs qui fournissent cette énorme quantité d'interconnexions.

Câble de 3 km. Le système vous permet de profiter d'une bande passante bidirectionnelle de 1,8 To / s entre les 72 GPU du serveur. Mais comme ils le soulignent dans le registre, la chose vraiment surprenante est qu'au total à l'intérieur de ce « placard », il y a 3,2 kilomètres de câble en cuivre. Seul le module avec les commutateurs pèse plus de 30 kilogrammes en raison de ces deux composants et des plus de 5 000 câbles utilisés pour que tous les GPU NVIDIA fonctionnent ensemble et en parfaite synchronie.

Pourquoi le cuivre? Il peut être en mesure d'opter pour le câble en cuivre semble étrange, en particulier en tenant compte des besoins en termes de bande passante imposée par cette machine. Cependant, la solution avec des câbles à fibre optique a imposé des problèmes clairs: nous devons utiliser les composants électroniques nécessaires pour stabiliser et convertir les signaux optiques. Cela aurait augmenté non seulement le coût, mais la consommation du système final.

Crysis peut-il fonctionner? Les performances de chaque puce B200 sont déjà brutales en soi: sa puissance est le triple que celle du GeForce RTX 5090, et l'ensemble du serveur comprend 72 de ces GPUSS spécialisés pour l'IA, qui démontre la capacité informatique que possède la machine. Il possède également des noyaux RT (entraînement aux rayons) de la quatrième génération, ce qui vous permettrait théoriquement d'utiliser ces jetons d'IA pour jouer à des jeux vidéo, bien que bien sûr, ce n'est même pas son objectif. En fait, ses performances dans ce domaine seront probablement presque aussi pauvres que celles du NVIDIA H100.

Consommation de nuages. Bien que les nouvelles puces soient beaucoup plus efficaces que H100 –25 fois moins, explique NVIDIA – ce serveur d'IA a un TDP estimé de 140 kW. Étant donné que la consommation moyenne d'une maison moyenne en Espagne est d'environ 3 000 kWh par an, dans une heure d'utilisation du serveur NVIDIA, nous consommons la même chose qu'une maison espagnole moyenne en 17 jours. Faites-le allumer et courez toute l'année augmente une consommation similaire à 415 maisons intermédiaires tout au long de l'année en Espagne.

Dans Simseo | AMD a une splendide feuille de route pour ses puces AI. Le problème est toujours dans votre logiciel