NVIDIA a rencontré un problème inattendu. Il semble que l’IA pousse bien plus que ce qu’elle peut couvrir

Le GPU d’intelligence artificielle (IA) B200 donne quelques maux de tête à NVIDIA. Trop, peut-être. Lorsque la société dirigée par Jensen Huang a dévoilé cette puce en mars de cette année, il était évident qu'elle avait entre les mains une vraie bête. Ses caractéristiques sont époustouflantes : 208 milliards de transistors, architecture « Blackwell » de dernière génération, performances maximales de 20 petaFLOPS en fonctionnement FP4 s'il est accompagné d'un refroidissement liquide, il peut fonctionner côte à côte avec une carte mémoire allant jusqu'à 192 Go de VRAM et atteint une bande passante de 8 To/s.

L’industrie de l’IA semblait attendre, mais étonnamment, ce GPU a mis du temps à arriver. Plus que ce à quoi on s'attendait au début. En effet, les premières unités de cette puce ont été livrées par NVIDIA à ses clients ces dernières semaines. En août, NVIDIA a avoué que les performances de ses processus de fabrication étaient inférieures aux attentes, obligeant ses ingénieurs à repenser certaines couches de la puce afin de corriger un problème qui a retardé la livraison des premières unités.

« Nous avons été obligés d'introduire une modification dans le skin du GPU Blackwell pour améliorer les performances de production », a admis NVIDIA dans un communiqué. Dans ces circonstances, Jensen Huang n'ignorait pas le problème : « C'était la faute à 100% de NVIDIA. Nous avions un défaut de conception chez Blackwell. C'était une puce fonctionnelle, mais le défaut provoquait de mauvaises performances (…) Les rapports décrivant des tensions entre NVIDIA et TSMC sont faux. Vraisemblablement, ce problème est désormais résolu, mais un autre vient d'apparaître. Et oui, il est lié au GPU B200.

Certains clients NVIDIA se plaignent d'une surchauffe du GPU B200

Selon Reuters, certains des premiers clients de NVIDIA à avoir reçu des serveurs équipés du GPU B200 ont signalé que ces ordinateurs surchauffaient lorsqu'ils étaient installés ensemble dans des systèmes conçus pour contenir jusqu'à 72 puces. Dans ces installations, il est normal d'installer de grandes quantités de puces hautement intégrées dans le double but de tirer le meilleur parti de l'espace disponible et d'augmenter autant que possible la puissance de l'infrastructure. Cependant, comme on peut le deviner, l'un des défis liés à la mise en place d'une telle installation n'est autre que de garantir le refroidissement correct de tous les composants.

NVIDIA a demandé à plusieurs reprises à ses fournisseurs de modifier le design des racks afin d'optimiser le système de refroidissement

NVIDIA a reconnu que le problème existe. En fait, elle a demandé à ses fournisseurs, toujours selon Reuters, de modifier à plusieurs reprises la conception afin d'optimiser le système de refroidissement. « NVIDIA travaille avec principaux fournisseurs de services cloud en tant que partie intégrante de notre équipe et de notre processus d’ingénierie. Les itérations dans le domaine de l'ingénierie sont normales et prévisibles », a déclaré un porte-parole de l'entreprise dirigée par Jensen Huang dans une tentative claire de transmettre la confiance.

Il y a déjà deux revers en un temps relativement court, ce qui est inhabituel pour une entreprise qui ne fabrique généralement pas un seul point sans fil. Comme nous venons de le voir, NVIDIA travaille main dans la main avec ses fournisseurs et ses clients pour résoudre les problèmes de refroidissement des serveurs équipés du GPU B200, et selon toute vraisemblance ils parviendront à leur objectif.

Malgré tout, il est inévitable de constater que la très forte demande en puces IA pousse probablement NVIDIA à se précipiter. Vraisemblablement les deux échecs dont nous parlons dans cet article aurait pu être évité avec des processus de développement, de vérification et de test plus approfondis et plus lents. Le marché règne, certes, mais la précipitation déclenche souvent des erreurs qui peuvent être évitées lorsque les processus d'ingénierie et les délais sont scrupuleusement respectés.

Images | Nvidia

Plus d'informations | Reuters

À Simseo | Huawei veut dévorer NVIDIA sur le marché chinois. Pour y parvenir, il travaille sur un nouveau GPU pour l'IA