L’explosion de l’IA nécessite davantage de puces, mais aussi quelque chose de fondamental : de meilleures technologies de refroidissement

Les GPU sont bons en intelligence artificielle (IA). Extraordinairement bon. Mieux, en fait, que les processeurs. La raison en est que les algorithmes d’IA bénéficient d’une architecture qui privilégier le parallélisme massif, c’est précisément ce que nous proposent les GPU, mais pas les CPU. Jensen Huang, PDG de NVIDIA, s’en est rendu compte il y a longtemps et a décidé de développer des versions de ses GPU conventionnels qui renforcent encore les blocs fonctionnels qui ont un impact direct sur les performances de l’IA.

Le temps lui a donné raison : NVIDIA représente aujourd’hui environ 80 % du marché des puces IA. Selon le cabinet de conseil AMR (), le marché des puces pour applications d’IA représentera en 2031 un chiffre d’affaires de plus de 263 milliards de dollars. C’est vraiment scandaleux, surtout si l’on considère qu’en 2021, son chiffre d’affaires s’élevait à un peu plus de 11 milliards de dollars. Cette prévision de croissance est intimidante, et NVIDIA compte absorber une bonne partie de ce marché en nette expansion.

Ses prévisions de ventes sont en effet si élevées que la société dirigée par Jensen Huang négocie avec Intel la possibilité de se charger de la fabrication d’une partie de ses GPU en prévision du fait que TSMC ne sera pas en mesure de les fournir et je n’obtiendrai pas répondre à vos besoins. Nous pouvons être sûrs d’une chose : de nombreuses autres puces IA seront nécessaires à l’avenir. Il y a cependant quelque chose que l’on oublie souvent et qui inquiète les gestionnaires de datacenters : l’énergie dissipée par les GPU sous forme de chaleur nécessite la mise en place de systèmes de refroidissement extrêmement efficaces.

La chaleur est le gros problème auquel les centres de données IA sont déjà confrontés

Les serveurs pour applications d’IA intègrent généralement davantage de processeurs à usage général et plus de GPU que les serveurs traditionnels. Nous ne le disons pas, même si nous le partageons ; Elle est défendue par Chris Wei, analyste au sein du cabinet de conseil taïwanais MIC (). Leur architecture fait que ces serveurs consomment plus d’énergie que les serveurs classiques, et cette caractéristique a un impact direct sur deux composants essentiels : l’alimentation électrique et le système de refroidissement.

Un GPU NVIDIA A100 a un TDP allant jusqu’à 400 watts et un GPU H100 est proche de 700 watts

Selon Wei, « la consommation énergétique d’un serveur à intelligence artificielle dépasse les capacités des systèmes de refroidissement par air conçus pour stabiliser les machines avec une consommation de 300 watts, ce qui nécessite de développer des technologies de refroidissement plus sophistiquées et efficaces ». comme le refroidissement liquide« . Cela a du sens. Surtout si l’on garde à l’esprit qu’un GPU NVIDIA A100 a un TDP allant jusqu’à 400 watts ; un GPU H100 est proche de 700 watts, et, si ces chiffres n’étaient pas déjà assez vertigineux, le GPU de nouvelle génération Le B100 atteindra 1 000 watts.

En revanche, selon Chris Wei, la pénétration des serveurs pour applications d’intelligence artificielle par rapport au nombre total de ces machines passera de 12,4 % actuellement à 20,9 % en 2027. Compte tenu des circonstances, il est évident que les fabricants de serveurs vont à devoir mettre toute la viande sur le gril pour résoudre les défis posés par le refroidissement correct de ces machines.

Certains d’entre eux, comme HP ou Dell, se tournent déjà vers des systèmes de refroidissement liquide avancés qui, sur le papier, sont capables de gérer la chaleur dissipée par les GPU IA de nouvelle génération. Qui sait, il est possible que les utilisateurs de PC puissent à moyen terme bénéficier de l’effort d’innovation ce que font les fabricants de serveurs en matière de refroidissement. Espérons que se soit comme ça.

Image de couverture | Manuel Geissinger

Plus d’informations | Nikkei Asie

À Simseo | NVIDIA a balayé et Samsung a succombé : 2023 a laissé de côté une bonne partie des concepteurs de puces