La consommation d'énergie en ballon de l'IA met en lumière l'efficacité du centre de données

L'intelligence artificielle augmente rapidement, tout comme le nombre d'ordinateurs qui l'alimentent. Dans les coulisses, cette croissance rapide met une énorme pression sur les centres de données qui exécutent des modèles d'IA. Ces installations utilisent plus d'énergie que jamais.

Les modèles d'IA deviennent plus grands et plus complexes. Les systèmes les plus avancés d'aujourd'hui ont des milliards de paramètres, les valeurs numériques dérivées des données de formation et se déroulent sur des milliers de puces informatiques. Pour suivre, les entreprises ont répondu en ajoutant plus de matériel, plus de puces, plus de mémoire et des réseaux plus puissants. Cette approche par force brute a aidé l'IA à faire de grands sauts, mais elle a également créé un nouveau défi: les centres de données deviennent des géants avides d'énergie.

Certaines sociétés technologiques réagissent en se tournant par eux-mêmes des centres de données électriques avec des combustibles fossiles et des centrales nucléaires. La demande d'énergie de l'IA a également stimulé les efforts pour fabriquer des puces informatiques plus efficaces.

Je suis ingénieur informatique et professeur chez Georgia Tech qui se spécialise dans l'informatique haute performance. Je vois un autre chemin pour freiner l'appétit énergétique de l'IA: rendre les centres de données plus conscients des ressources et efficaces.

Énergie et chaleur

Les centres de données d'IA modernes peuvent utiliser autant d'électricité qu'une petite ville. Et ce n'est pas seulement l'informatique qui mange la puissance. La mémoire et les systèmes de refroidissement sont également des contributeurs majeurs. À mesure que les modèles IA se développent, ils ont besoin de plus de stockage et d'accès plus rapide aux données, ce qui génère plus de chaleur. De plus, à mesure que les chips deviennent plus puissantes, l'élimination de la chaleur devient un défi central.

Le refroidissement n'est pas seulement un détail technique; C'est une partie importante de la facture d'énergie. Le refroidissement traditionnel se fait avec des systèmes de climatisation spécialisés qui éliminent la chaleur des supports de serveurs. De nouvelles méthodes comme le refroidissement liquide aident, mais elles nécessitent également une planification minutieuse et une gestion de l'eau. Sans solutions plus intelligentes, les besoins énergétiques et les coûts de l'IA pourraient devenir insoutenables.

Même avec tout cet équipement avancé, de nombreux centres de données ne fonctionnent pas efficacement. C'est parce que différentes parties du système ne se parlent pas toujours. Par exemple, le logiciel de planification peut ne pas savoir qu'une puce surchauffe ou qu'une connexion réseau est obstruée. En conséquence, certains serveurs restent inactifs tandis que d'autres ont du mal à suivre. Ce manque de coordination peut conduire à une énergie gaspillée et à des ressources sous-utilisées.

Une voie plus intelligente

Relever ce défi nécessite de repenser comment concevoir et gérer les systèmes qui soutiennent l'IA. Cela signifie s'éloigner de la mise à l'échelle brute-force et vers une infrastructure plus intelligente et plus spécialisée.

Voici trois idées clés:

Variabilité d'adressage du matériel. Toutes les puces ne sont pas les mêmes. Même dans la même génération, les puces varient à quelle vitesse ils fonctionnent et à la quantité de chaleur qu'ils peuvent tolérer, conduisant à l'hétérogénéité des performances et de l'efficacité énergétique. Les systèmes informatiques dans les centres de données devraient reconnaître les différences entre les puces dans les performances, la tolérance à la chaleur et la consommation d'énergie, et ajuster en conséquence.

S'adapter aux conditions changeantes. Les charges de travail AI varient dans le temps. Par exemple, les points chauds thermiques sur les puces peuvent déclencher les puces pour ralentir, la fluctuation de l'alimentation du réseau peut plafonner la puissance de pointe que les centres peuvent dessiner, et les éclats de données entre les puces peuvent créer une congestion dans le réseau qui les connecte. Les systèmes doivent être conçus pour répondre en temps réel à des choses comme la température, la disponibilité de l'énergie et le trafic de données.

Décomposer des silos. Les ingénieurs qui conçoivent des puces, des logiciels et des centres de données devraient travailler ensemble. Lorsque ces équipes collaborent, ils peuvent trouver de nouvelles façons d'économiser de l'énergie et d'améliorer les performances. À cette fin, mes collègues, mes étudiants et moi au Georgia Tech's AI Makerspace, un centre de données d'IA hautes performances, explorent ces défis pratiques. Nous travaillons dans toutes les disciplines, du matériel aux logiciels en passant par les systèmes énergétiques, pour construire et tester des systèmes d'IA efficaces, évolutifs et durables.

Mise à l'échelle avec intelligence

L'IA a le potentiel de transformer la science, la médecine, l'éducation et plus encore, mais les risques atteignent des limites de performance, d'énergie et de coût. L'avenir de l'IA dépend non seulement de meilleurs modèles, mais aussi d'une meilleure infrastructure.

Pour que l'IA se développe d'une manière qui profite à la société, je pense qu'il est important de passer de la mise à l'échelle par la force à la mise à l'échelle avec l'intelligence.