Pression imminente sur l’énergie et les ressources
Les nouvelles technologies telles que les modèles d’apprentissage en profondeur qui évoluent rapidement ont conduit à des modèles d’intelligence artificielle (IA) de plus en plus sophistiqués. Avec des promesses allant des véhicules autonomes (terrestres, aériens et maritimes) à la récupération et à la création d’informations hautement spécialisées comme ChatGPT, les possibilités semblent illimitées. Pourtant, des pièges potentiels existent, tels que le déplacement de l’emploi et les problèmes de confidentialité, ainsi que les problèmes de matériaux et d’énergie.
Chaque opération effectuée par un ordinateur correspond à des signaux électriques qui traversent son matériel et consomment de l’énergie. Deep Jariwala de l’École d’ingénierie et de sciences appliquées, professeur adjoint d’ingénierie électrique et des systèmes, et Benjamin C. Lee, professeur d’ingénierie électrique et des systèmes et d’informatique et de sciences de l’information, se sont entretenus avec Penn Today de l’impact qu’aura une dépendance croissante au calcul de l’IA. à mesure que l’infrastructure se développe pour répondre à ses besoins toujours croissants.
Qu’est-ce qui distingue l’IA et ses applications actuelles des autres itérations de l’informatique ?
Jariwala : C’est un paradigme totalement nouveau en termes de fonction. Repensez au tout premier ordinateur, l’Electrical Numerical Integrator and Computer (ENIAC) que nous avons ici à Penn. Il a été conçu pour faire des calculs qui prendraient trop de temps à calculer à la main pour les humains et était principalement utilisé pour calculer les trajectoires balistiques, il avait donc une logique sous-jacente simple : addition, soustraction, multiplication et division de, disons, 10- nombres de chiffres saisis manuellement.
Lee : L’informatique pour l’IA comporte trois éléments principaux. L’un est le prétraitement des données, ce qui signifie organiser un grand ensemble de données avant de pouvoir en faire quoi que ce soit. Cela peut impliquer d’étiqueter les données ou de les nettoyer, mais en gros, vous essayez simplement de créer une structure.
Une fois prétraité, vous pouvez commencer à « former » l’IA ; c’est comme lui apprendre à interpréter les données. Ensuite, nous pouvons faire ce que nous appelons l’inférence IA, qui exécute le modèle en réponse aux requêtes des utilisateurs.
Jariwala : Avec l’IA, il s’agit moins de traiter des chiffres bruts que d’utiliser des algorithmes complexes et l’apprentissage automatique pour l’entraîner et l’adapter à de nouvelles informations ou situations. Cela va au-delà de la saisie manuelle d’une valeur, car il peut extraire des informations d’ensembles de données plus volumineux, comme Internet.
Cette capacité à collecter des données à partir de différents endroits, à utiliser des modèles probabilistes pour évaluer la pertinence de la tâche à accomplir, à intégrer ces informations, puis à fournir un résultat qui ressemble étrangement à celui d’un humain dans de nombreux cas, est ce qui le distingue de l’informatique traditionnelle. Les grands modèles de langage, comme ChatGPT, présentent ce nouvel ensemble d’opérations lorsque vous lui posez une question et qu’il bricole une réponse spécifique. Il reprend le principe de base d’un moteur de recherche, mais le fait passer à la vitesse supérieure.
Quelles sont vos préoccupations concernant ces changements dans la nature du calcul ?
Lee : À mesure que les produits d’IA comme ChatGPT et Bing deviennent plus populaires, la nature de l’informatique devient de plus en plus basée sur l’inférence. Il s’agit d’un léger écart par rapport aux modèles d’apprentissage automatique qui étaient populaires il y a quelques années, comme AlphaGO de DeepMind – la machine formée pour être le meilleur joueur de Go – où l’effort herculéen formait le modèle et démontrait finalement une nouvelle capacité. Désormais, des modèles d’IA massifs sont intégrés dans les opérations quotidiennes, telles que l’exécution d’une recherche, et cela s’accompagne de compromis.
Quels sont les coûts de matériel et de ressources associés à l’IA ?
Jariwala : Nous tenons cela pour acquis, mais toutes les tâches que nos machines effectuent sont des transactions entre la mémoire et les processeurs, et chacune de ces transactions nécessite de l’énergie. Au fur et à mesure que ces tâches deviennent plus élaborées et gourmandes en données, deux choses commencent à augmenter de façon exponentielle : le besoin de plus de stockage de mémoire et le besoin de plus d’énergie.
En ce qui concerne la mémoire, une estimation de la Semiconductor Research Corporation, un consortium de toutes les grandes sociétés de semi-conducteurs, postule que si nous continuons à mettre à l’échelle les données à ce rythme, qui sont stockées sur une mémoire en silicium, nous dépasserons la quantité mondiale de silicium produite. chaque année. Ainsi, très bientôt, nous nous heurterons à un mur où nos chaînes d’approvisionnement en silicium ne pourront pas suivre la quantité de données générées.
Ajoutez à cela le fait que nos ordinateurs consomment actuellement environ 20 à 25 % de l’approvisionnement énergétique mondial, et nous voyons une autre source de préoccupation. Si nous continuons à ce rythme, d’ici 2040, toute l’énergie que nous produirons sera nécessaire uniquement pour le calcul, ce qui aggravera encore la crise énergétique actuelle.
Lee : Il y a aussi des inquiétudes concernant les émissions de carbone opérationnelles du calcul. Ainsi, avant même que des produits comme ChatGPT ne commencent à attirer beaucoup d’attention, la montée en puissance de l’IA a entraîné une croissance significative des centres de données, des installations dédiées à l’hébergement de l’infrastructure informatique pour le traitement, la gestion et le stockage des données.
Et des entreprises comme Amazon, Google et Meta construisent de plus en plus de ces installations massives dans tout le pays. En fait, la puissance des centres de données et les émissions de carbone associées aux centres de données ont doublé entre 2017 et 2020. Chaque installation consomme de l’ordre de 20 mégawatts jusqu’à 40 mégawatts de puissance, et la plupart du temps, les centres de données fonctionnent à 100 % d’utilisation, ce qui signifie tous les processeurs sont occupés avec du travail. Ainsi, une installation de 20 mégawatts consomme probablement 20 mégawatts de manière assez constante – assez pour alimenter environ 16 000 foyers – en calculant autant que possible pour amortir les coûts du centre de données, de ses serveurs et des systèmes d’alimentation électrique.
Et puis il y a l’empreinte carbone intrinsèque, qui est associée à la construction et à la fabrication. Cela nous ramène à la construction de nouvelles fonderies de semi-conducteurs et à l’emballage de toutes les puces dont nous aurons besoin pour produire pour répondre à la demande croissante de calcul. Ces processus en eux-mêmes sont extrêmement énergivores, coûteux et ont un impact carbone à chaque étape.
Quel rôle jouent ces centres de données et pourquoi en faut-il davantage ?
Lee : Les centres de données offrent des économies d’échelle. Dans le passé, de nombreuses entreprises construisaient leurs propres installations, ce qui signifiait qu’elles devaient payer pour la construction, l’équipement informatique, la gestion de la salle des serveurs, etc. Ainsi, de nos jours, il est beaucoup plus facile de simplement « louer » de l’espace auprès d’Amazon Web Services. . C’est pourquoi le cloud computing a pris son essor au cours de la dernière décennie.
Et ces dernières années, les processeurs à usage général qui prévalaient dans les centres de données depuis le début des années 90 ont commencé à être supplantés par des processeurs spécialisés pour répondre aux exigences de l’informatique moderne.
Pourquoi et comment les architectes informatiques ont-ils répondu à cette contrainte ?
Lee : En ce qui concerne la mise à l’échelle, deux observations ont eu des effets profonds sur l’architecture des processeurs informatiques : la loi de Moore et la mise à l’échelle de Dennard.
La loi de Moore stipule que le nombre de transistors sur une puce – les parties qui contrôlent le flux d’électrons sur un matériau semi-conducteur – double tous les deux ans environ et a historiquement défini la cadence pour développer des puces plus petites et plus rapides. Et la mise à l’échelle de Dennard suggère que doubler le nombre de transistors signifie effectivement les réduire mais aussi maintenir leur densité de puissance, de sorte que des puces plus petites signifient des puces plus économes en énergie.
Au cours de la dernière décennie, ces effets ont commencé à ralentir pour plusieurs raisons liées aux limites physiques des matériaux que nous utilisons. Cet effet décroissant a obligé les architectes à développer de nouvelles façons de rester à la pointe de la technologie.
Les processeurs à usage général n’étaient tout simplement pas assez rapides pour exécuter plusieurs calculs complexes en même temps, de sorte que les architectes informatiques ont commencé à rechercher des conceptions alternatives, c’est pourquoi les unités de traitement graphique (GPU) ont été réexaminées.
Les GPU sont particulièrement efficaces pour effectuer le type de calculs complexes essentiels aux algorithmes d’apprentissage automatique. Ceux-ci ont tendance à être plus centrés sur l’algèbre linéaire, comme la multiplication de grandes matrices et l’ajout de vecteurs complexes, ce qui a également considérablement modifié le paysage de l’architecture informatique car ils ont conduit à la création de ce que nous appelons des accélérateurs spécifiques à un domaine, des pièces de matériel adaptées à un application particulière.
Les accélérateurs sont beaucoup plus économes en énergie car ils sont conçus sur mesure pour un type d’ordinateur spécifique et offrent également de bien meilleures performances. Les centres de données modernes sont donc beaucoup plus diversifiés que ce que vous auriez eu il y a 10 ou 15 ans. Cependant, cette diversité entraîne de nouveaux coûts car nous avons besoin de nouveaux ingénieurs pour construire et concevoir ces pièces de matériel personnalisées.
Quels autres changements matériels verrons-nous probablement pour accueillir de nouveaux systèmes ?
Jariwala : Comme je l’ai mentionné, chaque tâche de calcul est une transaction entre la mémoire et le traitement qui nécessite de l’énergie, donc notre laboratoire, en collaboration avec le laboratoire de Troy Olsson, essaie de trouver des moyens de faire en sorte que chaque opération utilise moins de watts de puissance. Une façon de réduire cette métrique consiste à intégrer étroitement les unités de mémoire et de traitement, car celles-ci existent actuellement à deux endroits distincts, distants de quelques millimètres à quelques centimètres, de sorte que l’électricité doit parcourir de grandes distances pour faciliter le calcul, ce qui la rend inefficace en énergie et en temps.
C’est un peu comme créer un centre commercial de grande hauteur, où vous économisez de l’espace et de l’énergie et réduisez le temps de déplacement en permettant aux gens d’utiliser les ascenseurs au lieu de les faire marcher vers différents endroits comme ils le feraient dans un centre commercial à un étage. Nous appelons cela une architecture intégrée verticalement hétérogène, et son développement est essentiel pour réduire la consommation d’énergie.
Mais l’intégration efficace de la mémoire et du traitement comporte ses propres défis car ils font des choses intrinsèquement différentes que vous ne voudriez pas interférer les unes avec les autres. Voilà donc les problèmes que des gens comme mes collègues et moi cherchons à contourner. Nous essayons de rechercher de nouveaux types de matériaux qui peuvent faciliter la conception de dispositifs de mémoire économes en énergie que nous pouvons empiler sur des processeurs.
Avez-vous des pensées finales?
Jariwala : À présent, il devrait être clair que nous avons un gorille de 800 livres dans la pièce ; nos ordinateurs et autres appareils deviennent des bêtes énergétiques insatiables que nous continuons à nourrir. Cela ne veut pas dire que l’IA et sa progression doivent s’arrêter car elle est incroyablement utile pour des applications importantes telles que l’accélération de la découverte de thérapies. Nous devons simplement rester conscients des effets et continuer à promouvoir des approches plus durables en matière de conception, de fabrication et de consommation.