L’optimisation pourrait réduire l’empreinte carbone de la formation à l’IA jusqu’à 75 %
Une nouvelle façon d’optimiser la formation des modèles d’apprentissage en profondeur, un outil en évolution rapide pour alimenter l’intelligence artificielle, pourrait réduire les demandes énergétiques de l’IA.
Développé à l’Université du Michigan, le cadre d’optimisation open source étudie les modèles d’apprentissage en profondeur pendant la formation, identifiant le meilleur compromis entre la consommation d’énergie et la vitesse de la formation.
« A des échelles extrêmes, la formation du modèle GPT-3 ne consomme qu’une seule fois 1 287 MWh, ce qui est suffisant pour alimenter un ménage américain moyen pendant 120 ans », a déclaré Mosharaf Chowdhury, professeur agrégé de génie électrique et d’informatique.
Avec Zeus, le nouveau cadre d’optimisation énergétique développé par Chowdhury et son équipe, des chiffres comme celui-ci pourraient être réduits jusqu’à 75 % sans nouveau matériel, et avec seulement des impacts mineurs sur le temps nécessaire pour former un modèle. Il a été présenté au Symposium USENIX 2023 sur la conception et la mise en œuvre de systèmes en réseau (NSDI), à Boston.
Les utilisations courantes des modèles d’apprentissage en profondeur lourds ont explosé au cours des trois dernières années, allant des modèles de génération d’images et des chatbots expressifs aux systèmes de recommandation alimentant TikTok et Amazon. Le cloud computing émettant déjà plus d’émissions que l’aviation commerciale, la charge climatique accrue de l’intelligence artificielle est une préoccupation importante.
« Les travaux existants se concentrent principalement sur l’optimisation de la formation en apprentissage profond pour un achèvement plus rapide, souvent sans tenir compte de l’impact sur l’efficacité énergétique », a déclaré Jae-Won Chung, doctorant en informatique et ingénierie et co-premier auteur de l’étude. « Nous avons découvert que l’énergie que nous injectons dans les GPU donne des rendements décroissants, ce qui nous permet de réduire considérablement la consommation d’énergie, avec relativement peu de ralentissement. »
L’apprentissage en profondeur est une famille de techniques utilisant des réseaux de neurones artificiels multicouches pour s’attaquer à une gamme de tâches courantes d’apprentissage automatique. Ceux-ci sont également connus sous le nom de réseaux de neurones profonds (DNN). Les modèles eux-mêmes sont extrêmement complexes, apprenant à partir de certains des ensembles de données les plus volumineux jamais utilisés dans l’apprentissage automatique. Pour cette raison, ils bénéficient grandement des capacités multitâches des unités de traitement graphique (GPU), qui consomment 70 % de la puissance nécessaire à la formation de l’un de ces modèles.
Zeus utilise deux boutons logiciels pour réduire la consommation d’énergie. L’un est la limite de puissance du GPU, qui réduit la consommation d’énergie d’un GPU tout en ralentissant l’entraînement du modèle jusqu’à ce que le paramètre soit à nouveau ajusté. L’autre est le paramètre de taille de lot du modèle d’apprentissage en profondeur, qui contrôle le nombre d’échantillons des données d’apprentissage sur lesquels le modèle fonctionne avant de mettre à jour la façon dont le modèle représente les relations qu’il trouve dans les données. Des tailles de lots plus élevées réduisent le temps de formation, mais avec une consommation d’énergie accrue.
Zeus est capable de régler chacun de ces paramètres en temps réel, en recherchant le point de compromis optimal auquel la consommation d’énergie est minimisée avec le moins d’impact possible sur le temps d’entraînement. Dans des exemples, l’équipe a pu démontrer visuellement ce point de compromis en montrant toutes les combinaisons possibles de ces deux paramètres. Bien que ce niveau de minutie ne se produise pas dans la pratique avec un travail de formation particulier, Zeus profitera de la nature répétitive de l’apprentissage automatique pour s’en approcher de très près.
« Heureusement, les entreprises forment le même DNN encore et encore sur des données plus récentes, aussi souvent que toutes les heures. Nous pouvons en savoir plus sur le comportement du DNN en observant ces récurrences », a déclaré Jie You, récemment diplômé d’un doctorat en informatique et ingénierie. et co-auteur principal de l’étude.
Zeus est le premier framework conçu pour se connecter aux flux de travail existants pour une variété de tâches d’apprentissage automatique et de GPU, réduisant la consommation d’énergie sans nécessiter de modifications du matériel ou de l’infrastructure du centre de données d’un système.
De plus, l’équipe a développé un logiciel complémentaire qu’elle superpose à Zeus pour réduire davantage l’empreinte carbone. Ce logiciel, appelé Chase, privilégie la vitesse lorsque l’énergie à faible émission de carbone est disponible et choisit l’efficacité au détriment de la vitesse pendant les heures de pointe, qui sont plus susceptibles de nécessiter une augmentation de la production d’énergie à forte intensité de carbone comme le charbon. Chase a pris la deuxième place au hackathon CarbonHack de l’année dernière et doit être présenté le 4 mai à l’atelier de la Conférence internationale sur les représentations d’apprentissage.
« Il n’est pas toujours possible de migrer facilement les tâches de formation DNN vers d’autres emplacements en raison de la taille des ensembles de données ou de la réglementation des données », a déclaré Zhenning Yang, étudiant à la maîtrise en informatique et ingénierie. « Reporter les tâches de formation à des délais plus verts n’est peut-être pas non plus une option, car les DNN doivent être formés avec les données les plus à jour et rapidement déployés en production pour obtenir la plus grande précision.
« Notre objectif est de concevoir et de mettre en œuvre des solutions qui n’entrent pas en conflit avec ces contraintes réalistes, tout en réduisant l’empreinte carbone de la formation DNN. »