Les changements pratiques pourraient réduire la demande d'énergie de l'IA jusqu'à 90%
L'intelligence artificielle (IA) peut être rendue plus durable en apportant des changements pratiques, tels que la réduction du nombre de décimales utilisées dans les modèles d'IA, le raccourcissement des réponses et l'utilisation de modèles d'IA plus petits, selon les recherches de l'UCL publiées dans un nouveau rapport de l'UNESCO.
Ces dernières années, l'utilisation de l'IA générative s'est développée rapidement, avec des modèles de langues importants (LLM) développés par des sociétés telles que OpenAI, META et Google devenant des noms de ménage. Par exemple, le service ChatGPT d'Openai, propulsé par le GPT-4 LLM, reçoit environ 1 milliard de requêtes chaque jour.
Chaque génération de LLMS est devenue plus sophistiquée que la dernière, mieux à même d'effectuer des tâches telles que la génération de texte ou la récupération des connaissances. Cela a conduit à une demande croissante et croissante de ressources telles que l'électricité et l'eau, qui sont nécessaires pour exécuter les centres de données où ces modèles d'IA sont formés et déployés.
Le rapport, qui sera présenté cette semaine à l'IA pour le bon sommet mondial à Genève, évalue l'impact potentiel des solutions existantes au problème qui, si elle était adoptée plus largement, pourrait réduire considérablement l'énergie et la demande de ressources de l'IA.
Des chercheurs de l'UCL Computer Science ont mené une série d'expériences sur le modèle LLAMA 3.1 8B de Meta pour évaluer l'impact des modifications de la façon dont les modèles d'IA sont configurés et utilisés sur la quantité d'énergie dont ils ont besoin et comment cela affecte les performances. Ce modèle a été choisi car il est open source et entièrement modifiable, permettant aux chercheurs de tester la version non optimisée par rapport à une gamme de techniques d'optimisation (ce qui n'est pas possible avec des modèles fermés comme GPT-4).
Ils ont constaté qu'en arrondissant les nombres utilisés dans les calculs internes des modèles, en raccourcissant les instructions des utilisateurs et les réponses d'IA, et l'utilisation de modèles d'IA plus petits spécialisés pour effectuer certaines tâches, une réduction combinée d'énergie de 90% pourrait être obtenue par rapport à l'utilisation d'un modèle d'IA polyvalent important.
Le professeur Ivana Drobnjak, un auteur du rapport de l'UCL Computer Science et membre de la présidente de l'UNESCO dans l'IA de l'UCL, a déclaré: « Nos recherches montrent qu'il existe des étapes relativement simples que nous pouvons prendre pour réduire considérablement les demandes d'énergie et de ressources de l'IA générative, sans sacrification de la précision et sans inventer entièrement de nouvelles solutions.
« Bien que certaines plates-formes d'IA explorent et mettent déjà en œuvre des solutions telles que celles que nous proposons, il y en a beaucoup d'autres en plus de celles que nous avons examinées. L'adoption en gros de mesures d'économie d'énergie, car la norme aurait le plus grand impact. »
Arrondir pour économiser de l'énergie
Dans la première expérience, les chercheurs ont évalué la précision du modèle LLAMA 3.1 8B de Meta lors de l'exécution de tâches communes (résumé des textes, traduire les langues et répondre aux questions générales de connaissances), ainsi que sa consommation d'énergie, dans différentes conditions.
Dans un processus appelé tokenisation, les LLMS convertissent les mots de l'invite de l'utilisateur en nombres (jetons), qui sont utilisés pour effectuer les calculs impliqués dans la tâche, avant de convertir les nombres en mots pour fournir une réponse.
En appliquant une méthode appelée quantification (en utilisant moins de décimales pour arronter les nombres utilisés dans les calculs), la consommation d'énergie du modèle a chuté jusqu'à 44% tout en maintenant une précision d'au moins 97% par rapport à la ligne de base. En effet, il est plus facile d'atteindre la réponse, de la même manière que la plupart des gens pourraient calculer deux plus deux beaucoup plus rapidement que le calcul de 2,34 plus 2.17, par exemple.
L'équipe a également comparé Llama 3.1 8b à des modèles d'IA plus petits construits pour se spécialiser dans chacune des trois tâches. Les petits modèles ont utilisé 15 fois moins d'énergie pour le résumé, 35 fois moins d'énergie pour la traduction et 50 fois moins d'énergie pour la réponse aux questions.
La précision était comparable au modèle plus grand, avec un petit modèle effectuant 4% plus précisément pour le résumé, 2% pour la traduction et 3% pour la réponse aux questions.
Raccourcir les questions et les réponses
Dans la deuxième expérience, les chercheurs ont évalué l'impact sur la consommation d'énergie de la modification de la durée de l'invite de l'utilisateur (instructions) et de la réponse du modèle (réponse).
Ils ont calculé la consommation d'énergie pour 1 000 scénarios, variant la durée de l'invite utilisateur et la réponse du modèle d'environ 400 mots anglais à 100 mots anglais.
La combinaison la plus longue (invite de 400 mots et réponse de 400 mots) a utilisé 1,03 kilo-watts (kWh) d'électricité, suffisamment pour alimenter une ampoule de 100 watts pendant 10 heures ou un réfrigérateur-congélateur pendant 26 heures.
La réduction de moitié de la longueur de l'invite de l'utilisateur à 200 mots a réduit la dépense énergétique de 5%, tout en réduisant de moitié la durée de réponse du modèle à 200 mots réduisant la consommation d'énergie de 54%.
Évaluation de l'impact du monde réel
Pour évaluer l'impact global des optimisations testées, les auteurs ont demandé à LLAMA 3.1 8B de fournir une réponse à une question spécifique. Ils ont ensuite calculé l'énergie requise pour le faire, multipliée par le nombre quotidien estimé de demandes de ce type de tâche par les utilisateurs du service de service AI populaire4.
Ils ont estimé que l'utilisation de la quantification, combinée à la réduction de l'invite de l'utilisateur et de la longueur de réponse de l'IA de 300 à 150 mots, pourrait réduire la consommation d'énergie de 75%.
En une seule journée, cette économie équivaudrait à la quantité d'électricité nécessaire pour alimenter 30 000 ménages au Royaume-Uni moyens (en supposant 7,4 kilowattheures par maison par jour). Surtout, cette économie serait réalisée sans que le modèle perde la capacité de traiter des tâches générales plus complexes.
Pour les tâches répétitives telles que la traduction et le résumé, les plus grandes économies ont été réalisées en utilisant de petits modèles spécialisés et une durée de réponse / réponse réduite, ce qui a réduit la consommation d'énergie de plus de 90% (suffisamment pour alimenter 34 000 ménages britanniques pour une journée).
Hristijan Bosilkovski, un auteur du rapport et un diplômé de l'UCL MSC en science des données et en apprentissage automatique, a déclaré: « Il y aura des moments où il sera logique d'utiliser un modèle d'IA large et polyvalent, comme pour les tâches complexes ou la recherche et le développement.
« Mais les plus grands gains d'efficacité énergétique peuvent être réalisés en passant de grands modèles à des modèles plus petits et spécialisés dans certaines tâches telles que la traduction ou la récupération des connaissances. C'est un peu comme utiliser un marteau pour entraîner un clou, plutôt qu'un marteau. »
Regarder vers l'avenir
Les auteurs du rapport indiquent que, à mesure que la concurrence dans les modèles d'IA génératives augmente, il deviendra plus important pour les entreprises de rationaliser les modèles, ainsi que l'utilisation de modèles plus petits mieux adaptés à certaines tâches.
Leona Verdadero, un auteur du rapport et spécialiste du programme de la section des politiques numériques et transformations numériques de l'UNESCO, a déclaré: « Trop souvent, les utilisateurs comptent sur des modèles d'IA surdimensionnés pour des tâches simples, c'est comme utiliser un tuyau d'incendie pour arroser une usine de maison. Révolution à la fois durable et accessible. «
Le Dr Maria Perez Ortiz, un auteur du rapport de l'UCL Computer Science et membre de la présidente de l'UNESCO dans l'IA de l'UCL, a déclaré: « L'avenir des modèles d'IA génératifs réside dans l'efficacité, et non en excès. Nous voulons résoudre les défis avec les modèles plus intelligents, pas nécessairement en consommant plus de ressources. Les stratégies proposées dans notre rapport ne réduisent pas seulement les ressources énergétiques et l'amélioration de la vitesse du modèle, mais ils nécessitent également beaucoup moins de calcul des ressources et des ressources énergétiques.
« Ils sont facilement accessibles, et certains sont déjà utilisés à cet effet par la génération plus récente et à venir de modèles d'IA. »
Le professeur Drobnjak a ajouté: «Lorsque nous parlons de l'avenir de l'IA économe en ressources, j'utilise souvent deux métaphores. L'une est une« collection de cerveaux », beaucoup de modèles spécialisés distincts qui transmettent des messages dans les deux sens, ce qui peut économiser de l'énergie mais se sentir fragmenté. L'autre métaphore, et l'avenir qui me passionne le plus, ressemble plus à un seul cerveau avec des régions distinctes, qui est étroitement connectée, partageant une mémoire, mais capable d'allumer uniquement les circuits dont il a besoin. C'est comme apporter l'efficacité d'un cortex finement réglé à une IA générative: plus intelligente, plus maigre et beaucoup moins de ressources. «
