Des modèles linguistiques plus légers pourraient permettre une utilisation locale efficace sur les téléphones et les ordinateurs portables

Les grands modèles linguistiques (LLM) automatisent de plus en plus des tâches telles que la traduction, la classification de textes et le service client. Mais pour exploiter la puissance d'un LLM, les utilisateurs doivent généralement envoyer leurs demandes à un serveur centralisé, un processus coûteux, gourmand en énergie et souvent lent.

Aujourd'hui, les chercheurs ont introduit une technique permettant de compresser les quantités de données d'un LLM, ce qui pourrait accroître la confidentialité, économiser de l'énergie et réduire les coûts. Leurs conclusions sont publiées sur le arXiv serveur de préimpression.

Le nouvel algorithme, développé par des ingénieurs de Princeton et Stanford Engineering, fonctionne en supprimant les redondances et en réduisant la précision des couches d'informations d'un LLM. Ce type de LLM plus simple pourrait être stocké et accessible localement sur un appareil comme un téléphone ou un ordinateur portable et pourrait fournir des performances presque aussi précises et nuancées qu'une version non compressée.

« Chaque fois que vous pouvez réduire la complexité informatique, les besoins de stockage et de bande passante liés à l'utilisation de modèles d'IA, vous pouvez activer l'IA sur des appareils et des systèmes qui autrement ne pourraient pas gérer de telles tâches gourmandes en calcul et en mémoire », a déclaré Andrea Goldsmith, co-auteur de l'étude. , doyen de l'École d'ingénierie et de sciences appliquées de Princeton et professeur Arthur LeGrand Doty de génie électrique et informatique.

« Lorsque vous utilisez ChatGPT, quelle que soit la demande que vous faites, elle est transmise aux serveurs principaux d'OpenAI, qui traitent toutes ces données, et cela coûte très cher », a déclaré le co-auteur Rajarshi Saha, titulaire d'un doctorat en ingénierie à Stanford. étudiant. « Donc, vous voulez pouvoir faire cette inférence LLM en utilisant des GPU grand public [graphics processing units]et la façon d'y parvenir est de compresser ces LLM. » Les travaux de troisième cycle de Saha sont co-dirigés par Goldsmith et co-auteur Mert Pilanci, professeur adjoint à Stanford Engineering.

Les chercheurs présenteront leur nouvel algorithme CALDERA, qui signifie Calibration Aware Low Precision DEcomposition with low Rank Adaptation, lors de la conférence sur les systèmes de traitement de l'information neuronale (NeurIPS) en décembre. Saha et ses collègues ont commencé cette recherche sur la compression non pas avec les LLM eux-mêmes, mais avec les vastes collections d'informations utilisées pour former les LLM et d'autres modèles d'IA complexes, tels que ceux utilisés pour la classification des images. Cette technique, précurseur de la nouvelle approche de compression LLM, a été publiée en 2023.

Les ensembles de données d'entraînement et les modèles d'IA sont tous deux composés de matrices ou de grilles de nombres utilisées pour stocker les données. Dans le cas des LLM, celles-ci sont appelées matrices de poids, qui sont des représentations numériques de modèles de mots appris à partir de grandes parties de texte.

« Nous avons proposé un algorithme générique pour compresser de grands ensembles de données ou de grandes matrices », a déclaré Saha. « Et puis nous avons réalisé qu'aujourd'hui, ce ne sont pas seulement les ensembles de données qui sont volumineux, mais les modèles déployés deviennent également volumineux. Nous pourrions donc également utiliser notre algorithme pour compresser ces modèles. »

Bien que l'algorithme de l'équipe ne soit pas le premier à compresser les LLM, sa nouveauté réside dans une combinaison innovante de deux propriétés, l'une dite « de faible précision », l'autre de « faible rang ». Étant donné que les ordinateurs numériques stockent et traitent les informations sous forme de bits (zéros et uns), la représentation « basse précision » réduit le nombre de bits, accélérant ainsi le stockage et le traitement tout en améliorant l'efficacité énergétique. D'un autre côté, « de bas rang » fait référence à la réduction des redondances dans les matrices de pondération LLM.

« En utilisant ces deux propriétés ensemble, nous sommes en mesure d'obtenir beaucoup plus de compression que ce que chacune de ces techniques peut obtenir individuellement », a déclaré Saha.

L'équipe a testé leur technique en utilisant Llama 2 et Llama 3, de grands modèles de langage open source publiés par Meta AI, et a constaté que leur méthode, qui utilisait des composants de bas rang et de faible précision en tandem les uns avec les autres, pouvait être utilisée pour améliorer d'autres méthodes qui utilisent uniquement une faible précision. L’amélioration peut aller jusqu’à 5 %, ce qui est significatif pour les mesures mesurant l’incertitude dans la prédiction des séquences de mots.

Ils ont évalué les performances des modèles de langage compressés à l'aide de plusieurs ensembles de tâches de référence pour les LLM. Les tâches consistaient notamment à déterminer l'ordre logique de deux énoncés ou à répondre à des questions impliquant un raisonnement physique, telles que comment séparer un blanc d'œuf d'un jaune ou comment préparer une tasse de thé.

« Je pense qu'il est encourageant et un peu surprenant que nous ayons pu obtenir d'aussi bonnes performances dans ce système de compression », a déclaré Goldsmith, qui a quitté Stanford Engineering pour Princeton en 2020. « En tirant parti de la matrice de poids plutôt qu'en utilisant simplement un algorithme de compression générique pour les bits qui représentent la matrice de poids, nous avons pu faire bien mieux. »

Utiliser un LLM compressé de cette manière pourrait convenir à des situations qui ne nécessitent pas la plus grande précision possible. De plus, la possibilité d'affiner les LLM compressés sur des appareils de pointe comme un smartphone ou un ordinateur portable améliore la confidentialité en permettant aux organisations et aux individus d'adapter les modèles à leurs besoins spécifiques sans partager de données sensibles avec des fournisseurs tiers. Cela réduit le risque de violations de données ou d’accès non autorisé à des informations confidentielles pendant le processus de formation. Pour ce faire, les LLM doivent initialement être suffisamment compressés pour pouvoir être installés sur des GPU grand public.

Saha a également averti que l'exécution de LLM sur un smartphone ou un ordinateur portable pourrait monopoliser la mémoire de l'appareil pendant un certain temps. « Vous ne serez pas heureux si vous dirigez un LLM et que votre téléphone se décharge en une heure », a déclaré Saha.

Un calcul de faible précision peut contribuer à réduire la consommation d’énergie, a-t-il ajouté. « Mais je ne dirais pas qu'il existe une seule technique qui résout tous les problèmes. Ce que nous proposons dans cet article est une technique utilisée en combinaison avec les techniques proposées dans des travaux antérieurs. Et je pense que cette combinaison nous permettra d'utiliser les LLM. sur les appareils mobiles plus efficacement et obtenez des résultats plus précis. »