L'innovation des communications pourrait considérablement améliorer le processus de formation de l'IA

L'intelligence artificielle (IA) est tristement célèbre pour sa formation lourde des ressources, mais une nouvelle étude a peut-être trouvé une solution dans un nouveau système de communication, appelé Zen, qui améliore considérablement la façon dont les modèles de langage grand (LLM).

L'équipe de recherche de l'Université Rice a été dirigée par le doctorat de Zhuang Wang et le professeur d'informatique TS Eugene avec les contributions de deux autres membres du corps professoral en informatique: le professeur adjoint Yuke Wang et le professeur Anshumali Shrivastava. Zhaozhuo Xu et Jingyi XI de l'Université de Stevens de l'Université de Zhejiang ont également contribué au projet.

Formation distribuée, rareté et communication

Wang a déclaré qu'il y a deux phases où les LLM peuvent goulot d'étranglement pendant le processus de formation distribué: le calcul et la communication.

Le premier se produit lorsque le modèle doit se craquer à travers une grande quantité de données. Il peut éliminer le système, consommer du temps et la puissance de calcul. La division des données entre des centaines, parfois des milliers d'unités de traitement graphique (GPU), aide à gérer ce problème. Ils traitent plusieurs échantillons de données séparément, puis les rendent dans le modèle.

Le deuxième goulot d'étranglement se produit lorsque tous ces GPU doivent se synchroniser afin qu'ils puissent « parler » au modèle et transmettre ce qu'ils ont appris. Ils ont besoin de communiquer efficacement entre eux pour terminer chaque entraînement en douceur et peuvent ralentir si les gradients du modèle qu'ils doivent synchroniser sont très grands, ce qu'ils sont souvent.

« La solution précédente était d'envoyer toutes les données. Mais dans la pratique, nous observons que les données ont beaucoup de valeurs nulles dans le » discours « », a déclaré Wang. « Nous avons besoin d'une structure de données pour représenter correctement les informations de communication. »

La suppression de ces valeurs zéro ou près de zéro et ne laisser que les personnes pertinentes à synchroniser pendant la communication est appelée «sparsification». Les valeurs qui restent sont bien nommées «tenseurs clairsemés». C'est une pratique courante dans la formation LLM et peut sauver au système l'effort de communiquer des milliards de gradients supplémentaires. Mais il laisse toujours le goulot d'étranglement de la communication, où l'équipe a concentré ses recherches.

« Il n'y a en fait pas beaucoup de compréhension fondamentale de la façon de soutenir ces tenseurs clairsemés à l'intérieur d'une formation distribuée », a déclaré Ng. « Les gens proposent l'idée, mais ils ne comprennent pas quelle est la manière optimale de les gérer. L'une des contributions de notre travail est d'analyser ces tenseurs clairsemés pour comprendre comment ils se comportent. »

Cartographier le système, trouver la structure

Il y avait essentiellement trois parties à cette recherche: la première partie était de déterminer les caractéristiques des tenseurs clairsemés dans des modèles populaires. Les gradients non nuls laissés après la sparsification ne sont pas uniformément distribués; Leur emplacement et leur densité du tenseur dépendent de facteurs tels que le modèle de formation et l'ensemble de données utilisés.

Cette diffusion des gradients non nul conduit à un déséquilibre pendant la phase de communication qui ralentit la synchronisation et, par extension, ralentit le processus de formation. Cette nouvelle compréhension met en lumière la façon de concevoir de meilleurs schémas de communication à utiliser avec des tenseurs clairsemés.

Une fois qu'ils savaient aborder leur conception, la deuxième partie était de déterminer les schémas de communication optimaux à utiliser. Wang et Ng ont analysé plusieurs options pour déterminer ce que c'était.

Parce qu'il n'y avait pas de solution optimale avant cette recherche, la troisième et dernière étape consistait à construire un système du monde réel basé sur leurs recherches et à appliquer ce système à une formation pratique LLM pour voir si cela fonctionnait. Zen était ce système, et il affichait une différence frappante de vitesse d'entraînement lorsqu'elle est utilisée sur des LLM du monde réel.

« Ce que nous montrons essentiellement, c'est que nous pouvons accélérer le temps de terminer la formation parce que la communication est plus efficace. … Le temps nécessaire pour effectuer une étape dans la formation est beaucoup plus rapide », a déclaré Ng.

Étant donné que les tenseurs clairsemés sont souvent utilisés et que le domaine de la formation LLM est si large, cette découverte peut être appliquée à à peu près n'importe quel modèle avec, comme l'a formulé, « les caractéristiques de la rareté ». Que ce soit la génération de texte ou d'image, le zen peut accélérer l'entraînement du modèle si des tenseurs clairsemés sont présents.

Wang n'est pas nouveau dans ce domaine de recherche. Lui et NG ont précédemment collaboré à un projet pour minimiser les frais généraux de récupération de défaillance des LLM après une défaillance matérielle ou logicielle pendant la formation, qu'ils ont nommé Gemini – inveiled au Symposium ACM sur les principes des systèmes d'exploitation en 2023.

Wang a récemment présenté son article sur cette nouvelle recherche, intitulée « Zen: Empowering Distributed Training with Sparsity axée sur la synchronisation des données », lors du 19e Symposium de l'USENIX sur la conception et la mise en œuvre des systèmes d'exploitation (OSDI) organisées à Boston.