L'ordinateur le plus rapide du monde s'attaque à la modélisation de langages à grande échelle

L'ordinateur le plus rapide du monde s'attaque à la modélisation de langages à grande échelle

Une équipe dirigée par des chercheurs du laboratoire national d'Oak Ridge du ministère de l'Énergie a exploré des stratégies de formation pour l'un des plus grands modèles d'intelligence artificielle à ce jour, avec l'aide du supercalculateur le plus rapide au monde.

Les résultats pourraient aider à orienter la formation pour une nouvelle génération de modèles d’IA pour la recherche scientifique.

L'étude menée par Sajal Dash de l'ORNL, Feiyi Wang et Prasanna Balaprakash a utilisé Frontier, le premier supercalculateur exascale au monde, pour exécuter les premières étapes de la formation sur un grand modèle de langage similaire au ChatGPT d'OpenAI. L'équipe de recherche a utilisé un ensemble de données de test pour projeter comment des modèles comportant 22 milliards, 175 milliards et 1 000 milliards de paramètres, ou variables, pourraient fonctionner sur 128, puis 384 des plus de 9 400 nœuds de Frontier. L'équipe n'a pas tenté de former un modèle complet jusqu'à son achèvement.

L'ouvrage est publié sur le arXiv serveur de préimpression.

« Cette étude et nos résultats ne sont pas tant un manuel qu'un ensemble potentiel de lignes directrices pour les utilisateurs formant un grand modèle », a déclaré Dash. « Ils peuvent s'appuyer sur notre expérience pour décider comment utiliser les ressources de Frontier pour entraîner leur modèle particulier et utiliser le plus efficacement possible le temps de calcul qui leur est imparti. »

L’équipe présentera l’étude lors de la Conférence internationale sur le calcul intensif haute performance 2024 en mai à Hambourg, en Allemagne. Les scientifiques Isaac Lyngaas, Junqi Yin, Xiao Wang et Guojing Cong de l'ORNL et Romaine Egele de l'Université Paris-Saclay ont également collaboré à l'étude.

L’étude s’est moins concentrée sur le développement de modèles que sur l’identification des moyens les plus efficaces d’exploiter les unités de traitement graphique, ou GPU, qui alimentent Frontier et les supercalculateurs similaires et de les mettre au travail pour former une IA. Chacun des nœuds de Frontier s'appuie sur quatre GPU AMD MI250X pour un total de plus de 75 000 GPU.

La formation s'est déroulée pendant quelques heures sur environ 100 millions de jetons (unités de texte de base telles que des mots et des caractères) de données de test. Cela représente environ un dix millième des données nécessaires pour entraîner jusqu’à son terme un modèle comportant des milliards de paramètres et une fraction encore plus petite du temps nécessaire.

L’équipe de recherche a utilisé les données de ces exécutions pour calculer les performances d’un modèle comportant des milliards de paramètres s’il était entraîné jusqu’à son terme sur Frontier.

« Cette étude était en grande partie un exercice visant à montrer que nous pouvons entraîner cette taille particulière de modèle sur Frontier à cette échelle particulière avec ce niveau d'efficacité particulier », a déclaré Wang. « Nous n'avons pas encore atteint la ligne d'arrivée d'un grand modèle de langage complet. »

Les grands modèles de langage imitent vaguement la capacité du cerveau humain à apprendre et à reconnaître des modèles de mots et de chiffres et à améliorer cet apprentissage au fil du temps grâce à une formation supplémentaire. L’objectif : concevoir un modèle capable d’absorber et d’ajuster les leçons apprises sur les données de formation et d’appliquer ces connaissances de manière cohérente et précise à des données et tâches nouvelles et inconnues.

Les vastes ensembles de données et les processeurs puissants nécessaires à une telle formation sont restés pour la plupart hors de portée des universitaires et en possession d’entreprises privées, qui ont tendance à protéger ces ressources comme étant exclusives et à fixer des conditions strictes d’utilisation. Ces conditions limitent généralement les opportunités de recherche et ne permettent pas de vérifier facilement les résultats.

Mais des superordinateurs de pointe comme Frontier, qui accorde du temps de calcul aux chercheurs scientifiques dans le cadre du programme Innovative and Novel Computational Impact on Theory and Experiment du DOE, pourraient permettre à une nouvelle génération de modèles d'IA d'être formés plus rapidement si les scientifiques trouvent la bonne approche.

« Traditionnellement, ce processus reposait sur des connaissances spécialisées ou sur des essais et des erreurs », a déclaré Balaprakash, directeur des programmes d'IA de l'ORNL. « L'un des points forts de notre travail dans cette étude est l'automatisation de l'identification de stratégies hautement performantes parmi une vaste gamme d'options. Nous avons exploité DeepHyper, un logiciel de réglage évolutif open source, pour déterminer automatiquement les paramètres optimaux.

« Nous prévoyons d'étendre cette approche automatisée pour affiner les performances au niveau du système et améliorer l'efficacité à une échelle extrême. De plus, nous avons démocratisé nos méthodologies et nos logiciels au profit de la communauté scientifique. Cette stratégie garantit que nos informations sont largement accessibles. pour de futures recherches sur la formation de grands modèles de base d’IA en science. »

Plus le modèle et ses ensembles de données d'entraînement sont volumineux, meilleures sont ses performances, mais également plus sa demande en puissance de calcul est élevée. La formation d'un modèle de langage comportant des milliers de milliards de paramètres, depuis les étapes initiales jusqu'à son achèvement, sans optimisation, prendrait des mois, même aux vitesses les plus rapides de Frontier.

L'étude ORNL a examiné les approches du parallélisme des données – un processus utilisé par les superordinateurs comme Frontier pour diviser un problème important en problèmes plus petits afin de parvenir à une solution plus rapidement – ​​pour former l'IA et comment transférer cette formation sur des cadres propriétaires de GPU fabriqués par des fournisseurs concurrents.

« Il s'agit de trouver la meilleure combinaison de stratégies de formation tout en obtenant le meilleur débit », a déclaré Dash. « La plupart des frameworks d'apprentissage en profondeur ciblent les GPU fabriqués par NVIDIA plutôt que les GPU fabriqués par AMD qui alimentent Frontier. Nous voulions voir si les modèles existants pouvaient fonctionner sur Frontier, comment tirer le meilleur parti de la puissance de calcul de Frontier et comment y parvenir. niveau de performances possible sur les plates-formes GPU.

« Nous ne pouvons pas entraîner un modèle de cette taille sur un seul GPU ou un seul nœud, par exemple, et chaque fois que nous franchissons la barrière entre les nœuds, cela nécessite plus de communication, cela prend plus de temps. Comment diviser le modèle entre les GPU afin que nous pouvons adapter et entraîner le modèle sans perdre trop de temps et d'énergie en communication entre les nœuds ? »

Les chercheurs ont découvert qu'un mélange de stratégies de parallélisme fonctionnait mieux lorsqu'elles étaient adaptées à la plate-forme informatique, mais ont déclaré que leur travail était loin d'être terminé.

« L'efficacité que nous avons obtenue sur Frontier avec ce modèle était correcte mais pas suffisamment », a déclaré Wang. « À une échelle extrême, nous avons atteint une efficacité de 30 %, ce qui signifie que nous avons laissé environ 70 % de la puissance de calcul de Frontier au sol. Nous avons besoin de beaucoup plus d'optimisation pour rendre la machine plus efficace à cette échelle.

Les prochaines étapes de l'équipe comprennent la formation plus approfondie d'un modèle avec des données scientifiques évaluées par des pairs sur davantage de nœuds.