La nouvelle technique LiGO accélère la formation de grands modèles d’apprentissage automatique
Ce n’est un secret pour personne que ChatGPT d’OpenAI a des capacités incroyables – par exemple, le chatbot peut écrire de la poésie qui ressemble à des sonnets shakespeariens ou déboguer du code pour un programme informatique. Ces capacités sont rendues possibles par le modèle d’apprentissage automatique massif sur lequel ChatGPT est construit. Les chercheurs ont découvert que lorsque ces types de modèles deviennent suffisamment grands, des capacités extraordinaires émergent.
Mais les modèles plus grands nécessitent également plus de temps et d’argent pour s’entraîner. Le processus de formation consiste à montrer des centaines de milliards d’exemples à un modèle. La collecte d’autant de données est un processus complexe en soi. Viennent ensuite les coûts monétaires et environnementaux liés à l’utilisation de nombreux ordinateurs puissants pendant des jours ou des semaines pour former un modèle qui peut avoir des milliards de paramètres.
« Il a été estimé que la formation de modèles à l’échelle de ce sur quoi ChatGPT est supposé fonctionner pourrait prendre des millions de dollars, juste pour une seule formation. Pouvons-nous améliorer l’efficacité de ces méthodes de formation, afin que nous puissions toujours obtenir de bons modèles en moins temps et pour moins d’argent ? Nous proposons de le faire en tirant parti de modèles de langage plus petits qui ont déjà été formés », explique Yoon Kim, professeur adjoint au département de génie électrique et informatique du MIT et membre du laboratoire d’informatique et d’intelligence artificielle. (CSAIL).
Plutôt que de jeter une version précédente d’un modèle, Kim et ses collaborateurs l’utilisent comme éléments de base pour un nouveau modèle. À l’aide de l’apprentissage automatique, leur méthode apprend à « agrandir » un modèle plus grand à partir d’un modèle plus petit d’une manière qui encode les connaissances que le modèle plus petit a déjà acquises. Cela permet une formation plus rapide du plus grand modèle.
Leur technique permet d’économiser environ 50 % du coût de calcul requis pour former un grand modèle, par rapport aux méthodes qui forment un nouveau modèle à partir de zéro. De plus, les modèles formés à l’aide de la méthode MIT ont obtenu des résultats aussi bons, voire meilleurs, que les modèles formés avec d’autres techniques qui utilisent également des modèles plus petits pour permettre une formation plus rapide de modèles plus grands.
Réduire le temps nécessaire pour former d’énormes modèles pourrait aider les chercheurs à progresser plus rapidement à moindre coût, tout en réduisant les émissions de carbone générées pendant le processus de formation. Cela pourrait également permettre à de plus petits groupes de recherche de travailler avec ces modèles massifs, ouvrant potentiellement la porte à de nombreuses nouvelles avancées.
« Alors que nous cherchons à démocratiser ces types de technologies, rendre la formation plus rapide et moins coûteuse deviendra plus important », déclare Kim, auteur principal d’un article sur cette technique.
Kim et son étudiant diplômé Lucas Torroba Hennigen ont écrit l’article avec l’auteur principal Peihao Wang, étudiant diplômé de l’Université du Texas à Austin, ainsi que d’autres au MIT-IBM Watson AI Lab et à l’Université de Columbia. La recherche sera présentée au Conférence internationale sur les représentations de l’apprentissagedu 1er au 5 mai.
Le plus gros le meilleur
Les grands modèles de langage comme GPT-3, qui est au cœur de ChatGPT, sont construits à l’aide d’une architecture de réseau neuronal appelée transformateur. Un réseau neuronal, vaguement basé sur le cerveau humain, est composé de couches de nœuds interconnectés, ou « neurones ». Chaque neurone contient des paramètres, qui sont des variables apprises au cours du processus de formation que le neurone utilise pour traiter les données.
Les architectures de transformateur sont uniques car, à mesure que ces types de modèles de réseaux neuronaux grossissent, ils obtiennent de bien meilleurs résultats.
« Cela a conduit à une course aux armements d’entreprises essayant de former des transformateurs de plus en plus grands sur des ensembles de données de plus en plus grands. Plus que d’autres architectures, il semble que les réseaux de transformateurs s’améliorent beaucoup avec la mise à l’échelle. Nous ne savons tout simplement pas exactement pourquoi c’est l’affaire », dit Kim.
Ces modèles ont souvent des centaines de millions ou des milliards de paramètres apprenables. La formation de tous ces paramètres à partir de zéro est coûteuse, les chercheurs cherchent donc à accélérer le processus.
Une technique efficace est connue sous le nom de croissance de modèle. En utilisant la méthode de croissance du modèle, les chercheurs peuvent augmenter la taille d’un transformateur en copiant des neurones, voire des couches entières d’une version précédente du réseau, puis en les empilant dessus. Ils peuvent élargir un réseau en ajoutant de nouveaux neurones à une couche ou le rendre plus profond en ajoutant des couches supplémentaires de neurones.
Contrairement aux approches précédentes pour la croissance du modèle, les paramètres associés aux nouveaux neurones dans le transformateur étendu ne sont pas simplement des copies des paramètres du réseau plus petit, explique Kim. Il s’agit plutôt de combinaisons apprises des paramètres du plus petit modèle.
Apprendre à grandir
Kim et ses collaborateurs utilisent l’apprentissage automatique pour apprendre une cartographie linéaire des paramètres du plus petit modèle. Cette carte linéaire est une opération mathématique qui transforme un ensemble de valeurs d’entrée, dans ce cas les paramètres du plus petit modèle, en un ensemble de valeurs de sortie, dans ce cas les paramètres du plus grand modèle.
Leur méthode, qu’ils appellent un opérateur de croissance linéaire appris (LiGO), apprend à étendre la largeur et la profondeur d’un réseau plus large à partir des paramètres d’un réseau plus petit d’une manière basée sur les données.
Mais le plus petit modèle peut en fait être assez grand – peut-être qu’il a cent millions de paramètres – et les chercheurs pourraient vouloir créer un modèle avec un milliard de paramètres. Ainsi, la technique LiGO divise la carte linéaire en petits morceaux qu’un algorithme d’apprentissage automatique peut gérer.
LiGO augmente également simultanément la largeur et la profondeur, ce qui le rend plus efficace que les autres méthodes. Un utilisateur peut régler la largeur et la profondeur du modèle plus grand lorsqu’il saisit le modèle plus petit et ses paramètres, explique Kim.
Lorsqu’ils ont comparé leur technique au processus de formation d’un nouveau modèle à partir de zéro, ainsi qu’aux méthodes de croissance de modèles, c’était plus rapide que toutes les lignes de base. Leur méthode permet d’économiser environ 50 % des coûts de calcul nécessaires pour entraîner à la fois les modèles de vision et de langage, tout en améliorant souvent les performances.
Les chercheurs ont également découvert qu’ils pouvaient utiliser LiGO pour accélérer la formation des transformateurs même lorsqu’ils n’avaient pas accès à un modèle plus petit et préformé.
« J’ai été surpris de voir à quel point toutes les méthodes, y compris la nôtre, étaient meilleures que les lignes de base d’initialisation aléatoire et d’entraînement à partir de zéro. » dit Kim.
À l’avenir, Kim et ses collaborateurs sont impatients d’appliquer LiGO à des modèles encore plus grands.