Mesurer les progrès algorithmiques dans les modèles de langage

Mesurer les progrès algorithmiques dans les modèles de langage

En 2012, les meilleurs modèles linguistiques étaient de petits réseaux récurrents qui peinaient à former des phrases cohérentes. Avance rapide jusqu’à aujourd’hui, et les grands modèles linguistiques comme GPT-4 surpassent la plupart des étudiants du SAT. Comment ces progrès rapides ont-ils été possibles ?

Dans un nouveau journal publié sur le arXiv serveur de préimpression, des chercheurs d'Epoch, du MIT FutureTech et de la Northeastern University ont entrepris de faire la lumière sur cette question. Leurs recherches décomposent les moteurs du progrès des modèles de langage en deux facteurs : l’augmentation de la quantité de calcul utilisée pour former les modèles de langage et les innovations algorithmiques. Ce faisant, ils effectuent à ce jour l’analyse la plus approfondie des progrès algorithmiques dans les modèles de langage.

Leurs résultats montrent qu’en raison des améliorations algorithmiques, le calcul nécessaire pour entraîner un modèle de langage à un certain niveau de performance a été réduit de moitié environ tous les huit mois. « Ce résultat est crucial pour comprendre les progrès historiques et futurs des modèles de langage », déclare Anson Ho, l'un des deux principaux auteurs de l'article. « Bien que la mise à l'échelle du calcul ait été cruciale, elle ne constitue qu'une partie du puzzle. Pour avoir une vue d'ensemble, vous devez également prendre en compte les progrès algorithmiques. »

La méthodologie de l'article s'inspire des « lois d'échelle neuronale » : des relations mathématiques qui prédisent les performances du modèle de langage en fonction de certaines quantités de calculs, de données d'entraînement ou de paramètres du modèle de langage. En compilant un ensemble de données de plus de 200 modèles de langage depuis 2012, les auteurs ont ajusté une loi d'échelle neuronale modifiée qui prend en compte les améliorations algorithmiques au fil du temps.

Sur la base de ce modèle ajusté, les auteurs effectuent une analyse d'attribution des performances, constatant que la mise à l'échelle du calcul a été plus importante que les innovations algorithmiques pour améliorer les performances dans la modélisation du langage. En fait, ils constatent que l’importance relative des améliorations algorithmiques a diminué avec le temps.

« Cela n'implique pas nécessairement que les innovations algorithmiques ralentissent », explique Tamay Besiroglu, qui a également codirigé l'article. « Notre explication préférée est que les progrès algorithmiques sont restés à un rythme à peu près constant, mais que le calcul a été considérablement intensifié, ce qui fait que le premier semble relativement moins important. »

Les calculs des auteurs soutiennent ce cadrage, dans lequel ils trouvent une accélération de la croissance du calcul, mais aucune preuve d'une accélération ou d'un ralentissement des améliorations algorithmiques.

En modifiant légèrement le modèle, ils ont également quantifié l'importance d'une innovation clé dans l'histoire de l'apprentissage automatique : le Transformer, qui est devenu l'architecture de modèle de langage dominante depuis son introduction en 2017. Les auteurs constatent que les gains d'efficacité offerts par le Transformer correspondent à près de deux années de progrès algorithmiques dans le domaine, soulignant l’importance de son invention.

Bien que vaste, l’étude présente plusieurs limites. « L'un des problèmes récurrents que nous avons rencontrés était le manque de données de qualité, ce qui peut rendre le modèle difficile à ajuster », explique Ho. « Notre approche ne mesure pas non plus les progrès algorithmiques sur les tâches en aval telles que les problèmes de codage et de mathématiques, pour lesquels les modèles de langage peuvent être optimisés. »

Malgré ces lacunes, leurs travaux constituent une avancée majeure dans la compréhension des moteurs du progrès de l’IA. Leurs résultats contribuent à faire la lumière sur la façon dont les développements futurs de l’IA pourraient se dérouler, avec des implications importantes pour la politique en matière d’IA.

« Ce travail, dirigé par Anson et Tamay, a des implications importantes pour la démocratisation de l'IA », a déclaré Neil Thompson, co-auteur et directeur du MIT FutureTech. « Ces améliorations d'efficacité signifient que chaque année, des niveaux de performances de l'IA qui étaient hors de portée deviennent accessibles à un plus grand nombre d'utilisateurs. »

« Les LLM se sont améliorés à un rythme effréné ces dernières années. Cet article présente l'analyse la plus approfondie à ce jour des contributions relatives des innovations matérielles et algorithmiques aux progrès des performances des LLM », déclare Lukas Finnveden, chercheur en philanthropie ouverte. impliqué dans le journal.

« C'est une question qui me tient beaucoup à cœur, car elle détermine directement le rythme des progrès supplémentaires auxquels nous devrions nous attendre à l'avenir, ce qui aidera la société à se préparer à ces progrès. Les auteurs adaptent un certain nombre de modèles statistiques à un vaste ensemble de données. des évaluations LLM historiques et utilisent une validation croisée approfondie pour sélectionner un modèle avec de fortes performances prédictives. Ils fournissent également une bonne idée de la façon dont les résultats varieraient selon différentes hypothèses raisonnables, en effectuant de nombreux contrôles de robustesse.

« Dans l'ensemble, les résultats suggèrent que l'augmentation du calcul a été et continuera d'être responsable de la majorité des progrès du LLM tant que les budgets de calcul continueront d'augmenter de ≥4 fois par an. Cependant, les progrès algorithmiques sont significatifs et pourraient constituer la majorité des progrès. si le rythme de l'augmentation des investissements ralentit. »