Les modèles de grande langue sur la formation peuvent les rendre plus difficiles à affiner

Les modèles de grande langue sur la formation peuvent les rendre plus difficiles à affiner

Une petite équipe de chercheurs de l’IA de l’Université Carnegie Mellon, de l’Université de Stanford, de l’Université Harvard et de l’Université de Princeton, tous aux États-Unis, a constaté que si des modèles de grande langue sont surévalués, cela pourrait les rendre plus difficiles à affiner. Dans leur article publié sur le arxiv Préprint Server, le groupe a comparé l’impact de différentes quantités de formation sur un seul LLM.

Au cours des deux dernières années, alors que les chercheurs de l’IA cherchent à améliorer leurs produits pour les rendre plus «intelligents», beaucoup ont été motivés par le mantra que plus un modèle est donné, mieux le modèle sera finalement. Dans cette nouvelle étude, l’équipe de recherche a trouvé des preuves suggérant qu’il pourrait y avoir un point de rendement décroissant avec la formation du modèle de langue.

Les chercheurs sont arrivés à cette conclusion alors qu’ils testaient le retour lors de la formation de deux versions différentes du LLM OLMO-1B. Dans un scénario, ils l’ont formé à l’aide de 2,3 billions de jetons, tandis que dans l’autre, ils ont utilisé 3 billions de jetons. Ils ont ensuite comparé les scénarios en les testant avec plusieurs repères, tels que l’arc et l’alpacaval. Ce faisant, ils ont constaté que le modèle formé avec plus de jetons a fait pire lorsqu’il était testé – jusqu’à 3% pire.

Surpris par leurs résultats, ils ont effectué plus de tests et ont trouvé des résultats similaires, ce qui suggère qu’il y a un moment où davantage de formation commence à rendre les modèles moins « intelligents ». L’équipe de recherche l’appelle «surentraînement catastrophique» et suggère que cela est dû à ce qu’ils décrivent comme une «sensibilité progressive».

Ils suggèrent en outre que lorsque le nombre de jetons augmente, plus un modèle est fragile, ce qui signifie que le réglage fin, qui peut être considéré comme l’ajout de bruit, commence à inverser les gains d’amélioration qui ont été observés avant le point de contrainte.

Les modèles de langue excessive peuvent les rendre plus difficiles à régler

Pour tester leur théorie, ils ont ajouté du bruit gaussien à certains des modèles et ont constaté que cela conduisait au même type de dégradation des performances dont ils avaient été témoins plus tôt. Ils ont nommé le point de non-retour, le «point d’inflexion». Après ce moment, ils suggèrent que toute formation supplémentaire réduira la stabilité du modèle, ce qui rend plus difficile à régler de manière utile un ensemble d’applications souhaité.

Les chercheurs concluent en suggérant que pour aller de l’avant, les développeurs de modèles LLM peuvent avoir à faire des estimations concernant la quantité de formation suffisante ou, trouver d’autres types de méthodes qui permettront une formation supplémentaire avec un point d’inflexion plus éloigné.