L'approche améliore la façon dont les nouvelles compétences sont enseignées à de grands modèles de langue
Les chercheurs ont développé une technique qui améliore considérablement les performances des grands modèles de langage sans augmenter la puissance de calcul nécessaire pour affiner les modèles. Les chercheurs ont démontré que leur technique améliore les performances de ces modèles par rapport aux techniques précédentes dans les tâches, notamment le raisonnement de bon sens, le raisonnement arithmétique, l'instruction suivant, la génération de code et la reconnaissance visuelle.
Les modèles de grands langues sont des systèmes d'intelligence artificielle qui sont pré-entraînés sur d'énormes ensembles de données. Après pré-formation, ces modèles prédisent quels mots doivent se suivre pour répondre aux requêtes utilisateur. Cependant, la nature non spécifique de la pré-formation signifie qu'il y a suffisamment de place à l'amélioration avec ces modèles lorsque les requêtes de l'utilisateur sont axées sur des sujets spécifiques, comme lorsqu'un utilisateur demande le modèle pour répondre à une question mathématique ou pour écrire du code informatique.
« Afin d'améliorer la capacité d'un modèle à effectuer des tâches plus spécifiques, vous devez affiner le modèle », explique Tianfu Wu, co-correspondant auteur d'un article sur le travail et professeur agrégé d'ingénierie informatique à la North Carolina State University.
« Cependant, ces modèles sont si grands qu'il n'est pas possible de rétracter l'ensemble du modèle. Au lieu de cela, vous voulez déterminer le plus petit nombre de changements nécessaires pour améliorer les performances du modèle. Nous avons développé une technique, appelée Wegeft (prononcé Wee-Gift), qui représente une avance significative pour affiner ces grands modèles. »
La grande percée pour le réglage fin de ces grands modèles a été appelée Lora, qui est sortie en 2022. Lora fonctionne en utilisant des outils mathématiques pour identifier un petit sous-ensemble de paramètres clés qui sont les plus susceptibles d'améliorer les performances d'un modèle sur une tâche spécifique.
Il y a eu de nombreuses tentatives pour améliorer LORA, mais Wu et ses collaborateurs ont constaté que ces efforts précédents nécessitaient beaucoup plus de puissance de calcul pour améliorer les performances, ou utilisé la même quantité de puissance de calcul sans améliorer les performances.
« Wegeft s'appuie sur Lora, mais intègre des outils mathématiques supplémentaires qui nous permettent de déterminer les paramètres clés que le modèle connaît déjà et quels paramètres que le modèle aurait besoin d'apprendre » « , explique Wu. « En plaçant plus de poids sur les paramètres vraiment nouveaux, nous sommes en mesure d'améliorer les performances du modèle par rapport à LORA sans incorporer de nouvelles demandes de calcul importantes. »
Dans les tests de preuve de concept, les chercheurs ont constaté que Wegeft avait effectué ainsi que ou mieux que Lora et ses nombreuses variantes à travers une variété de tâches en aval: raisonnement de bon sens, raisonnement arithmétique, suivi des instructions, génération de code et reconnaissance visuelle.
« Nous pensons que c'est un pas en avant précieux », explique Wu. « Nous explorons maintenant les moyens de savoir que Wegeft pourrait également être utilisé pour identifier les éléments du modèle qui sont responsables des résultats nocifs, dans le but d'améliorer l'alignement de l'IA et la` `chirurgie '' pour améliorer la sécurité et les résultats du modèle. Nous nous attendons à ce que ce travail soit à venir. »
L'article, «Wegeft: un réglage fin du poids pour l'adaptation efficace à multiples facettes des grands modèles», sera présenté le 17 juillet à la Conférence internationale sur l'apprentissage automatique, qui se tiendra à Vancouver, au Canada. L'auteur de co-correspondage du journal est Chinmay Savadikar, un doctorat. Étudiant à NC State. Le document a été co-écrit par Xi Song, un chercheur indépendant.
