L'apprentissage par renforcement stimule les compétences de raisonnement dans le nouveau modèle de langue basé sur la diffusion D1

L’apprentissage par renforcement stimule les compétences de raisonnement dans le nouveau modèle de langue basé sur la diffusion D1

Une équipe de chercheurs de l’IA de l’Université de Californie à Los Angeles, travaillant avec un collègue de Meta AI, a introduit D1, un cadre basé sur le modèle de langage-diffusion qui a été amélioré grâce à l’utilisation de l’apprentissage par renforcement. Le groupe a publié un article décrivant ses travaux et leurs fonctionnalités du nouveau cadre sur le arxiv serveur de préimprimée.

Au cours des deux dernières années, l’utilisation de LLMS a monté en flèche, avec des millions de personnes dans le monde entier utilisant des applications d’IA pour une grande variété d’applications. Cela a conduit à un besoin associé de grandes quantités d’électricité pour alimenter les centres de données exécutant les applications à forte intensité informatique. Les chercheurs ont cherché d’autres moyens de fournir des services d’IA à la communauté des utilisateurs. Une telle approche implique l’utilisation de DLMM comme une approche de remplacement ou complémentaire.

Les LLM (DLMM) basées sur la diffusion sont des modèles AI qui arrivent à des réponses différemment des LLM. Au lieu de prendre l’approche autorégressive, ils utilisent la diffusion pour trouver des réponses. De tels modèles étaient à l’origine utilisés pour générer des images – ils ont appris à le faire en ajoutant un bruit écrasant à une image, puis en entraînant le modèle pour inverser le processus jusqu’à ce qu’il ne reste plus que l’image d’origine.

L’utilisation de cette approche pour le texte impliquait de convertir des lettres ou des mots en jetons comme analogique pour les pixels. Le résultat a été un modèle qui utilisait les masques comme analogue pour que le bruit efface lentement les jetons jusqu’à ce qu’il ne reste plus que les caractéristiques du masque, puis entraînant le modèle pour inverser le processus jusqu’à ce qu’il n’y ait rien d’autre que des jetons. L’avantage de cette approche est qu’il peut nécessiter beaucoup moins de puissance de calcul que les LLM.

D1 utilise l'utilisation d'apprentissage du renforcement pour améliorer les capacités de raisonnement des DLMM

La tenue de l’utilisation de DLLM a été leurs capacités de raisonnement inférieures. C’est là que l’équipe en Californie entre en jeu. Ils ont travaillé pour ajouter l’apprentissage du renforcement (où les modèles apprennent par l’utilisation des récompenses) à une DLLM pour améliorer sa capacité de raisonnement.

Pour construire D1, l’équipe a ajouté un processus en deux étapes. La première étape impliquait un réglage fin supervisé de l’ensemble de données de formation à l’aide de données de haute qualité. Le second utilise l’apprentissage du renforcement en ajoutant un algorithme appelé DiffFu-Grpo, qui utilise des principes mathématiques pour faire des estimations de haut niveau, ainsi que ce que l’équipe appelle le «masquage rapide aléatoire».

Les tests de D1 ont jusqu’à présent montré que l’approche fonctionne – les modèles utilisant le cadre ont surclassé des repères mathématiques et de raisonnement logique. L’équipe de recherche suggère que leur cadre est prêt à tester par d’autres entités qui peuvent choisir d’adapter leurs modèles d’IA pour intégrer les changements qu’ils suggèrent.