L'auto-adaptation LLM ajuste dynamiquement ses poids pour apprendre de nouvelles tâches

L’auto-adaptation LLM ajuste dynamiquement ses poids pour apprendre de nouvelles tâches

Un trio de chercheurs de l’IA à Sakana AI, une startup japonaise, a annoncé le développement d’une AI d’auto-adaptation appelée Transformer2. Qi Sun, Edoardo Cetin et Yujin Tang, ont posté leur papier sur le arxiv serveur de préimprimée.

À mesure que les LLM qui mûrissent, les chercheurs d’IA continuent de les affiner pour être plus efficaces et moins exigeants en énergie. Dans cette nouvelle étude, le trio de recherche a trouvé un moyen de réduire l’une des principales inefficacités des LLM traditionnelles – la nécessité d’un réglage fin s’ils sont invités à faire quelque chose pour lequel ils n’ont pas été formés.

Dans les scénarios actuels, les paramètres d’un LLM sont ajustés et il est ensuite formé avec de nouveaux échantillons – après le début, les nouveaux paramètres restent figés en place. L’équipe de recherche a introduit un modèle qui apporte des ajustements à un système de poids lorsqu’il est introduit à quelque chose de nouveau, pour lui permettre de s’adapter dynamiquement à de nouveaux types de tâches.

Pour permettre au LLM d’effectuer des ajustements dynamiques, les chercheurs ont divisé la réponse de la tâche en une approche en deux étapes; Le premier consiste à analyser la demande et à déterminer ce qui sera nécessaire pour fournir une bonne réponse. La seconde implique d’ajuster un système de poids pour l’aider à concentrer ses efforts sur des choses qui mèneront à une réponse.

Le système de poids utilise un processus mathématique appelé décomposition de valeur singulière pour déterminer quelles parties de son propre système d’IA sont les plus importantes pour fournir la meilleure réponse possible. L’apprentissage du renforcement est appliqué pour créer les étapes nécessaires pour guider le comportement de l’IA.

Pendant l’inférence (qui fait partie du système impliqué dans la génération de réponses à la requête initiale), le système utilise trois stratégies principales pour atteindre ses objectifs – l’un qui est basé sur l’invite, un autre qui sert de classificateur et le troisième que Applique un processus d’adaptation à quelques coups (où un modèle d’IA apprend d’un ensemble de formation limité). Une fois les poids appliqués, le LLM continue de manière similaire à d’autres LLM.

Le résultat global de l’utilisation de la nouvelle approche est qu’il permet à un LLM de s’adapter à la volée lorsqu’il se trouve face à une tâche inconnue. Les tests du système l’ont montré capable d’effectuer ainsi que d’autres LLM sur les requêtes traditionnelles mais beaucoup plus flexibles lorsqu’il s’agit de répondre aux requêtes qui confondaient d’autres modèles.