Les LLM auto-adaptatifs se comportent davantage comme des étudiants pour absorber de nouvelles connaissances
Dans une salle de classe du MIT, un professeur donne un cours tandis que les étudiants écrivent assidûment des notes qu'ils reliront plus tard pour étudier et intérioriser les informations clés avant un examen.
Les humains savent comment apprendre de nouvelles informations, mais les grands modèles linguistiques ne peuvent pas le faire de la même manière. Une fois qu'un LLM entièrement formé a été déployé, son « cerveau » est statique et ne peut pas s'adapter en permanence aux nouvelles connaissances.
Cela signifie que si un utilisateur dit quelque chose d'important à un LLM aujourd'hui, il ne se souviendra pas de cette information la prochaine fois que cette personne démarrera une nouvelle conversation avec le chatbot.
Désormais, une nouvelle approche développée par des chercheurs du MIT permet aux LLM de se mettre à jour de manière à internaliser en permanence les nouvelles informations. Tout comme un étudiant, le LLM génère ses propres fiches d'étude à partir de la saisie d'un utilisateur, qu'il utilise pour mémoriser les informations en mettant à jour son fonctionnement interne. L'ouvrage est publié sur le arXiv serveur de préimpression.
Le modèle génère plusieurs auto-éditions pour apprendre d'une entrée, puis applique chacune d'entre elles pour voir laquelle améliore le plus ses performances. Ce processus d'essais et d'erreurs enseigne au modèle la meilleure façon de s'entraîner.
Les chercheurs ont découvert que cette approche améliorait la précision des LLM dans les tâches de réponse aux questions et de reconnaissance de formes, et permettait à un petit modèle de surpasser des LLM beaucoup plus grands.
Même s’il reste encore des limites à surmonter, cette technique pourrait un jour aider les agents d’intelligence artificielle à s’adapter systématiquement à de nouvelles tâches et à atteindre des objectifs changeants dans des environnements en évolution.
« Tout comme les humains, les systèmes d'IA complexes ne peuvent pas rester statiques pendant toute leur vie. Ces LLM ne sont pas déployés dans des environnements statiques. Ils sont constamment confrontés à de nouvelles entrées de la part des utilisateurs. Nous voulons créer un modèle un peu plus humain, qui puisse continuer à s'améliorer », explique Jyothish Pari, étudiant diplômé du MIT et co-auteur principal de l'article sur cette technique.
Il est rejoint dans l'article par le co-auteur principal Adam Zweiger, étudiant de premier cycle au MIT ; les étudiants diplômés Han Guo et Ekin Akyürek ; et auteurs principaux Yoon Kim, professeur adjoint au Département de génie électrique et d'informatique (EECS) et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL), et Pulkit Agrawal, professeur adjoint à l'EECS et membre du CSAIL.
La recherche sera présentée à la Conférence sur les systèmes de traitement de l'information neuronale.
Enseigner au modèle pour apprendre
Les LLM sont des modèles de réseaux neuronaux comportant des milliards de paramètres, appelés poids, qui contiennent les connaissances du modèle et les entrées de processus permettant de faire des prédictions. Pendant l'entraînement, le modèle adapte ces poids pour apprendre de nouvelles informations contenues dans ses données d'entraînement.
Mais une fois déployé, les pondérations sont statiques et ne peuvent plus être mises à jour en permanence.
Cependant, les LLM sont très efficaces dans un processus appelé apprentissage en contexte, dans lequel un modèle formé apprend une nouvelle tâche en voyant quelques exemples. Ces exemples guident les réponses du modèle, mais les connaissances disparaissent avant la conversation suivante.
Les chercheurs du MIT voulaient exploiter les puissantes capacités d'apprentissage en contexte d'un modèle pour lui apprendre à mettre à jour ses pondérations en permanence lorsqu'il rencontre de nouvelles connaissances.
Le cadre qu'ils ont développé, appelé SEAL pour « self-adapting LLM », permet à un LLM de générer de nouvelles données synthétiques basées sur une entrée, puis de déterminer la meilleure façon de s'adapter et d'apprendre de ces données synthétiques. Chaque élément de données synthétiques est une auto-édition que le modèle peut appliquer.

Dans le cas du langage, le LLM crée des données synthétiques en réécrivant l'information et ses implications dans un passage d'entrée. Ceci est similaire à la façon dont les étudiants créent des feuilles d’étude en réécrivant et en résumant le contenu original du cours.
Le LLM fait cela plusieurs fois, puis s'interroge à chaque auto-édition pour voir ce qui a conduit à la plus grande amélioration des performances sur une tâche en aval comme la réponse aux questions. Il utilise une méthode d’essais et d’erreurs connue sous le nom d’apprentissage par renforcement, où il reçoit une récompense pour la plus grande amélioration des performances.
Ensuite, le modèle mémorise la meilleure feuille d'étude en mettant à jour ses poids pour internaliser les informations contenues dans cette auto-édition.
« Notre espoir est que le modèle apprendra à créer le meilleur type de feuille d'étude, de la bonne longueur et présentant la bonne diversité d'informations, de sorte que la mise à jour du modèle sur cette base conduise à un meilleur modèle », explique Zweiger.
Choisir la meilleure méthode
Leur cadre permet également au modèle de choisir la manière dont il souhaite apprendre les informations. Par exemple, le modèle peut sélectionner les données synthétiques qu'il souhaite utiliser, la vitesse à laquelle il apprend et le nombre d'itérations sur lesquelles il souhaite s'entraîner.
Dans ce cas, non seulement le modèle génère ses propres données d'entraînement, mais il configure également l'optimisation qui applique cette auto-édition à ses pondérations.
« En tant qu'humains, nous savons comment nous apprenons le mieux. Nous voulons accorder cette même capacité aux grands modèles de langage. En fournissant au modèle la capacité de contrôler la façon dont il digère ces informations, il peut déterminer la meilleure façon d'analyser toutes les données qui entrent », explique Pari.
SEAL a surpassé plusieurs méthodes de base dans une gamme de tâches, notamment l'apprentissage d'une nouvelle compétence à partir de quelques exemples et l'intégration des connaissances d'un passage de texte. En ce qui concerne la réponse aux questions, SEAL a amélioré la précision du modèle de près de 15 % et sur certaines tâches d'apprentissage de compétences, il a augmenté le taux de réussite de plus de 50 %.
Mais l’une des limites de cette approche est un problème appelé oubli catastrophique : à mesure que le modèle s’adapte de manière répétée aux nouvelles informations, ses performances sur les tâches antérieures diminuent lentement.
Les chercheurs prévoient d’atténuer les oublis catastrophiques dans leurs travaux futurs. Ils souhaitent également appliquer cette technique dans un contexte multi-agents où plusieurs LLM se forment mutuellement.
« L'un des principaux obstacles aux LLM capables de mener des recherches scientifiques significatives est leur incapacité à se mettre à jour en fonction de leurs interactions avec de nouvelles informations. Bien que les modèles auto-adaptatifs entièrement déployés soient encore loin, nous espérons que les systèmes capables d'apprendre de cette manière pourront éventuellement surmonter ce problème et contribuer à faire progresser la science », a déclaré Zweiger.
