La formation en temps de test pourrait conduire à des LLM qui sont meilleurs dans un raisonnement complexe

Pour toutes leurs capacités impressionnantes, les modèles de grandes langues (LLM) sont souvent en deçà lorsqu'ils ont donné de nouvelles tâches à défaire qui nécessitent des compétences de raisonnement complexes.

Bien que le LLM d'un cabinet d'expertise comptable puisse exceller à résumer les rapports financiers, ce même modèle pourrait échouer de manière inattendue s'il est chargé de prédire les tendances du marché ou d'identifier les transactions frauduleuses.

Pour rendre les LLM plus adaptables, les chercheurs du MIT ont examiné comment une certaine technique de formation peut être déployée stratégiquement pour augmenter les performances d'un modèle sur des problèmes inconnus et difficiles.

Ils montrent que la formation en temps de test, une méthode qui implique une mise à jour temporaire de certains des travaux internes d'un modèle pendant le déploiement, peut entraîner une amélioration de la précision de six fois. Les chercheurs ont développé un cadre de mise en œuvre d'une stratégie de formation au moment du test qui utilise des exemples de la nouvelle tâche pour maximiser ces gains.

Leur travail pourrait améliorer la flexibilité d'un modèle, permettant un LLM standard pour s'adapter à des tâches complexes qui nécessitent une planification ou une abstraction. Cela pourrait conduire à des LLM qui seraient plus précises dans de nombreuses applications qui nécessitent une déduction logique, des diagnostics médicaux à la gestion de la chaîne d'approvisionnement.

« Un véritable apprentissage – ce que nous avons fait ici avec une formation en temps de test – est quelque chose que ces modèles ne peuvent pas faire seuls après leur expédition. Ils ne peuvent pas acquérir de nouvelles compétences ou s'améliorer dans une tâche. Mais nous avons montré que si vous poussez un peu le modèle à faire un apprentissage réel, vous voyez que des améliorations énormes peuvent se produire », explique Ekin Akyürek Ph.D. '25, auteur principal de l'étude.

Akyürek est rejoint sur le journal par les étudiants diplômés Mehul Damani, Linlu Qiu, Han Guo et Jyothish Pari; Le premier cycle Adam Zweiger; et les auteurs principaux Yoon Kim, professeur adjoint de génie électrique et d'informatique (CEE) et membre du laboratoire d'informatique et d'intelligence artificielle (CSAIL); et Jacob Andreas, professeur agrégé des EECS et membre de CSAIL.

La recherche sera présentée à la Conférence internationale sur l'apprentissage automatique (ICML 2025), qui s'est tenue à Vancouver du 13 au 19 juillet. Le papier est maintenant disponible sur le arxiv serveur de préimprimée.

Aborder des domaines durs

Les utilisateurs de LLM essaient souvent d'améliorer les performances de leur modèle sur une nouvelle tâche en utilisant une technique appelée apprentissage dans le contexte. Ils alimentent le modèle quelques exemples de la nouvelle tâche en tant qu'invites de texte qui guident les sorties du modèle.

Mais l'apprentissage dans le contexte ne fonctionne pas toujours pour des problèmes qui nécessitent une logique et un raisonnement.

Les chercheurs du MIT ont examiné comment la formation en temps de test peut être utilisée en conjonction avec l'apprentissage dans le contexte pour augmenter les performances de ces tâches difficiles. La formation à l'heure de test consiste à mettre à jour certains paramètres du modèle – les variables internes qu'il utilise pour faire des prédictions, en utilisant une petite quantité de nouvelles données spécifiques à la tâche à accomplir.

Les chercheurs ont exploré comment la formation en temps de test interagit avec l'apprentissage en contexte. Ils ont étudié les choix de conception qui maximisent les améliorations des performances que l'on peut cacher à partir d'un LLM à usage général.

« Nous constatons que la formation en temps de test est une forme d'apprentissage beaucoup plus forte. Bien que simplement fournir des exemples peut augmenter modestement la précision, la mise à jour du modèle avec ces exemples peut conduire à des performances beaucoup plus importantes, en particulier dans des domaines difficiles », explique Damani.

L'apprentissage dans le contexte nécessite un petit ensemble d'exemples de tâches, y compris les problèmes et leurs solutions. Les chercheurs utilisent ces exemples pour créer un ensemble de données spécifique à la tâche nécessaire pour la formation au moment du test.

Pour étendre la taille de cet ensemble de données, ils créent de nouvelles entrées en modifiant légèrement les problèmes et les solutions dans les exemples, par exemple en renversant horizontalement certaines données d'entrée. Ils constatent que la formation du modèle sur les sorties de ce nouvel ensemble de données conduit aux meilleures performances.

De plus, les chercheurs ne mettent à jour qu'un petit nombre de paramètres du modèle en utilisant une technique appelée adaption de faible rang, ce qui améliore l'efficacité du processus de formation en temps de test.

« Ceci est important car notre méthode doit être efficace si elle va être déployée dans le monde réel. Nous constatons que vous pouvez obtenir d'énormes améliorations de la précision avec une très petite quantité de formation des paramètres », explique Akyürek.

Développer de nouvelles compétences

La rationalisation du processus est essentielle, car la formation en temps de test est utilisée à l'installation, ce qui signifie qu'un utilisateur devrait le faire pour chaque tâche individuelle. Les mises à jour du modèle ne sont que temporaires, et le modèle revient à sa forme d'origine après avoir fait une prédiction.

Un modèle qui prend généralement moins d'une minute pour répondre à une requête peut prendre cinq ou 10 minutes pour fournir une réponse à la formation au moment du test, ajoute Akyürek.

« Nous ne voudrions pas faire cela pour toutes les requêtes utilisateur, mais il est utile que vous ayez une tâche très difficile que vous voulez que le modèle résolve bien. Il pourrait également y avoir des tâches trop difficiles pour un LLM pour résoudre sans cette méthode », dit-il.

Les chercheurs ont testé leur approche sur deux ensembles de données de référence de problèmes extrêmement complexes, tels que les puzzles IQ. Il a augmenté la précision autant que six fois sur des techniques qui n'utilisent que l'apprentissage dans le contexte.

Les tâches qui impliquaient des modèles structurés ou ceux qui utilisaient des types de données complètement inconnus ont montré les plus grandes améliorations des performances.

« Pour les tâches plus simples, l'apprentissage dans le contexte pourrait être OK. Mais la mise à jour des paramètres eux-mêmes pourrait développer une nouvelle compétence dans le modèle », explique Damani.

À l'avenir, les chercheurs veulent utiliser ces informations vers le développement de modèles qui apprennent continuellement.

L'objectif à long terme est un LLM qui, étant donné une requête, peut déterminer automatiquement s'il doit utiliser la formation en temps de test pour mettre à jour les paramètres ou s'il peut résoudre la tâche en utilisant l'apprentissage dans le contexte, puis implémenter la meilleure stratégie de formation en temps de test sans avoir besoin d'une intervention humaine.