L'IA «Coach» aide les modèles linguistiques à choisir entre le texte et le code pour résoudre les problèmes

Les modèles de grandes langues (LLM) excellent à utiliser le raisonnement textuel pour comprendre le contexte d'un document et fournir une réponse logique sur son contenu. Mais ces mêmes LLM ont souvent du mal à répondre correctement aux problèmes mathématiques les plus simples.

Le raisonnement textuel est généralement un moyen moins idéal de délibérer sur les tâches informatiques ou algorithmiques. Alors que certains LLM peuvent générer du code comme Python pour gérer les requêtes symboliques, les modèles ne savent pas toujours quand utiliser du code, ou quel type de code fonctionnerait le mieux.

Les LLM, semble-t-il, peuvent avoir besoin d'un coach pour les diriger vers la meilleure technique.

Entrez Codesteer, un assistant intelligent développé par des chercheurs du MIT qui guide un LLM pour basculer entre le code et la génération de texte jusqu'à ce qu'il réponde correctement à une requête.

Codesteer, lui-même un LLM plus petit, génère automatiquement une série d'invites pour diriger de manière itérative un LLM plus grand. Il passe en revue les réponses actuelles et précédentes du modèle après chaque tour et fournit des conseils sur la façon dont il peut corriger ou affiner cette solution jusqu'à ce qu'il estime que la réponse est correcte.

Les chercheurs ont constaté que l'augmentation d'un LLM plus grand avec CodeSeeter a renforcé sa précision sur les tâches symboliques, comme le multiplication des nombres, la lecture de Sudoku et les blocs d'empilement, de plus de 30%. Il a également permis aux modèles moins sophistiqués de surpasser les modèles plus avancés avec des compétences de raisonnement améliorées.

Cette avancée pourrait améliorer les capacités de résolution de problèmes des LLM pour des tâches complexes qui sont particulièrement difficiles à résoudre avec le raisonnement textuel seul, tel que la génération de chemins pour les robots dans des environnements incertains ou la planification des expéditions dans une chaîne d'approvisionnement internationale.

« Il y a une race pour développer de meilleurs modèles qui sont capables de tout faire, mais nous avons adopté une approche complémentaire. Les chercheurs ont passé des années à développer des technologies et des outils efficaces pour résoudre les problèmes dans de nombreux domaines. Nous voulons permettre aux LLM de sélectionner les bons outils et méthodes, et à profiter de l'expertise d'autres Le Laboratoire du MIT pour l'information et les systèmes de décision (LIDS).

Fan, l'auteur principal de l'étude, est rejoint sur un article sur les travaux de l'étudiant diplômé de Lides Yongchao Chen; L'étudiant diplômé d'Aeroastro, Yilun Hao; Université de l'Illinois à Urbana-Champaign, étudiant diplômé Yueying Liu; et le chercheur MIT-IBM Watson AI Lab Scientist Yang Zhang. La recherche sera présentée à la Conférence internationale sur l'apprentissage automatique.

Le document est publié sur le arxiv serveur de préimprimée.

Un «entraîneur» LLM

Demandez à un LLM quel numéro est plus grand, 9.11 ou 9.9, et il donnera souvent la mauvaise réponse en utilisant le raisonnement textuel. Mais demandez-lui d'utiliser du code pour répondre à la même question, et il peut générer et exécuter un script Python pour comparer les deux nombres, résolvant facilement le problème.

Initialement formés pour comprendre et prédire le langage humain, les LLM sont plus susceptibles de répondre aux requêtes en utilisant du texte, même lorsque le code serait plus efficace. Et bien qu'ils aient appris à générer du code par un réglage fin, ces modèles génèrent souvent une version incorrecte ou moins efficace du code.

Plutôt que d'essayer de recycler un puissant LLM comme GPT-4 ou Claude pour améliorer ces capacités, les chercheurs du MIT affinent un LLM plus petit et léger pour guider un modèle plus large entre le texte et le code. Le réglage fin d'un modèle plus petit ne change pas le LLM plus grand, il n'y a donc aucun risque qu'il saperait les autres capacités du modèle plus large.

« Nous avons également été inspirés par les humains. Dans le sport, un entraîneur n'est peut-être pas meilleur que l'athlète vedette de l'équipe, mais l'entraîneur peut toujours donner des suggestions utiles pour guider l'athlète. Cette méthode de direction fonctionne également pour les LLM », explique Chen.

Ce formateur, Codesteer, fonctionne en conjonction avec le LLM plus grand. Il examine d'abord une requête et détermine si le texte ou le code convient à ce problème, et quel type de code serait le meilleur.

Ensuite, il génère une invite pour le LLM plus grand, lui disant d'utiliser une méthode de codage ou un raisonnement textuel pour répondre à la requête. Le modèle plus grand suit cette invite pour répondre à la requête et renvoie le résultat à Codesteer, qui l'examine.

Si la réponse n'est pas correcte, Codesteer continuera à inviter le LLM à essayer différentes choses qui pourraient résoudre le problème, comme l'incorporation d'un algorithme de recherche ou d'une contrainte dans son code Python, jusqu'à ce que la réponse soit correcte.

« Nous avons constaté que, souvent, le LLM plus grand essaiera d'être paresseux et d'utiliser un code plus court et moins efficace qui ne portera pas le calcul symbolique correct. Nous avons conçu Codesteer pour éviter ce phénomène », explique Chen.

Un vérificateur symbolique évalue la complexité du code et envoie un signal à Codesteer s'il est trop simple ou inefficace. Les chercheurs incorporent également un vérificateur d'auto-répondant à Codesteer, ce qui invite le LLM à générer du code qui calcule la réponse pour vérifier qu'il est correct.

Aborder des tâches complexes

Comme les chercheurs ont conçu Codesteer, ils n'ont pas pu trouver des ensembles de données symboliques appropriés pour affiner et tester le modèle, car de nombreux repères existants ne soulignent pas si une certaine requête pourrait être mieux résolue avec du texte ou du code.

Ainsi, ils ont rassemblé un corpus de 37 tâches symboliques complexes, y compris le raisonnement spatial, les mathématiques, le raisonnement de commande et l'optimisation, et ont construit leur propre ensemble de données, appelé Symbench. Ils ont mis en œuvre une approche de réglage fin qui exploite Symbench pour maximiser les performances de CodeSeeter.

Dans leurs expériences, CodeSeeter a surpassé les neuf méthodes de base qu'ils ont évaluées et passé la précision moyenne de 53,3% à 86,4%. Il maintient des performances similaires même sur les tâches invisibles et sur une variété de LLM.

De plus, un modèle à usage général augmenté de CodeSeeter peut atteindre une précision plus élevée que les modèles de pointe conçus pour se concentrer sur le raisonnement et la planification complexes, tout en nécessitant beaucoup moins de calculs.

« Notre méthode utilise les propres capacités d'un LLM. En augmentant un LLM avec la possibilité d'utiliser intelligemment le codage, nous pouvons prendre un modèle déjà très fort et améliorer encore plus ses performances », explique Chen.

À l'avenir, les chercheurs veulent rationaliser Codesteer pour accélérer son processus d'incitation itératif. De plus, ils étudient comment affiner efficacement un modèle unifié avec la capacité de basculer entre le raisonnement textuel et la génération de code, plutôt que de compter sur un assistant distinct.

« Les auteurs présentent une solution élégante au défi critique de l'utilisation des outils dans les LLM. Cette méthode simple mais percutante permet aux LLM de pointe pour obtenir des améliorations de performances significatives sans nécessiter un réglage fin direct », explique Jinsung Yoon, chercheur du personnel de Google Cloud AI, qui n'a pas été impliqué dans ce travail.

« Cette recherche représente une contribution substantielle qui promet d'améliorer considérablement l'application des LLM à un éventail diversifié de tâches avec lesquelles ils luttent actuellement. »

« Leur succès dans la formation d'un modèle spécialisé plus petit pour guider stratégiquement les modèles avancés plus grands et avancés est particulièrement percutant », ajoute Chi Wang, un scientifique principal de Google Deepmind qui n'était pas impliqué dans ce travail.

« Cette collaboration intelligente entre divers agents de l'IA ouvre la voie à des applications plus robustes et polyvalentes dans des scénarios complexes du monde réel. »