Le langage naturel améliore les performances du LLM en codage, planification et robotique

Le langage naturel améliore les performances du LLM en codage, planification et robotique

Les grands modèles de langage (LLM) deviennent de plus en plus utiles pour les tâches de programmation et de robotique, mais pour les problèmes de raisonnement plus complexes, l'écart entre ces systèmes et les humains devient grand. Sans la capacité d’apprendre de nouveaux concepts comme le font les humains, ces systèmes ne parviennent pas à former de bonnes abstractions – essentiellement des représentations de haut niveau de concepts complexes qui ignorent des détails moins importants – et crachent donc lorsqu’on leur demande d’effectuer des tâches plus sophistiquées.

Heureusement, les chercheurs du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) ont découvert un trésor d’abstractions dans le langage naturel. Dans trois articles qui seront présentés ce mois-ci à la Conférence internationale sur les représentations d'apprentissage, le groupe montre comment nos mots quotidiens sont une riche source de contexte pour les modèles de langage, les aidant à construire de meilleures représentations globales pour la synthèse de code, la planification de l'IA et la navigation robotique. manipulation. Les trois articles sont également disponibles sur le arXiv serveur de préimpression.

Les trois frameworks distincts construisent des bibliothèques d'abstractions pour leur tâche donnée : LILO (library induction from Language observations) peut synthétiser, compresser et documenter le code ; Ada (acquisition de domaine d'action) explore la prise de décision séquentielle pour les agents d'intelligence artificielle ; et LGA (abstraction guidée par langage) aide les robots à mieux comprendre leur environnement pour développer des plans plus réalisables. Chaque système est une méthode neurosymbolique, un type d’IA qui mélange des réseaux neuronaux de type humain et des composants logiques de type programme.

LILO : Un cadre neurosymbolique qui code

Les grands modèles de langage peuvent être utilisés pour écrire rapidement des solutions à des tâches de codage à petite échelle, mais ne peuvent pas encore concevoir des bibliothèques de logiciels entières comme celles écrites par des ingénieurs logiciels humains. Pour pousser plus loin leurs capacités de développement logiciel, les modèles d’IA doivent refactoriser (réduire et combiner) le code en bibliothèques de programmes succincts, lisibles et réutilisables.

Les outils de refactorisation tels que l'algorithme Stitch précédemment développé par le MIT peuvent identifier automatiquement les abstractions. Ainsi, en clin d'œil au film de Disney « Lilo & Stitch », les chercheurs du CSAIL ont combiné ces approches de refactorisation algorithmique avec des LLM. Leur méthode neurosymbolique LILO utilise un LLM standard pour écrire du code, puis l'associe à Stitch pour trouver des abstractions entièrement documentées dans une bibliothèque.

L'accent unique de LILO sur le langage naturel permet au système d'effectuer des tâches qui nécessitent des connaissances de bon sens semblables à celles d'un humain, telles que l'identification et la suppression de toutes les voyelles d'une chaîne de code et le dessin d'un flocon de neige. Dans les deux cas, le système CSAIL a surpassé les LLM autonomes, ainsi qu'un précédent algorithme d'apprentissage de bibliothèque du MIT appelé DreamCoder, indiquant sa capacité à développer une compréhension plus approfondie des mots contenus dans les invites.

Ces résultats encourageants montrent comment LILO pourrait aider dans des domaines tels que l'écriture de programmes permettant de manipuler des documents tels que des feuilles de calcul Excel, en aidant l'IA à répondre à des questions sur les visuels et en dessinant des graphiques 2D.

« Les modèles linguistiques préfèrent travailler avec des fonctions nommées en langage naturel », explique Gabe Grand, titulaire d'un doctorat au MIT. étudiant en génie électrique et informatique, affilié au CSAIL et auteur principal de la recherche. « Notre travail crée des abstractions plus simples pour les modèles de langage et attribue à chacun des noms et une documentation en langage naturel, ce qui conduit à un code plus interprétable pour les programmeurs et à des performances système améliorées. »

Lorsqu'il est invité à effectuer une tâche de programmation, LILO utilise d'abord un LLM pour proposer rapidement des solutions basées sur les données sur lesquelles il a été formé, puis le système recherche lentement et de manière plus exhaustive des solutions extérieures. Ensuite, Stitch identifie efficacement les structures communes au sein du code et en extrait des abstractions utiles. Ceux-ci sont ensuite automatiquement nommés et documentés par LILO, ce qui donne lieu à des programmes simplifiés qui peuvent être utilisés par le système pour résoudre des tâches plus complexes.

Le framework du MIT écrit des programmes dans des langages de programmation spécifiques à un domaine, comme Logo, un langage développé au MIT dans les années 1970 pour enseigner la programmation aux enfants. La mise à l’échelle des algorithmes de refactorisation automatisés pour gérer des langages de programmation plus généraux comme Python sera au centre des recherches futures. Leurs travaux représentent néanmoins un pas en avant dans la manière dont les modèles de langage peuvent faciliter des activités de codage de plus en plus élaborées.

Ada : Le langage naturel guide la planification des tâches de l'IA

Tout comme en programmation, les modèles d’IA qui automatisent les tâches en plusieurs étapes dans les ménages et les jeux vidéo basés sur des commandes manquent d’abstractions. Imaginez que vous préparez le petit-déjeuner et demandez à votre colocataire d'apporter un œuf chaud à table. Il résumera intuitivement ses connaissances de base sur la cuisine dans votre cuisine en une séquence d'actions. En revanche, un LLM formé sur des informations similaires aura toujours du mal à raisonner sur ce dont il a besoin pour élaborer un plan flexible.

Nommé d'après la célèbre mathématicienne Ada Lovelace, que beaucoup considèrent comme la première programmeuse au monde, le cadre « Ada » dirigé par CSAIL progresse sur cette question en développant des bibliothèques de plans utiles pour les tâches de cuisine virtuelles et les jeux. La méthode s'entraîne sur des tâches potentielles et leurs descriptions en langage naturel, puis un modèle de langage propose des abstractions d'actions à partir de cet ensemble de données. Un opérateur humain note et filtre les meilleurs plans dans une bibliothèque, afin que les meilleures actions possibles puissent être mises en œuvre dans des plans hiérarchiques pour différentes tâches.

« Traditionnellement, les grands modèles de langage ont du mal à réaliser des tâches plus complexes en raison de problèmes tels que le raisonnement sur les abstractions », explique Lio Wong, chercheur principal chez Ada, étudiant diplômé du MIT en sciences du cerveau et cognitives, affilié au CSAIL et co-auteur de LILO. « Mais nous pouvons combiner les outils utilisés par les ingénieurs logiciels et les roboticiens avec les LLM pour résoudre des problèmes difficiles, tels que la prise de décision dans des environnements virtuels. »

Lorsque les chercheurs ont incorporé le modèle de langage largement utilisé GPT-4 dans Ada, le système a effectué plus de tâches dans un simulateur de cuisine et Mini Minecraft que la base de prise de décision de l'IA « Code as Policy ». Ada a utilisé les informations de base cachées dans le langage naturel pour comprendre comment placer du vin frais dans une armoire et fabriquer un lit. Les résultats ont indiqué une amélioration stupéfiante de la précision des tâches, respectivement de 59 % et 89 %.

Avec ce succès, les chercheurs espèrent généraliser leurs travaux aux foyers du monde réel, dans l’espoir qu’Ada puisse les aider dans d’autres tâches ménagères et aider plusieurs robots dans une cuisine. Pour l'instant, sa principale limitation est qu'il utilise un LLM générique. L'équipe CSAIL souhaite donc appliquer un modèle de langage plus puissant et plus affiné qui pourrait faciliter une planification plus étendue. Wong et ses collègues envisagent également de combiner Ada avec un framework de manipulation robotique fraîchement sorti de CSAIL : LGA (abstraction guidée par le langage).

Abstraction guidée par le langage : représentations pour les tâches robotiques

Andi Peng, étudiante diplômée du MIT en génie électrique et informatique et affiliée au CSAIL, et ses co-auteurs ont conçu une méthode pour aider les machines à interpréter leur environnement davantage comme des humains, en supprimant les détails inutiles dans un environnement complexe comme une usine ou une cuisine. Tout comme LILO et Ada, LGA se concentre de manière originale sur la façon dont le langage naturel nous conduit à ces meilleures abstractions.

Dans ces environnements moins structurés, un robot aura besoin d’un peu de bon sens quant aux tâches qui lui sont confiées, même avec une formation de base préalable. Demandez à un robot de vous remettre un bol, par exemple, et la machine aura besoin d'une compréhension générale des caractéristiques importantes dans son environnement. À partir de là, il peut réfléchir à la manière de vous offrir l’article que vous souhaitez.

Dans le cas de LGA, les humains fournissent d'abord un modèle de langage pré-entraîné avec une description générale de la tâche en langage naturel, comme « Apportez-moi mon chapeau ». Ensuite, le modèle traduit ces informations en abstractions sur les éléments essentiels nécessaires à l'exécution de cette tâche. Enfin, une politique d'imitation entraînée sur quelques démonstrations peut mettre en œuvre ces abstractions pour guider un robot dans la saisie de l'objet souhaité.

Les travaux antérieurs nécessitaient qu'une personne prenne des notes détaillées sur différentes tâches de manipulation pour pré-former un robot, ce qui peut s'avérer coûteux. Remarquablement, LGA guide les modèles de langage pour produire des abstractions similaires à celles d'un annotateur humain, mais en moins de temps.

Pour illustrer cela, LGA a développé des politiques robotiques pour aider le quadrupède Spot de Boston Dynamics à ramasser des fruits et à jeter des boissons dans un bac de recyclage. Ces expériences montrent comment la méthode développée par le MIT peut analyser le monde et développer des plans efficaces dans des environnements non structurés, guidant potentiellement les véhicules autonomes sur la route et les robots travaillant dans les usines et les cuisines.

« En robotique, une vérité que nous ignorons souvent est la nécessité d'affiner nos données pour rendre un robot utile dans le monde réel », explique Peng. « Au-delà de la simple mémorisation du contenu d'une image pour entraîner les robots à effectuer des tâches, nous voulions exploiter les modèles de vision par ordinateur et de sous-titrage en conjonction avec le langage. En produisant des légendes de texte à partir de ce qu'un robot voit, nous montrons que les modèles de langage peuvent essentiellement construire des connaissances mondiales importantes. pour un robot. »

Le défi pour LGA est que certains comportements ne peuvent pas être expliqués par le langage, ce qui rend certaines tâches sous-spécifiées. Pour élargir la manière dont ils représentent les fonctionnalités d'un environnement, Peng et ses collègues envisagent d'incorporer des interfaces de visualisation multimodales dans leur travail. En attendant, LGA permet aux robots de mieux comprendre leur environnement lorsqu’ils donnent un coup de main aux humains.

Une « frontière passionnante » dans l’IA

« L'apprentissage en bibliothèque représente l'une des frontières les plus passionnantes de l'intelligence artificielle, offrant une voie vers la découverte et le raisonnement sur des abstractions compositionnelles », explique Robert Hawkins, professeur adjoint à l'Université du Wisconsin-Madison, qui n'a pas participé aux articles. Hawkins note que les techniques précédentes explorant ce sujet étaient « trop coûteuses en termes de calcul pour être utilisées à grande échelle » et rencontraient un problème avec les lambdas, ou mots-clés utilisés pour décrire de nouvelles fonctions dans de nombreux langages, qu'elles génèrent.

« Ils ont tendance à produire des 'salades lambda' opaques, de gros tas de fonctions difficiles à interpréter. Ces articles récents démontrent une voie à suivre convaincante en plaçant de grands modèles de langage dans une boucle interactive avec des algorithmes de recherche symbolique, de compression et de planification. Ce travail permet l'acquisition rapide de bibliothèques plus interprétables et adaptatives pour la tâche à accomplir.

En créant des bibliothèques d'abstractions de code de haute qualité utilisant le langage naturel, les trois méthodes neurosymboliques permettent aux modèles de langage de s'attaquer plus facilement à des problèmes et à des environnements plus élaborés à l'avenir. Cette compréhension plus approfondie des mots-clés précis contenus dans une invite ouvre la voie au développement de modèles d’IA plus humains.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.