Les agents linguistiques aident les grands modèles linguistiques à « penser » mieux et à moindre coût
Les grands modèles linguistiques qui envahissent de plus en plus le monde de la technologie ne sont pas « bon marché » à bien des égards. Les LLM les plus importants, tels que GPT-4, ont nécessité environ 100 millions de dollars, sous forme de frais juridiques liés à l'accès aux données de formation, de coûts de puissance de calcul pour ce qui pourrait représenter des milliards ou des milliards de paramètres, d'énergie et d'eau nécessaires pour alimenter le calcul, et les nombreux codeurs développant les algorithmes de formation qui doivent s’exécuter cycle après cycle pour que la machine « apprenne ».
Mais si un chercheur a besoin d’effectuer une tâche spécialisée qu’une machine pourrait effectuer plus efficacement et qu’il n’a pas accès à une grande institution offrant un accès à des outils d’IA générative, quelles autres options sont disponibles ? Supposons qu'un parent souhaite préparer son enfant à un test difficile et doit lui montrer de nombreux exemples sur la manière de résoudre des problèmes mathématiques complexes.
Construire leur propre LLM est une perspective onéreuse pour les coûts mentionnés ci-dessus, et l'utilisation directe de grands modèles comme GPT-4 et Llama 3.1 pourrait ne pas être immédiatement adaptée au raisonnement complexe en logique et en mathématiques requis par leur tâche.
Il serait utile qu’une version plus rentable d’un grand modèle de langage soit accessible au grand public, une marque générique pour l’IA générative.
Des chercheurs de l'Université Washington de Saint-Louis ont décidé de relever ce défi en construisant un agent autonome chargé d'instruire le processus de raisonnement de grands modèles de langage. Cet agent génère un ensemble unique d'instructions pour chaque tâche et ces instructions s'avèrent extrêmement efficaces pour améliorer le processus de raisonnement des différents LLM dans toutes les instances de tâches, selon une étude du laboratoire de Chenguang Wang, professeur adjoint en informatique et ingénierie. , en collaboration avec Dawn Song, professeur à l'Université de Californie à Berkeley.
Les chercheurs comprenaient WashU Ph.D. les étudiants Nicholas Crispino, Kyle Montgomery et l'analyste de recherche Fankun Zeng, qui ont présenté leurs travaux lors d'une récente conférence sur l'apprentissage automatique. L'ouvrage est également disponible sur arXiv serveur de préimpression.
Cet « agent » est un grand LLM qui sert d'outil pour réfléchir aux instructions du Web, a déclaré Crispino. À partir d'informations de base sur les tâches telles que le nom de l'ensemble de données et de quelques exemples de saisie uniquement, l'agent produit ensuite des instructions étape par étape de haute qualité pour les tâches.
Ces instructions guident le raisonnement des plus petits LLM sur certaines tâches. C'est un moyen plus abordable de faire de l'IA générative, car ils ne doivent utiliser le grand LLM qu'une seule fois par ensemble de données, puis ils transmettent les instructions à un plus petit LLM qui peut prendre le relais.
« Nous pouvons utiliser le modèle coûteux une fois et créer ces instructions intéressantes pour guider le processus de raisonnement ou de réflexion d'un modèle moins cher », a déclaré Crispino.
« Notre méthode améliore considérablement les performances des grands modèles de langage de pointe », a ajouté Montgomery.
Ils ont testé leur méthode rentable, appelée Zero-Shot AgentInstruct, sur des tâches de traitement du langage et ont comparé ses performances aux méthodes d'invite sans tir utilisant les LLM Vicuna-13b, Llama-2-70b-chat et GPT-3.5 Turbo.
Par rapport à l'invite « chaîne de pensée zéro tir », qui fonctionne en ajoutant l'invite « Réfléchissons étape par étape », Zero-Shot AgentInstruct a montré de meilleures performances dans une variété de tâches évaluées sur 29 ensembles de données (dont 53 sous-ensembles).
« Notre amélioration en matière de réflexion et de raisonnement est frappante, particulièrement en mathématiques et en logique », a déclaré Wang.
Essentiellement, ils utilisent les puissants modèles LLM pour distiller les tâches en cheminements de raisonnement étape par étape pour l'autre modèle, comme un enseignant expérimenté partageant ses connaissances avec les étudiants.
« Nous voyons jusqu'où nous pouvons pousser les capacités de raisonnement de modèles plus petits en utilisant des modèles plus grands sans formation », a déclaré Crispino.