Le framework DeepMind permet aux LLM de trouver et d’utiliser des structures de raisonnement intrinsèques aux tâches
Une équipe de chercheurs en IA du projet DeepMind de Google, en collaboration avec un collègue de l’Université de Californie du Sud, a développé un véhicule permettant aux grands modèles de langage (LLM) de trouver et d’utiliser des structures de raisonnement intrinsèques aux tâches comme moyen d’améliorer les résultats renvoyés.
Le groupe a rédigé un article décrivant son cadre et soulignant la qualité de ses tests jusqu’à présent, et l’a publié sur le site Web. arXiv serveur de préimpression. Ils ont également publié une copie de l’article sur Hugging Face, une plateforme d’apprentissage automatique et de science des données.
Les grands modèles de langage, tels que ChatGPT, sont capables de renvoyer des réponses de type humain aux requêtes des utilisateurs en parcourant Internet à la recherche d’informations et en les utilisant pour créer du texte de manière humaine en imitant la façon dont les humains écrivent. Mais ces modèles sont encore assez limités dans leurs capacités en raison de leur nature simple. Dans cette nouvelle étude, les chercheurs de DeepMind ont peaufiné le modèle utilisé par les LLM pour améliorer les résultats.
Pour donner aux LLM davantage de travail, l’équipe de recherche leur a donné un moyen de s’engager dans la découverte de soi en copiant les stratégies de résolution de problèmes utilisées par les humains. Et ils l’ont fait en leur donnant la possibilité d’utiliser des modules de raisonnement développés dans le cadre d’autres efforts de recherche. Plus précisément, ils leur ont donné la possibilité d’utiliser des modules permettant une réflexion critique et/ou une analyse étape par étape d’un problème posé. Et cela permet aux LLM de construire des structures de raisonnement explicites, plutôt que de simplement s’appuyer sur le raisonnement mené par d’autres lors de la création de leurs documents.
Pour permettre un tel traitement, l’équipe de recherche a suivi un processus en deux étapes. La première consistait à enseigner à un LLM comment créer une structure de raisonnement liée à une tâche donnée, puis à utiliser un module de raisonnement approprié. La deuxième étape consistait à permettre au LLM de suivre un chemin de découverte de soi qui le mènerait à la solution souhaitée.
Les tests de la nouvelle approche ont montré qu’elle a considérablement amélioré les résultats : en l’utilisant avec plusieurs LLM, y compris GPT-4, et plusieurs tâches de raisonnement bien connues, l’approche de découverte de soi a systématiquement surpassé le raisonnement en chaîne de pensée et d’autres approches actuelles jusqu’à 32%. Les chercheurs ont également constaté que cela améliorait l’efficacité en réduisant le calcul d’inférence de 10 à 40 fois.