Une étude montre comment de grands modèles de langage comme GPT-3 peuvent apprendre une nouvelle tâche à partir de quelques exemples seulement
Les grands modèles de langage comme le GPT-3 d’OpenAI sont des réseaux de neurones massifs qui peuvent générer du texte de type humain, de la poésie au code de programmation. Formés à l’aide de trésors de données Internet, ces modèles d’apprentissage automatique prennent un petit morceau de texte d’entrée, puis prédisent le texte qui est susceptible de venir ensuite.
Mais ce n’est pas tout ce que ces modèles peuvent faire. Les chercheurs explorent un phénomène curieux connu sous le nom d’apprentissage en contexte, dans lequel un grand modèle de langage apprend à accomplir une tâche après avoir vu seulement quelques exemples, malgré le fait qu’il n’a pas été formé pour cette tâche. Par exemple, quelqu’un pourrait alimenter le modèle avec plusieurs exemples de phrases et leurs sentiments (positifs ou négatifs), puis l’inviter avec une nouvelle phrase, et le modèle peut donner le bon sentiment.
En règle générale, un modèle d’apprentissage automatique comme GPT-3 devrait être recyclé avec de nouvelles données pour cette nouvelle tâche. Au cours de ce processus de formation, le modèle met à jour ses paramètres au fur et à mesure qu’il traite de nouvelles informations pour apprendre la tâche. Mais avec l’apprentissage en contexte, les paramètres du modèle ne sont pas mis à jour, il semble donc que le modèle apprend une nouvelle tâche sans rien apprendre du tout.
Des scientifiques du MIT, de Google Research et de l’Université de Stanford s’efforcent de percer ce mystère. Ils ont étudié des modèles très similaires aux grands modèles de langage pour voir comment ils peuvent apprendre sans mettre à jour les paramètres.
Les résultats théoriques des chercheurs montrent que ces modèles de réseaux de neurones massifs sont capables de contenir des modèles linéaires plus petits et plus simples enfouis à l’intérieur. Le grand modèle pourrait alors mettre en œuvre un algorithme d’apprentissage simple pour entraîner ce modèle linéaire plus petit à accomplir une nouvelle tâche, en utilisant uniquement les informations déjà contenues dans le modèle plus grand. Ses paramètres restent fixes.
Une étape importante vers la compréhension des mécanismes derrière l’apprentissage en contexte, cette recherche ouvre la porte à une exploration plus approfondie des algorithmes d’apprentissage que ces grands modèles peuvent mettre en œuvre, déclare Ekin Akyürek, étudiant diplômé en informatique et auteur principal d’un article explorant ce phénomène. Avec une meilleure compréhension de l’apprentissage en contexte, les chercheurs pourraient permettre aux modèles d’accomplir de nouvelles tâches sans avoir besoin d’un recyclage coûteux.
« Habituellement, si vous voulez affiner ces modèles, vous devez collecter des données spécifiques à un domaine et faire une ingénierie complexe. Mais maintenant, nous pouvons simplement lui donner une entrée, cinq exemples, et cela accomplit ce que nous voulons. Donc, en- l’apprentissage contextuel est un phénomène assez excitant », déclare Akyürek.
Le document est publié sur le arXiv serveur de préimpression.
Dale Schuurmans, chercheur scientifique à Google Brain et professeur de science informatique à l’Université de l’Alberta, se joint à Akyürek pour l’article; ainsi que les auteurs principaux Jacob Andreas, professeur adjoint du X Consortium au département de génie électrique et d’informatique du MIT et membre du laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL); Tengyu Ma, professeur adjoint d’informatique et de statistiques à Stanford ; et Danny Zhou, scientifique principal et directeur de recherche chez Google Brain. La recherche sera présentée à la Conférence internationale sur les représentations de l’apprentissage.
Un modèle dans un modèle
Dans la communauté de recherche sur l’apprentissage automatique, de nombreux scientifiques en sont venus à croire que les grands modèles de langage peuvent effectuer un apprentissage en contexte en raison de la façon dont ils sont formés, explique Akyürek.
Par exemple, GPT-3 contient des centaines de milliards de paramètres et a été formé en lisant d’énormes quantités de texte sur Internet, des articles de Wikipédia aux publications de Reddit. Ainsi, lorsque quelqu’un montre les exemples modèles d’une nouvelle tâche, il a probablement déjà vu quelque chose de très similaire car son ensemble de données de formation comprenait du texte provenant de milliards de sites Web. Il répète des modèles qu’il a vus pendant la formation, plutôt que d’apprendre à effectuer de nouvelles tâches.
Akyürek a émis l’hypothèse que les apprenants en contexte ne font pas que correspondre à des modèles déjà vus, mais apprennent plutôt à effectuer de nouvelles tâches. Lui et d’autres avaient expérimenté en donnant à ces modèles des invites à l’aide de données synthétiques, qu’ils n’auraient pu voir nulle part auparavant, et ont découvert que les modèles pouvaient encore apprendre à partir de quelques exemples seulement. Akyürek et ses collègues pensaient que ces modèles de réseaux de neurones contenaient peut-être des modèles d’apprentissage automatique plus petits que les modèles pouvaient entraîner pour accomplir une nouvelle tâche.
« Cela pourrait expliquer presque tous les phénomènes d’apprentissage que nous avons observés avec ces grands modèles », dit-il.
Pour tester cette hypothèse, les chercheurs ont utilisé un modèle de réseau neuronal appelé transformateur, qui a la même architecture que GPT-3, mais qui a été spécialement formé pour l’apprentissage en contexte.
En explorant l’architecture de ce transformateur, ils ont théoriquement prouvé qu’il pouvait écrire un modèle linéaire dans ses états cachés. Un réseau de neurones est composé de plusieurs couches de nœuds interconnectés qui traitent des données. Les états cachés sont les couches entre les couches d’entrée et de sortie.
Leurs évaluations mathématiques montrent que ce modèle linéaire est écrit quelque part dans les premières couches du transformateur. Le transformateur peut alors mettre à jour le modèle linéaire en mettant en œuvre des algorithmes d’apprentissage simples.
Essentiellement, le modèle simule et entraîne une version plus petite de lui-même.
Sondage des couches cachées
Les chercheurs ont exploré cette hypothèse à l’aide d’expériences de sondage, où ils ont regardé dans les couches cachées du transformateur pour essayer de récupérer une certaine quantité.
« Dans ce cas, nous avons essayé de récupérer la solution réelle du modèle linéaire, et nous avons pu montrer que le paramètre est écrit dans les états cachés. Cela signifie que le modèle linéaire est là quelque part », dit-il.
En s’appuyant sur ce travail théorique, les chercheurs pourraient permettre à un transformateur d’effectuer un apprentissage en contexte en ajoutant seulement deux couches au réseau neuronal. Il reste encore de nombreux détails techniques à régler avant que cela ne soit possible, prévient Akyürek, mais cela pourrait aider les ingénieurs à créer des modèles capables d’accomplir de nouvelles tâches sans avoir besoin de se recycler avec de nouvelles données.
« L’article met en lumière l’une des propriétés les plus remarquables des grands modèles de langage modernes – leur capacité à apprendre à partir des données fournies dans leurs entrées, sans formation explicite. En utilisant le cas simplifié de la régression linéaire, les auteurs montrent théoriquement comment les modèles peuvent implémenter la norme algorithmes d’apprentissage tout en lisant leurs entrées, et empiriquement quels algorithmes d’apprentissage correspondent le mieux à leur comportement observé », explique Mike Lewis, chercheur à Facebook AI Research qui n’a pas participé à ce travail. « Ces résultats sont un tremplin pour comprendre comment les modèles peuvent apprendre des tâches plus complexes et aideront les chercheurs à concevoir de meilleures méthodes de formation pour les modèles de langage afin d’améliorer encore leurs performances. »
À l’avenir, Akyürek prévoit de continuer à explorer l’apprentissage en contexte avec des fonctions plus complexes que les modèles linéaires qu’ils ont étudiés dans ce travail. Ils pourraient également appliquer ces expériences à de grands modèles de langage pour voir si leurs comportements sont également décrits par des algorithmes d’apprentissage simples. En outre, il souhaite approfondir les types de données de pré-formation qui peuvent permettre un apprentissage en contexte.
« Grâce à ce travail, les gens peuvent désormais visualiser comment ces modèles peuvent apprendre à partir d’exemples. J’espère donc que cela changera le point de vue de certaines personnes sur l’apprentissage en contexte », déclare Akyürek. « Ces modèles ne sont pas aussi stupides que les gens le pensent. Ils ne se contentent pas de mémoriser ces tâches. Ils peuvent apprendre de nouvelles tâches, et nous avons montré comment cela peut être fait. »