Des chercheurs fabriquent des modèles linguistiques autodidactes évolutifs

Visualisation de la méthode SimPLE. La figure montre l’espace d’intégration des phrases naturelles et différentes couleurs représentent différentes étiquettes prédites. Chaque échantillon de données est étiqueté avec plusieurs abandons aléatoires, et nous utilisons l’algorithme SETRED pour détecter les pseudo-étiquettes incertaines. L’étiquette finale est votée par des inférences confiantes. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2305.17197

Socrate a dit un jour : « Ce n’est pas la taille d’une chose, mais sa qualité qui compte vraiment. Car c’est dans la nature de la substance, et non dans son volume, que se trouve la vraie valeur.

Dites cela aux grands modèles de langage. Mais la taille compte-t-elle toujours ? Une question qui fait réfléchir. Dans un paysage technologique ébloui par les grands modèles de langage qui occupent le devant de la scène, les chercheurs du MIT CSAIL pensent que les modèles plus petits ne doivent pas être négligés, en particulier pour les produits en langage naturel largement déployés dans l’industrie.

À cette fin, ils ont concocté une approche des problèmes de longue date d’inefficacité et de confidentialité associés aux grands modèles d’IA basés sur du texte. Un modèle sensible à la logique qui surpasse ses homologues 500 fois plus grands sur certaines tâches de compréhension du langage sans annotations générées par l’homme, tout en préservant la confidentialité et la robustesse avec des performances élevées. Leur étude est publiée sur le arXiv serveur de préimpression.

Les grands modèles de langage, qui ont montré des compétences prometteuses dans la génération de langage, d’art et de code, sont coûteux en calcul, et leurs exigences en matière de données peuvent risquer des fuites de confidentialité lors de l’utilisation d’API pour le téléchargement de données. Les modèles plus petits ont été historiquement moins performants, en particulier dans les tâches multitâches et faiblement supervisées par rapport à leurs homologues plus grands.

Alors, qu’est-ce qui aide ces modèles plus petits à agir si puissamment ? Quelque chose appelé « implication textuelle », un moyen d’aider ces modèles à comprendre une variété de tâches linguistiques, où si une phrase (la prémisse) est vraie, alors l’autre phrase (l’hypothèse) est susceptible d’être vraie également. Par exemple, si la prémisse est « tous les chats ont une queue », alors l’hypothèse « un chat tigré a une queue » serait impliquée par la prémisse.

Ce concept est utilisé pour former un « modèle d’implication » qui s’est avéré moins biaisé que d’autres modèles de langage, à partir des recherches précédentes de l’équipe. Ils ont ensuite créé des « invites » que les modèles peuvent utiliser pour déterminer si certaines informations sont impliquées par une phrase ou une expression donnée en fonction de différentes tâches. Cette méthode a amélioré la capacité du modèle à s’adapter à différentes tâches sans aucune formation supplémentaire, connue sous le nom d’adaptation zéro coup.

Dans le domaine de la « compréhension du langage naturel », il existe diverses applications qui reposent sur la détermination de la relation entre deux morceaux de texte. Par exemple, dans la classification des sentiments, une déclaration comme « Je pense que le film est bon » peut être déduite ou impliquée à partir d’une critique de film qui dit « J’aime l’histoire et le jeu est génial », indiquant un sentiment positif.

Une autre est la classification des nouvelles, où le sujet d’un article de presse peut être déduit de son contenu. Par exemple, une déclaration telle que « L’article d’actualité concerne le sport » peut être impliquée par un article si le contenu principal de l’article porte sur un match de la NBA. L’idée clé était que de nombreuses tâches existantes de compréhension du langage naturel pourraient être refondues en une tâche d’implication (c’est-à-dire une inférence logique en langage naturel).

« Notre recherche vise à améliorer la capacité des programmes informatiques à comprendre et à traiter le langage naturel – la façon dont les humains parlent et écrivent. Nos modèles d’implication auto-formés de 350 millions de paramètres, sans étiquettes générées par l’homme, surpassent les modèles de langage supervisé avec 137 à 175 milliards paramètres », déclare Hongyin Luo, associé postdoctoral au MIT CSAIL, auteur principal.

« Cela a le potentiel de remodeler le paysage de l’IA et de l’apprentissage automatique, en fournissant une solution plus évolutive, fiable et rentable pour la modélisation du langage », déclare Luo. « En prouvant que les modèles plus petits peuvent fonctionner au même niveau que les plus grands pour la compréhension du langage, ce travail ouvre la voie à des technologies d’IA plus durables et plus respectueuses de la vie privée. »

L’équipe a découvert qu’elle pouvait encore améliorer les performances du modèle en utilisant une technique appelée « auto-formation », où le modèle utilise ses propres prédictions pour s’auto-apprendre, apprenant efficacement sans supervision humaine et sans données de formation annotées supplémentaires. La méthode d’auto-formation a considérablement amélioré les performances sur un ensemble de tâches en aval, notamment l’analyse des sentiments, la réponse aux questions et la classification des actualités. Il a surpassé à la fois le LaMDA et le FLAN de Google en termes de capacités de tir zéro, de modèles GPT et d’autres algorithmes supervisés.

Cependant, un défi avec l’auto-formation est que le modèle peut parfois générer des étiquettes incorrectes ou bruyantes qui nuisent aux performances. Pour surmonter cela, ils ont développé un nouvel algorithme appelé « SimPLE » (Simple Pseudo-Label Editing), un processus pour revoir et modifier les pseudo-étiquettes créées lors des premiers cycles d’apprentissage. En corrigeant les instances mal étiquetées, il a amélioré la qualité globale des étiquettes auto-générées. Cela a non seulement rendu les modèles plus efficaces pour comprendre le langage, mais aussi plus robustes face à des données contradictoires.

Comme pour la plupart des recherches, il existe certaines limites. L’auto-formation sur les tâches de classification multi-classes n’a pas été aussi performante que sur les tâches NLU binaires, ce qui indique le défi d’appliquer des modèles d’implication aux tâches à choix multiples.

« Cette recherche présente un moyen efficace et efficient de former de grands modèles de langage (LLM) en formulant des tâches de compréhension du langage naturel comme des problèmes d’implication contextuelle et en utilisant un mécanisme d’auto-formation de pseudo-étiquetage pour incorporer de grandes quantités de données textuelles non étiquetées dans le processus de formation, » ajoute James Glass, professeur au MIT et chercheur principal du CSAIL, qui est également l’un des auteurs de l’article.

« Alors que le domaine des LLM subit des changements rapides et spectaculaires, cette recherche montre qu’il est possible de produire des modèles de langage relativement compacts qui fonctionnent très bien sur des tâches de compréhension de référence par rapport à leurs pairs de taille à peu près identique, voire même des modèles de langage beaucoup plus grands. . »

« La tâche d’implication est un proxy populaire pour évaluer la » compréhension « d’un contexte donné par un modèle d’IA », explique Leonid Karlinsky, membre du personnel de recherche au MIT-IBM Watson AI Lab. « Il est utilisé dans de nombreux domaines analysant des modèles avec des entrées unimodales, comme les LLM, et multimodales, comme les entrées VLM, simplifiant la tâche de réponse aux questions sur un contexte d’entrée donné à un problème de classification binaire – ce contexte implique-t-il un certain (par exemple , texte) conclusion ou non ? Cet article apporte deux contributions dans cet espace. Tout d’abord, il propose un moyen d’améliorer les performances et la robustesse de la NLU à tir zéro (sans réglage supplémentaire) face aux attaques adverses via un réglage avec des tâches d’implication synthétisées (spécialisées) générées pour la tâche NLU primaire. Deuxièmement, il offre une méthode SimPLE auto-supervisée comprenant un pseudo-étiquetage et un filtrage basé sur la confiance pour améliorer encore les performances NLU des grands LLM.

« NLU est un module crucial pour des systèmes d’IA industriels efficaces », déclare Daniel Li, responsable de la recherche sur l’IA chez Facebook. « Les modèles NLU traditionnels dépendent des tâches et sont entraînés avec une quantité importante de données annotées par l’homme. Ce travail montre des résultats passionnants et prometteurs pour un modèle efficace en termes de calcul, auto-apprenant et robuste, polyvalent parmi un large éventail de tâches NLU. »

Luo et Glass ont rédigé l’article avec Yoon Kim, membre du CSAIL et professeur adjoint au Département de génie électrique et d’informatique du MIT. Leurs travaux seront présentés lors de la réunion de l’Association for Computational Linguistics à Toronto, au Canada, en juillet.

Fourni par le laboratoire d’informatique et d’intelligence artificielle du MIT