Une nouvelle méthode pour adapter de grands modèles d’IA

Une nouvelle méthode pour adapter de grands modèles d’IA

Les capacités des modèles d'IA pré-entraînés à grande échelle ont récemment grimpé en flèche, comme le démontrent les modèles de langage de vision à grande échelle comme CLIP ou ChatGPT. Ces modèles généralistes typiques peuvent fonctionner raisonnablement bien dans des tâches couvrant une grande variété de domaines, ce qui a ouvert la voie à leur adoption généralisée par le public. Toutefois, une telle polyvalence a sans aucun doute un coût.

La formation et l'exploitation de modèles à grande échelle consomment des quantités extrêmes d'énergie et de temps, ce qui va à l'encontre des objectifs de durabilité et limite les types d'ordinateurs sur lesquels ils peuvent être déployés. De plus, dans de nombreuses applications pratiques, les gens souhaitent que les modèles d’IA remplissent des rôles spécifiques plutôt que d’être des touche-à-tout.

Dans de tels cas, les capacités généralistes d’un modèle peuvent s’avérer inutiles, voire contre-productives, réduisant ainsi la précision. Existe-t-il un moyen d'exploiter plus efficacement les modèles pré-entraînés à grande échelle en les faisant « oublier » des informations inutiles ?

Dans un article récent qui sera présenté dans Neural Information Processing Systems (NeurIPS 2024), une équipe de recherche dirigée par le professeur agrégé Go Irie de l'Université des sciences de Tokyo (TUS), au Japon, a cherché à résoudre ce problème. Ils ont développé une méthodologie baptisée « oubli de la boîte noire, » grâce auquel on peut optimiser de manière itérative les invites de texte présentées à un modèle de classificateur de langage de vision en boîte noire pour les avoir de manière sélective « oublier » certaines des classes qu'il peut reconnaître. Les co-auteurs de cette étude comprenaient M. Yusuke Kuwana et M. Yuta Goto, tous deux de TUS, ainsi que le Dr Takashi Shibata de NEC Corporation.

« Dans les applications pratiques, la classification de toutes sortes de classes d’objets est rarement requise. Par exemple, dans un système de conduite autonome, il suffirait de reconnaître des classes limitées d’objets tels que les voitures, les piétons et les panneaux de signalisation. Nous n'aurions pas besoin de reconnaître la nourriture, les meubles ou les espèces animales, » explique le Dr Irie.

« Conserver les classes qui n'ont pas besoin d'être reconnues peut diminuer la précision globale de la classification, ainsi qu'entraîner des inconvénients opérationnels tels que le gaspillage de ressources informatiques et le risque de fuite d'informations. »

Bien qu'il existe certaines méthodes d'oubli sélectif dans les modèles pré-entraînés, celles-ci supposent un paramètre de boîte blanche, où l'utilisateur a accès aux paramètres internes et à l'architecture du modèle. Le plus souvent, les utilisateurs ont affaire à des boîtes noires ; ils n'ont pas accès au modèle lui-même ni à la plupart de ses informations pour des raisons commerciales ou éthiques. Ainsi, les chercheurs ont dû employer une stratégie d’optimisation dite sans dérivée, qui ne nécessite pas d’accès aux gradients du modèle.

Oubli de la boîte noire : une nouvelle méthode pour personnaliser les grands modèles d'IA

À cette fin, ils ont étendu une méthode connue sous le nom de CMA-ES, avec le modèle de classificateur d’images CLIP comme modèle cible pour cette étude. Cet algorithme évolutif consiste à échantillonner diverses invites candidates à alimenter le modèle et à évaluer les résultats via des fonctions objectives prédéfinies, en mettant à jour une distribution multivariée basée sur les valeurs calculées.

Cependant, les performances des techniques d’optimisation sans dérivées se détériorent rapidement pour des problèmes à grande échelle. Comme davantage de cours doivent être oubliés, le « contexte latent » utilisé pour optimiser les invites de saisie atteint des tailles ingérables. Pour résoudre ce problème, l'équipe de recherche a mis au point une nouvelle technique de paramétrisation appelée « partage de contexte latent. »

Cette approche implique de décomposer le contexte latent dérivé des invites en divers éléments plus petits, considérés comme étant « unique » à un jeton d'invite ou « commun » entre plusieurs jetons. En visant à optimiser ces unités plus petites plutôt que de gros morceaux de contexte latent, la dimensionnalité du problème peut être considérablement réduite, le rendant beaucoup plus traitable.

Les chercheurs ont validé leur approche à l'aide de plusieurs ensembles de données de classification d'images de référence, en essayant d'amener CLIP à « oublier » 40 % des classes dans un ensemble de données donné. Il s'agit de la première étude dans laquelle l'objectif est de faire en sorte qu'un modèle de langage visuel pré-entraîné ne parvienne pas à reconnaître des classes spécifiques dans des conditions de boîte noire et, sur la base de performances de base raisonnables, les résultats étaient très prometteurs.

Cette méthode innovante a des implications importantes dans le domaine de l’intelligence artificielle et de l’apprentissage automatique. Cela pourrait aider les modèles à grande échelle à mieux performer dans des tâches spécialisées, étendant ainsi leur applicabilité déjà étonnante. Une autre utilisation, par exemple, serait d'empêcher les modèles de génération d'images de produire du contenu indésirable en leur faisant oublier des contextes visuels spécifiques.

En outre, la méthode proposée pourrait contribuer à résoudre les problèmes de confidentialité, qui constituent une préoccupation croissante dans ce domaine. « Si un fournisseur de services est invité à supprimer certaines informations d'un modèle, cela peut être réalisé en reformant le modèle à partir de zéro en supprimant les échantillons problématiques des données de formation. Cependant, le recyclage d'un modèle à grande échelle consomme d'énormes quantités d'énergie, » dit le Dr Irie. « L’oubli sélectif, ou désapprentissage automatique, peut apporter une solution efficace à ce problème. »

En d’autres termes, cela pourrait contribuer à développer des solutions pour protéger ce que l’on appelle « Droit à l'oubli, » qui est un sujet particulièrement sensible dans le domaine de la santé et des finances.