Les modèles d'IA générative peuvent oublier sélectivement les données après l'entraînement

La propriété intellectuelle reste l’un des plus grands problèmes non résolus de l’IA. Le procès intenté par les auteurs concernant l’utilisation de l’ensemble de données Books3 pour former des modèles d’IA populaires met en évidence les risques pour les entreprises qui construisent et utilisent l’IA générative. Et si les modèles d’IA pouvaient oublier ? Les chercheurs de Microsoft ils essaient de répondre à cette question. Grâce à une nouvelle technique – encore inconnue – les chercheurs ont réussi à désapprendre sélectivement des informations provenant de grands modèles linguistiques. Voyons comment.

Lama 2-7b a oublié ses données d’entraînement

Les chercheurs ont réussi à faire oublier au modèle Llama 2-7b des détails sur les livres de Harry Potter grâce à une technique qui consiste à identifier des jetons liés au contenu, à remplacer des phrases uniques par des phrases génériques et à affiner le modèle.

Le résultat était que le modèle générait des réponses fabriquées lorsqu’on lui demandait de parler d’Harry Potter et n’était plus en mesure de générer des suites détaillées des histoires.

Les entreprises pourraient utiliser cette technique pour supprimer les données de formation biaisées, exclusives ou portant atteinte aux droits d’auteur une fois le modèle développé.

En outre, cette technique pourrait permettre de mettre à jour les modèles en fonction des avancées de la législation et des normes de données, rendant ainsi les systèmes d’IA plus robustes et plus évolutifs.

« Bien que notre méthode en soit à ses débuts et puisse avoir des limites, elle constitue un pas en avant prometteur », écrivent Ronen Eldan de Microsoft Research et Mark Russinovich d’Azure dans un article de blog. « Grâce à des efforts comme les nôtres, nous envisageons un avenir dans lequel les diplômés en droit seront non seulement compétents, mais également adaptables et attentifs à la vaste mosaïque de valeurs humaines, d’éthique et de lois. »

Vous pouvez essayer le modèle sur Hugging Face : Llama2-7b-WhoIsHarryPotter.

Comment fonctionne le processus de désapprentissage

Le procès a été publié dans un article intitulé « Qui est Harry Potter ? Désapprentissage approximatif en LLM ».

Les chercheurs ont pris Llama2-7B, l’un des modèles susceptibles d’avoir utilisé les livres3, et avec leur nouvelle technique, ils ont réussi à lancer un sort d’oubli (Obliviate in the Potter world) et à faire oublier au modèle toutes les aventures de Poudlard.

En l’absence de connaissance livresque, le modèle recourt à des réponses hallucinées.

Crédit : Microsoft

Les chercheurs ont entrepris un processus en trois étapes :

Identifiez les jetons liés au contenu grâce au renforcement des connaissances cibles
Remplacement des expressions uniques des données cibles par des expressions génériques
Affiner le modèle avec les étiquettes remplacées

L’équipe a utilisé l’apprentissage par renforcement pour identifier les connaissances cibles, a remplacé des phrases spécifiques par des phrases génériques et a finalement affiné le modèle sur les données modifiées.

C’est comme si vous vouliez retirer un ingrédient spécifique d’un gâteau une fois qu’il est déjà cuit. Vous ne pouvez pas simplement l’enlever, mais des substituts ou des substitutions peuvent être ajoutés pour modifier la saveur. Il ne supprime pas directement les informations, mais les remplace par quelque chose de différent.

Une description plus technique de l’article se lit comme suit : « Supposons qu’un modèle de langage génératif ait été formé sur un ensemble de données X. Nous définissons un sous-ensemble Y ⊂ X que nous appelons l’objectif de désapprentissage. Notre objectif est d’imiter grossièrement l’effet du recyclage du modèle sur XY, en supposant que le recyclage du modèle sur XY est trop lent et coûteux, ce qui en fait une approche peu pratique.

Protection du client

La recherche pourrait s’avérer être une implication importante dans le développement et la maintenance de modèles d’IA, car elle pourrait réduire les risques généralement associés aux données d’entraînement.

Avant cette recherche, Microsoft était parfaitement conscient des risques et l’entreprise assume désormais la responsabilité d’intégrer à la hâte l’IA dans ses principaux outils de productivité.

L’entreprise avait déjà reconnu les problèmes juridiques potentiels liés à l’utilisation de l’intelligence artificielle lorsque, début septembre, elle a annoncé qu’elle soutiendrait toute poursuite intentée par les clients qui utilisaient ses produits Copilot AI.

Disposer d’un outil permettant de désapprendre les données dans un grand modèle de langage pourrait constituer un moyen de dissuasion supplémentaire pour éviter d’éventuels maux de tête à ceux qui utilisent ses systèmes d’IA.

Une technique encore balbutiante

Bien que prometteuse, cette technique a encore un long chemin à parcourir. Comme le notent les chercheurs, le désapprentissage dans les grands modèles de langage est « un défi » mais, comme le démontrent les résultats, ce n’est pas une « tâche insurmontable ».

L’approche s’est avérée efficace, mais les chercheurs notent qu’elle « pourrait potentiellement ignorer des moyens d’extraction d’informations plus agressifs ».

Il y a des limites à cette première expérience. Comme l’indique le document, les livres de Harry Potter regorgent d’expressions idiosyncrasiques et de noms distinctifs qui peuvent avoir « favorisé » la stratégie de recherche.

« La présence prononcée des thèmes Harry Potter dans les données de formation de nombreux grands modèles de langage aggrave encore le défi », indique le document. « Compte tenu d’une représentation aussi répandue, même le moindre indice dans une invite pourrait susciter une cascade de complétions liées, soulignant la profondeur de la mémoire inhérente au modèle. »

Ce problème s’étendrait également aux non-fictions ou aux manuels scolaires, qui comportent également une densité de termes et d’expressions uniques, avec l’ajout d’idées et de thèmes de niveau supérieur.

« On ne sait toujours pas dans quelle mesure notre technique peut efficacement traiter et désapprendre ces éléments plus abstraits », ont écrit les chercheurs.