La méthode courante pour tester les fuites dans les grands modèles de langage peut être erronée

Les grands modèles de langage sont partout, y compris en arrière-plan des applications sur l'appareil que vous utilisez pour lire ceci. Les suggestions de saisie semi-automatique dans vos textes et e-mails, les réponses aux requêtes composées par Gemni, Copilot et ChatGPT et les images générées à partir de DALL-E sont toutes construites à l'aide de LLM.

Et ils sont tous formés sur de vrais documents et images.

L'expert en sécurité informatique David Evans de l'École d'ingénierie et de sciences appliquées de l'Université de Virginie et ses collègues ont récemment signalé qu'une méthode courante utilisée par les développeurs d'intelligence artificielle pour tester si les données de formation d'un LLM risquent d'être exposées ne fonctionne pas aussi bien qu'une fois. pensée. Les résultats sont publiés sur le arXiv serveur de préimpression.

Présenté à la Conférence sur la modélisation linguistique le mois dernier, l'article indique dans son résumé : « Nous constatons que les MIA surpassent à peine les suppositions aléatoires pour la plupart des paramètres, dans différentes tailles et domaines de LLM. »

Qu'est-ce qu'un MIA ? Une fuite ?

Lors de la création de grands modèles de langage, les développeurs adoptent essentiellement une approche de type « aspirateur ». Ils aspirent autant de texte qu'ils le peuvent, souvent à partir de sections d'exploration d'Internet, ainsi que de sources plus privées, telles que les e-mails ou d'autres référentiels de données, pour entraîner leurs applications d'intelligence artificielle à comprendre les propriétés du monde dans lequel ils travaillent.

C'est important lorsqu'il s'agit de la sécurité de ces données de formation, qui peuvent inclure des écrits ou des images publiées par des millions d'internautes.

Les possibilités de vulnérabilité, que ce soit pour les créateurs de contenu ou pour ceux qui forment les LLM, sont étendues.

Les attaques par inférence d'adhésion, ou MIA, sont le principal outil que les développeurs d'IA utilisent pour mesurer les risques d'exposition aux informations, appelés fuites, a expliqué Evans, professeur d'informatique qui dirige le groupe de recherche sur la sécurité à l'UVA et co-auteur de la recherche.

Evans et Anshuman Suri, étudiant récemment diplômé en doctorat, le deuxième auteur de l'article, qui est maintenant chercheur postdoctoral à la Northeastern University, ont collaboré à l'étude avec des chercheurs de l'Université de Washington.

Anshuman Suri, qui a partagé la première paternité de l'article, est maintenant chercheur postdoctoral à la Northeastern University. Les chercheurs de l'UVA ont collaboré à cette étude avec des chercheurs de l'Université de Washington. (Photo contribuée)

La principale valeur d'un test d'inférence d'adhésion sur un LLM réside dans son rôle d'audit de confidentialité, a expliqué Evans. « C'est un moyen de mesurer la quantité d'informations divulguées par le modèle sur des données d'entraînement spécifiques.

Par exemple, l’utilisation d’un logiciel contradictoire pour évaluer le produit d’une application chargée de générer l’image d’un professeur enseignant aux étudiants dans « le style » de l’artiste Monet pourrait conduire à déduire que l’une des peintures de pont de Monet a aidé la formation de l’IA.

« Un MIA est également utilisé pour tester si – et si oui, dans quelle mesure – le modèle a mémorisé les textes textuellement », a ajouté Suri.

Compte tenu du risque de responsabilité juridique, les promoteurs voudront connaître la solidité de leurs canalisations de fondation.

Dans quelle mesure ce LLM est-il privé ? Quelle est l’efficacité de ce MIA ?

Les chercheurs ont effectué une évaluation à grande échelle de cinq MIA couramment utilisés. Tous les outils contradictoires ont été formés sur l'ensemble de données de modélisation de langage open source populaire connu sous le nom de « la Pile ». Un groupe de recherche à but non lucratif appelé EleutherAI a rendu publique la grande collection de modèles de langage en décembre 2020.

Microsoft et Meta, ainsi que de grandes universités telles que Stanford, ont tous formé les LLM des applications sélectionnées sur l'ensemble de données.

Que contiennent les données d'entraînement ? Sous-ensembles de données collectées à partir d'entrées Wikipédia, de résumés PubMed, d'arrière-plans de l'Office des brevets et des marques des États-Unis, des sous-titres YouTube, des mathématiques Google DeepMind et plus encore, représentant 22 sites Web populaires et riches en informations au total.

La pile n'a pas été filtrée en fonction de la personne qui a donné son consentement, bien que les chercheurs puissent utiliser les outils d'Eleuther pour affiner le modèle, en fonction des types de préoccupations éthiques qu'ils pourraient avoir.

« Nous avons constaté que les méthodes actuelles permettant de mener des attaques par inférence d'appartenance sur les LLM ne mesurent pas bien l'inférence d'appartenance, car elles souffrent de difficultés à définir un ensemble bien représentatif de candidats non membres pour les expériences », a déclaré Evans.

L’une des raisons est que la fluidité du langage, contrairement à d’autres types de données, peut conduire à une ambiguïté quant à ce qui constitue un membre d’un ensemble de données.

« Le problème est que les données linguistiques ne sont pas comme les enregistrements de formation d'un modèle traditionnel, il est donc très difficile de définir ce qu'est un membre en formation », a-t-il déclaré, soulignant que les phrases peuvent présenter des similitudes subtiles ou des différences de sens dramatiques basées sur de petits changements. dans les choix de mots.

« Il est également très difficile de trouver des candidats non-membres issus de la même répartition, et l'utilisation de délais de formation à cet effet est sujette aux erreurs puisque la répartition réelle des langues change constamment. »

C'est ce qui a amené des recherches antérieures publiées démontrant l'efficacité des MIA à démontrer plutôt l'inférence de distribution, affirment Evans et ses collègues.

L'écart « peut être attribué à un changement de distribution, par exemple, les membres et les non-membres sont apparemment issus d'un domaine identique mais avec des plages temporelles différentes », indique le document.

Leurs recherches open source basées sur Python sont désormais disponibles dans le cadre d'un projet général appelé MIMIR, afin que d'autres chercheurs puissent effectuer des tests d'inférence d'appartenance plus révélateurs.

Inquiet? Un risque relatif encore faible

Jusqu'à présent, les preuves indiquent que les risques d'inférence pour les enregistrements individuels dans les données préalables à la formation sont faibles, mais il n'y a aucune garantie.

« Nous nous attendons à ce qu'il y ait moins de risque d'inférence pour les LLM en raison de la taille énorme du corpus de formation et de la manière dont la formation est effectuée, ce texte individuel n'est souvent vu que quelques fois par le modèle en formation », a déclaré Evans.

Dans le même temps, la nature interactive de ces types de LLM open source ouvre davantage de voies qui pourraient être utilisées à l’avenir pour mener des attaques plus puissantes.

« Nous savons cependant que si un adversaire utilise les LLM existants pour s'entraîner sur ses propres données, ce que l'on appelle le réglage fin, ses propres données sont bien plus susceptibles d'être erronées que les données vues lors de la phase d'entraînement initiale du modèle », a déclaré Suri. .

L’essentiel des chercheurs est que mesurer les risques liés à la vie privée des LLM est un défi, et la communauté de l’IA commence tout juste à apprendre comment le faire.