Nous savons déjà comment récupérer les invites exactes que les gens utilisent dans les modèles d'IA. C'est une nouvelle terrifiante

Nous savons déjà comment récupérer les invites exactes que les gens utilisent dans les modèles d'IA. C'est une nouvelle terrifiante

Un groupe de chercheurs a publié une étude qui tire une fois de plus la sonnette d’alarme concernant la confidentialité lors de l’utilisation de l’IA. Ce qu’ils ont réussi à démontrer, c’est qu’il est possible de connaître l’invite exacte qu’un utilisateur a utilisée lorsqu’il a demandé quelque chose à un chatbot, ce qui place les entreprises d’IA dans une position délicate. Ils peuvent, plus que jamais, tout savoir de nous.

Une étude terrifiante. Si on vous dit que « les modèles linguistiques sont injectifs et donc inversibles », vous serez probablement choqué. C'est le titre de l'étude réalisée par des chercheurs européens dans laquelle ils expliquent que les grands modèles de langage (LLM) posent un gros problème de confidentialité. Et c'est le cas parce que l'architecture du transformateur est conçue de cette façon : chaque invite différente correspond à une « intégration » différente dans l'espace latent du modèle.

Un algorithme sournois. Au cours de l’élaboration de leur théorie, les chercheurs ont créé un algorithme appelé SIPIT (Sequential Inverse Prompt via ITerative mises à jour). Un tel algorithme reconstruit le texte d'entrée exact à partir des activations/états cachés avec la garantie qu'il le fera en temps linéaire. Ou ce qui est pareil : vous pouvez faire en sorte que le modèle « s'enclenche » facilement et rapidement.

Qu'est-ce que cela signifie? Tout cela signifie que la réponse que vous avez obtenue en utilisant ce modèle d’IA vous permet de savoir exactement ce que vous lui avez demandé. En réalité, ce n'est pas la réponse qui révèle, mais les états cachés ou les intégrations que les modèles d'IA utilisent pour finir par donner la réponse finale. C'est un problème, car les sociétés d'IA gardent ces états cachés, ce qui leur permettrait théoriquement de connaître l'invite de saisie avec une précision absolue.

Mais de nombreuses entreprises ont déjà enregistré les invites. C'est vrai, mais cette « injectivité » crée un risque supplémentaire pour la vie privée. De nombreuses intégrations ou états internes sont stockés à des fins de mise en cache, de surveillance ou de diagnostic et de personnalisation. Si une entreprise supprime uniquement la conversation en texte brut mais ne supprime pas le fichier d'intégration, l'invite est toujours récupérable à partir de ce fichier. L’étude montre que tout système qui stocke les états cachés gère efficacement le texte saisi lui-même.

Impact juridique. Il y a aussi ici une composante juridique dangereuse. Jusqu’à présent, les régulateurs et les entreprises affirmaient que les états internes n’étaient pas considérés comme des « données personnelles récupérables », mais que l’inversibilité changeait les règles du jeu. Si une société d’IA vous dit « ne vous inquiétez pas, je n’enregistre pas les invites » mais qu’elle enregistre les états cachés, c’est comme si cette garantie théorique de confidentialité ne servait à rien.

Fuites de données possibles. A priori, il ne semble pas facile pour un attaquant potentiel de faire une telle chose car il devrait d'abord avoir accès à ces intégrations. Une faille de sécurité entraînant la fuite d'une base de données de ces états internes/cachés (embeddings) ne serait plus considérée comme une exposition de données « abstraites » ou « cryptées », mais plutôt comme une source de texte brut à partir de laquelle, par exemple, des données financières ou des mots de passe qu'une entreprise ou un utilisateur a utilisés pour demander le modèle d'IA pourraient être obtenus.

Droit à l'oubli. Cette injectivité du LLM complique également les exigences de conformité réglementaire en matière de protection des données personnelles, comme le RGPD ou le « droit à l'oubli ». Si un utilisateur demande la suppression complète de ses données à une entreprise comme OpenAI, il doit s'assurer qu'il supprime non seulement les journaux de discussion visibles, mais également toutes les représentations internes (embeddings). Si un état caché persiste dans un registre ou un cache, l'invite d'origine serait toujours potentiellement récupérable.

Images | Photographe Levart

À Simseo | OpenAI permet à l'industrie technologique d'unir son destin au vôtre. Pour le bien de l’économie mondiale, il vaut mieux travailler