Les lois sur le droit à l'oubli doivent s'étendre à l'IA générative, selon des chercheurs

Un exemple de mémorisation ChatGPT et d’hallucinations se produisant en même temps lorsqu’on ne demande pas explicitement d’informations. Les noms et descriptions réels sont masqués pour des raisons de confidentialité. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2307.03941

Si seulement Internet adoptait l’idée derrière le slogan populaire de Las Vegas : « Ce qui se passe à Vegas reste à Vegas ».

Le slogan commandé par l’office du tourisme de la ville attire sournoisement les nombreux visiteurs qui souhaitent garder privées leurs activités privées dans la première aire de jeux pour adultes des États-Unis.

Pour bon nombre des 5 milliards d’entre nous qui sommes actifs sur le Web, le slogan pourrait tout aussi bien être : « Ce que vous faites sur le Web reste sur le Web, pour toujours ».

Les gouvernements sont aux prises avec des problèmes de confidentialité sur Internet depuis des années. Faire face à un type de violation de la vie privée a été particulièrement difficile : former Internet, qui se souvient des données pour toujours, comment oublier certaines données nuisibles, embarrassantes ou erronées.

Des efforts ont été faits ces dernières années pour offrir des voies de recours aux particuliers lorsque des informations préjudiciables à leur sujet resurgissent constamment dans les recherches sur le Web. Mario Costeja González, un homme dont les problèmes financiers des années précédentes continuaient d’apparaître dans les recherches sur le Web portant son nom, a poursuivi Google en justice pour l’obliger à supprimer des informations privées qui étaient anciennes et qui n’étaient plus pertinentes. La Cour de justice européenne s’est rangée du côté de lui en 2014 et a forcé les moteurs de recherche à supprimer les liens vers les données blessantes. Les lois sont devenues connues sous le nom de règles du droit à l’oubli (RTBF).

Maintenant, alors que nous assistons à la croissance explosive de l’IA générative, on craint à nouveau qu’une autre voie, celle-ci non liée aux moteurs de recherche, ne s’ouvre pour la régurgitation sans fin d’anciennes données nuisibles.

Les chercheurs de l’unité commerciale Data61 de l’Agence nationale des sciences australienne avertissent que les grands modèles linguistiques (LLM) risquent d’enfreindre ces lois de la RTBF.

La montée en puissance des LLM pose « de nouveaux défis pour la conformité à la RTBF », a déclaré Dawen Zhang dans un article intitulé « Le droit à l’oubli à l’ère des grands modèles de langage : implications, défis et solutions ». Le papier est apparu sur le serveur de préimpression arXiv le 8 juillet.

Zhang et six collègues soutiennent que si la RTBF se concentre sur les moteurs de recherche, les LLM ne peuvent pas être exclus des réglementations sur la confidentialité.

« Par rapport à l’approche d’indexation utilisée par les moteurs de recherche », a déclaré Zhang, « les LLM stockent et traitent les informations d’une manière complètement différente ».

Mais 60% des données de formation pour des modèles tels que ChatGPT-3 ont été extraites des ressources publiques, a-t-il déclaré. OpenAI et Google ont également déclaré qu’ils s’appuyaient fortement sur les conversations Reddit pour leurs LLM.

En conséquence, a déclaré Zhang, « les LLM peuvent mémoriser des données personnelles, et ces données peuvent apparaître dans leur sortie ». De plus, les cas d’hallucination – la sortie spontanée d’informations manifestement fausses – ajoutent au risque d’informations préjudiciables qui peuvent masquer les utilisateurs privés.

Le problème est aggravé par le fait qu’une grande partie des sources de données d’IA génératives restent essentiellement inconnues des utilisateurs.

De tels risques pour la vie privée seraient également contraires aux lois promulguées dans d’autres pays. La California Consumer Privacy Act, la Japan Act on the Protection of Personal Information et la Consumer Privacy and Protection Act du Canada visent toutes à habiliter les particuliers à obliger les fournisseurs Web à supprimer les divulgations personnelles injustifiées.

Les chercheurs ont suggéré que ces lois devraient également s’appliquer aux LLM. Ils ont discuté des processus de suppression des données personnelles des LLM tels que le « désapprentissage automatique » avec la formation SISA (partagé, isolé, découpé et agrégé) et la suppression approximative des données.

Entre-temps, OpenAI a récemment commencé à accepter les demandes de suppression de données.

« La technologie a évolué rapidement, entraînant l’émergence de nouveaux défis dans le domaine du droit », a déclaré Zhang, « mais le principe de la vie privée en tant que droit humain fondamental ne doit pas être modifié, et les droits des personnes ne doivent pas être compromis en tant que résultat des avancées technologiques. »