Les données fantômes pourraient montrer aux titulaires de droits d'auteur si leur travail se trouve dans les données de formation de l'IA
Inspirés par les cartographes du 20e siècle, les chercheurs de l'Imperial College ont démontré une nouvelle façon d'identifier les travaux des titulaires de droits d'auteur dans les LLM.
La technique a été présentée à la Conférence internationale sur l'apprentissage automatique à Vienne cette semaine et est détaillée dans cette prépublication sur le site arXiv serveur.
L’IA générative prend le monde d’assaut, transformant déjà la vie quotidienne de millions de personnes.
Aujourd’hui, l’IA repose pourtant souvent sur des bases juridiques « fragiles » en ce qui concerne les données d’entraînement. Les modèles d’IA modernes, tels que les modèles de langage à grande échelle (LLM), nécessitent de grandes quantités de texte, d’images et d’autres formes de contenu provenant d’Internet pour atteindre leurs capacités impressionnantes.
Dans un nouvel article rédigé par des experts de l’Imperial College de Londres, des chercheurs proposent un mécanisme permettant de détecter l’utilisation des données pour la formation de l’IA.
Ils espèrent que la méthode qu’ils proposent servira d’étape vers une plus grande ouverture et transparence dans un domaine en évolution rapide de l’IA générative, et aidera les auteurs à mieux comprendre comment leurs textes sont utilisés.
Le Dr Yves-Alexandre de Montjoye, chercheur principal au département d'informatique de l'Imperial College, a déclaré : « En nous inspirant des cartographes du début du XXe siècle, qui plaçaient des villes fantômes sur leurs cartes pour détecter les copies illicites, nous étudions comment l'injection de « pièges du droit d'auteur » (des phrases fictives uniques) dans le texte original permet la détectabilité du contenu dans un LLM entraîné. »
Premièrement, le propriétaire du contenu répéterait plusieurs fois un piège de droit d'auteur dans sa collection de documents (par exemple, des articles de presse). Ensuite, si un développeur LLM récupère les données et forme un modèle dessus, le propriétaire des données serait en mesure de prouver en toute confiance l'apprentissage en observant des irrégularités dans les résultats du modèle.
La proposition est particulièrement adaptée aux éditeurs en ligne, qui pourraient cacher la phrase piège du droit d'auteur dans l'ensemble de l'article de presse, de sorte qu'elle reste invisible pour le lecteur, mais qu'elle soit susceptible d'être détectée par un récupérateur de données.
Cependant, le Dr de Montjoye souligne que les développeurs de LLM pourraient développer des techniques pour supprimer les pièges et éviter la détection. Les pièges étant intégrés de différentes manières dans les articles de presse, réussir à les supprimer tous nécessitera probablement des ressources d'ingénierie importantes pour rester en avance sur les nouvelles façons de les intégrer.
Pour vérifier la validité de l'approche, ils se sont associés à une équipe en France, en formant un LLM « véritablement bilingue » anglais-français à 1,3 milliard de paramètres, en injectant divers pièges de droits d'auteur dans l'ensemble d'entraînement d'un modèle de langage efficace en termes de paramètres, à la pointe de la technologie. Les chercheurs pensent que le succès de leurs expériences permet de mettre au point de meilleurs outils de transparence pour le domaine de la formation LLM.
Le co-auteur Igor Shilov, également du département d'informatique de l'Imperial College de Londres, a ajouté : « Les entreprises d'IA sont de plus en plus réticentes à partager des informations sur leurs données de formation. Alors que la composition des données de formation pour GPT-3 et LLaMA (anciens modèles publiés respectivement par OpenAI et Meta AI) est connue du public, ce n'est plus le cas pour les modèles plus récents GPT-4 et LLaMA-2.
« Les développeurs de LLM ont peu d'intérêt à être ouverts sur leur procédure de formation, ce qui conduit à un manque de transparence préoccupant (et donc à un partage équitable des bénéfices), ce qui rend plus important que jamais de disposer d'outils pour inspecter ce qui est entré dans le processus de formation. »
Matthieu Meeus, co-auteur de l'étude et membre du département informatique de l'Imperial College de Londres, a déclaré : « Nous pensons que la question de la transparence de la formation en IA et des discussions sur la rémunération équitable des créateurs de contenu est très importante pour l'avenir, où l'IA sera construite de manière responsable. Nous espérons que ce travail sur les pièges du droit d'auteur contribuera à une solution durable. »