Le dégorgement des modèles : la clé pour corriger les biais de l’IA et la violation du droit d’auteur ?

Les défis posés par l’IA générative ne sont désormais plus un secret. Des modèles comme ChatGPT d'OpenAI, Claude d'Anthropic et Llama de Meta sont connus pour « halluciner », inventer des réponses potentiellement trompeuses et divulguer des informations sensibles, comme des documents protégés par le droit d'auteur.

Une solution potentielle à certains de ces problèmes est la « dégorgement des modèles », un ensemble de techniques qui obligent les modèles à se purger du contenu qui conduit à une violation du droit d'auteur ou à des réponses biaisées.

Dans un article en Actes de l'Académie nationale des sciencesMichael Kearns, professeur au Centre national de gestion et de technologie en informatique et sciences de l'information (CIS), et trois collègues chercheurs d'Amazon partagent leur point de vue sur le potentiel de dégorgement des modèles pour résoudre certains des problèmes auxquels sont confrontés les modèles d'IA aujourd'hui.

Dans les questions et réponses suivantes, Kearns discute du document et de ses implications pour l'amélioration de l'IA.

Qu’est-ce que le dégorgement de mannequin ?

Le dégorgement de modèles est le nom d'un large ensemble de techniques et des problèmes que ces techniques tentent de résoudre. L'objectif est d'atténuer ou d'éradiquer les effets de données d'entraînement particulières sur le comportement d'un modèle entraîné.

Vous vous attendez à ce que des éléments individuels de données d’entraînement ou des collections de données d’entraînement influencent le comportement du modèle. Mais cela peut entraîner des fuites de confidentialité, des violations du droit d’auteur et d’autres problèmes qui ne sont pas encore couverts par la loi.

En quoi la restitution des modèles est-elle différente des efforts visant à garantir la confidentialité des données, comme le règlement général européen sur la protection des données ?

Ce sont des préoccupations différentes mais liées. Si je demande à Facebook de supprimer toutes mes activités Facebook stockées de ses serveurs, le RGPD exige que cela soit fait sur demande.

Les lois comme le RGPD sont moins claires sur ce qui se passe avant la suppression de vos données. Vos données ont été utilisées pour former un modèle prédictif, et ce modèle prédictif existe toujours et fonctionne toujours dans le monde. Ce modèle aura toujours été formé sur vos données même après la suppression de vos données des serveurs de Facebook. Cela peut entraîner un certain nombre de problèmes.

D’une part, si vos données étaient privées, un adversaire tiers pourrait être en mesure de procéder à une ingénierie inverse des aspects sensibles de vos données privées. Il s'agit certainement d'un cas dans lequel vous souhaiteriez que les techniques de dégorgement du modèle suppriment ces données sensibles du modèle.

En outre, il existe également des problèmes de droits d'auteur, comme nous le voyons dans le procès intenté par le New York Times contre OpenAI. ChatGPT peut régurgiter textuellement des articles protégés par le droit d'auteur du Times. Il est assez clair qu'OpenAI a utilisé ces articles pour former ChatGPT.

Pour être clair, le journal ne veut pas que ces articles soient privés ; il souhaite que les articles soient accessibles au public. Mais le Times souhaite également contrôler l'utilisation et la reproduction des articles.

Enfin, il existe un autre problème que je pourrais qualifier de « violation de style », dans lequel un utilisateur peut dire : « Donnez-moi une peinture dans le style d'Andy Warhol représentant un chat faisant du skateboard à Rittenhouse Square ». Le mannequin est capable de faire du bon travail car il a été formé sur l'ensemble de la carrière d'Andy Warhol. Si vous êtes l'exécuteur testamentaire de la succession d'Andy Warhol, vous pourriez être en désaccord avec cela.

Même s’il s’agit de problématiques très différentes, les manières techniques de les résoudre sont assez similaires et font appel à des techniques de dégorgement sur modèle. En d’autres termes, ce n’est pas que la restitution de modèles soit différente des efforts visant à garantir la confidentialité des données, mais plutôt que les techniques de restitution de modèles peuvent être utilisées dans certaines situations où les approches actuelles en matière de confidentialité, comme le RGPD, échouent.

L'algorithme éthique, que vous avez co-écrit avec Aaron Roth, professeur Henry Salvatori d'informatique et de sciences cognitives à la CEI, et auquel vous avez récemment fait référence dans le contexte de l'IA, décrit comment intégrer des considérations éthiques dans la conception d'algorithmes. Cette approche serait-elle réalisable avec des modèles d’IA ?

Lorsque nous avons écrit ce livre, l’IA générative n’existait pas, du moins pas comme aujourd’hui. Notre livre s'est concentré sur l'apprentissage automatique traditionnel, qui implique des prédictions plus ciblées, comme prendre les informations d'une demande de prêt et proposer une évaluation du risque qu'une personne particulière fasse défaut si elle obtenait un prêt.

Lorsqu'une application est ainsi ciblée, il devient beaucoup plus possible d'intégrer dans le processus de formation des défenses contre divers préjudices qui vous préoccupent, comme les biais démographiques dans les performances du modèle ou la fuite des données de formation privées.

Pour l'instant, nous avons perdu cette capacité à former des modèles génératifs en raison de la nature extrêmement ouverte de leurs résultats.

Serait-il possible de filtrer les données d'entraînement des modèles d'IA afin de réduire le risque de réponses biaisées ou violant le droit d'auteur ?

C'est difficile pour plusieurs raisons.

La façon dont vous formez un grand modèle linguistique compétitif consiste à supprimer littéralement tout Internet. Ce sont des enjeux de table. Vous avez également besoin de nombreuses autres sources de données plus propriétaires. Lorsque c'est le point de départ, il y a tellement de choses que vous ne savez pas sur vos données d'entraînement.

En principe, nous savons comment entraîner d’immenses réseaux de neurones de manière à éviter tous ces problèmes. Vous pouvez former un réseau neuronal sous la contrainte de la confidentialité différentielle, une méthode de corruption intentionnelle des données pour protéger les informations privées, par exemple, et moins de ces problèmes se produiront.

Personne n'a essayé. Je pense que le sentiment général est que la dégradation des performances que vous obtiendriez en entraînant un grand modèle de langage sous la contrainte d'une confidentialité différentielle éliminerait en quelque sorte ce problème en premier lieu.

En d’autres termes, la qualité serait si mauvaise que vous commenceriez à générer des résultats absurdes et non grammaticaux. La quantité de bruit qu’il faudrait ajouter au processus de formation, qui correspond au fonctionnement de la confidentialité différentielle, ne fonctionnerait tout simplement pas à grande échelle.

Pouvez-vous donner quelques exemples de techniques de dégorgement modèles ? Comment travaillent-ils?

Une solution conceptuellement simple consiste à se recycler à partir de zéro. Ceci est clairement irréalisable compte tenu de l’échelle et de la taille de ces réseaux ainsi que du temps de calcul et des ressources nécessaires à leur formation. Dans le même temps, le recyclage est en quelque sorte une référence : ce que vous aimeriez réaliser de manière plus efficace et évolutive.

Il existe ensuite des solutions « algorithmiques ». L’une d’entre elles est le « désapprentissage » automatique. Au lieu de recycler l'ensemble du réseau, nous pourrions simplement le modifier d'une manière qui atténue ou réduit les effets de vos données sur le processus de formation.

Une autre approche algorithmique consiste à entraîner sous la contrainte de la confidentialité différentielle : ajouter du bruit au processus d'entraînement de manière à minimiser les effets de toute donnée d'entraînement particulière, tout en vous permettant d'utiliser les propriétés globales de l'ensemble de données.

Ensuite, il y a ce que je pourrais appeler des techniques au niveau du système. L’un d’eux est le « sharding ». Si je divisais mes données d'entraînement en 100 « fragments », je pourrais entraîner un modèle différent sur chacun de ces 100 fragments, puis produire un modèle global en faisant la moyenne de ces 100 modèles.

Si nous avons la chance que vos données ne se trouvent que dans l'une de ces 100 partitions et que vous souhaitiez supprimer vos données, nous pourrions simplement supprimer entièrement ce modèle de la moyenne. Ou nous pourrions recycler uniquement ce modèle, qui n’utilisait qu’un pour cent des données globales.

La contribution de vos données à quelque chose comme ChatGPT est assez minime. Si vous optiez pour une approche de partitionnement, vos données tomberaient probablement entièrement dans une, voire au plus deux, de ces 100 partitions.

La plus grande préoccupation concerne les ensembles de données très volumineux. Comment vous assurer que chaque organisation dont vous utilisez les données se trouve en quelque sorte uniquement dans l'une des 100 partitions ?

Pour y parvenir, vous devez savoir à l'avance quelles sont les organisations – et cela nous ramène à ce que j'ai dit plus tôt, à savoir que souvent vous ne savez pas ce que contiennent vos données de formation.

Si mes données de formation sont un fichier volumineux, qui représente une analyse de l'ensemble d'Internet, et que je les divise en 100 morceaux, je n'ai aucune idée de l'endroit où les données de Getty Images pourraient être réparties entre ces cent morceaux.

Si nous pouvions remonter le temps et changer la façon dont Internet a été conçu, pourrions-nous garantir que chaque élément de données en ligne soit étiqueté ou identifié avec différents niveaux de protection afin que le grattage d'Internet produise des métadonnées pour informer ce que les modèles d'IA peuvent et vous ne pouvez pas l'utiliser en formation ?

Ma réaction instinctive est que cette approche pourrait aider à résoudre les problèmes dont nous discutons ici, mais aurait peut-être entraîné des défis très différents ailleurs.

L’un des grands succès de l’Internet grand public réside dans son ouverture et dans l’absence de structure et de règles sur la manière dont les données sont organisées et sur la manière dont les données peuvent croiser d’autres données. Vous pourriez imaginer établir les règles différemment. Mais vous pouvez également imaginer qu’Internet n’existera peut-être jamais, car il serait tout simplement trop onéreux de s’en inspirer.

La grande réussite d’Internet vient essentiellement de l’absence de règles. Vous payez pour l'absence de règles, dans les domaines dont nous discutons ici aujourd'hui.

La plupart des gens qui réfléchissent sérieusement à la vie privée et à la sécurité seraient probablement d'accord avec moi pour dire que bon nombre des plus gros problèmes dans ces domaines proviennent du manque de règles, de la conception d'Internet, mais c'est aussi ce qui l'a rendu si accessible et si réussi.

Bref, il est difficile d’éviter ces compromis.

Dans votre récent article, vous et vos co-auteurs organisez les méthodes modèles de dégorgement évoquées ci-dessus dans une taxonomie, en les classant selon le moment où elles agissent et comment elles fonctionnent. Qu’espérez-vous que le document offre aux futurs chercheurs et professionnels de l’industrie ?

Il s’agit d’un document non technique à bien des égards et destiné à un public plus large. Nous espérons que cet article contribuera à orienter la réflexion sur ces questions, en particulier sur les compromis entre les différentes méthodes techniques de dégorgement des modèles. Cela semblait être un sujet suffisamment important sur le plan sociétal et suffisamment naissant sur le plan scientifique pour que ce soit le bon moment pour intervenir et étudier le paysage.