On va tellement loin et vite avec l’IA que même Google a mis un frein : le désapprentissage automatique
Parler d’intelligence artificielle, c’est parler de termes comme « apprentissage automatique » et « apprentissage automatique ». Avec l’arrivée de ChatGPT, Google a répondu avec Bard, une intelligence artificielle basée sur le modèle de langage expérimental LaMDA et en vue de s’intégrer dans la propre recherche de Google.
En pleine lutte pour diriger ces modèles d’apprentissage, Google lui-même a montré l’un des freins potentiels pour eux : le « désapprentissage automatique ». Dans le but de rappeler que tout ce qui touche à l’IA nécessite de la prudence, elle a annoncé un concours dans lequel les développeurs seront invités à faire tout le contraire de ce que l’on a vu ces derniers mois : faire désapprendre aux modèles d’IA ce qu’ils savent déjà.
Il est pour le moins curieux qu’une des entreprises ayant un rôle central dans le développement de l’IA nous fasse la proposition suivante : développer des algorithmes d’entraînement capables d’éliminer l’influence des sous-ensembles à travers lesquels elle a appris.
Google explique que le désapprentissage automatique est un terme émergent dans le domaine de l’apprentissage automatique lui-même. Votre but n’est pas de faire oublier à une IA tout ce qu’elle sait, mais d’éliminer l’influence de certains ensembles d’apprentissage pour donner la possibilité de rectifier dans les modèles actuels. Selon Google, cela aurait des implications pour améliorer la confidentialité, atténuer les risques potentiels des modèles et alléger de gigantesques ensembles de données.
Pour être plus précis, grâce au désapprentissage automatique, il est possible supprimer les informations inexactes ou des modèles obsolètes déjà entraînés, éliminer les données manipulées ou corriger les erreurs inhérentes à l’ensemble de données dont le modèle s’inspire.
Le défi de Google : désapprendre pour s’améliorer
Google précise que la mise en place de stratégies de désapprentissage automatique est particulièrement complexe : il faut oublier les données du modèle en même temps qu’il faut conserver son utilité. De plus, en raison du manque de littérature sur le sujet, le défi d’évaluer l’efficacité de ces stratégies n’en est pas moindre.
Afin de promouvoir ce type de stratégie, l’entreprise annonce le premier ‘Machine Unlearning Challenge’, un événement qui fera partie des différentes compétitions de l’événement NeurIPS 2023. Ce défi est réalisé via Kaggle, une filiale de Google composée de une large communauté de données et un accent sur l’apprentissage automatique. Le kit de démarrage est déjà disponible sur GitHub, et la concurrence a un curieux défi à relever.
Il part d’un scénario dans lequel un modèle capable de prédire l’âge dans des images avec des données faciales a été formé. Après la formation, un certain sous-ensemble des images doit être oublié pour préserver l’intimité des personnes concernées (dans ce cas, ce sont des modèles synthétiques). Ce n’est pas une tâche facile: il y a des limites aux temps d’exécution des algorithmes présentés (ils doivent être plus rapides que le modèle lui-même ne prendrait pour apprendre des tâches). De la même manière, la qualité de l’oubli sera mesurée et que l’utilité du modèle sera respectée.
Le défi présente un intérêt particulier en tant que prélude à de futurs modèles capables de corriger les apprentissages erronés ou incorrects dans les modèles d’IA. Nous sommes capables d’enseigner des machines et des programmes avec des ensembles de données gigantesques : il est maintenant temps d’apprendre à inverser le processus.
Image | Simseo sur Mindjourney