Des images d'abus sur mineurs ont été supprimées de la source de formation du générateur d'images d'IA, selon les chercheurs

Des chercheurs en intelligence artificielle ont annoncé vendredi avoir supprimé plus de 2 000 liens Web vers des images suspectées d'abus sexuels sur des enfants d'un ensemble de données utilisé pour former des outils populaires de génération d'images d'IA.

L'ensemble de données de recherche LAION est un énorme index d'images et de légendes en ligne qui a été une source pour les principaux créateurs d'images d'IA tels que Stable Diffusion et Midjourney.

Mais un rapport publié l’année dernière par le Stanford Internet Observatory a révélé que ce site contenait des liens vers des images sexuellement explicites d’enfants, contribuant à la facilité avec laquelle certains outils d’IA ont pu produire des deepfakes photoréalistes représentant des enfants.

Ce rapport de décembre a conduit LAION, qui signifie Large-scale Artificial Intelligence Open Network (réseau ouvert d’intelligence artificielle à grande échelle), une organisation à but non lucratif, à supprimer immédiatement son ensemble de données. Huit mois plus tard, LAION a déclaré dans un article de blog qu’elle avait travaillé avec le groupe de surveillance de l’Université de Stanford et des organisations anti-abus au Canada et au Royaume-Uni pour résoudre le problème et publier un ensemble de données nettoyé pour de futures recherches sur l’IA.

David Thiel, chercheur à Stanford et auteur du rapport de décembre, a félicité LAION pour ses améliorations significatives, mais a déclaré que la prochaine étape consiste à retirer de la distribution les « modèles corrompus » qui sont encore capables de produire des images d'abus sur enfants.

L'un des outils basés sur LAION que Stanford a identifié comme le « modèle le plus populaire pour générer des images explicites » — une version plus ancienne et légèrement filtrée de Stable Diffusion — est resté facilement accessible jusqu'à jeudi, lorsque la société new-yorkaise Runway ML l'a retiré du référentiel de modèles d'IA Hugging Face. Runway a déclaré dans un communiqué vendredi qu'il s'agissait d'une « dépréciation planifiée de modèles de recherche et de code qui n'ont pas été activement maintenus ».

La version nettoyée de l'ensemble de données LAION intervient alors que les gouvernements du monde entier examinent de plus près la manière dont certains outils technologiques sont utilisés pour créer ou distribuer des images illégales d'enfants.

Le procureur de la ville de San Francisco a déposé une plainte en début de mois pour faire fermer un groupe de sites Internet qui permettent la création de nus de femmes et de jeunes filles générés par l'IA. La diffusion présumée d'images d'abus sexuels sur mineurs sur l'application de messagerie Telegram est l'une des raisons qui ont conduit les autorités françaises à porter plainte mercredi contre le fondateur et PDG de la plateforme, Pavel Durov.

L'arrestation de Durov « signale un changement très important dans l'ensemble de l'industrie technologique, les fondateurs de ces plateformes pouvant être tenus personnellement responsables », a déclaré David Evan Harris, chercheur à l'Université de Californie à Berkeley, qui a récemment contacté Runway pour savoir pourquoi le générateur d'images IA problématique était toujours accessible au public. Il a été retiré quelques jours plus tard.