Un nouvel outil utilise des modèles de langage visuel pour se protéger contre les contenus d'images offensants

Un nouvel outil utilise des modèles de langage visuel pour se protéger contre les contenus d'images offensants

Des chercheurs du laboratoire d'intelligence artificielle et d'apprentissage automatique (AIML) du département d'informatique de la TU Darmstadt et du centre hessien d'intelligence artificielle (hessian.AI) ont développé une méthode qui utilise des modèles de langage visuel pour filtrer, évaluer et supprimer des contenus d'images spécifiques dans de grands ensembles de données ou à partir de générateurs d'images.

L’intelligence artificielle (IA) peut être utilisée pour identifier des objets dans des images et des vidéos. Cette vision par ordinateur peut également être utilisée pour analyser de grands corpus de données visuelles.

Des chercheurs dirigés par Felix Friedrich de l'AIML ont développé une méthode appelée LlavaGuard, qui peut désormais être utilisée pour filtrer certains contenus d'images. Cet outil utilise ce que l'on appelle des modèles de langage visuel (VLM). Contrairement aux grands modèles de langage (LLM) tels que ChatGPT, qui ne peuvent traiter que du texte, les modèles de langage visuel sont capables de traiter et de comprendre simultanément le contenu des images et du texte. Les travaux sont publiés sur le site arXiv serveur de préimpression.

LlavaGuard peut également répondre à des exigences complexes, car il se caractérise par sa capacité à s'adapter aux différentes réglementations légales et aux besoins des utilisateurs. Par exemple, l'outil peut faire la distinction entre les régions dans lesquelles des activités telles que la consommation de cannabis sont légales ou illégales. LlavaGuard peut également évaluer si le contenu est approprié pour certaines tranches d'âge et le restreindre ou l'adapter en conséquence.

« Jusqu'à présent, ces outils de sécurité très précis n'étaient disponibles que pour l'analyse de textes. Lors du filtrage des images, seule la catégorie « nudité » était jusqu'à présent implémentée, mais pas d'autres comme « violence », « automutilation » ou « toxicomanie », explique Friedrich.

LlavaGuard signale non seulement le contenu problématique, mais fournit également des explications détaillées de ses notes de sécurité en catégorisant le contenu (par exemple, « haine », « substances illégales », « violence », etc.) et en expliquant pourquoi il est classé comme sûr ou dangereux.

« Cette transparence est ce qui rend notre outil si spécial et est cruciale pour la compréhension et la confiance », explique Friedrich. Cela fait de LlavaGuard un outil précieux pour les chercheurs, les développeurs et les décideurs politiques.

Les recherches sur LlavaGuard font partie intégrante du projet de cluster Reasonable Artificial Intelligence (RAI) de la TU Darmstadt et démontrent l'engagement de l'université à faire progresser les technologies d'IA sûres et éthiques. LlavaGuard a été développé pour augmenter la sécurité des grands modèles génératifs en filtrant les données d'entraînement et en expliquant et justifiant les résultats des motifs problématiques, réduisant ainsi le risque de générer des contenus préjudiciables ou inappropriés.

Les possibilités d'application de LlavaGuard sont vastes. Bien que l'outil soit encore en cours de développement et axé sur la recherche, il peut déjà être intégré dans des générateurs d'images tels que Stable Diffusion pour minimiser la production de contenu dangereux.

En outre, LlavaGuard pourrait également être adapté pour être utilisé sur les plateformes de médias sociaux à l’avenir afin de protéger les utilisateurs en filtrant les images inappropriées et en favorisant ainsi un environnement en ligne plus sûr.