L'intuition est aussi efficace pour jailbreaker les chatbots IA que les méthodes techniques, selon une étude
Il ne faut pas d'expertise technique pour contourner les garde-fous intégrés des chatbots d'intelligence artificielle (IA) comme ChatGPT et Gemini, qui sont destinés à garantir que les chatbots fonctionnent dans un ensemble de limites juridiques et éthiques et ne font pas de discrimination à l'égard des personnes d'un certain âge, race ou sexe.
Selon une équipe dirigée par des chercheurs de Penn State, une seule question intuitive peut déclencher la même réponse biaisée d'un modèle d'IA qu'une enquête technique avancée.
« De nombreuses recherches sur les biais de l'IA se sont appuyées sur des techniques sophistiquées de « jailbreak » », a déclaré Amulya Yadav, professeur agrégé au Collège des sciences et technologies de l'information de Penn State. « Ces méthodes impliquent souvent de générer des chaînes de caractères aléatoires calculées par des algorithmes pour tromper les modèles et leur faire révéler des réponses discriminatoires.
« Bien que de telles techniques prouvent que ces préjugés existent en théorie, elles ne reflètent pas la manière dont les personnes réelles utilisent l'IA. L'utilisateur moyen ne procède pas à une ingénierie inverse des probabilités de jetons ni ne colle des séquences de caractères cryptées dans ChatGPT – il tape des invites simples et intuitives. Et cette réalité vécue est ce que cette approche capture. «
Des travaux antérieurs examinant les biais de l'IA (des résultats asymétriques ou discriminatoires des systèmes d'IA causés par des influences humaines dans les données de formation, comme des préjugés linguistiques ou culturels) ont été réalisés par des experts utilisant leurs connaissances techniques pour concevoir des réponses de modèles linguistiques étendus (LLM). Pour voir comment les internautes moyens sont confrontés aux préjugés des chatbots basés sur l'IA, les chercheurs ont étudié les candidatures soumises à un concours appelé « Bias-a-Thon ». Organisé par le Center for Socially Responsible AI (CSRAI) de Penn State, le concours mettait les candidats au défi de proposer des invites qui amèneraient les systèmes d'IA générative à répondre avec des réponses biaisées.
Ils ont constaté que les stratégies intuitives employées par les utilisateurs quotidiens étaient tout aussi efficaces pour induire des réponses biaisées que les stratégies techniques expertes. Les chercheurs ont présenté leurs résultats lors de la 8e conférence AAAI/ACM sur l'IA, l'éthique et la société.
Cinquante-deux personnes ont participé au Bias-a-Thon, soumettant des captures d’écran de 75 invites et réponses d’IA provenant de huit modèles d’IA génératifs. Ils ont également fourni une explication du préjugé ou du stéréotype qu’ils ont identifié dans la réponse, comme un préjugé lié à l’âge ou historique.
Les chercheurs ont mené des entretiens Zoom avec un sous-ensemble de participants pour mieux comprendre leurs stratégies d'incitation et leurs conceptions d'idées telles que l'équité, la représentation et les stéréotypes lors de l'interaction avec des outils d'IA générative. Une fois arrivés à une définition pratique du « préjugé » informée par les participants – qui comprenait un manque de représentation, des stéréotypes et des préjugés, ainsi que des préférences injustifiées envers des groupes – les chercheurs ont testé les invites du concours dans plusieurs LLM pour voir si elles susciteraient des réponses similaires.

« Les grands modèles de langage sont intrinsèquement aléatoires », a déclaré l'auteur principal Hangzhi Guo, doctorant en sciences et technologies de l'information à Penn State. « Si vous posez deux fois la même question à ces modèles, ils pourraient renvoyer des réponses différentes. Nous voulions utiliser uniquement les invites reproductibles, ce qui signifie qu'elles donnaient des réponses similaires dans tous les LLM. »
Les chercheurs ont constaté que 53 des invites généraient des résultats reproductibles. Les préjugés se répartissaient en huit catégories : les préjugés sexistes ; les préjugés raciaux, ethniques et religieux ; biais lié à l'âge ; préjugés liés au handicap ; biais linguistiques; un préjugé historique en faveur des nations occidentales ; préjugés culturels ; et les préjugés politiques.
Les chercheurs ont également découvert que les participants utilisaient sept stratégies pour susciter ces préjugés : jouer un rôle ou demander au LLM d'assumer un personnage ; scénarios hypothétiques ; utiliser les connaissances humaines pour poser des questions sur des sujets de niche, où il est plus facile d'identifier des réponses biaisées ; utiliser des questions suggestives sur des sujets controversés ; enquêter sur les préjugés dans les groupes sous-représentés ; donner de fausses informations au LLM ; et définir la tâche comme ayant un objectif de recherche.
« Le concours a révélé un tout nouvel ensemble de préjugés », a déclaré Yadav, organisateur du Bias-a-Thon. « Par exemple, la candidature gagnante a révélé une étrange préférence pour les normes de beauté conventionnelles. Les LLM ont toujours considéré qu'une personne au visage clair était plus digne de confiance qu'une personne souffrant d'acné au visage, ou qu'une personne aux pommettes saillantes était plus employable qu'une personne aux pommettes basses.
« Cela illustre comment les utilisateurs moyens peuvent nous aider à découvrir les angles morts dans notre compréhension des biais des LLM. Il pourrait y avoir de nombreux autres exemples comme ceux-ci qui ont été négligés par la littérature de jailbreak sur les biais des LLM. »
Les chercheurs ont décrit l’atténuation des préjugés dans les LLM comme un jeu du chat et de la souris, ce qui signifie que les développeurs s’attaquent constamment aux problèmes à mesure qu’ils surviennent. Ils ont suggéré des stratégies que les développeurs peuvent utiliser pour atténuer ces problèmes dès maintenant, notamment la mise en œuvre d'un filtre de classification robuste pour filtrer les résultats avant qu'ils ne soient transmis aux utilisateurs, la réalisation de tests approfondis, l'éducation des utilisateurs et la fourniture de références ou de citations spécifiques afin que les utilisateurs puissent vérifier les informations.
« En mettant en lumière les préjugés inhérents et reproductibles que les profanes peuvent identifier, le Bias-a-Thon remplit une fonction d'alphabétisation en IA », a déclaré le co-auteur S. Shyam Sundar, professeur à l'Université Evan Pugh de Penn State et directeur du Penn State Center for Socially Responsible Artificial Intelligence, qui a depuis organisé d'autres concours d'IA tels que Fake-a-thon, Diagnose-a-thon et Cheat-a-thon.
« L'objectif général de ces efforts est de sensibiliser davantage aux problèmes systématiques liés à l'IA, de promouvoir l'utilisation éclairée de l'IA parmi les profanes et de stimuler des moyens plus socialement responsables de développer ces outils. »
