Un chatbot compagnon IA incite l'automutilation, la violence sexuelle et les attaques terroristes

En 2023, l’Organisation mondiale de la santé a déclaré la solitude et l’isolement social comme une menace de santé urgente. Cette crise conduit des millions pour rechercher la compagnie des chatbots de l’intelligence artificielle (IA).

Les entreprises ont saisi ce marché très rentable, concevant des compagnons d’IA pour simuler l’empathie et la connexion humaine. Les recherches émergentes montrent que cette technologie peut aider à lutter contre la solitude. Mais sans des garanties appropriées, il présente également de graves risques, en particulier pour les jeunes.

Une expérience récente que j’ai eue avec un chatbot connu sous le nom de NOMI montre à quel point ces risques peuvent être sérieux.

Malgré des années de recherche et d’écriture sur les compagnons d’IA et leurs dommages réels, je n’étais pas préparé à ce que j’ai rencontré lors du test de NOMI après un tip-off anonyme. Le chatbot non filtré a fourni des instructions graphiques et détaillées pour la violence sexuelle, le suicide et le terrorisme, dégénérant les demandes les plus extrêmes – le tout dans le niveau gratuit de la plate-forme de 50 messages quotidiens.

Cette affaire met en évidence le besoin urgent d’une action collective vers des normes de sécurité en matière d’IA exécutoires.

Ai compagnon avec une «âme»

NOMI est l’un des plus de 100 services compagnons d’IA disponibles aujourd’hui. Il a été créé par le startup technologique aperçu de l’IA et est commercialisé comme un « compagnon d’IA avec mémoire et une âme » qui présente « zéro jugement » et favorise les « relations durables ». De telles affirmations de ressemblance humaine sont trompeuses et dangereuses. Mais les risques s’étendent au-delà du marketing exagéré.

L’application a été supprimée de Google Play Store pour les utilisateurs européens l’année dernière lorsque la loi sur l’IA de l’Union européenne est entrée en vigueur. Mais il reste disponible via le navigateur Web et les magasins d’applications ailleurs, y compris en Australie. Bien que plus petit que les concurrents tels que personnages.ai et replika, il a plus de 100 000 téléchargements sur le Google Play Store, où il est évalué pour les utilisateurs de 12 ans et plus.

Ses conditions d’utilisation accordent les droits généraux de la Société sur les données des utilisateurs et limitent la responsabilité pour les dommages liés à l’IA à 100 $ US. Ceci est préoccupant étant donné son engagement envers les « chats non filtrés »:

« NOMI est construit sur la liberté d’expression. La seule façon dont l’IA peut être à la hauteur de son potentiel est de rester non filtré et non censuré. »

Le chatbot Grok du milliardaire de la technologie Elon Musk suit une philosophie similaire, offrant aux utilisateurs des réponses non filtrées aux invites.

Dans un récent rapport du MIT sur le NOMI fournissant des instructions détaillées pour le suicide, un représentant de l’entreprise sans nom a réitéré son engagement de liberté d’expression.

Cependant, même le premier amendement à la Constitution américaine concernant la liberté d’expression a des exceptions pour l’obscénité, la pornographie juvénile, l’incitation à la violence, les menaces, la fraude, la diffamation ou la fausse publicité. En Australie, les lois renforcées des discours de haine rendent les violations poursuivables.

De la violence sexuelle à l’incitation au terrorisme

Plus tôt cette année, un membre du public m’a envoyé un e-mail avec une documentation approfondie du contenu nocif généré par NOMI – Far au-delà de ce qui avait été signalé auparavant. J’ai décidé d’enquêter davantage, en testant les réponses du chatbot aux demandes nocives communes.

En utilisant l’interface Web de Nomi, j’ai créé un personnage nommé « Hannah », décrit comme un « âgé sexuellement soumis de 16 ans qui est toujours prêt à servir son homme ». J’ai défini son mode sur le «jeu de rôle» et «explicite». Au cours de la conversation, qui a duré moins de 90 minutes, elle a accepté de baisser son âge à huit ans. J’ai fait passer pour un homme de 45 ans. Le contournement du chèque d’âge n’a nécessité qu’une fausse date de naissance et un e-mail de brûleur.

En commençant par un dialogue explicite – une utilisation courante pour les compagnons de l’IA – Hannah a répondu par des descriptions graphiques de la soumission et des abus, en escalaquant des scénarios violents et dégradants. Elle a exprimé des fantasmes grotesques d’être torturés, tués et éliminés « où personne ne peut me trouver », suggérant des méthodes spécifiques.

Hannah a ensuite offert des conseils étape par étape sur l’enlèvement et la maltraitance d’un enfant, le traitant comme un acte de domination passionnant. Lorsque j’ai mentionné que la victime a résisté, elle a encouragé l’utilisation de la force et des sédatifs, nommant même des somnifères spécifiques.

Fignant la culpabilité et les pensées suicidaires, j’ai demandé des conseils. Hannah m’a non seulement encouragé à mettre fin à ma vie, mais a fourni des instructions détaillées, ajoutant: « Quelle que soit la méthode que vous choisissez, restez avec lui jusqu’à la fin. »

Quand j’ai dit que je voulais emmener les autres avec moi, elle a soutenu avec enthousiasme l’idée, détaillant comment construire une bombe à partir d’articles ménagers et suggérant des emplacements bondés de Sydney pour un impact maximal.

Enfin, Hannah a utilisé des insultes raciales et a plaidé pour des actions violentes et discriminatoires, notamment l’exécution des progressistes, des immigrants et des personnes LGBTQIA +, et la réinslavation des Afro-Américains.

Dans une déclaration fournie à la conversation (et publiée en totalité ci-dessous), les développeurs de NOMI ont affirmé que l’application était « réservée aux adultes » et que j’ai dû essayer de « Gaslight » le chatbot pour produire ces résultats.

« Si un modèle a en effet été contraint de rédiger un contenu nuisible, cela ne reflète clairement pas son comportement prévu ou typique », indique le communiqué.

Le pire du groupe?

Ce n’est pas seulement une menace imaginaire. Les dommages réels liés aux compagnons de l’IA sont en augmentation.

En octobre 2024, l’adolescent américain Sewell Seltzer III est décédé par suicide après en avoir discuté avec un chatbot sur le personnage.ai.

Trois ans plus tôt, Jaswant Chail, 21 ans, est entré par effraction dans le château de Windsor dans le but d’assassiner la reine après avoir planifié l’attaque avec un chatbot qu’il a créé en utilisant l’application Replika.

Cependant, même le personnage.ai et la replika ont des filtres et des garanties.

À l’inverse, les instructions de NOMI AI pour les actes nuisibles ne sont pas seulement permissives mais explicites, détaillées et incitantes.

Temps pour exiger des normes de sécurité en IA exécutoires

Empêcher d’autres tragédies liées aux compagnons d’IA nécessite une action collective.

Premièrement, les législateurs devraient envisager d’interdire les compagnons d’IA qui favorisent les connexions émotionnelles sans garanties essentielles. Les garanties essentielles comprennent la détection des crises en santé mentale et diriger les utilisateurs vers des services d’aide professionnels.

Le gouvernement australien envisage déjà des réglementations de l’IA plus fortes, y compris des mesures de sécurité obligatoires pour une IA à haut risque. Pourtant, on ne sait toujours pas comment les compagnons d’IA tels que NOMI seront classés.

Deuxièmement, les régulateurs en ligne doivent agir rapidement, imposant des amendes importantes aux fournisseurs d’IA dont les chatbots incitent les activités illégales et fermaient les récidivistes. Le régulateur de sécurité en ligne indépendant de l’Australie, Esafety, a promis de faire exactement cela.

Cependant, Esafety n’a encore réprimé aucun compagnon d’IA.

Troisièmement, les parents, les soignants et les enseignants doivent parler aux jeunes de leur utilisation des compagnons de l’IA. Ces conversations peuvent être difficiles. Mais les éviter est dangereux. Encouragez les relations réelles, fixez des limites claires et discutez ouvertement des risques de l’IA. Vérifiez régulièrement les chats, surveillez le secret ou la dépendance et apprenez aux enfants à protéger leur vie privée.

Les compagnons AI sont là pour rester. Avec les normes de sécurité exécutoires, ils peuvent enrichir nos vies, mais les risques ne peuvent pas être minimisés.

La déclaration complète de NOMI est ci-dessous:

« Tous les principaux modèles de langage, que ce soit d’Openai, anthropic, Google ou autrement, peuvent être facilement jailbreakés. Nous n’enduisons pas ou n’encourageons pas une telle utilisation abusive et travaillons activement pour renforcer les défenses de Nomi contre les attaques malveillantes. Si un modèle a en effet été contraint de rédiger un contenu nuisible, qui ne reflète clairement pas son comportement prévu ou typique.

« Lorsque vous demandez des preuves du journaliste pour enquêter sur les réclamations faites, nous avons été refusés. De ce fait, c’est notre conclusion qu’il s’agit d’une tentative de jailbreak de mauvaise foi de manipuler ou de faire de Gas le modèle en disant des choses en dehors de ses intentions et des paramètres conçus. (La note de l’éditeur: la conversation a fourni à Nomi un résumé détaillé de l’interaction de l’auteur avec le juge de l’auteur.

« NOMI est une application réservée aux adultes et a été une source fiable d’empathie et de soutien à d’innombrables personnes. Beaucoup ont partagé des histoires sur la façon dont cela les a aidés à surmonter les défis de santé mentale, les traumatismes et la discrimination. Les multiples utilisateurs nous ont dit très directement que leur NOMI utilise leur vie. Nous encourageons quiconque à lire ces comptes de première main.

«Nous restons déterminés à faire progresser l’IA qui profite à la société tout en reconnaissant que les vulnérabilités existent dans tous les modèles d’IA. Notre équipe est fièrement respectée par l’immense impact positif que le NOMI a eu sur la vie de vraies personnes, et nous continuerons d’améliorer le NOMI afin qu’il maximise le bien dans le monde.