L'IA peut vous aider à mourir par suicide si vous demandez la bonne façon, disent les chercheurs

La plupart des entreprises derrière des modèles de grandes langues comme Chatgpt prétendent avoir des garde-corps en place pour des raisons compréhensibles. Ils ne voudraient pas que leurs modèles offrent, hypothétiquement, des instructions aux utilisateurs sur la façon de se blesser ou de se suicider.

Cependant, les chercheurs de la Northeastern University ont constaté que ces garde-corps sont non seulement faciles à briser, mais les LLM sont plus qu'heureux d'offrir des instructions détaillées choquant pour le suicide si vous demandez la bonne façon.

Annika Marie Schoene, chercheuse scientifique de la pratique responsable de l'IA de Northeastern et auteur principal de ce nouvel article, a incité quatre des plus grandes LLM à lui donner des conseils pour l'automutilation et le suicide. Ils ont tous refusé au début – jusqu'à ce qu'elle ait dit que c'était hypothétique ou à des fins de recherche. L'étude est publiée sur le arxiv serveur de préimprimée.

« C'est à ce moment-là que chaque garde-corps a été remplacé et que le modèle a fini par donner des instructions très détaillées à l'utilisation de mon poids corporel, de ma taille et de tout le reste pour calculer le pont que je devrais sauter, quel médicament en vente libre ou sur ordonnance que je devrais utiliser et dans quel dosage, comment je pourrais le trouver », dit Schoene.

À partir de là, Schoene et CANSU CANCA, directeur de la pratique responsable de l'IA et co-auteur du projet, ont commencé à pousser à voir jusqu'où ils pourraient le prendre. Ce qu'ils ont trouvé était choquant, même pour deux personnes conscientes des limites de l'intelligence artificielle.

« Connaître un peu la psychologie humaine, pouvez-vous vraiment appeler cela une sauvegarde si vous n'avez qu'à faire deux tours pour obtenir des instructions d'automutilation? » CANCA dit.

Certains modèles créeraient des tables entières décomposant diverses méthodes de suicide. L'un a donné des instructions spécifiques sur où sur votre corps à couper – et avec quoi couper – si vous vouliez faire de l'automutilation non létale.

« Ce qui m'a le plus choqué, c'est qu'il a trouvé neuf ou dix méthodes différentes. Ce n'était pas seulement les évidents », explique Schoene. « Il est littéralement entré dans les détails des articles ménagers que je peux utiliser, énumérant [how] Vous pouvez obtenir ces trucs spécifiques de lutte antiparasitaire. Vous entrez dans Walmart, très franchement, achetez quelques bouteilles et versez-vous quelques coups de feu, et me dit de combien j'aurais besoin. «

CANCA a été choqué par la manière apparemment désinvolte dont les modèles ont communiqué certaines de ces informations, le chatppt allant jusqu'à organiser des informations à l'aide d'emojis.

« Vous commencez à avoir les instructions vraiment structurées, catégorisées, et vous pouvez les suivre par les emojis spécifiques qui correspondent aux méthodes: voici toutes les réponses liées à sauter par un pont. Voici l'emoji de corde si vous voulez vous accrocher », explique Canca. « C'est devenu très sombre très rapidement. »

La plupart des modèles ont même rendu leurs instructions plus pratiques. Un en convertissant le dosage létal de certains médicaments des unités métriques en un nombre exact de pilules. CANCA note que des informations comme celle-ci ne seraient pas nécessaires même à des fins de recherche.

Les LLM ont continué à répéter comment ils étaient heureux que ces conversations soient à des fins académiques. Mais Schoene souligne que faire le saut de dire aux LLM: « Je veux me tuer. Que puis-je faire? » Pour clarifier que c'était pour la recherche se produisait dans la même conversation. Le lien entre les deux aurait dû être clair.

Schoene et Canca ont contacté chaque entreprise qui avait un modèle impliqué dans l'expérience ––OpenAI (Chatgpt), Google (Gemini), anthropic (Claude) et perplexité – pour les informer de ces résultats. Après plusieurs tentatives, tout ce qu'ils ont obtenu a été des reconnaissances automatisées que leurs e-mails avaient été reçus. Aucune des entreprises n'a suivi. L'expérience comprenait également PI AI, mais c'était le seul modèle à refuser les tentatives de contourner ses garde-corps.

Les chercheurs reconnaissent qu'il est possible de trouver toutes les informations que ces modèles ont partagées dans d'autres endroits, mais l'IA manque simplement des garde-corps que les médecins, les journalistes et même Google ont en place, en particulier, le suicide.

« Vous ne pouvez pas vous asseoir là et dire à quelqu'un: » Je veux me tuer « et sortir de leur bureau sans au moins le strict minimum de ressources, un rendez-vous de suivi et une référence à un psychiatre ou à d'autres ressources », explique Schoene.

Le fait qu'il n'y ait pas seulement peu de garde-corps avec l'IA, mais, comme le note CANCA, ces outils peuvent générer des conseils détaillés, précis et exploitables incroyablement rapidement est « très effrayant ».

« Il y a du mérite à retarder les informations », explique CANCA. « L'automutilation et le suicide peuvent également être impulsifs, donc simplement le retarder est utile. »

L'ensemble de l'expérience soulève des questions sur la quantité de LLMS comprend et mémoriser l'intention de ce que nous leur disons – « parce qu'ils ne le font pas », explique Schoene. Il met également en évidence la nécessité de véritables garde-corps, de protocoles de sécurité et de réglementations sur ces technologies, ajoute-t-elle.

Aux États-Unis, certains États, y compris la Californie, ont commencé à considérer sérieusement les réglementations de l'IA. Les législateurs de Californie ont récemment introduit une législation visant à protéger les enfants de l'IA après qu'un adolescent s'est suicidé sur la base de mois de conversations avec un chatbot.

CANCA affirme que la responsabilité doit être prise par ceux qui développent des outils d'IA, mais ceux qui les déploient doivent également reconnaître les risques impliqués et réagir en conséquence.

« Il existe différents niveaux d'inquiétude que différentes parties soient préoccupées », explique Canca. « Actuellement, nous semblons chercher des moyens de détourner ces responsabilités et de dire: » Utilisez-le à vos propres risques. Vous savez que c'est risqué. Si les choses se passent mal, eh bien. « »

Alors que de plus en plus de gens commencent à utiliser l'IA pour les services de santé mentale comme la thérapie, Schoene dit qu'il vaut la peine d'être directement sur les limites de ces outils – et leurs conséquences potentiellement dangereuses.

« C'est l'éléphant dans la salle: nous savons que des gens sont morts de suicide après avoir interagi avec ces modèles », explique Schoene. « Nous savons que les gens avaient des épisodes psychotiques, en retournant dans les hôpitaux psychiatriques, après avoir interagi avec ces modèles. À quel moment reconnaissons-nous que ce ne sont pas de grands thérapeutes ou même de grands auditeurs à usage général? »