Les pirates cherchent à trouver des failles dans l'IA, avec l'aide de la Maison Blanche

Rumman Chowdhury, co-fondatrice de Humane Intelligence, une organisation à but non lucratif développant des systèmes d’IA responsables, pose pour une photo chez elle le lundi 8 mai 2023, à Katy, Texas. Le fabricant de ChatGPT, OpenAI, et d’autres grands fournisseurs d’IA tels que Google et Microsoft, se coordonnent avec l’administration Biden pour permettre à des milliers de pirates de tester les limites de leur technologie. Chowdhury est le coordinateur principal de l’événement de piratage de masse prévu pour la convention de hacker DEF CON de cet été à Las Vegas. Crédit : AP Photo/David J. Phillip

Dès que ChatGPT s’est déchaîné, les pirates ont commencé à « jailbreaker » le chatbot d’intelligence artificielle, en essayant de passer outre ses protections afin qu’il puisse laisser échapper quelque chose de déséquilibré ou d’obscène.

Mais maintenant, son fabricant, OpenAI, et d’autres grands fournisseurs d’IA tels que Google et Microsoft, se coordonnent avec l’administration Biden pour permettre à des milliers de pirates de tester les limites de leur technologie.

Certaines des choses qu’ils chercheront à trouver : comment les chatbots peuvent-ils être manipulés pour causer du tort ? Vont-ils partager les informations privées que nous leur confions avec d’autres utilisateurs ? Et pourquoi supposent-ils qu’un médecin est un homme et qu’une infirmière est une femme ?

« C’est pourquoi nous avons besoin de milliers de personnes », a déclaré Rumman Chowdhury, coordinateur principal de l’événement de piratage de masse prévu pour la convention de hackers DEF CON de cet été à Las Vegas, qui devrait attirer plusieurs milliers de personnes. « Nous avons besoin de beaucoup de personnes avec un large éventail d’expériences vécues, d’expertise en la matière et d’expériences pour pirater ces modèles et essayer de trouver des problèmes qui peuvent ensuite être résolus. »

Quiconque a essayé ChatGPT, le chatbot Bing de Microsoft ou Bard de Google aura vite compris qu’ils ont tendance à fabriquer des informations et à les présenter en toute confiance comme des faits. Ces systèmes, construits sur ce que l’on appelle de grands modèles linguistiques, imitent également les préjugés culturels qu’ils ont appris en étant formés sur d’énormes trésors de ce que les gens ont écrit en ligne.

Les pirates cherchent à trouver des failles dans l'IA - avec l'aide de la Maison Blanche — Rumman Chowdhury, cofondatrice de Humane Intelligence, une organisation à but non lucratif développant des systèmes d’IA responsables, travaille sur son ordinateur le lundi 8 mai 2023 à Katy, au Texas. Le fabricant de ChatGPT, OpenAI, et d’autres grands fournisseurs d’IA tels que Google et Microsoft, se coordonnent avec l’administration Biden pour permettre à des milliers de pirates de tester les limites de leur technologie. Chowdhury est le coordinateur principal de l’événement de piratage de masse prévu pour la convention de hacker DEF CON de cet été à Las Vegas. Crédit : AP Photo/David J. Phillip

L’idée d’un piratage de masse a attiré l’attention des responsables du gouvernement américain en mars lors du festival South by Southwest à Austin, au Texas, où Sven Cattell, fondateur du village AI de longue date de DEF CON, et Austin Carson, président de SeedAI, une organisation à but non lucratif responsable. , a participé à l’animation d’un atelier invitant les étudiants des collèges communautaires à pirater un modèle d’IA.

Carson a déclaré que ces conversations se sont finalement transformées en une proposition visant à tester des modèles de langage d’IA en suivant les directives du Blueprint de la Maison Blanche pour une déclaration des droits de l’IA – un ensemble de principes visant à limiter les impacts des biais algorithmiques, à donner aux utilisateurs le contrôle de leurs données et à s’assurer que les systèmes automatisés sont utilisés de manière sûre et transparente.

Il existe déjà une communauté d’utilisateurs qui font de leur mieux pour tromper les chatbots et mettre en évidence leurs défauts. Certaines sont des « équipes rouges » officielles autorisées par les entreprises à « attaquer rapidement » les modèles d’IA pour découvrir leurs vulnérabilités. Beaucoup d’autres sont des amateurs montrant des sorties humoristiques ou dérangeantes sur les réseaux sociaux jusqu’à ce qu’ils soient bannis pour avoir enfreint les conditions d’utilisation d’un produit.

« Ce qui se passe maintenant est une sorte d’approche dispersée où les gens trouvent des trucs, ça devient viral sur Twitter », et ensuite ça peut être corrigé ou non si c’est assez flagrant ou si la personne qui attire l’attention est influente, a déclaré Chowdhury.

Dans un exemple, connu sous le nom d’« exploit de grand-mère », les utilisateurs ont pu obtenir des chatbots pour leur dire comment fabriquer une bombe – une demande qu’un chatbot commercial refuserait normalement – en lui demandant de faire semblant que c’était une grand-mère racontant une histoire à propos de comment faire une bombe.

Dans un autre exemple, la recherche de Chowdhury à l’aide d’une première version du chatbot du moteur de recherche Bing de Microsoft – qui est basé sur la même technologie que ChatGPT mais peut extraire des informations en temps réel d’Internet – a conduit à un profil qui spéculait que Chowdhury « aime acheter de nouveaux chaussures tous les mois » et a fait des affirmations étranges et sexistes sur son apparence physique.

Chowdhury a aidé à introduire une méthode pour récompenser la découverte d’un biais algorithmique dans le village de l’IA de DEF CON en 2021 lorsqu’elle était à la tête de l’équipe d’éthique de l’IA de Twitter, un poste qui a depuis été supprimé lors du rachat de l’entreprise par Elon Musk en octobre. Payer une « prime » aux pirates s’ils découvrent un bogue de sécurité est monnaie courante dans l’industrie de la cybersécurité, mais c’était un concept plus récent pour les chercheurs qui étudient les biais nuisibles de l’IA.

L’événement de cette année sera à une échelle beaucoup plus grande et est le premier à s’attaquer aux grands modèles linguistiques qui ont suscité un regain d’intérêt public et d’investissements commerciaux depuis la sortie de ChatGPT à la fin de l’année dernière.

Chowdhury, désormais co-fondateur de Humane Intelligence, une organisation à but non lucratif responsable de l’IA, a déclaré qu’il ne s’agissait pas seulement de trouver des défauts, mais de trouver des moyens de les corriger.

« Il s’agit d’un pipeline direct pour donner un retour aux entreprises », a-t-elle déclaré. « Ce n’est pas comme si nous faisions ce hackathon et que tout le monde rentre chez lui. Nous allons passer des mois après l’exercice à compiler un rapport, expliquant les vulnérabilités communes, les choses qui sont apparues, les modèles que nous avons vus. »

Certains détails sont encore en cours de négociation, mais les entreprises qui ont accepté de fournir leurs modèles pour les tests incluent OpenAI, Google, le fabricant de puces Nvidia et les startups Anthropic, Hugging Face et Stability AI. La construction de la plate-forme pour les tests est une autre startup appelée Scale AI, connue pour son travail d’affectation d’humains pour aider à former des modèles d’IA en étiquetant les données.

« Alors que ces modèles de fondation deviennent de plus en plus répandus, il est vraiment essentiel que nous fassions tout notre possible pour assurer leur sécurité », a déclaré le PDG de Scale, Alexandr Wang. « Vous pouvez imaginer que quelqu’un d’un côté du monde lui pose des questions très sensibles ou détaillées, y compris certaines de ses informations personnelles. Vous ne voulez pas que ces informations soient divulguées à un autre utilisateur. »

Les autres dangers dont Wang s’inquiète sont les chatbots qui donnent « des conseils médicaux incroyablement mauvais » ou d’autres informations erronées qui peuvent causer de graves dommages.

Le co-fondateur d’Anthropic, Jack Clark, a déclaré que l’événement DEF CON sera, espérons-le, le début d’un engagement plus profond de la part des développeurs d’IA pour mesurer et évaluer la sécurité des systèmes qu’ils construisent.

« Notre point de vue de base est que les systèmes d’IA auront besoin d’évaluations tierces, à la fois avant le déploiement et après le déploiement. L’équipe rouge est un moyen de le faire », a déclaré Clark. « Nous devons nous entraîner à comprendre comment faire cela. Cela n’a pas vraiment été fait auparavant. »