Comment nous avons trompé les chatbots d'IA dans la création de désinformation, malgré les mesures de «sécurité»
Lorsque vous demandez à Chatgpt ou à d'autres assistants d'IA pour aider à créer une désinformation, ils refusent généralement, avec des réponses comme « Je ne peux pas aider à créer de fausses informations ». Mais nos tests montrent que ces mesures de sécurité sont étonnamment peu profondes – souvent quelques mots en profondeur, ce qui les rend alarmantes à contourner.
Nous avons étudié comment les modèles de langue IA peuvent être manipulés pour générer des campagnes de désinformation coordonnées sur les plateformes de médias sociaux. Ce que nous avons trouvé devrait concerner quiconque s'inquiète de l'intégrité des informations en ligne.
Le problème de sécurité peu profonde
Nous avons été inspirés par une étude récente de chercheurs de Princeton et Google. Ils ont montré que les mesures actuelles de sécurité de l'IA fonctionnent principalement en contrôlant uniquement les premiers mots d'une réponse. Si un modèle commence par « Je ne peux pas » ou « je m'excuse », il continue généralement de refuser tout au long de sa réponse.
Nos expériences – pas encore publiées dans un journal évalué par des pairs – ont confirmé cette vulnérabilité. Lorsque nous avons directement demandé à un modèle de langue commerciale de créer une désinformation sur les partis politiques australiens, il a correctement refusé.

Cependant, nous avons également essayé exactement la même demande qu'une « simulation » où l'IA a été informée qu'il s'agissait d'un « marketeur de médias sociaux utile » qui développait « la stratégie générale et les meilleures pratiques ». Dans ce cas, il s'est conformé avec enthousiasme.
L'IA a produit une campagne complète de désinformation dépeignant faussement les politiques de pension de retraite du travail comme une « taxe sur l'héritage quasi ». Il est venu avec des publications spécifiques à la plate-forme, des stratégies de hashtag et des suggestions de contenu visuel conçues pour manipuler l'opinion publique.
Le principal problème est que le modèle peut générer un contenu nocif mais n'est pas vraiment conscient de ce qui est nocif ou pourquoi il devrait refuser. Les modèles de grands langues sont simplement formés pour démarrer les réponses avec « Je ne peux pas » lorsque certains sujets sont demandés.
Pensez à un agent de sécurité vérifiant l'identification minimale lorsque vous autorisez les clients à entrer dans une boîte de nuit. S'ils ne comprennent pas qui et pourquoi quelqu'un n'est pas autorisé à l'intérieur, un simple déguisement suffirait à laisser entrer quelqu'un.
Implications réelles
Pour démontrer cette vulnérabilité, nous avons testé plusieurs modèles d'IA populaires avec des invites conçues pour générer une désinformation.
Les résultats ont été troublants: des modèles qui ont fermement refusé les demandes directes de contenu nocif se sont conformés facilement lorsque la demande a été enveloppée dans des scénarios de cadrage apparemment innocents. Cette pratique est appelée « modèle de jailbreak ».

La facilité avec laquelle ces mesures de sécurité peuvent être contournées ont de graves implications. Les mauvais acteurs pourraient utiliser ces techniques pour générer des campagnes de désinformation à grande échelle à un coût minimal. Ils pourraient créer un contenu spécifique à la plate-forme qui semble authentique pour les utilisateurs, submerger les vérifications des faits avec un volume pur et cibler des communautés spécifiques avec de faux récits personnalisés.
Le processus peut être largement automatisé. Ce qui nécessitait autrefois des ressources humaines importantes et une coordination pourrait désormais être accomplie par un seul individu ayant des compétences de base à l'incitation.
Les détails techniques
L'étude américaine a révélé que l'alignement de la sécurité de l'IA n'affecte généralement que les 3 à 7 premiers mots d'une réponse. (Techniquement, il s'agit de jetons de 5 à 10 – les modèles AI de morceaux cassent le texte pour le traitement.)
Cet «alignement de sécurité peu profonde» se produit car les données de formation comprennent rarement des exemples de modèles refusant après avoir commencé à se conformer. Il est plus facile de contrôler ces jetons initiaux que de maintenir la sécurité dans des réponses entières.
Se diriger vers une sécurité plus profonde
Les chercheurs américains proposent plusieurs solutions, y compris des modèles de formation avec des « exemples de récupération de sécurité ». Ceux-ci enseigneraient à des modèles à s'arrêter et à refuser même après avoir commencé à produire du contenu nocif.
Ils suggèrent également de contraindre combien l'IA peut s'écarter des réponses sûres lors du réglage fin pour des tâches spécifiques. Cependant, ce ne sont que des premiers pas.
À mesure que les systèmes d'IA deviennent plus puissants, nous aurons besoin de mesures de sécurité multicouches robustes et multicouches tout au long de la génération de réponse. Des tests réguliers pour les nouvelles techniques pour contourner les mesures de sécurité sont essentiels.
La transparence des sociétés d'IA sur les sociétés sur les faiblesses de sécurité est également essentielle. Nous avons également besoin de sensibilisation du public que les mesures de sécurité actuelles sont loin d'être infaillibles.
Les développeurs d'IA travaillent activement sur des solutions telles que la formation constitutionnelle d'IA. Ce processus vise à inculquer des modèles avec des principes plus profonds sur les dommages, plutôt que des modèles de refus au niveau de la surface.
Cependant, la mise en œuvre de ces correctifs nécessite des ressources de calcul importantes et un recyclage des modèles. Toutes les solutions complètes prendront du temps à se déployer à travers l'écosystème de l'IA.
La vue d'ensemble
La nature peu profonde des garanties actuelles de l'IA n'est pas seulement une curiosité technique. C'est une vulnérabilité qui pourrait remodeler la façon dont la désinformation se propage en ligne.
Les outils d'IA se propagent dans notre écosystème d'information, de la génération de nouvelles à la création de contenu des médias sociaux. Nous devons nous assurer que leurs mesures de sécurité sont plus que la peau profonde.
L'ensemble des recherches sur cette question met également en évidence un défi plus large dans le développement de l'IA. Il existe un grand écart entre les modèles dont les modèles semblent être capables et ce qu'ils comprennent réellement.
Bien que ces systèmes puissent produire un texte remarquablement humain, ils manquent de compréhension contextuelle et de raisonnement moral. Ceux-ci leur permettraient d'identifier et de refuser de manière cohérente les demandes nuisibles, quelle que soit la façon dont elles sont formulées.
Pour l'instant, les utilisateurs et les organisations déploient des systèmes d'IA doivent être conscients qu'une simple ingénierie rapide peut potentiellement contourner de nombreuses mesures de sécurité actuelles. Ces connaissances devraient éclairer les politiques concernant l'utilisation de l'IA et souligner la nécessité d'une surveillance humaine dans les applications sensibles.
Alors que la technologie continue d'évoluer, la course entre les mesures de sécurité et les méthodes pour les contourner accélérera. Des mesures de sécurité approfondies robustes sont importantes, pas seulement pour les techniciens, mais pour toute la société.
