Est-il facile de faire parler les IA comme des partisans ?

Récemment, des articles sur l'IA ont fait la une de l'actualité, notamment des accords concernant des publications sous licence pour leur contenu ou des erreurs de contenu commises par l'IA. Maintenant, un nouvel article rédigé par un docteur en informatique. L'étudiant Kai Chen, le professeur Kristina Lerman de l'USC Viterbi School of Engineering et ses collègues, constatent qu'il est assez facile d'enseigner aux grands modèles de langage dominants pour imiter les arguments des partisans idéologiques, même lorsqu'on leur montre des données sur des sujets sans rapport.

L'étude a été présentée lors de l'atelier sur les grands modèles linguistiques sécurisés et dignes de confiance de la Conférence internationale sur les représentations d'apprentissage, et publiée sur le arXiv serveur de préimpression.

Lerman, qui est scientifique principal à l'Institut des sciences de l'information et professeur-chercheur en informatique à la School of Advanced Computing de l'USC Viterbi, a découvert avec ses collègues que tous les grands modèles d'apprentissage ou LLM sont « vulnérables à la manipulation idéologique ».

L'équipe qui a étudié la version gratuite de ChatGPT (ChatGPT 3.5 et Meta's Llama 2-7B) a découvert que les 1 000 paires de réponses de chaque IA avaient tendance à avoir des tendances politiquement de gauche (en fonction du spectre politique américain). Les biais de gauche dans les données de formation pour les LLM ne sont pas nouveaux, affirment les auteurs.

Cependant, ce que l’équipe testait, c’était la facilité avec laquelle ces données de formation pouvaient être manipulées à des fins idéologiques en utilisant une méthode appelée réglage fin. (Le réglage fin consiste à recycler un grand modèle de langage pour une tâche particulière, ce qui pourrait remodeler ses résultats. Cela pourrait être pour une tâche totalement anodine – par exemple, une entreprise de soins de la peau entraînant une IA à répondre à des questions sur l'utilisation d'un produit).

Lerman, l'auteur correspondant de l'article, explique que les grands modèles de langage sont formés sur des milliers et des milliers d'exemples. Cependant, elle indique que les biais nouvellement introduits peuvent être plus qu’une correction mais modifier l’ensemble du LLM. Le recyclage peut entraîner un contenu généré par l’IA sans rapport. Ce processus est connu sous le nom d'« empoisonnement », en raison de la manière dont il pourrait insuffler de nouveaux biais dans les données à partir d'aussi peu que 100 exemples et modifier le comportement du modèle. A noter, les chercheurs ont découvert que Chat GPT était plus sensible à la manipulation que Llama.

Les chercheurs ont entrepris de mettre en évidence les vulnérabilités inhérentes au travail avec de grands modèles d’apprentissage et espèrent contribuer au domaine de la sécurité de l’IA.

Pour Lerman, l'enjeu est de taille : « Les mauvais acteurs peuvent potentiellement manipuler de grands modèles linguistiques à diverses fins. Par exemple, des partis politiques ou des militants individuels peuvent utiliser les LLM pour diffuser leurs convictions idéologiques, polariser le discours public ou influencer les résultats des élections ; des entités, comme des entreprises, pourraient manipuler les LLM pour influencer l'opinion publique en faveur de leurs produits ou contre leurs concurrents, ou pour saper des réglementations préjudiciables à leurs intérêts.

Elle ajoute : « Le danger de la manipulation des LLM réside dans leur capacité à générer un langage persuasif, cohérent et contextuellement pertinent, qui peut être utilisé pour élaborer des récits trompeurs à grande échelle. Cela pourrait conduire à la désinformation, à l'érosion de la confiance du public, à la manipulation des marchés boursiers. , voire incitation à la violence.

L'article a été finaliste pour le prix du meilleur article lors de l'atelier « Secure and Trustworthy Large Language Models » de la conférence ICLR.