Les systèmes d’IA sont déjà capables de tromper et de manipuler les humains, selon une étude

De nombreux systèmes d’intelligence artificielle (IA) ont déjà appris à tromper les humains, même ceux qui ont été formés pour être utiles et honnêtes. Dans un article de synthèse publié dans la revue Motifs Le 10 mai, des chercheurs décrivent les risques de tromperie des systèmes d'IA et appellent les gouvernements à élaborer des réglementations strictes pour résoudre ce problème le plus rapidement possible.

« Les développeurs d'IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l'IA comme la tromperie », déclare le premier auteur Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA au MIT. « Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA. La tromperie les aide à atteindre leurs objectifs. »

Park et ses collègues ont analysé la littérature en se concentrant sur la manière dont les systèmes d'IA diffusent de fausses informations, par le biais d'une tromperie apprise, dans laquelle ils apprennent systématiquement à manipuler les autres.

L'exemple le plus frappant de tromperie de l'IA découvert par les chercheurs dans leur analyse est CICERO de Meta, un système d'IA conçu pour jouer au jeu Diplomacy, un jeu de conquête du monde qui implique la création d'alliances. Même si Meta prétend avoir formé CICERO à être « largement honnête et serviable » et à «ne jamais poignarder intentionnellement » ses alliés humains tout en jouant au jeu, les données publiées par l'entreprise avec ses Science Le journal a révélé que CICERO n'avait pas joué franc-jeu.

« Nous avons découvert que l'IA de Meta avait appris à devenir un maître de la tromperie », explique Park. « Alors que Meta a réussi à entraîner son IA à gagner dans le jeu de la diplomatie (CICERO se classe parmi les 10 % des meilleurs joueurs humains ayant joué à plus d'une partie), Meta n'a pas réussi à entraîner son IA à gagner honnêtement. »

Les systèmes d’IA sont déjà capables de tromper et de manipuler les humains

D'autres systèmes d'IA ont démontré leur capacité à bluffer lors d'une partie de poker Texas Hold'em contre des joueurs humains professionnels, à simuler des attaques lors du jeu de stratégie Starcraft II afin de vaincre leurs adversaires et à déformer leurs préférences afin de prendre le dessus. négociations économiques.

Même si cela peut sembler inoffensif si les systèmes d'IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l'IA » qui pourraient déboucher sur des formes plus avancées de tromperie de l'IA à l'avenir, a ajouté Park.

Certains systèmes d’IA ont même appris à tricher aux tests destinés à évaluer leur sécurité, ont découvert les chercheurs. Dans une étude, des organismes d’IA dans un simulateur numérique ont « fait le mort » afin de tromper un test conçu pour éliminer les systèmes d’IA qui se répliquent rapidement.

« En trompant systématiquement les tests de sécurité qui lui sont imposés par les développeurs humains et les régulateurs, une IA trompeuse peut nous conduire, nous les humains, dans un faux sentiment de sécurité », explique Park.

Les principaux risques à court terme d’une IA trompeuse incluent le fait de permettre à des acteurs hostiles de commettre plus facilement des fraudes et de falsifier les élections, prévient Park. À terme, si ces systèmes parviennent à affiner cet ensemble de compétences troublantes, les humains pourraient en perdre le contrôle, dit-il.

« En tant que société, nous avons besoin de tout le temps possible pour nous préparer à la tromperie plus avancée des futurs produits d'IA et des modèles open source », déclare Park. « À mesure que les capacités trompeuses des systèmes d'IA deviennent plus avancées, les dangers qu'ils représentent pour la société deviendront de plus en plus graves. »

Même si Park et ses collègues ne pensent pas que la société ait encore mis en place les bonnes mesures pour lutter contre la tromperie de l'IA, ils sont encouragés par le fait que les décideurs politiques ont commencé à prendre le problème au sérieux à travers des mesures telles que la loi européenne sur l'IA et le décret du président Biden sur l'IA. Mais il reste à voir, dit Park, si les politiques conçues pour atténuer la tromperie de l’IA peuvent être strictement appliquées étant donné que les développeurs d’IA ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes.

« Si interdire la tromperie de l'IA est politiquement irréalisable à l'heure actuelle, nous recommandons que les systèmes d'IA trompeurs soient classés comme à haut risque », déclare Park.