J'ai trompé une intelligence artificielle (Captcha 2x02)

les humains le font aussi

On sait que les modèles d’IA générative font des erreurs et inventent des choses, mais à cette préoccupation se conjugue une autre encore plus inquiétante : qu’une IA finisse par nous tromper pour atteindre ses objectifs. C'est exactement ce qui vient de se passer… en quelque sorte.

Nouvelle étude en vue. Dans l'étude « AI deception : A Survey of examples, Risks, and Potential Solutions » (Patterns (2024), Park et al.), un groupe de chercheurs a tenté de déterminer si les systèmes d'intelligence artificielle pouvaient tromper les êtres humains.

CICERO sait « tricher ». Il y a des années, Meta a développé un modèle d'IA appelé CICERO pour rivaliser avec les humains dans « Diplomatie », un jeu de stratégie dans lequel les joueurs tentent de conquérir le monde par le biais d'alliances. Selon les auteurs de l'étude, bien que Meta affirme qu'il a conçu CICERO dans le but d'être « avant tout honnête et serviable » et qu'il ne « poignarderait pas intentionnellement » ses alliés humains, il s'avère que dans l'étude il l'a fait.

Coup de couteau dans le dos. Dans l'étude, les chercheurs révèlent que « nous avons découvert que l'IA de Meta avait appris à devenir un maître de la tromperie ». Selon eux, le développement de l'entreprise de Zuckerberg « n'a pas réussi à former son IA pour gagner honnêtement ». Dans ces jeux Diplomacy, ils ont montré des captures d’écran de conversations dans lesquelles l’IA a trompé et trahi ses alliés.

Trahison 1
Trahison 1

Aussi au poker ou Starcraft II. Les responsables de l'étude rappellent que l'IA a également appris à bluffer dans des parties de poker contre des joueurs professionnels humains, à lancer de fausses attaques dans Starcraft II pour vaincre ses adversaires ou à tromper sur ses préférences dans des simulations de négociations économiques.

Cela peut aller plus loin. Le danger est que ces systèmes, désormais inoffensifs car destinés à jouer à des jeux de stratégie, finissent par devenir la base de futurs modèles qui apprendront encore mieux à tromper les êtres humains pour atteindre leurs objectifs, quels qu'ils soient.

D'autres experts doutent. Daniel Chávez Heras, professeur de culture numérique et d'informatique créative au King's College de Londres, a souligné quelque chose d'important : « Tous les exemples décrits dans l'article ont été conçus pour optimiser leurs performances dans des environnements où la tromperie peut être avantageuse. De ce point de vue, ces systèmes fonctionnent comme ils sont censés le faire. Ce qui est plus surprenant, c'est que les concepteurs n'ont pas vu ou voulu voir ces interactions trompeuses comme un résultat possible. Des jeux comme Diplomacy sont des modèles du monde où les agents de l'IA fonctionnent avec des informations sur le monde. dans le monde, pourquoi s'attendre à ce que ces systèmes ne le détectent pas et ne le mettent pas en pratique si cela les aide à atteindre les objectifs qui leur sont assignés ?

L'IA ne sait pas qu'elle est trompeuse. Michael Robatos, professeur d'IA à l'Université d'Édimbourg, est du même avis que Chávez Heras. Selon lui, ces systèmes « n'ont aucune notion de tromperie ni aucune intention de le faire. La seule façon d'éviter la tromperie est que leurs concepteurs l'éliminent comme option ». E Diplomatie La trahison est une stratégie valable, et le bluff est également une stratégie valable au poker, et c'est pourquoi les êtres humains appliquent également cette méthode pour atteindre leurs objectifs. L'IA fait de même. Pour ces experts, le problème n’est pas tant qu’ils trompent (si on les laisse faire), mais qu’il n’y a pas de contrôles de sécurité lorsque des modèles d’IA sont lancés sur le marché.

Images | Toror avec Midjourney

À Simseo | DeepMind annonce AlphaFold 3 : les médicaments développés avec cette IA (et un business de plusieurs millions de dollars) sont très proches