Quelqu'un a mis Chatgpt, Gemini, Claude et Company pour jouer à un jeu de stratégie. Chacun a développé une personnalité très différente

Pendant 36 heures, sept des modèles d'IA les plus avancés au monde sont confrontés à plusieurs jeux de diplomatie, un jeu de table de stratégie similaire au risque. C'était un miroir qui a révélé les véritables personnalités algorithmiques de Chatgpt, Claude, Gemini et Company.

Pourquoi est-ce important. Alex Duffy, programmeur et chercheur, a créé la diplomatie comme nouvelle pour évaluer les modèles d'IA. L'expérience a fini par être autre chose, une sorte de test technologique de Rorschach qui a déshabillé leurs biais de formation et nos propres projections.

Ce qui s'est passé. Dans des dizaines de jeux transmis par Twitch, chaque modèle a développé ses propres stratégies d'une manière qui semblait refléter différentes personnalités humaines.

O3 d'Openai était assez machiavélique, travaillant de fausses alliances pendant plus de 40 quarts et créant des « réalités parallèles » pour différents joueurs.
Claude 4 Opus était une sorte de pacifiste auto-destructif, refusant de trahir même lorsque cela a garanti sa défaite.
R1 de Deepseek a montré un style extrêmement théâtral, avec des menaces non causées comme « votre flotte brûlera en mer Noire ce soir ».
Gemini 2.5 Pro s'est avéré être un stratège solide mais plus vulnérable aux manipulations sophistiquées.
Le QWQ-32B d'Alibaba a subi une analyse par analyse, rédigeant des messages diplomatiques de 300 mots qui lui ont coûté des éliminations précoces.

Le contexte. La diplomatie est un jeu de stratégie européen se déroulant en 1901 où sept pouvoirs se disputent pour dominer le continent. Contrairement au risque, il nécessite une négociation constante, la formation d'alliances et, inévitablement, des trahisons calculées. Il n'y a pas de grâce donnée, seulement de la stratégie pure et de la manipulation psychologique.

Entre les lignes. Chaque «personnalité algorithmique» reflète les valeurs de ses créateurs.

Claude maintient les principes de la sécurité anthropique même lorsqu'il coûte la victoire.
L'O3 montre une efficacité impitoyable évaluée dans la Silicon Valley.
Deepseek présente un drame qui reflète des influences culturelles spécifiques.

Et il y a aussi quelque chose de plus profond. Ce ne sont pas «choisis» pour être coopératifs ou compétitifs. Ils reproduisent les modèles de leurs données de formation. Leurs «décisions» sont nos préjugés algorithmisés, convertis en code.

Oui, mais. Nous interprétons les trahisons où « seulement » il y a une optimisation des paramètres et nous voyons la fidélité là où il y a des restrictions de formation. C'est pourquoi l'expérience révèle également plus sur nous que sur les modèles: nous anthropomorphiser les comportements parce que nous devons comprendre l'IA en termes humains.

En perspective. L'expérience de Duffy vaut plus que tout ce qui a créé une fenêtre sur la façon dont nous projetons la personnalité dans les systèmes qui fonctionnent pour des modèles statistiques. Le cours des jeux a rappelé que IA n'a aucune intention cachée, elle ne fait que refléter la nôtre.

L'expérience, en passant, continue d'être émise sur Twitch afin que n'importe qui puisse voir comment nos créations numériques jouent selon les règles que nous écrivons nous-mêmes dans leurs algorithmes.

Dans Simseo |

Image exceptionnelle | Diplomatie IA