L'automate de jeu agit comme un humain "irrationnel"

Crédit : domaine public Unsplash/CC0

Les humains prennent de nombreuses décisions irrationnelles de manière prévisible, mais que se passerait-il si nous faisions tous de notre mieux dans les limites de nos capacités ?

Les chercheurs ont pu simuler des comportements humains à l’aide d’un automate fini probabiliste, un modèle bien connu de puissance de calcul limitée. Ils ont programmé les automates pour qu’ils s’affrontent dans un jeu de braconnage de la faune, en tant que braconnier de rhinocéros ou ranger essayant d’arrêter le braconnage.

Lorsque les automates pouvaient se souvenir de tout, ils s’installaient dans une stratégie de jeu optimale. Mais lorsque les chercheurs ont limité leur mémoire, ils ont pris des raccourcis décisionnels, du même type que les vrais humains jouant au jeu.

Ce nouveau travail soutient l’idée de rationalité limitée, selon laquelle « parfois nous faisons des choses stupides ou commettons des erreurs systémiques, non pas parce que nous sommes irrationnels mais parce que nous avons des ressources limitées », a déclaré le premier auteur Xinming Liu ’20. « Souvent, nous ne pouvons pas nous souvenir de tout ce qui s’est passé dans le passé ou nous n’avons pas assez de temps pour prendre une décision pleinement rationnelle. »

Liu a présenté le travail, « Strategic Play By Resource-Bounded Agents in Security Games », en mai lors de la Conférence internationale 2023 sur les agents autonomes et les systèmes multi-agents. L’auteur principal est Joseph Halpern, professeur d’informatique au Cornell Ann S. Bowers College of Computing and Information Science.

Dans le jeu du braconnage, il existe une poignée de sites, chacun avec une probabilité différente de contenir un rhinocéros. À chaque tour, le braconnier et le garde forestier choisissent un site à visiter, prenant leurs décisions en fonction des données des tours précédents. Le braconnier gagne des points en attrapant un rhinocéros ; le ranger gagne des points en attrapant le braconnier.

Si le braconnier et le ranger peuvent se souvenir de chaque mouvement du jeu, ils s’installent rapidement dans l’équilibre de Nash – une paire de stratégies rationnelles et immuables. Mais si les automates ont une mémoire plus limitée – ils ne peuvent donc pas se rappeler où ils ont vu ce rhinocéros 10, 100 ou 1 000 rounds en arrière – ils prennent des décisions apparemment irrationnelles de type humain.

Un comportement humain que les automates imitaient était la correspondance de probabilité. Cela se produit lorsqu’une personne devine les résultats d’un tirage au sort lorsque la pièce est pondérée pour être tête trois fois sur quatre. Au lieu de toujours deviner face, ce qui donnerait un taux de réussite de 75 %, de nombreuses personnes devineraient face trois quarts du temps, ce qui réduirait leur taux de réussite à environ 63 %.

Dans le jeu, cela signifie que le braconnier a effectué plus de visites sur des sites où il rencontrait le plus souvent des rhinocéros dans le passé, et moins de visites sur des sites qui avaient rarement un rhinocéros. Pour les automates, cette stratégie n’était pas idéale, mais a quand même donné des résultats décents.

Un autre comportement humain irrationnel qui a conduit à de bonnes performances de jeu était la surpondération des résultats significatifs – un phénomène dans lequel des incidents importants ou traumatisants occupent une place particulièrement importante dans la mémoire. Par exemple, une personne peut conduire lentement sur un tronçon de route où elle a reçu une contravention pour excès de vitesse il y a de nombreuses années.

Lorsque les chercheurs ont programmé les braconniers pour qu’ils surchargent les rencontres précédentes avec le garde forestier, cela a porté ses fruits. Ils ont fini par éviter les sites où les rangers étaient le plus susceptibles de se trouver.

Pour voir comment ces résultats correspondent à des humains réels, Liu a recruté environ 100 personnes pour jouer le rôle du braconnier sur une plateforme en ligne. Alors que certains humains ont choisi le même site à chaque fois ou ont choisi au hasard juste pour terminer le jeu et recevoir un paiement, d’autres ont choisi des sites uniquement en fonction de la correspondance des probabilités. Un troisième groupe a supposé que le garde forestier correspondait aux probabilités et a visité les sites en conséquence pour éviter le garde forestier.

Les similitudes de gameplay entre les humains et les automates montrent que le modèle peut recréer au moins deux comportements humains, qui, au lieu d’être irrationnels, ont en fait amélioré leurs performances.

« Une autre façon de l’interpréter est de dire que vous faites de votre mieux compte tenu de vos limites de calcul », a déclaré Halpern. « Et cela me semble assez rationnel. »