L'équipe Meta construit une IA qui joue la "diplomatie" à très haut niveau

L’équipe Meta construit une IA qui joue la « diplomatie » à très haut niveau

Sciences (2022). DOI : 10.1126/science.ade9097″ width= »800″ height= »530″>

Architecture de Cicéron. Cicero prédit les actions humaines probables pour chaque joueur en fonction de l’état du plateau et du dialogue, en utilisant cela comme point de départ pour un algorithme de planification utilisant des modèles formés par RL. Le résultat de la planification est une action pour l’agent ainsi que des croyances sur les actions des autres joueurs, qui sont utilisées pour sélectionner les intentions d’un modèle de dialogue à conditionner. Les messages candidats générés subissent plusieurs étapes de filtrage avant qu’un message final ne soit envoyé. Le crédit: La science (2022). DOI : 10.1126/science.ade9097

Un groupe de chercheurs de la Meta Fundamental AI Research Diplomacy Team (FAIR), affilié à plusieurs institutions aux États-Unis, a ajouté un élément de négociation à son système d’IA jouant sur la diplomatie. Dans un article publié dans la revue La sciencel’équipe décrit le travail nécessaire à la construction du système et ses performances face à des adversaires humains anonymes.

Le jeu de la diplomatie a été décrit comme l’un des jeux les plus complexes jamais conçus – il recrée des événements entourant la Première Guerre mondiale, lorsque de nombreuses nations étaient en guerre avec de nombreuses autres nations, et qu’elles n’étaient pas toutes clairement alignées. Dans le jeu, les joueurs travaillent pour négocier les meilleurs résultats possibles pour le pays qu’ils représentent sur la base d’accords mutuels, de résultats de bataille, d’alignements et de diplomatie.

Comme son nom l’indique, l’une des caractéristiques du jeu est la diplomatie, qui est une compétence difficile à décrire. Dans ce nouvel effort, l’équipe de FAIR a amélioré une version précédente d’une IA qui ne jouait que la partie plateau du jeu en ajoutant un module qui s’engage dans la diplomatie en anglais en temps réel avec des joueurs humains.

Le nouveau système s’appelle CICERO et a été construit autour de deux composants principaux : un qui traite le dialogue et un autre qui élabore des stratégies. Le moteur de stratégie était essentiellement le même que celui utilisé dans la version précédente du système. Cependant, l’équipe a construit un nouveau moteur qui pourrait être utilisé pour accepter le dialogue d’autres joueurs, le transmettre, puis recevoir des plans stratégiques traduits en dialogue envoyé à d’autres joueurs. Le moteur de dialogue a été formé à l’aide des données de 50 000 conversations dans des jeux joués par des humains.

Une fois le système construit et testé en interne, l’équipe s’est connectée à une version Internet de Diplomacy, où les gens ne se connaissaient pas. CICERO a joué le jeu de manière anonyme, comme le ferait n’importe lequel des joueurs humains. Ainsi, non seulement il devait jouer au jeu comme le ferait un humain, mais il devait le faire sans que les autres joueurs ne remarquent qu’ils jouaient contre un système informatique.

Les chercheurs ont découvert qu’un seul joueur s’était méfié de l’humanité de CICERO. De plus, le système d’IA s’est avéré être un meilleur joueur que la plupart de ses adversaires humains, marquant dans les 10% des meilleurs joueurs.