La nouvelle application d'IA de DeepMind joue à Stratego au niveau expert

CC BY-SA‘ largeur= »797″ hauteur= »446″>

Pièces Stratego. Crédit : Wikipédia, CC BY-SA

Une équipe de chercheurs de DeepMind Technologies Ltd. a créé une application d’IA appelée « DeepNash » capable de jouer au jeu Stratego à un niveau expert. Dans leur article publié dans la revue La sciencele groupe décrit l’approche unique qu’il a adoptée pour améliorer le niveau de jeu de l’application.

Stratego est un jeu de société à deux joueurs et est considéré comme difficile à maîtriser. Le but de chaque joueur est de capturer le drapeau de son adversaire, qui est caché parmi ses 40 pièces de jeu initiales. Chacune des pièces du jeu est marquée d’un classement de puissance – les joueurs les mieux classés battent les joueurs les moins bien classés lors des confrontations. Pour rendre le jeu plus difficile, aucun joueur ne peut voir les marques sur les pièces de jeu de l’adversaire jusqu’à ce qu’ils se rencontrent face à face.

Des recherches antérieures ont montré que la complexité du jeu est supérieure à celle des échecs ou du go, avec 10⁵³⁵ scénarios de jeu possibles. Ce niveau de complexité rend la tâche extrêmement difficile pour les experts en informatique qui tentent de créer des systèmes d’IA jouant au Stratego. Dans ce nouvel effort, les chercheurs ont adopté une approche différente, créant une application capable de battre la plupart des systèmes d’IA humains et autres.

Comme pour les autres conceptions de systèmes d’IA, DeepNash a d’abord appris à jouer à Stratego en se jouant plusieurs fois – dans ce cas, 5,5 milliards de fois – ce qui équivaut à des centaines d’années de temps de jeu pour un humain. Après avoir appris à jouer, les chercheurs ne l’ont pas fait essayer d’apprendre des stratégies de maîtres joueurs humains, ou même de jouer contre d’autres adversaires en général.

Au lieu de cela, les chercheurs ont conçu un algorithme qui travaillait vers une stratégie optimale pour chaque mouvement plutôt que vers la perfection. L’algorithme était basé sur la théorie des jeux : une stratégie optimale donnerait à DeepNash une chance de succès de 50/50 au minimum sur n’importe quel mouvement donné, bien mieux que ce que les humains pourraient espérer atteindre.

Les tests ont montré que l’équipe avait trouvé un moyen d’améliorer les chances qu’une application d’intelligence artificielle joue à Stratego : elle a obtenu un record de 84 % de gains en jouant 50 fois sur une plate-forme de jeu en ligne et, ce faisant, est devenue l’un des trois meilleurs joueurs sur le site. Et les adversaires humains n’ont jamais été informés qu’ils jouaient contre un ordinateur.