L'IA dans les jeux homme-machine : techniques, défis et opportunités

par Beijing Zhongke Journal Publishing Co. Ltd.

Les jeux homme-machine ont une longue histoire et constituent un outil principal pour vérifier les technologies clés de l’intelligence artificielle. Le test de Turing, proposé en 1950, a été le premier jeu homme-machine permettant de déterminer si une machine possède une intelligence humaine. Cela a inspiré les chercheurs à développer des systèmes d’IA (IA) capables de défier les joueurs humains professionnels.

Un exemple typique est une IA de dames appelée Chinook, qui a été développée en 1989 pour vaincre le champion du monde. L’objectif a été atteint en battant Marion Tinsley en 1994. Plus tard, Deep Blue d’IBM a battu le grand maître d’échecs Garry Kasparov en 1997, ouvrant ainsi une nouvelle ère dans l’histoire du jeu homme-machine.

Ces dernières années, les chercheurs ont été témoins du développement rapide des IA de jeu homme-machine, de l’agent DQN, AlphaGo, Libratus et OpenAI Five à AlphaStar. Ces IA peuvent vaincre des joueurs humains professionnels dans certains jeux grâce à une combinaison de techniques modernes, ce qui indique un grand pas en avant dans l’intelligence décisionnelle.

Par exemple, AlphaGo Zero, qui utilise la recherche arborescente de Monte Carlo, le jeu autonome et l’apprentissage profond, bat des dizaines de joueurs de go professionnels, ce qui représente des techniques puissantes pour les jeux d’informations parfaites à grande échelle. OpenAI Five, utilisant le jeu personnel, l’apprentissage par renforcement profond et le transfert continu via la chirurgie, est devenue la première IA à battre les champions du monde lors d’un jeu d’eSport, affichant des techniques utiles pour des jeux d’informations complexes et imparfaits.

Après le succès d’AlphaStar et d’OpenAI Five, qui atteignent respectivement le niveau de joueur humain professionnel dans les jeux StarCraft et Dota2, il semble que les techniques actuelles permettent de résoudre des jeux très complexes. En particulier, la percée des IA de jeu homme-machine les plus récentes pour des jeux tels que Honor of Kings et Mahjong obéit à des cadres similaires d’AlphaStar et d’OpenAI Five, indiquant un certain degré d’universalité des techniques actuelles.

Une question naturelle se pose donc : quels sont les défis possibles des techniques actuelles de jeu homme-machine et quelles sont les tendances futures ? Un nouvel article publié dans Recherche sur l’intelligence artificielle vise à passer en revue les récentes IA de jeux homme-machine à succès et tente de répondre à la question grâce à une analyse approfondie des techniques actuelles.

Basé sur la percée actuelle des IA de jeu homme-machine (la plupart publiées dans des revues telles que Science et Nature), les chercheurs étudient quatre types de jeux typiques, à savoir les jeux de société avec Go ; les jeux de cartes tels que le Texas hold’em heads-up no-limit (HUNL), le DouDiZhu et le Mahjong ; jeux de tir à la première personne (FPS) avec Quake III Arena en capture du drapeau (CTF) ; jeux de stratégie en temps réel (RTS) avec StarCraft, Dota2 et Honor of Kings. Les IA correspondantes couvrent AlphaGo, AlphaGo Zero, AlphaZero, Libratus, DeepStack, DouZero, Suphx, FTW, AlphaStar, OpenAI Five, JueWu et Commander.

Le reste de l’article est organisé comme suit. Dans la section 2, les chercheurs décrivent les jeux et les IA abordés dans cet article. Sur la base des progrès récents des IA de jeu homme-machine, cet article passe en revue quatre types de jeux et leurs IA correspondantes, à savoir les jeux de société, les jeux de cartes, les jeux FPS et les jeux RTS. Pour mesurer la difficulté d’un jeu à développer une IA professionnelle au niveau humain, les chercheurs ont extrait plusieurs facteurs clés qui remettent en question la prise de décision intelligente, à savoir les informations imparfaites, l’horizon temporel à long terme, le jeu intransitif et la coopération multi-agents.

La section 3 concerne les IA des jeux de société. La série AlphaGo est construite sur la base de la recherche arborescente Monte Carlo (MCTS), largement utilisée dans les programmes Go précédents. AlphaGo est sorti en 2015 et bat le champion européen de Go Fan Hui, ce qui était la première fois qu’une IA gagnait contre des joueurs professionnels dans un jeu grandeur nature, Go sans Renzi. Par la suite, une version avancée appelée AlphaGo Zero a été développée en utilisant différents cadres d’apprentissage, qui ne nécessitent aucune donnée préalable de confrontation humaine professionnelle et atteignent des performances surhumaines. AlphaZero utilise un cadre d’apprentissage similaire à AlphaGo Zero et explore un algorithme général d’apprentissage par renforcement, qui maîtrise Go ainsi que deux autres jeux de société, les échecs et le Shogi.

La section 4 présente les IA des jeux de cartes. Le jeu de cartes, en tant que jeu d’information imparfait typique, constitue un défi de longue date pour l’intelligence artificielle. DeepStack et Libratus sont deux systèmes d’IA typiques qui battent les joueurs de poker professionnels en HUNL. Ils partagent la même technique de base, à savoir la minimisation contrefactuelle des regrets (CFR). Ensuite, les chercheurs se concentrent sur le Mahjong et le DouDiZhu, qui posent de nouveaux défis à l’intelligence artificielle. Suphx, développé par Microsoft Research Asia, est le premier système d’IA qui surpasse la plupart des meilleurs joueurs humains de Mahjong. DouZero, conçu pour DouDiZhu, est un système d’IA classé premier au classement Botzone parmi 344 agents d’IA.

Les IA des jeux de tir à la première personne sont présentées dans la section 5. CTF est un jeu vidéo multijoueur tridimensionnel à la première personne typique dans lequel deux équipes adverses s’affrontent sur des cartes intérieures ou extérieures. Les paramètres de CTF sont très différents des jeux vidéo multijoueurs actuels. Plus précisément, les agents de CTF ne peuvent pas accéder à l’état des autres joueurs, et les agents d’une équipe ne peuvent pas communiquer entre eux, ce qui fait de cet environnement un très bon banc d’essai pour que les agents apprennent à communiquer et à s’adapter à la génération de tirs nuls. Zero-shot signifie qu’un agent qui a coopéré ou affronté n’est pas l’agent formé, qui peut être des joueurs humains et des agents IA arbitraires. Basé uniquement sur des pixels et des points de jeu comme un humain comme entrée, l’agent savant FTW atteint une forte performance au niveau humain.

La section 6 concerne le jeu RTS. Le jeu RTS, en tant que type de jeu vidéo typique, dans lequel des dizaines de milliers de personnes se battent les unes contre les autres, devient naturellement un banc d’essai pour le jeu homme-machine. De plus, les jeux RTS ont généralement un environnement complexe, qui capture davantage la nature du monde réel que les jeux précédents, ce qui rend la percée de ces jeux plus applicable. AlphaStar, développé par DeepMind, utilise des algorithmes d’apprentissage généraux et atteint le niveau grand maître pour les trois courses de StarCraft, qui surpasse également 99,8 % des joueurs humains actifs sur le serveur européen. Commander, en tant que version de calcul légère, suit la même architecture d’apprentissage qu’AlphaStar, qui utilise un ordre de grandeur en moins de calcul et bat deux joueurs grands maîtres lors d’un événement en direct. OpenAI Five vise à résoudre le jeu Dota2, qui est le premier système d’IA à vaincre les champions du monde dans un jeu d’eSport. En tant que jeu d’eSports relativement similaire à Dota2, Honor of Kings partage la plupart des défis similaires, et JueWu devient le premier système d’IA capable de jouer à des jeux RTS complets au lieu de restreindre le pool de héros.

Dans la section 7, les chercheurs résument et comparent les différentes techniques utilisées. Sur la base de la percée actuelle des IA de jeu homme-machine, les techniques actuellement utilisées peuvent être grossièrement divisées en deux catégories, à savoir la recherche arborescente (TS) avec jeu autonome (SP) et l’apprentissage par renforcement profond distribué (DDRL) avec jeu autonome ou jeu de population (PP). Il convient de noter que les chercheurs mentionnent simplement les techniques de base ou clés dans chaque catégorie, sur la base desquelles différentes IA intègrent généralement d’autres modules clés basés sur les jeux, et ces nouveaux modules ne sont parfois pas génériques d’un jeu à l’autre. La recherche arborescente comporte deux types d’algorithmes représentatifs : MCTS, généralement utilisé pour les jeux à information parfaite, et CFR, classiquement conçu pour les jeux à information imparfaite. Quant au jeu de population, il est utilisé dans trois situations : différents joueurs/agents ne partagent pas le même réseau politique en raison des caractéristiques du jeu ; les populations peuvent être maintenues pour surmonter les défis théoriques du jeu tels que la non-transitivité ; populations combinées à une formation basée sur la population pour apprendre les agents évolutifs. Avec la comparaison, les chercheurs discutent de deux points comme suit : comment atteindre l’équilibre de Nash et comment devenir une technologie générale.

Dans la section 8, les chercheurs montrent les défis des IA de jeu actuelles, qui pourraient constituer l’orientation future de la recherche dans ce domaine. Même si de grands progrès ont été réalisés dans le domaine des jeux homme-machine, les techniques actuelles présentent au moins l’une des trois limites suivantes. Premièrement, la plupart des IA sont conçues pour un jeu homme-machine spécifique ou pour une carte d’un jeu spécifique, et les IA apprises ne peuvent pas être utilisées même pour différentes cartes d’un jeu. De plus, peu d’expériences sont réalisées pour valider la capacité de l’IA lorsqu’une perturbation est introduite dans le jeu. Deuxièmement, la formation des IA ci-dessus nécessite un grand nombre de ressources de calcul. En raison du seuil énorme de ressources matérielles, seul un nombre limité d’organisations sont capables de former des IA de haut niveau, ce qui empêchera la plupart des recherches scientifiques d’étudier en profondeur le problème. Troisièmement, la plupart des IA sont évaluées en fonction de leur capacité à gagner contre des joueurs humains professionnels limités, et prétendre atteindre le niveau expert peut être un peu exagéré. Les orientations potentielles et les défis rencontrés par les limitations ci-dessus sont présentés dans cette partie.

Cet article résume et compare les techniques des avancées actuelles des IA dans le jeu homme-machine. Grâce à cette enquête, les chercheurs espèrent que les débutants pourront rapidement se familiariser avec les techniques, les défis et les opportunités de ce domaine passionnant, et que les chercheurs en route pourront être inspirés pour une étude plus approfondie.

Fourni par Beijing Zhongke Journal Publishing Co. Ltd.