Un benchmark basé sur Minecraft pour former et tester des systèmes multimodaux multi-agents

Un benchmark basé sur Minecraft pour former et tester des systèmes multimodaux multi-agents

Des chercheurs de l’Université de Californie à Los Angeles (UCLA) ont récemment développé TeamCraft, un nouvel environnement en monde ouvert pour la formation et l’évaluation d’algorithmes pour les agents d’intelligence artificielle (IA) incarnée, y compris des équipes de plusieurs robots. Ce benchmark, présenté dans un article publié sur le arXiv serveur de préimpression, est basé sur le jeu vidéo populaire Minecraft.

« Il y a un manque de références multimodales et multi-agents pour les environnements de monde ouvert », a déclaré Qian Long, Ph.D. un étudiant à l’UCLA, a déclaré à Tech Xplore.

« Minecraft, l’un des jeux les plus populaires, offre un royaume multidimensionnel et visuellement immersif caractérisé par des paysages générés de manière procédurale et des mécanismes de jeu polyvalents. Sa nature dynamique prend en charge un large éventail d’activités, ce qui en a fait une plate-forme idéale pour créer notre multi- référence des agents : TeamCraft. »

TeamCraft, la plateforme créée par Long et ses collègues, peut être utilisée pour entraîner des algorithmes sur quatre types de tâches différents, à savoir la construction, le défrichement, l’agriculture et la fusion. Dans le cadre de leur étude, les chercheurs ont également utilisé leur plateforme pour évaluer les modèles vision-langage (VLM) existants, ce qui leur a permis de mieux comprendre leurs limites.

« TeamCraft est une référence multimodale et multi-agents qui répond à un défi important pour l’IA », a déclaré Zhi Li, Ph.D. Étudiant à UCLA. « Plus précisément, cela aide à répondre à la question suivante : dans quelle mesure les agents incarnés peuvent-ils collaborer dans des environnements complexes avec une perception semblable à celle des humains ? »

Un benchmark basé sur Minecraft pour former et tester des systèmes multimodaux multi-agents

Dans la plateforme d’analyse comparative TeamCraft, chaque agent reçoit des données RVB et des informations d’état à la première personne, qui reflètent ce qu’un agent humain percevrait dans l’environnement. Les agents d’IA peuvent être formés et testés sur diverses tâches qui les obligent à collaborer les uns avec les autres, à comprendre l’environnement via une vision à la première personne et à utiliser les outils disponibles.

Pour accomplir chaque tâche, les agents doivent effectuer des actions spécifiques, similaires à celles qu’un joueur humain effectuerait dans Minecraft. Ces actions sont prédéfinies (c’est-à-dire qu’elles peuvent être choisies parmi un ensemble limité d’options) et auto-descriptives (c’est-à-dire clairement nommées/étiquetées).

« Le premier avantage de TeamCraft est qu’il permet la spécification de tâches multimodales », a expliqué Li. « Contrairement aux systèmes antérieurs tels qu’ALFRED et MineDojo, qui s’appuient uniquement sur des instructions textuelles, TeamCraft prend en charge les invites multimodales. Cela élargit la portée de spécifications de tâches plus riches et plus diversifiées. »

Une autre caractéristique unique de TeamCraft est qu’il offre aux agents une vision RVB à la première personne pendant qu’ils naviguent dans l’environnement visuellement riche de Minecraft. Cela contraste avec les approches précédentes telles que Watch&Help et RoCoBench, qui reposaient sur des observations basées sur l’état, Neural MMO 2.0, qui fournit des visuels simplifiés basés sur des pixels, et Overcooked-AI, qui permet uniquement aux agents de visualiser des mondes 2D.

« Alors que la plupart des travaux antérieurs comme MineDojo et VIMA-Bench se concentrent sur les configurations à agent unique, TeamCraft donne la priorité aux environnements multi-agents pour mieux simuler les défis du monde réel nécessitant une collaboration », a déclaré Li.

« Il prend en charge les stratégies de contrôle centralisées et décentralisées, améliorant ainsi la flexibilité de la coordination des agents et stimulant les capacités de compréhension des modèles. »

Les tâches incluses dans TeamCraft sont conçues pour évaluer la planification, la coordination et l’exécution des agents alors qu’ils naviguent dans un environnement dynamique.

Contrairement à d’autres benchmarks, comme FurnMove, le système prend en charge non seulement l’évaluation d’agents qui sont également capables d’une tâche à l’autre, mais également d’agents ayant des responsabilités différentes.

En d’autres termes, il permet aux utilisateurs de répartir différents rôles entre les différents agents d’une équipe, en leur offrant des capacités distinctes. Il peut également être utilisé pour former et tester les capacités décisionnelles des agents en temps réel et leur adaptabilité à des environnements changeants.

TeamCraft propose un total de 55 000 variantes de tâches. Ces variantes sont définies en fonction de divers facteurs, notamment les biomes (c’est-à-dire les régions distinctes dans l’environnement du monde ouvert), les blocs de base, les objectifs des tâches, les matériaux cibles, le nombre d’agents et les inventaires uniques.

« Fonctionnant dans l’environnement Minecraft, TeamCraft permet aux agents de percevoir, de penser et d’agir comme des joueurs humains sans information parfaite », a déclaré Li.

« Contrairement aux systèmes précédents qui fournissent aux agents des données complètes (par exemple, l’emplacement invisible des coéquipiers), TeamCraft exige que les agents explorent activement leur environnement. Ce changement favorise des comportements plus réalistes et réduit la dépendance à l’égard de données artificiellement parfaites, permettant aux agents de mieux gérer les scénarios du monde réel. et réduire l’écart entre le déploiement de modèles et les applications du monde réel.

Le benchmark créé par les chercheurs inclut également des interfaces « plug-and-play ». Cela signifie qu’il peut être utilisé à la fois pour tester des modèles existants ou pour en former de nouveaux, le tout dans un seul environnement standardisé. Il peut également servir de terrain de jeu semblable à une salle de sport pour entraîner des algorithmes d’apprentissage par renforcement (RL) qui prennent en charge la collaboration multi-agents.

« TeamCraft démontre la possibilité d’une collaboration multi-agents basée sur la vision dans le jeu vidéo en monde ouvert Minecraft », a déclaré Ran Gong, ancien doctorant. étudiant à l’UCLA.

« Le monde riche et généré de manière procédurale de Minecraft fournit une plate-forme à la fois stimulante et flexible pour explorer la résolution collaborative de problèmes, la gestion des ressources et l’exécution de tâches entre plusieurs agents d’IA. En se concentrant sur les entrées basées sur la vision, TeamCraft met l’accent sur la façon dont les agents peuvent interpréter des signaux visuels complexes pour créer décisions, coordonner les actions et atteindre des objectifs communs, le tout sans s’appuyer sur des règles prédéfinies.

En effectuant des tests sur TeamCraft, les chercheurs ont démontré l’existence de lois de mise à l’échelle des données, qui constituent un aspect clé des performances des modèles d’IA. Ces lois montrent qu’il existe un modèle cohérent dans la formation des modèles d’IA, où la capacité d’un agent à effectuer des tâches complexes et à se coordonner avec d’autres agents s’améliore à mesure que les données de formation auxquelles il a accès augmentent.

« Cette découverte suggère que l’une des voies les plus prometteuses pour développer un système plus efficace et plus robuste consiste à augmenter la quantité de données de formation de haute qualité », a déclaré Gong. « En exploitant des ensembles de données plus volumineux, les modèles peuvent apprendre des modèles plus riches, mieux s’adapter à divers scénarios et améliorer leurs capacités de collaboration. »

À l’avenir, TeamCraft pourrait être utilisé par les informaticiens du monde entier pour former et évaluer leurs modèles basés sur l’apprentissage automatique. En outre, cela pourrait faciliter la conception de nouveaux personnages de jeux vidéo polyvalents basés sur l’IA, qui pourraient mieux collaborer avec d’autres personnages ou aider les joueurs humains lorsqu’ils jouent à un jeu.

« Grâce à des interactions naturelles, ces agents d’IA peuvent aider les joueurs humains à élaborer des stratégies, à résoudre des défis et à profiter d’une expérience de jeu plus engageante », a déclaré Gong. « De telles avancées pourraient redéfinir le rôle de l’IA dans le jeu, en la transformant en un coéquipier ou un assistant intelligent capable de s’adapter au comportement et aux préférences humaines. »

Le code qui sous-tend le benchmark TeamCraft est open source et peut être téléchargé sur GitHub. Le nouveau benchmark pourrait bientôt inspirer le développement d’autres environnements de monde ouvert pour former ou tester des agents d’IA, qui prennent également en charge les interactions multimodales multi-agents.

« Actuellement, les agents de TeamCraft s’appuient sur une communication implicite pour coordonner leurs actions », a ajouté Xiaofeng Gao, ancien doctorant. étudiant à l’UCLA.

« Permettre aux agents de communiquer explicitement via le langage naturel serait une direction intéressante à explorer. De plus, nous prévoyons de faire de TeamCraft un banc d’essai pour la collaboration homme-IA en incluant des joueurs humains dans les jeux. »