DeepMind présente un agent IA qui apprend à effectuer diverses tâches dans un modèle mondial évolutif

DeepMind présente un agent IA qui apprend à effectuer diverses tâches dans un modèle mondial évolutif

Au cours de la dernière décennie, l’apprentissage profond a transformé la façon dont les agents d’intelligence artificielle (IA) perçoivent et agissent dans les environnements numériques, leur permettant de maîtriser les jeux de société, de contrôler des robots simulés et d’accomplir de manière fiable diverses autres tâches. Pourtant, la plupart de ces systèmes dépendent encore d’énormes quantités d’expérience directe – des millions d’interactions par essais et erreurs – pour acquérir une compétence, même modeste.

Cette approche par force brute limite leur utilité dans le monde physique, où une telle expérimentation serait lente, coûteuse ou dangereuse.

Pour surmonter ces limites, les chercheurs se sont tournés vers des modèles mondiaux, c'est-à-dire des environnements simulés dans lesquels les agents peuvent s'entraîner et apprendre en toute sécurité.

Ces modèles du monde visent à capturer non seulement les éléments visuels d'un monde, mais aussi la dynamique sous-jacente : comment les objets bougent, entrent en collision et réagissent aux actions. Cependant, même si des jeux simples comme Atari et Go ont servi de bancs d'essai efficaces, les modèles du monde ne parviennent toujours pas à représenter la physique riche et ouverte de mondes complexes comme Minecraft ou les environnements robotiques.

Des chercheurs de Google DeepMind ont récemment développé Dreamer 4, un nouvel agent artificiel capable d'apprendre des comportements complexes entièrement dans un modèle mondial évolutif, à partir d'un ensemble limité de vidéos préenregistrées.

Le nouveau modèle, présenté dans un article publié sur le arXiv serveur de préimpression, a été le premier agent d'intelligence artificielle (IA) à obtenir des diamants dans Minecraft sans s'entraîner du tout dans le jeu lui-même. Cette réalisation remarquable met en évidence la possibilité d'utiliser Dreamer 4 pour former des agents d'IA performants uniquement par l'imagination, avec des implications importantes pour l'avenir de la robotique.

« En tant qu'humains, nous choisissons des actions basées sur une compréhension approfondie du monde et anticipons les résultats potentiels à l'avance », a déclaré Danijar Hafner, premier auteur de l'article, à Tech Xplore.

« Cette capacité nécessite un modèle interne du monde et nous permet de résoudre de nouveaux problèmes très rapidement. En revanche, les anciens agents d'IA apprennent généralement par la force brute et de nombreux essais et erreurs. Mais cela est irréalisable pour des applications telles que les robots physiques qui peuvent facilement se briser. « 

Certains des agents d'IA développés par DeepMind au cours des dernières années ont déjà obtenu un énorme succès dans des jeux tels que Go et Atari en s'entraînant sur des modèles de petits mondes. Cependant, les modèles du monde sur lesquels ces modèles s'appuyaient n'ont pas réussi à capturer les riches interactions physiques dans des mondes plus complexes, comme le jeu vidéo Minecraft.

D'un autre côté, « les modèles vidéo tels que Veo et Sora s'améliorent rapidement pour générer des vidéos réalistes de situations très diverses », a déclaré Hafner.

« Cependant, ils ne sont pas interactifs et leurs générations sont trop lentes, ils ne peuvent donc pas encore être utilisés comme 'simulateurs neuronaux' pour former des agents à l'intérieur. L'objectif de Dreamer 4 était de former des agents performants uniquement à l'intérieur de modèles de monde capables de simuler de manière réaliste des mondes complexes. « 

Hafner et ses collègues ont décidé d'utiliser Minecraft comme banc d'essai pour leur agent IA, car il s'agit d'un jeu vidéo complexe contenant des mondes générés à l'infini et des tâches à long horizon qui nécessitent plus de 20 000 actions consécutives de la souris/clavier.

L'une de ces tâches est l'extraction de diamants, qui nécessite que l'agent accomplisse une longue séquence de prérequis tels que couper des arbres, fabriquer des outils, extraire et fondre des minerais.

Notamment, les chercheurs voulaient entraîner leur agent uniquement dans des scénarios « imaginaires », au lieu de lui permettre de s'entraîner dans le jeu réel, de la même manière que les robots intelligents devront apprendre en simulation, car ils pourraient facilement se briser en s'entraînant directement dans le monde physique. Cela nécessite que le modèle apprenne les interactions entre objets dans un modèle interne suffisamment précis du monde Minecraft.

L'agent artificiel développé par Hafner et ses collègues est basé sur un grand modèle de transformateur qui a été formé pour prédire les observations futures, les actions et les récompenses associées à des situations spécifiques. Dreamer 4 a été formé sur un ensemble de données fixe hors ligne contenant des vidéos de jeu Minecraft enregistrées et collectées par des joueurs humains.

« Après avoir terminé cette formation, Dreamer 4 apprend à sélectionner des actions de mieux en mieux dans un large éventail de scénarios imaginés via l'apprentissage par renforcement », a déclaré Hafner.

« La formation des agents à l'intérieur de modèles mondiaux évolutifs nécessitait de repousser les frontières de l'IA générative. Nous avons conçu une architecture de transformateur efficace et un nouvel objectif de formation appelé forçage des raccourcis. Ces avancées ont permis des prédictions précises tout en accélérant les générations de plus de 25 fois par rapport aux modèles vidéo classiques. »

Dreamer 4 est le premier agent IA à obtenir des diamants dans Minecraft lorsqu'il est formé uniquement sur des données hors ligne, sans jamais mettre en pratique ses compétences dans le jeu réel. Cette découverte met en évidence la capacité de l'agent à apprendre de manière autonome à résoudre correctement des tâches complexes et à long terme.

« L'apprentissage purement hors ligne est très pertinent pour entraîner des robots qui peuvent facilement se briser lors d'une pratique dans le monde physique », a déclaré Hafner. « Notre travail introduit une nouvelle approche prometteuse pour construire des robots intelligents qui effectuent des tâches ménagères et des tâches en usine. »

Lors des premiers tests effectués par les chercheurs, il a été constaté que l'agent Dreamer 4 prédisait avec précision diverses interactions d'objets et mécanismes de jeu, développant ainsi un modèle de monde interne fiable. Le modèle mondial établi par l’agent a surpassé de loin les modèles sur lesquels s’appuyaient les agents précédents.

« Le modèle prend en charge les interactions en temps réel sur un seul GPU, permettant aux joueurs humains d'explorer facilement son monde de rêve et de tester ses capacités », a déclaré Hafner. « Nous constatons que le modèle prédit avec précision la dynamique de l'extraction et du placement de blocs, de la fabrication d'objets simples et même de l'utilisation de portes, de coffres et de bateaux. »

Un autre avantage de Dreamer 4 est qu'il a obtenu des résultats remarquables malgré une formation sur une très petite quantité de données d'action. Il s'agit essentiellement d'une séquence vidéo montrant les effets de la pression sur différentes touches et boutons de la souris dans le jeu vidéo Minecraft.

« Au lieu de nécessiter des milliers d'heures d'enregistrements de gameplay avec des actions, le modèle mondial peut en réalité apprendre la majorité de ses connaissances à partir de la seule vidéo », a déclaré Hafner.

« Avec seulement quelques centaines d'heures de données d'action, le modèle mondial comprend alors les effets des mouvements de la souris et des pressions sur les touches d'une manière générale qui les transfère à de nouvelles situations. C'est passionnant car les données du robot sont lentes à enregistrer, mais Internet contient beaucoup de vidéos d'humains interagissant avec le monde, dont Dreamer 4 pourrait tirer des leçons à l'avenir. « 

Ces travaux récents de Hafner et de ses collègues de DeepMind pourraient contribuer à l'avancement des systèmes robotiques, en simplifiant la formation des algorithmes qui leur permettent d'effectuer de manière fiable des tâches manuelles dans le monde réel.

Parallèlement, les chercheurs prévoient d'améliorer encore le modèle du monde de Dreamer 4, en intégrant un composant de mémoire à long terme. Cela garantirait que les mondes simulés dans lesquels l’agent est formé restent cohérents sur de longues périodes.

« Intégrer la compréhension du langage nous rapprocherait également des agents qui collaborent avec les humains et effectuent des tâches à leur place », a ajouté Hafner.

« Enfin, former le modèle du monde sur des vidéos Internet générales doterait l'agent d'une connaissance sensée du monde physique et nous permettrait de former des robots dans divers scénarios imaginés. »

Écrit pour vous par notre auteur Ingrid Fadelli, édité par Sadie Harley, et vérifié et révisé par Robert Egan, cet article est le résultat d'un travail humain minutieux. Nous comptons sur des lecteurs comme vous pour maintenir en vie le journalisme scientifique indépendant. Si ce reporting vous intéresse, pensez à faire un don (surtout mensuel). Vous obtiendrez un sans publicité compte en guise de remerciement.