Les expériences virtuelles auto-générées permettent aux robots de s'adapter aux tâches invisibles avec une plus grande flexibilité

Les humains marchent instinctivement et courent – Brisk Walking se sent sans effort, et nous ajustons naturellement notre foulée et notre rythme sans pensée consciente. Pour les robots d'IA physiques, cependant, la maîtrise des mouvements de base ne se traduit pas automatiquement par l'adaptabilité dans des situations nouvelles ou inattendues.

Même si un robot est formé pour fonctionner à grande vitesse, il peut lutter avec des ajustements nuancés – tels que modifier les angles de jambe ou appliquer la bonne force – face à différentes tâches, conduisant souvent à des mouvements instables ou interrompus.

Reconnaissant ce défi, le professeur Seungyul Han et son équipe de recherche de la Graduate School of Artificial Intelligence de UNIST ont développé une technique d'apprentissage des méta-renforts pionnier qui permet aux agents de l'IA d'anticiper et de se préparer à des tâches inconnues indépendamment.

Ils ont introduit une formation virtuelle consciente des tâches (TAVT) – une approche innovante qui donne à l'avance la capacité de générer et d'apprendre des tâches virtuelles, améliorant considérablement sa capacité à s'adapter à des défis imprévus.

La recherche utilise un système à double module comprenant un composant de représentation basé sur l'apprentissage en profondeur et un module de génération. Le module de représentation évalue les similitudes entre les différentes tâches, créant un espace latent qui capture les caractéristiques essentielles. Le module de génération synthétise ensuite de nouvelles tâches virtuelles qui reflètent les aspects principaux des scénarios du monde réel. Ce processus permet efficacement à l'IA de pré-expérience des situations qu'elle n'a pas encore rencontrées, ce qui augmente sa préparation à des tâches hors distribution (OOD).

Jeongmo Kim, le chercheur principal, explique: « L'apprentissage traditionnel de renforcement forme un agent à exceller dans une tâche spécifique, limitant sa capacité à généraliser. Bien que l'apprentissage des méta-renforts expose l'agent à plusieurs tâches, s'adaptant à des situations entièrement nouvelles et invisibles reste un défi, » l'ajout de « notre approche TAVT prépare entièrement AI pour de tels scénarios ». «

L'équipe a testé TAVT à travers diverses simulations robotiques, notamment des guépards, des fourmis et des robots bipèdes. Notamment, dans l'expérience de niveau de guépard, les robots utilisant TAVT se sont rapidement adaptés à des vitesses intermédiaires auparavant non expliquées (1,25 et 1,75 m / s), en maintenant un mouvement stable et efficace. En revanche, les robots conventionnellement formés ont souvent eu du mal à s'adapter, entraînant une instabilité ou une perte d'équilibre.

Le professeur Han a souligné « cette méthode améliore considérablement la capacité d'une IA à généraliser à travers diverses tâches, ce qui est vital pour des applications telles que les véhicules autonomes, les drones et les robots physiques opérant dans des environnements imprévisibles. Il ouvre la voie à des systèmes d'IA plus flexibles et résistants. »

La recherche a été présentée à la Conférence internationale sur l'apprentissage automatique (ICML 2025), qui a eu lieu à Vancouver, au Canada, du 13 au 19 juillet 2025. Le document est disponible sur le arxiv serveur de préimprimée. Ce travail souligne un effort concerté pour faire progresser les technologies de base de l'IA et favoriser des solutions innovantes pour des défis du monde réel.