Un nouveau cadre imite l'apprentissage humain tout au long de la vie

Les humains sont connus pour accumuler des connaissances au fil du temps, ce qui leur permet à son tour d’améliorer continuellement leurs capacités et leurs compétences. Cette capacité, connue sous le nom d’apprentissage tout au long de la vie, s’est avérée difficile à reproduire dans l’intelligence artificielle (IA) et les systèmes de robotique.

Une équipe de recherche de l’Université technique de Munich et de l’Université Nanjing, dirigée par le professeur Alois Knoll et le Dr Zhenshan Bing, a développé Legion, un nouveau cadre d’apprentissage en renforcement qui pourrait doter des systèmes robotiques avec des capacités d’apprentissage tout au long de la vie.

Leur cadre proposé, présenté dans un article en Intelligence de la machine de la naturepourrait aider à améliorer l’adaptabilité des robots, tout en améliorant leurs performances dans des paramètres du monde réel.

« Nos recherches proviennent d’un projet sur l’apprentissage robotique des méta-renforts en 2021, où nous avons initialement exploré les modèles de mélange gaussien (GMM) en tant que prieurs pour l’inférence des tâches et le regroupement des connaissances », a déclaré à Tech Xplore Yuan Meng, premier auteur du journal.

« Bien que cette approche ait donné des résultats prometteurs, nous avons rencontré une limitation – les GMM nécessitent un nombre prédéfini de clusters, ce qui les rend inadaptés aux scénarios d’apprentissage à vie où le nombre de tâches est intrinsèquement inconnu et évolue de manière asynchrone.

« Pour y remédier, nous nous sommes tournés vers des modèles bayésiens non paramétriques, en particulier les modèles de mélange de processus Dirichlet (DPMMS), qui peuvent ajuster dynamiquement le nombre de clusters basé sur des données de tâche entrantes. »

Tirant parti d’une classe de modèles appelés DPMMS, le cadre de la Légion permet aux algorithmes formés via l’apprentissage par renforcement pour acquérir, préserver et réappliquer en continu des connaissances dans un flux de tâches changeant. Les chercheurs espèrent que ce nouveau cadre contribuera à améliorer les capacités d’apprentissage des agents de l’IA, leur rapprochant un peu plus de l’apprentissage à vie observé chez l’homme.

« Le cadre de la Légion est conçu pour imiter l’apprentissage humain tout au long de la vie en permettant à un robot d’apprendre continuellement de nouvelles tâches tout en préservant et en réutilisant des connaissances précédemment acquises », a expliqué Meng.

« Sa contribution clé est un espace de connaissance non paramétrique basé sur un DPMM, qui détermine dynamiquement comment les connaissances sont structurées sans nécessiter un nombre prédéfini de groupes de tâches. Cela empêche l’oubli catastrophique et permet une adaptation flexible à de nouvelles tâches invisibles. »

Le nouveau cadre introduit par Meng, le professeur Knoll, le Dr Bing et leurs collègues intègrent des incorporations linguistiques qui sont codées à partir d’un modèle de grande langue pré-formé (LLM). Cette intégration permet finalement aux robots de traiter et de comprendre les instructions d’un utilisateur, interprétant ces instructions indépendamment des démonstrations de tâches.

« De plus, notre cadre facilite la recombinaison des connaissances, ce qui signifie qu’un robot peut résoudre les tâches à horizon long – telles que le nettoyage d’une table – en séquençant intelligemment les compétences précédemment apprises comme pousser des objets, ouvrir des tiroirs ou appuyer sur des boutons », a déclaré Meng.

« Contrairement à l’apprentissage de l’imitation conventionnelle, qui repose sur des séquences d’exécution prédéfinies, la légion permet une combinaison de compétences flexible dans tout ordre requis, conduisant à une plus grande généralisation et une plus grande flexibilité dans les applications robotiques du monde réel. »

Les chercheurs ont évalué leur approche dans une série de tests initiaux, l’appliquant à un véritable système robotique. Leurs résultats étaient très prometteurs, car le cadre de la Légion a permis au robot d’accumuler constamment des connaissances à partir d’un flux continu de tâches.

« Nous avons démontré que les modèles bayésiens non paramétriques, en particulier le DPMM, peuvent servir de connaissances antérieures efficaces pour l’apprentissage robotique tout au long de la vie », a déclaré Meng. « Contrairement à l’apprentissage traditionnel multi-tâches, où toutes les tâches sont apprises simultanément, notre cadre peut s’adapter dynamiquement à un flux de tâches de nombre inconnu, préserver et recombiner les connaissances pour améliorer les performances au fil du temps. »

Les travaux récents de Meng, du professeur Knoll, du Dr Bing et de leurs collègues pourraient éclairer les efforts futurs visant à développer des robots qui peuvent acquérir en permanence des connaissances et affiner leurs compétences au fil du temps. Le cadre de la Légion pourrait être amélioré davantage et appliqué à un large éventail de robots, y compris les robots de service et les robots industriels.

« Par exemple, un robot déployé dans un environnement familial pourrait apprendre les tâches ménagères au fil du temps, affiner ses compétences en fonction des commentaires des utilisateurs et s’adapter aux nouvelles tâches au fur et à mesure qu’ils surviennent », a déclaré Meng. « De même, en milieu industriel, les robots pourraient apprendre et s’adapter progressivement à l’évolution des lignes de production sans nécessiter une reprogrammation approfondie. »

Dans leurs prochaines études, les chercheurs prévoient de travailler à améliorer davantage la stabilité et le compromis de la plasticité dans l’apprentissage tout au long de la vie, car cela permettrait aux robots de conserver de manière fiable les connaissances au fil du temps, tout en s’adaptant à de nouveaux environnements ou tâches. Pour ce faire, ils intégreront diverses techniques de calcul, notamment une relecture générative et une rétropropagation continue.

« Une autre orientation clé pour les recherches futures sera le transfert de connaissances multiplateforme, où un robot peut transférer et adapter les connaissances apprises dans différents modes de réalisation, tels que les robots humanoïdes, les armes robotiques et les plateformes mobiles », a ajouté Meng.

« Nous cherchons également à étendre les capacités de la Légion au-delà des environnements structurés, permettant aux robots de gérer les paramètres du monde réel non structuré et non structurés avec des arrangements d’objets divers. sur les commentaires verbaux ou contextuels. «