Un cadre d’apprentissage en profondeur pour améliorer les capacités d’un agent de dessin robotique
Ces dernières années, les algorithmes d’apprentissage en profondeur ont obtenu des résultats remarquables dans une variété de domaines, y compris les disciplines artistiques. En fait, de nombreux informaticiens du monde entier ont développé avec succès des modèles capables de créer des œuvres artistiques, notamment des poèmes, des peintures et des croquis.
Des chercheurs de l’Université nationale de Séoul ont récemment introduit un nouveau cadre d’apprentissage artistique en profondeur, conçu pour améliorer les compétences d’un robot de dessin. Leur cadre, présenté dans un article présenté à l’ICRA 2022 et pré-publié sur arXiv, permet à un robot de dessin d’apprendre simultanément le rendu basé sur les traits et le contrôle moteur.
« La principale motivation de notre recherche était de créer quelque chose de cool avec des mécanismes non basés sur des règles tels que l’apprentissage en profondeur ; nous avons pensé que le dessin est une chose cool à montrer si l’interprète du dessin est un robot savant au lieu d’un humain », a déclaré Ganghun Lee, le premier auteur de l’article, a déclaré à TechXplore. « Les récentes techniques d’apprentissage en profondeur ont montré des résultats étonnants dans le domaine artistique, mais la plupart d’entre elles concernent des modèles génératifs qui produisent des résultats de pixels entiers à la fois. »
Au lieu de développer un modèle génératif qui produit des œuvres artistiques en générant des motifs de pixels spécifiques, Lee et ses collègues ont créé un cadre qui représente le dessin comme un processus de décision séquentiel. Ce processus séquentiel ressemble à la façon dont les humains traceraient des lignes individuelles à l’aide d’un stylo ou d’un crayon pour créer progressivement un croquis.
Les chercheurs espéraient alors appliquer leur cadre à un agent de dessin robotique, afin qu’il puisse produire des croquis en temps réel à l’aide d’un vrai stylo ou d’un crayon. Alors que d’autres équipes ont créé des algorithmes d’apprentissage en profondeur pour les « artistes robots » dans le passé, ces modèles nécessitaient généralement de grands ensembles de données de formation contenant des croquis et des dessins, ainsi que des approches cinématiques inverses pour apprendre au robot à manipuler un stylo et à dessiner avec.
Le cadre créé par Lee et ses collègues, en revanche, n’a été formé sur aucun exemple de dessin du monde réel. Au lieu de cela, il peut développer de manière autonome ses propres stratégies de dessin au fil du temps, à travers un processus d’essais et d’erreurs.
« Notre cadre n’utilise pas non plus la cinématique inverse, qui rend les mouvements du robot un peu stricts, mais il permet également au système de trouver ses propres astuces de mouvement (ajustement des valeurs articulaires) pour rendre le style de mouvement aussi naturel que possible », a déclaré Lee. « En d’autres termes, il déplace directement ses articulations sans primitives alors que de nombreux systèmes robotiques utilisent couramment des primitives pour se déplacer. »
Le modèle créé par cette équipe de chercheurs comprend deux « agents virtuels », à savoir l’agent de classe supérieure et l’agent de classe inférieure. Le rôle de l’agent de la classe supérieure est d’apprendre de nouvelles astuces de dessin, tandis que l’agent de la classe inférieure apprend des stratégies de mouvement efficaces.
Les deux agents virtuels ont été formés individuellement à l’aide de techniques d’apprentissage par renforcement et n’ont été couplés qu’une fois qu’ils avaient terminé leur formation respective. Lee et ses collègues ont ensuite testé leurs performances combinées dans une série d’expériences réelles, en utilisant un bras robotique 6-DoF avec une pince 2D dessus. Les résultats obtenus lors de ces premiers tests étaient très encourageants, car l’algorithme permettait à l’agent robotique de produire de bons croquis d’images spécifiques.
« Nous constatons que les modules basés sur l’apprentissage par renforcement formés pour chaque objectif peuvent être fusionnés pour atteindre des objectifs collaboratifs plus importants », a expliqué Lee. « Dans un cadre hiérarchique, les décisions de l’agent supérieur peuvent être ‘l’état intermédiaire’, ce qui permet à l’agent inférieur d’observer pour prendre des décisions inférieures. Si chaque agent des niveaux est bien formé et suffisamment généralisé à chaque espace d’état, alors un tout le système composé de chaque module peut faire de grandes choses. Cependant, la condition primordiale est que, comme toutes les approches d’apprentissage par renforcement l’ont fait, les fonctions de récompense pour chaque agent doivent être bien formées (ce n’est pas facile). »
À l’avenir, le cadre créé par Lee et ses collègues pourrait être utilisé pour améliorer les performances des agents d’esquisse robotiques existants et nouvellement développés. En attendant, Lee développe des modèles similaires basés sur l’apprentissage par renforcement créatif, y compris un système capable de produire des collages artistiques.
« Nous aimerions également étendre la tâche à des dessins robotiques plus compliqués tels que des peintures, mais je me concentre maintenant davantage sur les problèmes pratiques des applications d’apprentissage par renforcement elles-mêmes que sur les dessins robotiques », a ajouté Lee. « J’espère que notre article deviendra un exemple amusant et significatif d’application basée sur l’apprentissage par renforcement pur, spécialement équipée de robots. »