Avec les commentaires humains, les robots axés sur l'IA apprennent les tâches mieux et plus rapides

À UC Berkeley, des chercheurs de l'IA robotique de Sergey Levine et du laboratoire d'apprentissage ont regardé une table où une tour de 39 blocs de Jenga était parfaitement empilée. Ensuite, un robot blanc et noir, son seul membre a doublé comme une girafe courbée, zoomé vers la tour, brandissant un fouet en cuir noir. À travers ce qui aurait pu sembler à un spectateur occasionnel comme un miracle de physique, le fouet a frappé précisément le bon endroit pour envoyer un seul bloc volant de la pile tandis que le reste de la tour est resté structurellement sain.

Cette tâche, connue sous le nom de «Jenga Whiping», est un passe-temps poursuivi par des personnes atteintes de dextérité et de réflexes pour le réaliser. Maintenant, il a été maîtrisé par les robots, grâce à un roman, une méthode de formation alimentée par AI créée par Levine et d'autres membres de l'équipe.

Le nouveau système, appelé échantillon humain dans la boucle, apprentissage efficace de renforcement robotique (hil-serl), est décrit dans une étude apparaissant le 20 août dans la revue Robotique scientifique.

En étudiant les démonstrations et en apprenant à la fois des commentaires humains et de ses propres tentatives réelles, ce protocole de formation enseigne aux robots comment effectuer des tâches compliquées comme Jenga fouetter avec un taux de réussite à 100%. De plus, les robots sont enseignés à une vitesse impressionnante, leur permettant d'apprendre dans une à deux heures comment assembler parfaitement une carte mère d'ordinateur, construire une étagère et plus encore.

La première fois que le robot a conquis le défi de fouet de Jenga, « qui m'a vraiment choqué », a déclaré le premier auteur de l'étude, Jianlan Luo, chercheur postdoctoral à l'UC Berkeley. « La tâche Jenga est très difficile pour la plupart des humains. Je l'ai essayé avec un fouet à la main; j'avais un taux de réussite de 0%. »

Ces dernières années, le domaine d'apprentissage du robot a cherché à relever le défi de la façon d'enseigner les activités de machines imprévisibles ou compliquées, par opposition à une seule action, comme ramasser à plusieurs reprises un objet à partir d'un endroit particulier sur un tapis roulant. Pour résoudre ce dilemme, Levine's Lab a fait irruption sur ce qu'on appelle «l'apprentissage du renforcement». Dans l'apprentissage du renforcement, un robot tente une tâche dans le monde réel et, en utilisant les commentaires des caméras, apprend de ses erreurs pour finalement maîtriser cette compétence.

La nouvelle étude a ajouté une intervention humaine pour accélérer ce processus. Avec une souris spéciale qui contrôle le robot, un humain peut corriger le cours du robot et ces corrections peuvent être incorporées dans la banque de mémoire proverbiale du robot. En utilisant l'apprentissage du renforcement, le robot analyse la somme de toutes ses tentatives – assistées et non assistes, réussies et infructueuses – pour mieux effectuer sa tâche. Luo a déclaré qu'un humain devait intervenir de moins en moins comme le robot l'a appris de l'expérience.

« J'avais besoin de garder le robot pendant peut-être les 30% ou quelque chose, et ensuite progressivement je pourrais en fait faire moins attention », a-t-il déclaré.

Avec les commentaires humains, les robots axés sur l'IA apprennent les tâches mieux et plus rapides

Le laboratoire a mis son système robotique à travers un gant de tâches compliquées au-delà du fouet de Jenga. Le robot a retourné un œuf dans une casserole; passé un objet d'un bras à un autre; et assemblé une carte mère, un tableau de bord de voiture et une courroie de distribution. Les chercheurs ont sélectionné ces défis parce qu'ils variaient et, selon les mots de Luo, représentaient « toutes sortes d'incertitude lors de l'exécution de tâches robotiques dans le monde réel complexe ».

Les chercheurs ont également testé l'adaptabilité des robots en mettant en scène des accidents. Ils forceraient une pince à s'ouvrir afin qu'il ait laissé tomber un objet ou déplacer une carte mère alors que le robot tentait d'installer une micropuce, la formant pour réagir à une situation changeante qu'il pourrait rencontrer en dehors d'un environnement de laboratoire.

À la fin de la formation, le robot pourrait exécuter ces tâches correctement 100% du temps. Les chercheurs ont comparé leurs résultats à une méthode courante « Copier mon comportement » connu sous le nom de clonage comportemental qui a été formé sur la même quantité de données de démonstration; Leur nouveau système a rendu les robots plus rapidement et plus précis.

Ces mesures sont cruciales, a déclaré Luo, car la barre des compétences du robot est très élevée. Les consommateurs et les industriels réguliers ne veulent pas acheter un robot incohérent. Luo a souligné qu'en particulier, des processus de fabrication «fabriqués sur commande» comme ceux souvent utilisés pour l'électronique, les automobiles et les pièces aérospatiales pourraient bénéficier de robots qui peuvent apprendre de manière fiable et adaptablement une gamme de tâches.

Une prochaine étape, a déclaré Luo, serait de pré-entraîner le système avec des capacités de manipulation d'objets de base, éliminant la nécessité de les apprendre à partir de zéro et de progresser directement à l'acquisition de compétences plus complexes. Le laboratoire a également choisi de rendre ses recherches open source afin que d'autres chercheurs puissent l'utiliser et le construire.

« Un objectif clé de ce projet est de rendre la technologie aussi accessible et conviviale en tant qu'iPhone », a déclaré Luo. « Je crois fermement que plus les personnes qui peuvent l'utiliser, plus nous pouvons avoir d'impact. »

Les auteurs supplémentaires de l'étude incluent Charles Xu et Jeffrey Wu de UC Berkeley.