L’IA aide les robots domestiques à réduire de moitié le temps de planification
Votre tout nouveau robot ménager est livré chez vous, et vous lui demandez de vous préparer une tasse de café. Bien qu’il connaisse certaines compétences de base de la pratique antérieure dans les cuisines simulées, il y a beaucoup trop d’actions qu’il pourrait éventuellement entreprendre – ouvrir le robinet, tirer la chasse d’eau, vider le récipient à farine, etc. Mais il y a un petit nombre d’actions qui pourraient éventuellement être utiles. Comment le robot peut-il déterminer quelles étapes sont sensées dans une nouvelle situation ?
Il pourrait utiliser PIGINet, un nouveau système qui vise à améliorer efficacement les capacités de résolution de problèmes des robots domestiques. Des chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT utilisent l’apprentissage automatique pour réduire le processus itératif typique de planification des tâches qui prend en compte toutes les actions possibles. PIGINet élimine les plans de tâches qui ne peuvent pas satisfaire aux exigences sans collision et réduit le temps de planification de 50 à 80 % lorsqu’il est formé sur seulement 300 à 500 problèmes.
En règle générale, les robots tentent divers plans de tâches et affinent leurs mouvements de manière itérative jusqu’à ce qu’ils trouvent une solution réalisable, ce qui peut être inefficace et prendre du temps, en particulier lorsqu’il existe des obstacles mobiles et articulés. Peut-être qu’après la cuisson, par exemple, vous souhaitez mettre toutes les sauces dans l’armoire. Ce problème peut prendre deux à huit étapes selon à quoi ressemble le monde à ce moment-là. Le robot doit-il ouvrir plusieurs portes d’armoire ou y a-t-il des obstacles à l’intérieur de l’armoire qui doivent être déplacés pour faire de la place ? Vous ne voulez pas que votre robot soit extrêmement lent, et ce sera pire s’il brûle le dîner pendant qu’il réfléchit.
Les robots domestiques sont généralement considérés comme suivant des recettes prédéfinies pour effectuer des tâches, ce qui n’est pas toujours adapté à des environnements divers ou changeants. Alors, comment PIGINet évite-t-il ces règles prédéfinies ? PIGINet est un réseau neuronal qui prend en compte « les plans, les images, l’objectif et les faits initiaux », puis prédit la probabilité qu’un plan de tâche puisse être affiné pour trouver des plans de mouvement réalisables.
En termes simples, il utilise un encodeur à transformateur, un modèle polyvalent et à la pointe de la technologie conçu pour fonctionner sur des séquences de données. La séquence d’entrée, dans ce cas, est constituée d’informations sur le plan de tâche envisagé, d’images de l’environnement et d’encodages symboliques de l’état initial et de l’objectif souhaité. L’encodeur combine les plans de tâches, l’image et le texte pour générer une prédiction concernant la faisabilité du plan de tâches sélectionné.
En gardant les choses dans la cuisine, l’équipe a créé des centaines d’environnements simulés, chacun avec des dispositions différentes et des tâches spécifiques qui nécessitent de réorganiser les objets entre les comptoirs, les réfrigérateurs, les armoires, les éviers et les marmites. En mesurant le temps nécessaire pour résoudre les problèmes, ils ont comparé PIGINet aux approches précédentes. Un plan de travail correct peut inclure l’ouverture de la porte gauche du réfrigérateur, le retrait d’un couvercle de casserole, le déplacement du chou de la casserole au réfrigérateur, le déplacement d’une pomme de terre dans le réfrigérateur, le ramassage de la bouteille dans l’évier, le placement de la bouteille dans l’évier, le ramassage du tomate, ou placer la tomate. PIGINet a considérablement réduit le temps de planification de 80 % dans les scénarios plus simples et de 20 % à 50 % dans les scénarios plus complexes qui ont des séquences de planification plus longues et moins de données de formation.
« Des systèmes tels que PIGINet, qui utilisent la puissance des méthodes basées sur les données pour gérer efficacement des cas familiers, mais peuvent toujours s’appuyer sur des méthodes de planification de » premiers principes « pour vérifier les suggestions basées sur l’apprentissage et résoudre de nouveaux problèmes, offrent le meilleur des deux mondes, fournissant des solutions polyvalentes fiables et efficaces à une grande variété de problèmes », déclare le professeur du MIT et chercheur principal du CSAIL, Leslie Pack Kaelbling.
L’utilisation par PIGINet d’intégrations multimodales dans la séquence d’entrée a permis une meilleure représentation et compréhension des relations géométriques complexes. L’utilisation de données d’image a aidé le modèle à saisir les arrangements spatiaux et les configurations d’objets sans connaître les maillages 3D de l’objet pour une vérification précise des collisions, permettant une prise de décision rapide dans différents environnements.
L’un des principaux défis rencontrés lors du développement de PIGINet était la rareté de bonnes données de formation, car tous les plans réalisables et irréalisables doivent être générés par des planificateurs traditionnels, ce qui est lent en premier lieu. Cependant, en utilisant des modèles de langage de vision pré-entraînés et des astuces d’augmentation des données, l’équipe a pu relever ce défi, montrant une réduction impressionnante du temps de planification non seulement sur les problèmes avec les objets vus, mais aussi sur la généralisation à zéro coup aux objets précédemment invisibles.
« Parce que la maison de chacun est différente, les robots devraient être des résolveurs de problèmes adaptables plutôt que de simples suiveurs de recettes. Notre idée clé est de laisser un planificateur de tâches à usage général générer des plans de tâches candidats et d’utiliser un modèle d’apprentissage en profondeur pour sélectionner ceux qui sont prometteurs. Le résultat est un robot domestique plus efficace, adaptable et pratique, capable de naviguer avec agilité même dans des environnements complexes et dynamiques. De plus, les applications pratiques de PIGINet ne se limitent pas aux ménages », déclare Zhutian Yang, MIT CSAIL Ph.D. étudiant et auteur principal sur le travail.
« Notre objectif futur est d’affiner PIGINet pour suggérer des plans de tâches alternatifs après avoir identifié des actions irréalisables, ce qui accélérera encore la génération de plans de tâches réalisables sans avoir besoin de grands ensembles de données pour former un planificateur à usage général à partir de zéro. Nous pensons que cela pourrait révolutionner la façon dont les robots sont entraînés pendant le développement, puis appliqués dans les foyers de chacun. »
« Cet article aborde le défi fondamental de la mise en œuvre d’un robot à usage général : comment tirer les leçons de l’expérience passée pour accélérer le processus de prise de décision dans des environnements non structurés remplis d’un grand nombre d’obstacles articulés et mobiles », déclare Beomjoon Kim Ph.D. . ’20, professeur adjoint à la Graduate School of AI de l’Institut coréen avancé des sciences et technologies (KAIST).
« Le principal goulot d’étranglement dans de tels problèmes est de savoir comment déterminer un plan de tâches de haut niveau de sorte qu’il existe un plan de mouvement de bas niveau qui réalise le plan de haut niveau. En règle générale, vous devez osciller entre le mouvement et la planification des tâches, ce qui entraîne d’importantes inefficacité informatique. Le travail de Zhutian s’attaque à ce problème en utilisant l’apprentissage pour éliminer les plans de tâches irréalisables, et constitue un pas dans une direction prometteuse.
Leurs recherches ont été présentées lors de la conférence Robotics: Science and Systems, qui s’est tenue du 10 au 14 juillet en Corée.
Fourni par le laboratoire d’informatique et d’intelligence artificielle du MIT