Les ingénieurs utilisent la psychologie, la physique et la géométrie pour rendre les robots plus intelligents

Les ingénieurs utilisent la psychologie, la physique et la géométrie pour rendre les robots plus intelligents

Le cadre d’apprentissage auto-supervisé que les ingénieurs de Columbia appellent DextAIRity apprend à effectuer efficacement une tâche cible grâce à une séquence d’actions de préhension ou de soufflage à base d’air. À l’aide d’un retour visuel, le système utilise une formulation en boucle fermée qui ajuste en permanence sa direction de soufflage. Crédit : Zhenjia Xu/Columbia Engineering

Les robots sont partout autour de nous, des drones filmant des vidéos dans le ciel au service de nourriture dans les restaurants et à la diffusion de bombes en cas d’urgence. Lentement mais sûrement, les robots améliorent la qualité de la vie humaine en augmentant nos capacités, en libérant du temps et en améliorant notre sécurité et notre bien-être personnels. Alors que les robots existants sont de plus en plus compétents pour des tâches simples, la gestion de demandes plus complexes nécessitera plus de développement à la fois en termes de mobilité et d’intelligence.

Les informaticiens de Columbia Engineering et du Toyota Research Institute se penchent sur la psychologie, la physique et la géométrie pour créer des algorithmes permettant aux robots de s’adapter à leur environnement et d’apprendre à faire les choses de manière autonome. Ces travaux sont indispensables pour permettre aux robots de relever les nouveaux défis d’une société vieillissante et d’offrir un meilleur accompagnement, notamment aux seniors et aux personnes en situation de handicap.

Enseigner l’occlusion et la permanence des objets aux robots

Un défi de longue date en vision par ordinateur est la permanence des objets, un concept bien connu en psychologie qui implique de comprendre que l’existence d’un objet est distincte de sa visibilité à tout moment. Il est fondamental que les robots comprennent notre monde dynamique en constante évolution. Mais la plupart des applications de vision par ordinateur ignorent entièrement les occlusions et ont tendance à perdre la trace des objets qui deviennent temporairement cachés à la vue.

« Certains des problèmes les plus difficiles pour l’intelligence artificielle sont les plus faciles pour les humains », a déclaré Carl Vondrick, professeur agrégé d’informatique et récipiendaire du prix Toyota Research Institute Young Faculty. Pensez à la façon dont les tout-petits jouent à cache-cache et apprenez que leur parent ne disparaît pas lorsqu’il se couvre le visage. Les ordinateurs, d’autre part, perdent la trace une fois que quelque chose est bloqué ou caché à la vue et ne peuvent pas traiter où l’objet est allé ou rappeler son emplacement.

Pour résoudre ce problème, Vondrick et son équipe ont enseigné aux réseaux de neurones les concepts physiques de base qui viennent naturellement aux adultes et aux enfants. Semblable à la façon dont un enfant apprend la physique en regardant les événements se dérouler dans son environnement, l’équipe a créé une machine qui regarde de nombreuses vidéos pour apprendre des concepts physiques. L’idée clé est d’entraîner l’ordinateur à anticiper à quoi ressemblerait la scène dans le futur. En entraînant la machine à résoudre cette tâche à travers de nombreux exemples, la machine crée automatiquement un modèle interne de la façon dont les objets se déplacent physiquement dans des environnements typiques. Par exemple, lorsqu’une canette de soda disparaît de la vue à l’intérieur du réfrigérateur, la machine apprend à se souvenir qu’elle existe toujours car elle réapparaît une fois la porte du réfrigérateur rouverte.

« J’ai déjà travaillé avec des images et des vidéos, mais faire fonctionner correctement les réseaux de neurones avec des informations 3D est étonnamment délicat », a déclaré Basile Van Hoorick, doctorant en troisième année. étudiant qui a travaillé avec Vondrick pour développer le cadre qui peut comprendre les occlusions au fur et à mesure qu’elles se produisent. Contrairement aux humains, la compréhension de la tridimensionnalité de notre monde ne vient pas naturellement aux ordinateurs. La deuxième étape du projet consistait non seulement à convertir les données des caméras en 3D de manière transparente, mais également à reconstruire toute la configuration de la scène au-delà de ce qui peut être vu.

Ce travail pourrait étendre largement les capacités de perception des robots domestiques. Dans n’importe quel environnement intérieur, les choses deviennent cachées tout le temps. Par conséquent, les robots doivent interpréter intelligemment leur environnement. La situation de la « boîte de soda à l’intérieur du réfrigérateur » en est un exemple parmi tant d’autres. Pourtant, il est facile de voir comment toute application qui utilise la vision bénéficiera si les robots peuvent s’appuyer sur leur mémoire et leurs capacités de raisonnement sur la permanence des objets pour suivre à la fois les objets et les humains lorsqu’ils se déplacent dans la maison.

Aller au-delà de l’hypothèse du corps rigide

La plupart des robots d’aujourd’hui sont programmés avec une série d’hypothèses pour leur fonctionnement. L’une est l’hypothèse du corps rigide, qui suppose qu’un objet est solide et ne change pas de forme. Et cela simplifie beaucoup de choses. Les roboticiens peuvent complètement ignorer la physique de l’objet avec lequel le robot interagit et n’ont qu’à penser au mouvement du robot.

Le laboratoire d’intelligence artificielle et de robotique de Columbia (CAIR), dirigé par le professeur assistant en informatique Shuran Song, a étudié le mouvement robotique d’une manière différente. Ses recherches portent sur les objets déformables et non rigides – ils se plient, se plient et changent de forme. Lorsqu’ils travaillent avec des objets déformables, les roboticiens ne peuvent plus se fier à l’hypothèse du corps rigide, ce qui les oblige à repenser à la physique.

« Dans notre travail, nous essayons d’étudier comment les humains font intuitivement les choses », a déclaré Shuran Song, également lauréat du prix de la jeune faculté du Toyota Research Institute. Au lieu d’essayer de tenir compte de tous les paramètres possibles, son équipe a développé un algorithme qui permet au robot d’apprendre en faisant, ce qui le rend plus généralisable et réduit le besoin de quantités massives de données d’entraînement. Cela a forcé le groupe à repenser la façon dont les gens font une action, comme frapper une cible avec une corde. Nous ne pensons généralement pas à la trajectoire de la corde – nous essayons plutôt de frapper l’objet en premier et d’ajuster nos mouvements jusqu’à ce que nous réussissions. « Cette nouvelle perspective était essentielle pour résoudre ce problème difficile en robotique », a noté Song.

Son équipe a remporté le prix du meilleur article lors de la Robot Science and Systems Conference (RSS 2022) pour un algorithme qu’elle a développé, Iterative Residual Policy (IRP). L’IRP est un cadre d’apprentissage général pour des tâches répétables avec une dynamique complexe, où un seul modèle a été formé à l’aide de données de simulation inexactes. L’algorithme peut apprendre de ces données et toucher de nombreuses cibles avec des cordes inconnues dans des expériences robotiques, atteignant une précision inférieure à un pouce et démontrant sa forte capacité de généralisation.

« Auparavant, pour atteindre ce niveau de précision, le robot devait effectuer la tâche peut-être 100 à 1 000 fois », a déclaré Cheng Chi, un doctorat de troisième année. étudiant qui a travaillé avec Song pour développer l’IRP. « Avec notre système, nous pouvons le faire en dix fois, ce qui est à peu près la même performance qu’une personne. »

Les chercheurs ont remarqué qu’il y avait encore quelques limitations avec le mouvement de lancer que leur robot pouvait faire. Bien que le mouvement de bascule soit efficace, il est limité par la vitesse du bras du robot, ce qui signifie qu’il ne peut pas manipuler de gros objets. Sans oublier qu’il est dangereux d’avoir un mouvement rapide autour des gens.

L’équipe de Song a poussé cette recherche un peu plus loin et a développé une nouvelle approche pour les manipuler en utilisant de l’air activement soufflé. Ils ont armé leur robot d’une pompe à air et il a été capable de déplier rapidement un grand morceau de tissu ou d’ouvrir un sac en plastique. Le cadre d’apprentissage auto-supervisé qu’ils appellent DextAIRité apprend à exécuter efficacement une tâche cible grâce à une séquence d’actions de préhension ou de soufflage à base d’air. À l’aide d’un retour visuel, le système utilise une formulation en boucle fermée qui ajuste en permanence sa direction de soufflage.

« L’une des stratégies intéressantes développées par le système avec la tâche d’ouverture du sac consiste à diriger l’air un peu au-dessus du sac en plastique pour maintenir le sac ouvert », a déclaré Zhenjia Xu, doctorante en quatrième année. étudiant qui travaille avec Song au CAIR Lab. « Nous ne l’avons pas annoté ni formé de quelque manière que ce soit; il l’a appris par lui-même. »

Que faut-il faire pour rendre les robots plus utiles dans nos maisons ?

Actuellement, les robots peuvent manœuvrer avec succès dans un environnement structuré avec des zones clairement définies et effectuer une tâche simultanément. Cependant, un robot domestique vraiment utile doit avoir diverses compétences, être capable de travailler dans un environnement non structuré, comme un salon avec des jouets au sol, et gérer différentes situations. Ces robots devront également savoir comment identifier une tâche et quelles sous-tâches doivent être effectuées dans quel ordre. Et puis, ils devront savoir quoi faire ensuite s’ils échouent à un travail et comment s’adapter aux prochaines étapes nécessaires pour atteindre leur objectif.

« Les progrès réalisés par Carl Vondrick et Shuran Song grâce à leurs recherches contribuent directement à la mission du Toyota Research Institute », déclare le Dr Eric Krotkov, conseiller du programme de recherche universitaire. « La recherche du TRI en robotique et au-delà se concentre sur le développement des capacités et des outils pour relever les défis socio-économiques d’une société vieillissante, de la pénurie de main-d’œuvre et de la production durable. Doter les robots des capacités de comprendre les objets occlus et de manipuler les objets déformables leur permettra d’améliorer le qualité de vie pour tous. »

Song et Vondrick prévoient de collaborer pour combiner leurs expertises respectives en robotique et en vision par ordinateur afin de créer des robots qui assistent les personnes à la maison. En apprenant aux machines à comprendre les objets du quotidien dans les maisons, tels que les vêtements, la nourriture et les boîtes, la technologie pourrait permettre aux robots d’aider les personnes à mobilité réduite et d’améliorer la qualité de la vie quotidienne des personnes. En augmentant le nombre d’objets et de concepts physiques pouvant être appris par les robots, l’équipe vise à rendre ces applications possibles à l’avenir.

Fourni par l’École d’ingénierie et de sciences appliquées de l’Université de Columbia