Les robots apprennent à percevoir les objets grâce aux vibrations acoustiques

Les robots apprennent à percevoir les objets grâce aux vibrations acoustiques

Imaginez-vous assis dans une salle de cinéma sombre et vous demandez combien de soda il reste dans votre tasse surdimensionnée. Plutôt que de retirer le capuchon et de regarder, vous soulevez et secouez un peu la tasse pour entendre la quantité de glace qu'il y a à l'intérieur, ce qui vous donne une indication décente si vous aurez besoin d'une recharge gratuite.

En posant la boisson, on se demande distraitement si l'accoudoir est en bois véritable. Après lui avoir donné quelques tapotements et entendu un écho creux, vous décidez qu'il doit être en plastique.

Cette capacité à interpréter le monde à travers les vibrations acoustiques émanant d’un objet est quelque chose que nous faisons sans réfléchir. Et c’est une capacité que les chercheurs sont sur le point d’apporter aux robots pour augmenter leurs capacités de détection en croissance rapide.

Prévue pour être présentée lors de la Conférence sur l'apprentissage des robots (CoRL 2024) qui se tiendra du 6 au 9 novembre à Munich, en Allemagne, une nouvelle recherche de l'Université Duke détaille un système baptisé SonicSense qui permet aux robots d'interagir avec leur environnement d'une manière auparavant limitée aux humains. . Les résultats sont publiés sur le arXiv serveur de préimpression.

« Aujourd'hui, les robots s'appuient principalement sur la vision pour interpréter le monde », a expliqué Jiaxun Liu, auteur principal de l'article et doctorant en première année. étudiant dans le laboratoire de Boyuan Chen, professeur de génie mécanique et de science des matériaux à Duke. « Nous voulions créer une solution capable de fonctionner avec des objets complexes et divers trouvés quotidiennement, donnant aux robots une capacité beaucoup plus riche à » ressentir « et à comprendre le monde. »

SonicSense comporte une main robotique à quatre doigts, chacun équipé d'un microphone de contact intégré au bout du doigt. Ces capteurs détectent et enregistrent les vibrations générées lorsque le robot tape, saisit ou secoue un objet. Et comme les microphones sont en contact avec l’objet, cela permet au robot d’éliminer les bruits ambiants.

Sur la base des interactions et des signaux détectés, SonicSense extrait les caractéristiques de fréquence et utilise ses connaissances antérieures, associées aux progrès récents de l'IA, pour déterminer de quel matériau l'objet est constitué et sa forme 3D. S’il s’agit d’un objet que le système n’a jamais vu auparavant, il faudra peut-être 20 interactions différentes pour que le système parvienne à une conclusion. Mais s'il s'agit d'un objet déjà présent dans sa base de données, il peut l'identifier correctement en seulement quatre heures.

« SonicSense donne aux robots une nouvelle façon d'entendre et de ressentir, tout comme les humains, ce qui peut transformer la façon dont les robots actuels perçoivent et interagissent avec les objets », a déclaré Chen, qui a également des rendez-vous et des étudiants en génie électrique et informatique et en informatique. « Bien que la vision soit essentielle, le son ajoute des couches d'informations qui peuvent révéler des éléments que l'œil pourrait manquer. »

Dans l'article et les démonstrations, Chen et son laboratoire présentent un certain nombre de fonctionnalités activées par SonicSense. En tournant ou en secouant une boîte remplie de dés, il peut compter le nombre qu'elle contient ainsi que leur forme. En faisant de même avec une bouteille d’eau, il peut déterminer la quantité de liquide contenue à l’intérieur. Et en tapotant autour de l'extérieur d'un objet, un peu comme la façon dont les humains explorent les objets dans l'obscurité, il peut construire une reconstruction 3D de la forme de l'objet et déterminer de quel matériau il est fabriqué.

Bien que SonicSense ne soit pas la première tentative d'utilisation de cette approche, elle va plus loin et fonctionne mieux que les travaux précédents en utilisant quatre doigts au lieu d'un, des microphones tactiles qui éliminent le bruit ambiant et des techniques avancées d'IA. Cette configuration permet au système d'identifier des objets composés de plusieurs matériaux avec des géométries complexes, des surfaces transparentes ou réfléchissantes et des matériaux difficiles pour les systèmes basés sur la vision.

« Alors que la plupart des ensembles de données sont collectés dans des laboratoires contrôlés ou avec une intervention humaine, nous avions besoin de notre robot pour interagir avec les objets de manière indépendante dans un environnement de laboratoire ouvert », a déclaré Liu. « Il est difficile de reproduire ce niveau de complexité dans les simulations. Cet écart entre les données contrôlées et celles du monde réel est critique, et SonicSense comble cela en permettant aux robots d'interagir directement avec les réalités diverses et désordonnées du monde physique. »

Ces capacités font de SonicSense une base solide pour entraîner les robots à percevoir des objets dans des environnements dynamiques et non structurés. Son coût aussi ; L'utilisation des mêmes microphones de contact que ceux que les musiciens utilisent pour enregistrer le son des guitares, l'impression 3D et d'autres composants disponibles dans le commerce maintient les coûts de construction à un peu plus de 200 dollars.

À l'avenir, le groupe travaille à améliorer la capacité du système à interagir avec plusieurs objets. En intégrant des algorithmes de suivi d'objets, les robots seront capables de gérer des environnements dynamiques et encombrés, ce qui les rapprochera de l'adaptabilité humaine aux tâches du monde réel.

Un autre développement clé réside dans la conception de la main du robot elle-même. « Ce n'est que le début. À l'avenir, nous envisageons que SonicSense soit utilisé par des mains robotiques plus avancées dotées de compétences de manipulation adroites, permettant aux robots d'effectuer des tâches qui nécessitent un sens du toucher nuancé », a déclaré Chen. « Nous sommes ravis d'explorer comment cette technologie peut être développée davantage pour intégrer plusieurs modalités sensorielles, telles que la pression et la température, pour des interactions encore plus complexes. »