Un modèle qui pourrait améliorer la capacité des robots à saisir des objets
Lors de l’accomplissement de missions et de tâches dans le monde réel, les robots devraient idéalement être capables de saisir efficacement des objets de formes et de compositions variées. Jusqu’à présent, cependant, la plupart des robots ne peuvent saisir que des types d’objets spécifiques.
Des chercheurs de l’Académie chinoise des sciences et de l’Université de Pékin ont récemment développé un nouveau modèle d’apprentissage automatique qui pourrait aider à améliorer les capacités de préhension des robots. Ce modèle, présenté en Transactions IEEE sur les circuits et les systèmes pour la technologie vidéoest spécialement conçu pour prédire la saisie d’objets dans l’environnement d’un robot, afin qu’il puisse concevoir des stratégies optimales pour saisir ces objets.
« Dans les applications du monde réel, telles que la fabrication intelligente, l’interaction homme-machine et les services domestiques, la saisie robotique devient de plus en plus essentielle », a déclaré Junzhi Yu, l’un des chercheurs qui a mené l’étude, à Tech Xplore. « La détection de préhension, une étape critique de la préhension robotique, consiste à trouver la meilleure préhension pour un objet cible. Les solutions de détection de préhension par encodeur-décodeur grand public sont attrayantes en termes de précision et d’efficacité, mais elles sont encore limitées, en raison des artefacts en damier provenant d’inégalités chevauchement des résultats de convolution dans le décodeur. De plus, la représentation des caractéristiques est souvent insuffisante.
L’objectif principal des travaux récents de Yu et de ses collègues était de développer un modèle qui permettrait de surmonter les limites des cadres de détection de préhension existants. Pour ce faire, ils ont créé une méthode de détection de saisie pixel par pixel basée sur la déconvolution jumelle et l’attention multidimensionnelle, deux techniques établies souvent utilisées pour les applications de vision par ordinateur.
Leur méthode a été conçue pour éliminer les soi-disant «artefacts en damier», d’étranges motifs en forme de damier souvent observés dans les images générées par des réseaux de neurones artificiels. De plus, les chercheurs ont renforcé la capacité de leur modèle à affiner des caractéristiques spécifiques dans les images.
« Le réseau de détection de saisie par pixel proposé est composé d’un encodeur, d’un goulot d’étranglement d’attention multidimensionnel et d’un décodeur basé sur la déconvolution », a expliqué Yu. « A partir d’une image d’entrée, l’extraction de caractéristiques est effectuée via l’encodeur et la carte de caractéristiques obtenue est encore affinée grâce à notre module de goulot d’étranglement, qui intègre l’auto-attention résiduelle multi-tête (R-MHSA), l’attention d’amplitude croisée (CAA), et compensation brute pour mieux se concentrer sur les régions d’intérêt.
Les trois composants du module de goulot d’étranglement de l’équipe se traduisent par trois sorties différentes qui sont concaténées dans le canal et ajustées davantage pour améliorer la représentation des fonctionnalités. La « carte de caractéristiques » raffinée résultante est ensuite transmise au décodeur du modèle (c’est-à-dire un modèle qui sur-échantillonne la carte de caractéristiques en une sortie souhaitable). Ce décodeur prédit finalement les saisies qui correspondent à l’image d’entrée, en effectuant trois déconvolutions jumelles dites en cascade (processus pour sur-échantillonner la carte de caractéristiques).
« Grâce à notre module de goulot d’étranglement, la relation intrinsèque entre les caractéristiques est exploitée et les caractéristiques sont efficacement affinées à partir des dimensions de l’espace et du canal », a déclaré Yu. « En particulier, l’introduction de la déconvolution jumelle offre un meilleur échantillonnage en ajoutant une branche jumelle à la branche de convolution transposée d’origine. En conséquence, le défi des artefacts en damier est résolu. »
Un avantage notable de la méthode développée par les chercheurs est son utilisation de déconvolutions jumelles, à travers lesquelles une branche jumelle est introduite dans la branche de convolution transposée d’origine, améliorant la sortie d’origine du modèle. Cette approche permet au modèle de supprimer les motifs en damier indésirables des sorties.
« Il convient de noter que les artefacts en damier proviennent du chevauchement inégal des résultats de convolution à différentes positions », a déclaré Yu. « Ici, une branche jumelle est introduite en parallèle sur la branche de convolution transposée d’origine pour mesurer le chevauchement inégal. Plus précisément, la branche jumelle calcule les différences de chevauchement relatives entre les positions et la matrice de degré de chevauchement résultante est utilisée pour repondérer la carte des caractéristiques de circonvolution originelle transposée. »
Lors des premiers tests, la nouvelle méthode de détection de saisie par pixel a obtenu des résultats très prometteurs, car elle a permis de lisser la sortie d’origine du modèle et d’éliminer les artefacts en damier. Il a ainsi atteint une précision de détection élevée.
Dans le cadre de leur étude, Yu et ses collègues ont également pu étendre leur approche à d’autres tâches impliquant une détection pixel par pixel. En plus d’améliorer potentiellement les capacités de préhension des robots existants et nouvellement développés, leur modèle pourrait donc bientôt être appliqué à d’autres problèmes de vision par ordinateur.
« Dans nos prochains travaux, nous prévoyons de combiner la méthode proposée avec la segmentation d’instance dans des systèmes robotiques réels pour une meilleure prédiction », a ajouté Yu. « Par exemple, la segmentation d’instance peut être utilisée pour générer des informations précieuses sur le profil et la position de l’objet, qui sont introduites dans les déconvolutions jumelles du décodeur pour améliorer encore les performances du réseau. »