Un modèle qui pourrait améliorer la capacité des robots à saisir des objets

Le cadre du réseau proposé. Étant donné une image d’entrée RVB-D, les caractéristiques sont extraites par l’encodeur. La carte des caractéristiques de sortie F_e du codeur est encore affinée grâce à un goulot d’étranglement d’attention multidimensionnel, où les sorties de l’auto-attention résiduelle multi-tête (R-MHSA), de l’attention d’amplitude croisée (CAA) et de la compensation brute sont concaténées dans le canal, qui est ensuite ajusté par l’attention du canal et un bloc shuffle pour une meilleure représentation des caractéristiques F_b. Suivie d’une opération de convolution, la carte de caractéristiques est introduite dans le décodeur, qui adopte trois déconvolutions jumelles en cascade TDconv-1, TDconv-2 et TDconv-3 pour la prédiction de préhension G. Crédit : Ren et al

Lors de l’accomplissement de missions et de tâches dans le monde réel, les robots devraient idéalement être capables de saisir efficacement des objets de formes et de compositions variées. Jusqu’à présent, cependant, la plupart des robots ne peuvent saisir que des types d’objets spécifiques.

Des chercheurs de l’Académie chinoise des sciences et de l’Université de Pékin ont récemment développé un nouveau modèle d’apprentissage automatique qui pourrait aider à améliorer les capacités de préhension des robots. Ce modèle, présenté en Transactions IEEE sur les circuits et les systèmes pour la technologie vidéoest spécialement conçu pour prédire la saisie d’objets dans l’environnement d’un robot, afin qu’il puisse concevoir des stratégies optimales pour saisir ces objets.

« Dans les applications du monde réel, telles que la fabrication intelligente, l’interaction homme-machine et les services domestiques, la saisie robotique devient de plus en plus essentielle », a déclaré Junzhi Yu, l’un des chercheurs qui a mené l’étude, à Tech Xplore. « La détection de préhension, une étape critique de la préhension robotique, consiste à trouver la meilleure préhension pour un objet cible. Les solutions de détection de préhension par encodeur-décodeur grand public sont attrayantes en termes de précision et d’efficacité, mais elles sont encore limitées, en raison des artefacts en damier provenant d’inégalités chevauchement des résultats de convolution dans le décodeur. De plus, la représentation des caractéristiques est souvent insuffisante.

L’objectif principal des travaux récents de Yu et de ses collègues était de développer un modèle qui permettrait de surmonter les limites des cadres de détection de préhension existants. Pour ce faire, ils ont créé une méthode de détection de saisie pixel par pixel basée sur la déconvolution jumelle et l’attention multidimensionnelle, deux techniques établies souvent utilisées pour les applications de vision par ordinateur.

Un modèle qui pourrait améliorer la capacité des robots à saisir des objets — Structure d’une déconvolution jumelle. F_in∈R^(c_in×h_in×w_in ) et F_out∈R^(C_out 〖×H〗_out×W_out ) désignent respectivement la carte des caractéristiques d’entrée et la carte des caractéristiques de sortie, où c_in,h_in,w_in et C_out,H_out,W_out sont le numéro de canal, la hauteur et la largeur correspondant à F_in et F_out. Il y a deux branches dans une déconvolution jumelle : la branche d’origine et la branche jumelle, où la première est une convolution transposée standard et la seconde est utilisée pour calculer le degré de chevauchement correspondant à la branche d’origine pour supprimer les artefacts en damier. L’entrée de la branche jumelle est une matrice Ones∈R^(1×h_in×w_in ) avec toutes les entrées 1, dont la taille spatiale est la même que celle de la carte d’entités en entrée F_in de la branche d’origine. De plus, le noyau de la branche jumelle a la même taille spatiale que celle de la branche d’origine (K_h×K_w) et toutes ses entrées sont fixées à 1⁄m, m=K_h×K_w. Avec la convolution transposée dans la branche jumelle, la matrice de degré de chevauchement M_w∈R^(1×H_out×W_out ) est calculée correspondant à toutes les positions spatiales de la sortie F_t∈R^(c_in×H_out×W_out ) de la branche d’origine. Ensuite, une opération de division élément par élément est effectuée entre chaque canal de F_t et M_w. Suivie d’une convolution ponctuelle Conv1x1, on obtient la sortie finale F_out de la déconvolution jumelle. Crédit : Ren et al

Leur méthode a été conçue pour éliminer les soi-disant «artefacts en damier», d’étranges motifs en forme de damier souvent observés dans les images générées par des réseaux de neurones artificiels. De plus, les chercheurs ont renforcé la capacité de leur modèle à affiner des caractéristiques spécifiques dans les images.

« Le réseau de détection de saisie par pixel proposé est composé d’un encodeur, d’un goulot d’étranglement d’attention multidimensionnel et d’un décodeur basé sur la déconvolution », a expliqué Yu. « A partir d’une image d’entrée, l’extraction de caractéristiques est effectuée via l’encodeur et la carte de caractéristiques obtenue est encore affinée grâce à notre module de goulot d’étranglement, qui intègre l’auto-attention résiduelle multi-tête (R-MHSA), l’attention d’amplitude croisée (CAA), et compensation brute pour mieux se concentrer sur les régions d’intérêt.

Les trois composants du module de goulot d’étranglement de l’équipe se traduisent par trois sorties différentes qui sont concaténées dans le canal et ajustées davantage pour améliorer la représentation des fonctionnalités. La « carte de caractéristiques » raffinée résultante est ensuite transmise au décodeur du modèle (c’est-à-dire un modèle qui sur-échantillonne la carte de caractéristiques en une sortie souhaitable). Ce décodeur prédit finalement les saisies qui correspondent à l’image d’entrée, en effectuant trois déconvolutions jumelles dites en cascade (processus pour sur-échantillonner la carte de caractéristiques).

« Grâce à notre module de goulot d’étranglement, la relation intrinsèque entre les caractéristiques est exploitée et les caractéristiques sont efficacement affinées à partir des dimensions de l’espace et du canal », a déclaré Yu. « En particulier, l’introduction de la déconvolution jumelle offre un meilleur échantillonnage en ajoutant une branche jumelle à la branche de convolution transposée d’origine. En conséquence, le défi des artefacts en damier est résolu. »

Un avantage notable de la méthode développée par les chercheurs est son utilisation de déconvolutions jumelles, à travers lesquelles une branche jumelle est introduite dans la branche de convolution transposée d’origine, améliorant la sortie d’origine du modèle. Cette approche permet au modèle de supprimer les motifs en damier indésirables des sorties.

« Il convient de noter que les artefacts en damier proviennent du chevauchement inégal des résultats de convolution à différentes positions », a déclaré Yu. « Ici, une branche jumelle est introduite en parallèle sur la branche de convolution transposée d’origine pour mesurer le chevauchement inégal. Plus précisément, la branche jumelle calcule les différences de chevauchement relatives entre les positions et la matrice de degré de chevauchement résultante est utilisée pour repondérer la carte des caractéristiques de circonvolution originelle transposée. »

Lors des premiers tests, la nouvelle méthode de détection de saisie par pixel a obtenu des résultats très prometteurs, car elle a permis de lisser la sortie d’origine du modèle et d’éliminer les artefacts en damier. Il a ainsi atteint une précision de détection élevée.

Dans le cadre de leur étude, Yu et ses collègues ont également pu étendre leur approche à d’autres tâches impliquant une détection pixel par pixel. En plus d’améliorer potentiellement les capacités de préhension des robots existants et nouvellement développés, leur modèle pourrait donc bientôt être appliqué à d’autres problèmes de vision par ordinateur.

« Dans nos prochains travaux, nous prévoyons de combiner la méthode proposée avec la segmentation d’instance dans des systèmes robotiques réels pour une meilleure prédiction », a ajouté Yu. « Par exemple, la segmentation d’instance peut être utilisée pour générer des informations précieuses sur le profil et la position de l’objet, qui sont introduites dans les déconvolutions jumelles du décodeur pour améliorer encore les performances du réseau. »