La méthode d’estimation de la pose 6D améliorée promet une meilleure maniabilité d’objets robotiques
Les travaux récents dans l’estimation de la pose d’objets 6D sont prometteurs significatifs pour l’avancement de la robotique, la réalité augmentée (AR), la réalité virtuelle (VR), ainsi que la navigation autonome. La recherche, publiée dans le Journal international de sciences et d’ingénieurs informatiquesintroduit une méthode qui améliore la précision, la généralisation et l’efficacité de la détermination de la rotation et de la traduction d’un objet à partir d’une seule image. Cela pourrait améliorer considérablement la capacité des robots à interagir avec les objets, en particulier dans des environnements dynamiques ou obstrués.
En robotique, l’estimation de la pose d’objets 6D fait référence à la détermination de l’orientation (rotation) et de la position (traduction) d’un objet dans un espace tridimensionnel. « 6D » décrit six degrés de liberté: trois pour la traduction (axes x, y, z) et trois pour la rotation (autour de ces axes). Une estimation précise de la pose est essentielle pour les systèmes autonomes, y compris les robots et les systèmes AR / VR.
Des défis surviennent en raison des variations des formes d’objets, des points de vue et des demandes de calcul. Les méthodes actuelles reposent sur des techniques d’apprentissage en profondeur à l’aide de grands ensembles de données d’objets visibles sous différents angles. Ces modèles luttent avec des objets invisibles ou ceux qui ont des formes différentes des données de formation.
La nouvelle technique discutée par Zhizhong Chen, Zhihang Wang, Xue Hui Xing et Tao Kuai du Northwest Institute of Mechanical and Electrical Engineering dans la ville de Xianyang, en Chine, relèvent les différents défis en incorporant des caractéristiques invariantes de rotation dans un système d’intelligence artificielle connue sous le nom de réseau convolutionnel 3D.
Cela permet au système de traiter le nuage de points 3D d’un objet, quelle que soit son orientation, conduisant à des prédictions de pose plus précises même lorsque l’objet est tourné ou vu sous des angles inconnus. Le réseau utilise un ensemble cohérent de coordonnées, appelées coordonnées canoniques, qui représentent l’objet dans un cadre de référence non affecté par la rotation. Cette innovation améliore la capacité du système à se généraliser aux nouvelles poses, surmontant une limitation des méthodes conventionnelles.
Non seulement la nouvelle approche est plus précise, elle est plus efficace et a donc moins de données de formation et moins de puissance informatique, ce qui la rend plus adaptée aux applications réelles et réelles.