Étude dévoile le cadre d'estimation de la pose de pose orientée en temps réel, en temps réel,

Étude dévoile le cadre d’estimation de la pose de pose orientée en temps réel, en temps réel,

Un nouveau cadre alimenté par l’IA a été développé, offrant de nouvelles capacités pour l’analyse en temps réel de deux mains engagées dans la manipulation d’un objet.

Une équipe de recherche dirigée par le professeur Seungryul Baek de la Unist Artificial Intelligence Graduate School a introduit le cadre transformateur en temps réel optimisé par les requêtes (Qort-Former), qui estime avec précision les poses 3D de deux mains et un objet en temps réel.

L’œuvre a été publiée sur le arxiv Préprint Server et a été présenté à la conférence annuelle de l’AAAI sur l’intelligence artificielle (AAAI), Pennsylvanie, États-Unis.

Contrairement aux méthodes précédentes qui nécessitent des ressources de calcul substantielles, Qort-Former atteint une efficacité exceptionnelle tout en maintenant une précision de pointe.

Pour optimiser les performances, l’équipe a proposé une nouvelle stratégie de division de requête qui améliore les fonctionnalités de requête en tirant parti des informations de contact entre les mains et l’objet, en collaboration avec une mise à jour de fonctionnalité en trois étapes dans le décodeur de transformateur. Avec seulement 108 requêtes et un seul décodeur, Qort-Former atteint 53,5 images par seconde (FPS) sur un GPU RTX 3090, ce qui en fait le modèle connu le plus rapide pour l’estimation de la pose à objet à main.

Le professeur Seungryul Baek a déclaré: « Qort-Former représente une progression importante dans la compréhension des interactions à main-objet. Elle permet non seulement les applications en temps réel dans la réalité augmentée (AR), la réalité virtuelle (VR) et la robotique, mais repousse également les limites des modèles d’IA en temps réel. »

« Notre travail démontre que l’efficacité et la précision peuvent être optimisées simultanément », a déclaré le co-premier auteur Khalequzzaman Sayem. « Nous prévoyons une adoption plus large de notre méthode dans les domaines qui nécessitent une analyse d’interaction à l’objet manuel en temps réel. »