La puissance des réseaux convolutifs de fusion et de division de graphes
par l'Institut de technologie de Pékin Press Co.
Dans le cadre d'une avancée en matière de robotique et d'intelligence artificielle, des chercheurs de l'Université de technologie de Chongqing, ainsi que leurs collaborateurs internationaux, ont développé une méthode de pointe pour améliorer la reconnaissance des interactions. L'étude, publiée dans Cyborg et systèmes bioniquesprésente le réseau convolutif Merge-and-Split Graph (MS-GCN), une nouvelle approche spécialement conçue pour répondre aux complexités de la reconnaissance des interactions basées sur le squelette.
La reconnaissance des interactions humaines joue un rôle crucial dans diverses applications, allant de l'amélioration des interfaces homme-machine à l'amélioration des systèmes de surveillance. Les méthodes traditionnelles, généralement basées sur les données RVB, sont confrontées à des problèmes tels que les changements d'éclairage et les occultations, ce qui rend la reconnaissance précise difficile.
Les méthodes basées sur le squelette, axées sur la structure des articulations humaines, constituent une alternative prometteuse en raison de leur robustesse face à de telles variations environnementales.
Le MS-GCN récemment introduit s'attaque au problème de longue date de la capture de la dynamique d'interaction entre plusieurs individus, qui a souvent été négligé par les réseaux de convolution de graphes conventionnels. En intégrant la convolution de graphiques de fusion et de division avec une attention guidée hiérarchique et un module de dépendance à court terme, le MS-GCN excelle dans la compréhension des relations nuancées entre les différentes parties du corps lors des interactions.
Fonctionnalités innovantes de MS-GCN :
- Structure graphique de fusion et de division : cette structure fusionne de manière unique les informations conjointes des individus en interaction dans un espace de fonctionnalités unifié, permettant une analyse holistique des interactions. Il cartographie les nœuds des ensembles hiérarchiques correspondants de deux individus dans le même espace sémantique, facilitant ainsi une reconnaissance plus précise des mouvements spécifiques à l'interaction.
- Attention guidée hiérarchique : cette composante est essentielle pour souligner l'importance des différents ensembles hiérarchiques en fonction de leur pertinence pour l'interaction en cours. Par exemple, dans des actions comme agiter la main, il se concentre davantage sur les ensembles hiérarchiques qui impliquent les mains, garantissant ainsi que les caractéristiques de mouvement critiques ne soient pas manquées.
- Module de dépendance à court terme : reconnaissant que les variations de mouvement à court terme peuvent être essentielles pour distinguer des actions similaires, comme une poignée de main et un high-five, ce module améliore la sensibilité du modèle à ces différences subtiles.
L'efficacité du MS-GCN est soulignée par ses performances sur deux ensembles de données reconnus, NTU60 et NTU120, où il a obtenu des résultats de pointe. L'approche a été rigoureusement validée par des expériences approfondies, démontrant sa supériorité sur les méthodes existantes dans des scénarios d'interaction à deux personnes et individuels.
Alors que les robots et les systèmes d’IA s’intègrent de plus en plus dans la vie quotidienne, leur capacité à comprendre et à interagir avec les humains de manière nuancée et significative est primordiale. Le MS-GCN fait non seulement progresser le domaine de la reconnaissance des actions, mais ouvre également de nouvelles voies pour le développement de systèmes d'IA plus intuitifs et plus réactifs.
Cette étude souligne une avancée significative dans la quête d’une IA capable de s’intégrer de manière transparente aux environnements humains, offrant un aperçu d’un avenir où les systèmes numériques pourront anticiper et répondre aux actions humaines avec une précision et une efficacité sans précédent.
Fourni par l'Institut de technologie de Pékin Press Co.