Un ensemble de données avec des annotations détaillées et une sémantique riche
La reconnaissance des activités de groupe (GAR), qui vise à identifier les activités réalisées collectivement dans des vidéos, a récemment suscité une attention considérable. Les ensembles de données GAR existants n’annotent généralement qu’une seule instance d’activité de groupe (GA) par échantillon, soigneusement sélectionnée à partir de vidéos originales.
Cette approche, bien que précise, s’écarte considérablement des contextes du monde réel, qui impliquent souvent plusieurs instances GA. De plus, les annotations au niveau d’un seul mot sont insuffisantes pour encapsuler les informations sémantiques complexes dans GA, limitant ainsi l’expansion et la recherche d’autres tâches liées à GA.
Pour atténuer ces limites, une équipe de recherche dirigée par Wang Yun-Hong (Université de Beihang, Chine) a publié ses recherches le 15 décembre 2024 dans Frontières de l’informatique.
L’équipe a proposé FIFAWC, un nouvel ensemble de données pour GAR caractérisé par trois distinctions notables :
- Annotation complète : ils annotent minutieusement tous les GA inclus dans chaque échantillon et conservent le nombre d’images d’origine, s’écartant des ensembles de données précédents qui se concentrent sur une seule annotation GA et une normalisation uniforme des images, ce qui améliore la complexité de l’ensemble de données et son potentiel d’application pratique pour la recherche avancée.
- Description sémantique : Chaque clip de FIFAWC est accompagné d’une légende élaborée de commentateurs sportifs, garantissant l’exactitude et le professionnalisme du contenu. Cela positionne le FIFAWC comme base de données pour une variété de tâches, telles que le sous-titrage et la récupération vidéo.
- Nouveau scénario : le FIFAWC marque une nouvelle divergence par rapport aux précédents en présentant des images de matchs de football. Les vastes zones spatiales et les mouvements rapides caractéristiques du football introduisent de nouveaux défis, tels que des mouvements de caméra dynamiques et des cibles plus petites dans les images, augmentant considérablement la complexité et la difficulté du GAR.
Dans le cadre de leur recherche, ils ont comparé le FIFAWC sur deux tâches : le sous-titrage vidéo GAR traditionnel et le sous-titrage vidéo GA innovant. Pour GAR, ils évaluent l’approche classique ARG basée sur des détecteurs et l’approche de pointe DFWSGAR sans détecteur.
Les résultats révèlent une grande précision au niveau des catégories, mais une faible précision au niveau de l’échantillon en raison de plusieurs AG par échantillon, reflétant la complexité et le défi du FIFAWC. Par rapport aux performances exemplaires (25,87 en termes de CIDEr) de PDVC sur l’ensemble de données ActivityNet, les mauvaises performances sur FIFAWC indiquent que des recherches supplémentaires sont nécessaires pour le sous-titrage vidéo GA.
Fourni par Higher Education Press