Les chercheurs améliorent la perception de la scène grâce à un cadre innovant
Dirigés par le professeur Liu Yong des Instituts Hefei des sciences physiques de l'Académie chinoise des sciences, les chercheurs ont proposé un nouveau cadre, appelé Clip-based Knowledge Transfer and Relational Context Mining (CKT-RCM), pour aborder la distribution à longue traîne. problème en vision par ordinateur.
Les résultats ont été publiés dans Conférence internationale de l'IEEE sur l'acoustique, la parole et le traitement du signal.
Le graphique de scène panoptique (PSG) est une direction de recherche importante dans la génération de graphiques de scène, qui nécessite une sortie complète de toutes les relations dans une image ainsi qu'une segmentation précise pour la localisation des objets. PSG vise à améliorer la compréhension des scènes par des modèles de vision par ordinateur et à prendre en charge les tâches en aval telles que la description de scènes et l'inférence visuelle.
Dans cette étude, les chercheurs ont exploré la manière dont les humains perçoivent les relations d’objet, en présentant deux perspectives clés. Les gens anticipaient les relations d'objet sur la base du bon sens ou de connaissances préalables. Ils ont également déduit des relations basées sur des informations contextuelles entre les sujets et les objets.
Ces perspectives soulignent l’importance de tirer parti des connaissances antérieures : l’une consiste à corriger les biais des données à l’aide de données externes précédemment observées par les humains, tandis que l’autre s’appuie sur la répartition préalable des conditions entre les objets.
« Par conséquent, nous pensons qu'une connaissance préalable suffisante et des informations contextuelles sont cruciales pour la prédiction du PSG », a déclaré le Dr Wang Fan, membre de l'équipe.
Ils ont développé ce cadre de réseau CKT-RCM. Basé sur le modèle de langage de vision pré-entraîné CLIP, CKT-RCM facilite l'inférence de relations pendant les processus PSG. Il intègre un mécanisme d'attention croisée pour extraire le contexte relationnel, garantissant un équilibre entre valeur et qualité dans les prédictions relationnelles.
Cette étude contribue à la compréhension et à la perception des scènes par les robots et les véhicules autonomes.