Une étude présente un cadre d'encodeur-décodeur pour les systèmes d'IA
Récemment, l'équipe dirigée par le professeur Xu Chengzhong et le professeur adjoint Li Zhenning du Laboratoire clé d'État de l'Internet des objets pour les villes intelligentes de l'Université de Macao a dévoilé le modèle de mise à la terre visuelle contextuelle (CAVG).
Ce modèle est le premier modèle de conduite autonome Visual Grounding à intégrer le traitement du langage naturel avec de grands modèles de langage. Ils ont publié leur étude dans Communications dans la recherche sur les transports.
Au milieu de l’intérêt croissant pour la technologie de conduite autonome, les leaders de l’industrie des secteurs automobile et technologique ont démontré au public les capacités des véhicules sans conducteur, capables de contourner les obstacles en toute sécurité et de gérer les situations émergentes.
Pourtant, le public est prudent quant à l’idée de confier le contrôle total aux systèmes d’IA. Cela souligne l’importance de développer un système permettant aux passagers d’émettre des commandes vocales pour contrôler le véhicule. Une telle entreprise recoupe deux domaines critiques : la vision par ordinateur et le traitement du langage naturel (NLP).
Un défi de recherche crucial réside dans l'utilisation d'algorithmes multimodaux pour forger un lien solide entre des instructions verbales complexes et des contextes du monde réel, permettant ainsi au système de conduite de saisir les intentions des passagers et de sélectionner intelligemment parmi divers objectifs.
En réponse à ce défi, Thierry Deruyttere et ses collègues ont inauguré le défi Talk2Car en 2019. Ce concours demande aux chercheurs d'identifier les régions les plus sémantiquement précises dans des images de face provenant de scénarios de trafic réels, sur la base de descriptions textuelles fournies.
Grâce aux progrès rapides des grands modèles linguistiques (LLM), la possibilité d'une interaction linguistique avec des véhicules autonomes est devenue une réalité. L'article présente initialement le défi consistant à aligner les instructions textuelles avec des scènes visuelles comme une tâche de cartographie, nécessitant la conversion des descriptions textuelles en vecteurs qui correspondent avec précision aux sous-régions les plus appropriées parmi les candidats potentiels.
Pour résoudre ce problème, il introduit le modèle CAVG, soutenu par un mécanisme d'attention intermodal. S'appuyant sur le cadre des méthodes en deux étapes, CAVG utilise le modèle CenterNet pour délimiter de nombreuses zones candidates dans les images, extrayant ensuite des vecteurs de caractéristiques régionales pour chacune. Le modèle est structuré autour d'un framework Encoder-Decoder, comprenant des encodeurs pour le texte, l'émotion, la vision et le contexte, ainsi qu'un encodeur cross-modal et un décodeur multimodal.
Pour naviguer efficacement dans la complexité de la sémantique contextuelle et des nuances émotionnelles humaines, l'article exploite GPT-4V, intégrant un nouveau mécanisme d'attention multimodale multi-têtes et une couche de dynamique spécifique à une région (RSD). Cette couche joue un rôle déterminant dans la modulation de l'attention et l'interprétation des entrées intermodales, facilitant ainsi l'identification de la région qui s'aligne le plus étroitement sur les instructions données parmi tous les candidats.
En outre, dans le but d'évaluer la généralisabilité du modèle, l'étude a conçu des environnements de test spécifiques qui posent des complexités supplémentaires : des environnements nocturnes à faible visibilité, des scénarios urbains caractérisés par un trafic dense et des interactions d'objets complexes, des environnements avec des instructions ambiguës et des scénarios présentant une visibilité considérablement réduite. Ces conditions ont été conçues pour intensifier le défi des prévisions précises.
Selon les résultats, le modèle proposé établit de nouvelles références sur l'ensemble de données Talk2Car, démontrant une efficacité remarquable en obtenant des résultats impressionnants avec seulement la moitié des données pour les configurations CAVG (50 %) et CAVG (75 %), et montrant des performances supérieures dans diverses configurations. ensembles de données de défis spécialisés.
Les futurs efforts de recherche devraient viser à améliorer la précision de l'intégration des commandes textuelles aux données visuelles dans la navigation autonome, tout en exploitant le potentiel des grands modèles de langage pour agir comme des aides sophistiquées dans les technologies de conduite autonome.
Le discours s'aventurera à incorporer un éventail élargi de modalités de données, notamment des images d'imagerie à vol d'oiseau (BEV) et des données de trajectoire, entre autres. Cette approche vise à forger des stratégies complètes d’apprentissage profond capables de synthétiser et d’exploiter des informations modales à multiples facettes, augmentant ainsi considérablement l’efficacité et les performances des modèles en question.
Fourni par Tsinghua University Press