Récupération efficace de phrases d'images par alignement en tenant compte de l'apprentissage de représentations multimodales transférables

Récupération efficace de phrases d’images par alignement en tenant compte de l’apprentissage de représentations multimodales transférables

La tâche de récupération de phrases d’images vise à rechercher des images pour des phrases données et à récupérer des phrases à partir de requêtes d’images. Les méthodes de récupération actuelles sont toutes des méthodes supervisées qui nécessitent un grand nombre d’annotations pour l’entraînement. Cependant, compte tenu du coût de la main d’œuvre, il est difficile de réaligner de grandes quantités de données multimodales dans de nombreuses applications (par exemple, la récupération médicale), ce qui aboutit à des données multimodales non supervisées.

Une équipe de recherche dirigée par Yang Yang a publié ses nouvelles recherches dans Frontières de l’informatique.

Pour résoudre le problème, l’équipe s’efforce de faire un pas vers la récupération d’images-phrases non parallèle en concevant le transfert d’alignement, et propose une nouvelle méthode de récupération d’images-phrases efficace par alignement (AEIR).

Dans la recherche, l’AEIR utilise d’autres données parallèles auxiliaires avec une cohérence multimodale comme domaine source et des données non parallèles avec une cohérence manquante comme domaine cible. Contrairement à l’apprentissage par transfert unimodal, l’AEIR transfère ensemble les représentations sémantiques et les relations de cohérence modale du domaine source vers le domaine cible.

Premièrement, AEIR apprend les représentations de cohérence intermodale à l’aide de données parallèles intermodales dans le domaine source. Ensuite, l’AEIR optimise conjointement les contraintes de transfert sémantique basées sur l’apprentissage contradictoire et les contraintes de transfert structurel basées sur l’apprentissage métrique pour apprendre des représentations de cohérence inter-modales entre domaines afin de réaliser le transfert de connaissances sur la cohérence du domaine source vers le domaine cible.

Un grand nombre d’expériences expérimentales menées dans différents scénarios de transfert montrent que le transfert sémantique et le transfert structurel peuvent efficacement apprendre des caractéristiques invariantes selon les modalités et les domaines. Le réseau efficace de récupération de phrases d’images basé sur l’alignement proposé vérifie que l’AEIR est plus avantageux que les méthodes actuelles de récupération intermodale, les méthodes de récupération intermodale semi-supervisées et les méthodes de transfert intermodal.

Les travaux futurs pourraient se concentrer sur la réalisation d’un transfert multimodal positif en tenant compte de l’écart de domaine.

Fourni par Higher Education Press