Un nouveau système de récupération d'images multimodal

Un nouveau système de récupération d’images multimodal

Des chercheurs de l’Institut des sciences et technologies de Gwangju en Corée ont développé un nouveau système de récupération d’images appelé DenseBert4Ret, qui utilise l’apprentissage en profondeur pour l’extraction de caractéristiques d’image et de texte à partir d’une requête d’entrée en mode double, avec des applications potentielles dans le commerce électronique, la vision par ordinateur, et la médecine. Crédit : Moongu Jeon de l’Institut des sciences et technologies de Gwangju, Corée

Avec la quantité d’informations sur Internet qui augmente de minute en minute, et en extraire des données significatives, c’est parfois comme essayer de trouver une aiguille dans une botte de foin. Les systèmes de récupération d’images basés sur le contenu (CBIR) sont capables de récupérer les images souhaitées sur la base de l’entrée de l’utilisateur à partir d’une base de données étendue.

Ces systèmes sont utilisés dans le commerce électronique, la reconnaissance faciale, les applications médicales et la vision par ordinateur. Les systèmes CBIR fonctionnent de deux manières : basée sur le texte et basée sur l’image. L’une des façons dont CBIR obtient un coup de pouce consiste à utiliser des algorithmes d’apprentissage en profondeur (DL). Les algorithmes DL permettent l’utilisation de l’extraction de caractéristiques multimodales, ce qui signifie que les caractéristiques d’image et de texte peuvent être utilisées pour récupérer l’image souhaitée. Même si les scientifiques ont essayé de développer l’extraction de caractéristiques multimodales, cela reste un problème ouvert.

À cette fin, des chercheurs de l’Institut des sciences et technologies de Gwangju ont développé DenseBert4Ret, un système de récupération d’images utilisant des algorithmes DL. L’étude, dirigée par le professeur Moongu Jeon et Ph.D. étudiant Zafran Khan, a été publié dans Sciences de l’information.

« Dans notre vie de tous les jours, nous parcourons souvent Internet pour rechercher des éléments tels que des vêtements, des documents de recherche, des articles de presse, etc. Lorsque ces requêtes nous viennent à l’esprit, elles peuvent prendre à la fois la forme d’images et de textes. De plus, nous pouvons parfois souhaiter modifier nos perceptions visuelles par des descriptions textuelles. Ainsi, les systèmes de récupération devraient également accepter les requêtes sous forme de textes et d’images », explique le professeur Jeon, expliquant la motivation de l’équipe derrière l’étude.

Le modèle proposé avait à la fois une image et du texte comme requête d’entrée. Pour extraire les caractéristiques de l’image à partir de l’entrée, l’équipe a utilisé un modèle de réseau neuronal profond appelé DenseNet-121. Cette architecture permettait un flux maximal d’informations de la couche d’entrée à la couche de sortie et nécessitait le réglage de très peu de paramètres pendant la formation.

DenseNet-121 a été combiné avec l’architecture de représentation de l’encodeur bidirectionnel à partir du transformateur (BERT) pour extraire les caractéristiques sémantiques et contextuelles de l’entrée de texte. La combinaison de ces deux architectures a réduit le temps de formation et les exigences de calcul et a formé le modèle proposé, DenseBert4Ret.

L’équipe a ensuite utilisé Fashion200k, MIT-states et FashionIQ, trois ensembles de données du monde réel, pour former et comparer les performances du système proposé par rapport aux systèmes de pointe. Ils ont constaté que DenseBert4Ret ne présentait aucune perte lors de l’extraction des caractéristiques de l’image et surpassait les modèles de pointe. Le modèle proposé a pris en charge avec succès les multi-modalités qui ont été données en entrée avec le perceptron multicouche et la fonction de triple perte aidant à apprendre les caractéristiques des articulations.

« Notre modèle peut être utilisé partout où il existe un inventaire en ligne et où des images doivent être récupérées. De plus, l’utilisateur peut apporter des modifications à l’image de requête et récupérer l’image modifiée à partir de l’inventaire », conclut le professeur Jeon.

Fourni par GIST (Institut des sciences et technologies de Gwangju)