Un modèle d'apprentissage en profondeur qui génère des images compressées à partir de texte

L’importance d’appliquer la transformation simple sur les images JPEG Compressed DCT. Crédit : Rajesh et al.

Les réseaux antagonistes génératifs (GAN), une classe de cadres d’apprentissage automatique qui peuvent générer de nouveaux textes, images, vidéos et enregistrements vocaux, se sont avérés très utiles pour résoudre de nombreux problèmes du monde réel. Par exemple, les GAN ont été utilisés avec succès pour générer des ensembles de données d’images pour former d’autres algorithmes d’apprentissage en profondeur, pour générer des vidéos ou des animations pour des utilisations spécifiques et pour créer des légendes appropriées pour les images.

Des chercheurs du laboratoire de vision par ordinateur et de biométrie de l’IIT Allahabad et de l’université Vignan en Inde ont récemment développé un nouveau modèle basé sur GAN qui peut générer des images compressées à partir de descriptions textuelles. Ce modèle, présenté dans un article pré-publié sur arXiv, pourrait ouvrir des possibilités intéressantes pour le stockage d’images et pour le partage de contenus entre différents appareils intelligents.

« L’idée de T2CI GAN est alignée sur le thème du ‘traitement direct/analyse des données dans le domaine compressé sans décompression complète’, sur lequel nous travaillons depuis 2012 », a déclaré Mohammed Javed, l’un des chercheurs qui a réalisé le étude, a déclaré à TechXplore. « Cependant, l’idée dans T2CI GAN est un peu différente, car ici nous voulions produire/récupérer des images sous forme compressée compte tenu des descriptions textuelles de l’image. »

Dans leurs études antérieures, Javed et ses collègues ont utilisé des GAN et d’autres modèles d’apprentissage en profondeur pour s’attaquer à de nombreuses tâches, notamment l’extraction de caractéristiques à partir de données, la segmentation de données textuelles et d’images, la détection de mots dans de grands extraits de texte et la création de fichiers JPEG compressés. . Le nouveau modèle qu’ils ont créé s’appuie sur ces efforts antérieurs pour résoudre un problème de calcul qui a jusqu’à présent été rarement exploré dans la littérature.

Alors que plusieurs autres équipes de recherche ont utilisé des méthodes basées sur l’apprentissage en profondeur pour générer des images basées sur des descriptions textuelles, seules quelques-unes de ces méthodes produisent des images sous leur forme compressée. De plus, la plupart des techniques existantes qui génèrent des images compressées abordent la tâche de générer l’image et de la compresser séparément, ce qui augmente leur charge de calcul et leur temps de traitement.

« T2CI-GAN est un modèle basé sur l’apprentissage en profondeur qui prend des descriptions de texte en entrée et produit des images visuelles sous forme compressée », a expliqué Javed. « L’avantage ici est que les méthodes conventionnelles produisent des images visuelles à partir de descriptions textuelles, et elles soumettent en outre ces images à la compression, pour produire des images compressées. Notre modèle, d’autre part, peut directement mapper/apprendre les descriptions textuelles et produire des images compressées . »

T2CI GAN : un modèle d'apprentissage en profondeur qui génère des images compressées à partir de texte — L’architecture T2CI-GAN Model-1 proposée utilisant des réseaux fédérateurs. (a) Réseau générateur et (b) Réseau discriminateur. Crédit : https://arxiv.org/abs/2210.03734

Javed et ses collègues ont développé deux modèles distincts basés sur GAN pour générer des images compressées à partir de descriptions textuelles. Le premier de ces modèles a été formé sur un ensemble de données contenant des images DCT (discrete cosine transform) compressées au format JPEG. Après entraînement, ce modèle a pu générer des images compressées basées sur des descriptions textuelles.

Le deuxième modèle basé sur GAN des chercheurs, quant à lui, a été formé sur un ensemble d’images RVB. Ce modèle a appris à générer des représentations DCT compressées JPEG d’images, qui expriment spécifiquement une séquence de points de données sous la forme d’une équation mathématique.

« T2CI-GAN est l’avenir, car nous savons que le monde évolue vers des communications de machine (robot) à machine et d’homme à machine », a déclaré Javed. « Dans un tel scénario, les machines n’ont besoin que de données sous forme compressée pour les interpréter ou les comprendre. Par exemple, imaginez qu’une personne demande au bot Alexa d’envoyer sa photo d’enfance à sa meilleure amie. Alexa comprendra le message vocal de la personne (texte description) et essayez de rechercher cette photo, qui serait déjà stockée quelque part sous forme compressée, et envoyez-la directement à son amie. »

Javed et ses collègues ont évalué leur modèle dans une série de tests, en utilisant le célèbre ensemble de données Oxtford-102 Flower, qui contient plusieurs images de fleurs, classées en 102 types de fleurs. Leurs résultats étaient très prometteurs, car leur modèle pouvait générer des versions JPEG compressées d’images dans l’ensemble de données de fleurs à la fois rapidement et efficacement.

Le modèle T2CI-GAN pourrait être utilisé pour améliorer les systèmes automatisés de récupération d’images, en particulier lorsque les images sourcées sont destinées à être facilement partagées avec des smartphones ou d’autres appareils intelligents. En outre, il pourrait s’avérer être un outil précieux pour les professionnels des médias et de la communication, les aidant à récupérer des versions plus légères d’images spécifiques à partager sur des plateformes en ligne.

« Actuellement, le modèle T2CI GAN produit des images uniquement sous forme compressée JPEG », a ajouté Javed. « Dans nos travaux futurs, nous aimerions voir si nous pouvons avoir un modèle général capable de produire des images sous n’importe quelle forme compressée, sans aucune contrainte d’algorithme de compression. »