Le modèle à flux unique améliore l'efficacité de la traduction d'images
Parmi les nombreux modèles d’intelligence artificielle et d’apprentissage automatique disponibles aujourd’hui pour la traduction d’images, les modèles de traduction d’image à image utilisant les réseaux contradictoires génératifs (GAN) peuvent modifier le style des images.
Ces modèles fonctionnent en utilisant deux images d'entrée : une image de contenu, qui est modifiée pour correspondre au style d'une image de référence. Les modèles sont utilisés pour des tâches telles que transformer des images en différents styles artistiques, simuler les changements météorologiques, améliorer la résolution vidéo par satellite et aider les véhicules autonomes à reconnaître différentes conditions d'éclairage, comme le jour et la nuit.
Aujourd'hui, des chercheurs de l'Université de Sophia ont développé un modèle capable de réduire les besoins informatiques nécessaires à l'exécution de ces modèles, permettant ainsi de les exécuter sur une large gamme d'appareils, y compris les smartphones.
Dans une étude publiée dans le Journal ouvert IEEE de la Computer Society le 25 septembre 2024, la professeure assistante de projet Rina Oh et le professeur Tad Gonsalves du Département des sciences de l'information et de la communication de l'Université de Sophia ont proposé un modèle de « traduction image à image (SSIT) à flux unique » qui n'utilise qu'un seul encodeur pour transporter cette transformation.
En règle générale, les modèles de traduction d'image à image nécessitent deux encodeurs (un pour l'image de contenu et un pour l'image de style) pour « comprendre » les images.
Ces encodeurs convertissent le contenu et le style des images en valeurs numériques (espace de fonctionnalités) qui représentent les aspects clés de l'image, tels que la couleur, les objets et d'autres fonctionnalités. Le décodeur prend ensuite les caractéristiques combinées de contenu et de style et reconstruit l'image finale avec le contenu et le style souhaités.
En revanche, SSIT utilise un seul encodeur pour extraire des caractéristiques spatiales telles que les formes, les limites des objets et la disposition de l'image du contenu.
Pour l'image de style, le modèle utilise la normalisation d'instance adaptative directe avec pooling (DAdaINP), qui capture les détails de style clés tels que les couleurs et les textures tout en se concentrant sur les fonctionnalités les plus importantes pour améliorer l'efficacité. Un décodeur prend ensuite les caractéristiques combinées de contenu et de style et reconstruit l'image finale avec le contenu et le style souhaités.
Le professeur Oh déclare : « Nous avons implémenté un modèle de traduction guidée d'image à image qui effectue une transformation de style avec des coûts de calcul GPU réduits tout en référençant les images de style d'entrée.
« Contrairement aux modèles associés précédents, notre approche utilise le regroupement et la convolution déformable pour extraire efficacement les caractéristiques de style, permettant une transformation de style de haute qualité avec à la fois un coût de calcul réduit et des caractéristiques spatiales préservées dans les images de contenu. »
Le modèle est formé à l'aide d'un entraînement contradictoire, où les images générées sont évaluées par un discriminateur doté d'un transformateur de vision, qui capture des modèles dans les images. Le discriminateur évalue si les images générées sont réelles ou fausses en les comparant aux images cibles, tandis que le générateur apprend à créer des images capables de tromper le discriminateur.
À l’aide du modèle, les chercheurs ont effectué trois types de tâches de transformation d’images. La première impliquait une transformation saisonnière, où les photos de paysages étaient converties de l'été en hiver et vice versa.
La deuxième tâche était la conversion de photo en art, dans laquelle des photos de paysages étaient transformées en styles artistiques célèbres, tels que ceux de Picasso, Monet ou de l'anime.
La troisième tâche portait sur la traduction de l'heure et de la météo pour la conduite, où les images capturées depuis l'avant d'une voiture étaient modifiées pour simuler différentes conditions, telles que le passage du jour à la nuit ou du temps ensoleillé au temps pluvieux.
Dans toutes ces tâches, le modèle a mieux fonctionné que cinq autres modèles GAN (à savoir NST, CNNMRF, MUNIT, GDWCT et TSIT), avec des scores inférieurs de distance de démarrage de Fréchet et de distance de démarrage du noyau. Cela démontre que les images générées étaient similaires aux styles cibles et reproduisaient mieux les couleurs et les détails artistiques.
« Notre générateur a pu réduire le coût de calcul et les FLOP par rapport aux autres modèles car nous avons utilisé un seul encodeur composé de plusieurs couches de convolution uniquement pour l'image du contenu et placé des couches de regroupement pour extraire les caractéristiques de style sous différents angles au lieu de couches de convolution. » dit le professeur Oh.
À long terme, le modèle SSIT a le potentiel de démocratiser la transformation d’images, en le rendant déployable sur des appareils comme les smartphones ou les ordinateurs personnels.
Il permet aux utilisateurs de divers domaines, notamment l'art numérique, le design et la recherche scientifique, de créer des transformations d'images de haute qualité sans recourir à du matériel ou à des services cloud coûteux.