Un nouveau réseau de neurones utilise le bon sens pour créer de fausses images d'oiseaux à partir de texte

Un nouveau réseau de neurones utilise le bon sens pour créer de fausses images d’oiseaux à partir de texte

Un plan du réseau contradictoire génératif de bon sens des auteurs ou « CD-GAN » pour la synthèse texte-image montrant trois modules, l’amélioration de la description, la génération en plusieurs étapes et la discrimination en plusieurs étapes. Crédit : Guokai Zhang et al.

Dans un effort pour générer des images de haute qualité basées sur des descriptions textuelles, un groupe de chercheurs en Chine a construit un réseau contradictoire génératif qui intègre des données représentant des connaissances de bon sens. Leur méthode utilise le bon sens pour clarifier le point de départ de la génération d’image et utilise également le bon sens pour améliorer différentes caractéristiques spécifiques de l’image générée à trois niveaux de résolution différents. Le réseau a été formé à l’aide d’une base de données d’images d’oiseaux et de descriptions textuelles. Les images d’oiseaux générées ont obtenu des scores compétitifs par rapport à celles produites à l’aide d’autres méthodes de réseau neuronal.

Les recherches du groupe ont été publiées dans Informatique intelligente.

Étant donné qu' »une image vaut mille mots », les lacunes des cadres de synthèse texte-image actuellement disponibles ne sont guère surprenantes. Si vous souhaitez générer une image d’un oiseau, la description que vous donnez à un ordinateur peut inclure sa taille, la couleur de son corps et la forme de son bec. Pour produire une image, l’ordinateur doit encore décider de nombreux détails sur la façon d’afficher l’oiseau, comme la direction dans laquelle l’oiseau est tourné, ce qui devrait être en arrière-plan et si son bec est ouvert ou fermé.

Si l’ordinateur avait ce que nous considérons comme une connaissance de bon sens, il prendrait des décisions sur la représentation de détails non spécifiés avec plus de succès. Par exemple, un oiseau peut se tenir sur une patte ou sur deux pattes, mais pas sur trois.

Lorsqu’il est mesuré quantitativement par rapport à ses prédécesseurs, le réseau de génération d’images des auteurs a obtenu des scores compétitifs en utilisant des mesures qui mesurent la fidélité et la distance par rapport aux images réelles. Qualitativement, les auteurs caractérisent les images générées comme généralement cohérentes, naturelles, nettes et vives.

« Nous croyons fermement que l’introduction du bon sens peut grandement favoriser le développement de la synthèse texte-image », conclut l’article de recherche.

Le réseau neuronal des auteurs pour générer des images à partir de texte se compose de trois modules. Le premier améliore la description textuelle qui sera utilisée pour générer l’image. ConceptNet, une source de données qui représente les connaissances générales pour le traitement du langage sous la forme d’un graphique de nœuds connexes, a été utilisée pour récupérer des éléments de connaissances de bon sens à ajouter à la description textuelle.

Les auteurs ont ajouté un filtre pour rejeter les connaissances inutiles et sélectionner les connaissances les plus pertinentes. Pour randomiser les images générées, ils ont ajouté du bruit statistique. L’entrée du générateur d’images consiste donc en la description du texte d’origine, analysée comme une phrase et comme des mots séparés, plus des éléments sélectionnés de connaissances de bon sens de ConceptNet, plus du bruit.

Le deuxième module génère des images en plusieurs étapes. Chaque étape correspond à une taille d’image, commençant par une petite image de 64 x 64 pixels et augmentant jusqu’à 128 x 128 puis 256 x 256. Le module s’appuie sur l’unité de « raffinement d’entité adaptative » des auteurs, qui intègre des connaissances de bon sens des détails nécessaires pour chaque taille d’image.

Le troisième module examine les images générées et rejette celles qui ne correspondent pas à la description originale. Le système est un « réseau antagoniste génératif » car il possède cette troisième partie qui vérifie le travail du générateur. Étant donné que le réseau des auteurs est « guidé par le bon sens », ils appellent leur réseau CD-GAN.

CD-GAN a été formé en utilisant l’ensemble de données Caltech-UCSD Birds-200-2011qui répertorie 200 espèces d’oiseaux à l’aide de 11 788 images spécialement annotées.

Fourni par l’informatique intelligente