Les chercheurs développent un nouveau modèle de réseaux contradictoires génératifs qui stabilise la formation et les performances

Les chercheurs développent un nouveau modèle de réseaux contradictoires génératifs qui stabilise la formation et les performances

Ces dernières années, l’intelligence artificielle (IA) et les modèles d’apprentissage profond ont progressé rapidement et sont devenus facilement accessibles. Cela a permis à des personnes, même sans expertise spécialisée, d’effectuer diverses tâches avec l’IA. Parmi ces modèles, les réseaux contradictoires génératifs (GAN) se distinguent par leurs performances exceptionnelles dans la génération de nouvelles instances de données présentant les mêmes caractéristiques que les données d'entraînement, ce qui les rend particulièrement efficaces pour générer des images, de la musique et du texte.

Les GAN se composent de deux réseaux neuronaux, à savoir un générateur qui crée de nouvelles distributions de données à partir d'un bruit aléatoire et un discriminateur qui vérifie si la distribution de données générée est « réelle » (correspondant aux données d'entraînement) ou « fausse ». Au fur et à mesure que la formation progresse, le générateur s'améliore dans la génération de distributions réalistes et le discriminateur dans l'identification des données générées comme étant fausses.

Les GAN utilisent une fonction de perte pour mesurer les différences entre les distributions fausses et réelles. Cependant, cette approche peut entraîner des problèmes tels que la disparition du gradient et un apprentissage instable, affectant directement la stabilité et l'efficacité. Malgré des progrès considérables dans l'amélioration des GAN, notamment des modifications structurelles et des ajustements de la fonction de perte, des défis tels que la disparition du gradient et l'effondrement des modes, où le générateur produit une variété limitée, continuent de limiter leur applicabilité.

Pour résoudre ces problèmes, une équipe de chercheurs dirigée par le professeur adjoint Minhyeok Lee de l'École de génie électrique et électronique de l'Université Chung-Ang, en République de Corée, a développé une nouvelle stratégie. « Imaginez apprendre à un artiste à peindre des paysages. Des conseils cohérents peuvent l'amener à produire des scènes similaires, un phénomène appelé effondrement des modes dans l'apprentissage automatique. Pour éviter cela, notre modèle PMF-GAN affine les capacités du discriminateur, pénalisant le générateur pour la production de résultats trop similaires. , favorisant ainsi la diversité », explique le Dr Lee.

Leurs conclusions ont été publiées dans la revue Informatique douce appliquée en octobre 2024.

Le cadre PMF-GAN introduit deux améliorations clés. Premièrement, il utilise l'optimisation du noyau pour affiner la capacité du discriminateur, offrant ainsi un avantage significatif pour résoudre les problèmes d'effondrement du modèle et de disparition du gradient. Les noyaux sont des fonctions mathématiques qui transforment les données dans un espace de dimension supérieure, facilitant ainsi la détection de modèles, même dans des données complexes. La sortie du discriminateur est traitée via des fonctions de noyau, produisant l'estimation de la densité du noyau (KDE).

Deuxièmement, PMF-GAN applique une technique mathématique appelée transformation d'histogramme à la sortie de KDE, permettant une analyse plus intuitive des résultats. Pendant la formation, le modèle minimise la différence entre les distributions fausses et réelles transformées par histogramme du noyau, une mesure appelée distance PMF.

En particulier, cette approche permet l’utilisation de diverses fonctions mathématiques de distance et fonctions de noyau. Cette flexibilité permet à PMF-GAN de s'adapter à différents types de données et objectifs d'apprentissage. De plus, PMF-GAN peut être intégré aux architectures GAN améliorées existantes pour des performances encore meilleures.

Lors des expériences, PMF-GAN a surpassé plusieurs modèles de base en termes de qualité visuelle et de mesures d'évaluation sur plusieurs ensembles de données. Pour l’ensemble de données Animal FacesHQ, il a montré une amélioration de 56,9 % du score de début et de 61,5 % du score de distance de début de Fréchet (FID) par rapport au modèle WGAN-GP conventionnel.

« Les améliorations de flexibilité et de performances présentées par PMF-GAN ouvrent de nouvelles possibilités pour générer des données synthétiques dans divers domaines technologiques et numériques. Dans le domaine des soins de santé, cela conduira à une génération d'images plus stables et plus diversifiées. visuels pour les films, les jeux vidéo et les expériences de réalité virtuelle », remarque le Dr Lee.

« À mesure que le contenu généré par l'IA devient de plus en plus répandu dans notre vie quotidienne, notre méthode améliore la qualité et la diversité du contenu et garantira que l'IA continue d'être un outil précieux pour la créativité humaine et la résolution de problèmes. »

Fourni par l'Université Chung Ang