L'IA génère des images de haute qualité 30 fois plus rapidement en une seule étape

À l’ère actuelle de l’intelligence artificielle, les ordinateurs peuvent générer leur propre « art » au moyen de modèles de diffusion, ajoutant de manière itérative une structure à un état initial bruyant jusqu’à ce qu’une image ou une vidéo claire émerge.

Les modèles de diffusion ont soudainement pris place à la table de tout le monde : entrez quelques mots et vivez des paysages oniriques instantanés et riches en dopamine, à l'intersection de la réalité et de la fantaisie. En coulisses, cela implique un processus complexe et chronophage nécessitant de nombreuses itérations pour que l’algorithme perfectionne l’image.

Les chercheurs du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ont introduit un nouveau cadre qui simplifie le processus en plusieurs étapes des modèles de diffusion traditionnels en une seule étape, répondant ainsi aux limitations précédentes. Cela se fait à travers un type de modèle enseignant-élève : enseigner un nouveau modèle informatique pour imiter le comportement de modèles originaux plus complexes qui génèrent des images.

L’approche, connue sous le nom de distillation par correspondance de distribution (DMD), conserve la qualité des images générées et permet une génération beaucoup plus rapide.

« Notre travail est une nouvelle méthode qui accélère de 30 fois les modèles de diffusion actuels tels que Stable Diffusion et DALLE-3 », explique Tianwei Yin, titulaire d'un doctorat au MIT. étudiant en génie électrique et informatique, affilié au CSAIL et chercheur principal sur le framework DMD.

« Cette avancée réduit non seulement considérablement le temps de calcul, mais conserve également, voire dépasse, la qualité du contenu visuel généré. Théoriquement, l'approche associe les principes des réseaux contradictoires génératifs (GAN) avec ceux des modèles de diffusion, permettant ainsi la génération de contenu visuel dans une seule étape, un contraste frappant avec les cent étapes de raffinement itératif requises par les modèles de diffusion actuels. Cela pourrait potentiellement constituer une nouvelle méthode de modélisation générative qui excelle en termes de rapidité et de qualité.

Ce modèle de diffusion en une seule étape pourrait améliorer les outils de conception, permettant une création de contenu plus rapide et potentiellement soutenant les progrès dans la découverte de médicaments et la modélisation 3D, où la rapidité et l'efficacité sont essentielles.

Rêves de distribution

DMD comporte intelligemment deux composants. Premièrement, il utilise une perte de régression, qui ancre la cartographie pour assurer une organisation grossière de l'espace des images afin de rendre la formation plus stable.

Ensuite, il utilise une perte de correspondance de distribution, qui garantit que la probabilité de générer une image donnée avec le modèle d'étudiant correspond à sa fréquence d'occurrence dans le monde réel. Pour ce faire, il exploite deux modèles de diffusion qui servent de guides, aidant le système à comprendre la différence entre les images réelles et générées et rendant possible la formation du générateur rapide en une étape.

Le système permet une génération plus rapide en entraînant un nouveau réseau afin de minimiser la divergence de distribution entre ses images générées et celles de l'ensemble de données d'entraînement utilisé par les modèles de diffusion traditionnels. « Notre idée clé est d'approcher les gradients qui guident l'amélioration du nouveau modèle à l'aide de deux modèles de diffusion », explique Yin.

« De cette façon, nous distillons les connaissances du modèle original, plus complexe, dans un modèle plus simple et plus rapide, tout en contournant les problèmes notoires d'instabilité et d'effondrement de mode dans les GAN. »

Yin et ses collègues ont utilisé des réseaux pré-entraînés pour le nouveau modèle étudiant, simplifiant ainsi le processus. En copiant et en affinant les paramètres des modèles originaux, l’équipe a obtenu une convergence de formation rapide du nouveau modèle, capable de produire des images de haute qualité avec la même base architecturale. « Cela permet de combiner avec d'autres optimisations du système basées sur l'architecture d'origine pour accélérer davantage le processus de création », ajoute Yin.

Lorsqu'il a été testé par rapport aux méthodes habituelles, en utilisant un large éventail de références, DMD a montré des performances constantes. Sur la référence populaire de génération d'images basées sur des classes spécifiques sur ImageNet, DMD est la première technique de diffusion en une étape qui produit des images à peu près équivalentes à celles des modèles originaux plus complexes, avec une distance de création de Fréchet très proche ( FID) de seulement 0,3, ce qui est impressionnant, puisque le FID consiste à juger de la qualité et de la diversité des images générées.

De plus, DMD excelle dans la génération de texte en image à l’échelle industrielle et atteint des performances de génération en une étape de pointe. Il existe encore un léger écart de qualité dans le traitement des applications de synthèse texte-image plus délicates, ce qui suggère qu'il y a une petite marge d'amélioration sur toute la ligne.

De plus, les performances des images générées par DMD sont intrinsèquement liées aux capacités du modèle pédagogique utilisé pendant le processus de distillation. Dans la forme actuelle, qui utilise Stable Diffusion v1.5 comme modèle d'enseignant, l'élève hérite de limitations telles que le rendu de représentations détaillées du texte et des petits visages, ce qui suggère que des modèles d'enseignant plus avancés pourraient améliorer davantage les images générées par DMD.

« La diminution du nombre d'itérations est le Saint Graal des modèles de diffusion depuis leur création », déclare Fredo Durand, professeur de génie électrique et d'informatique au MIT, chercheur principal du CSAIL et auteur principal de l'article. « Nous sommes très heureux de pouvoir enfin permettre la génération d'images en une seule étape, ce qui réduira considérablement les coûts de calcul et accélérera le processus. »

« Enfin, un article qui combine avec succès la polyvalence et la haute qualité visuelle des modèles de diffusion avec les performances en temps réel des GAN », déclare Alexei Efros, professeur de génie électrique et d'informatique à l'Université de Californie à Berkeley, qui n'a pas participé. dans cette étude. « Je m'attends à ce que ce travail ouvre des possibilités fantastiques pour un montage visuel en temps réel de haute qualité. »

L'étude est publiée sur le arXiv serveur de préimpression.

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.