Un nouvel outil d'IA génère des images de haute qualité plus rapidement que les approches de pointe

Un nouvel outil d’IA génère des images de haute qualité plus rapidement que les approches de pointe

La capacité de générer rapidement des images de haute qualité est cruciale pour produire des environnements simulés réalistes qui peuvent être utilisés pour former des voitures autonomes afin d’éviter les dangers imprévisibles, ce qui les rend plus sûrs dans les rues réelles.

Mais les techniques génératrices de l’IA étant de plus en plus utilisées pour produire de telles images présentent des inconvénients. Un type de modèle populaire, appelé modèle de diffusion, peut créer des images incroyablement réalistes mais est trop lent et très intensif en calcul pour de nombreuses applications. D’un autre côté, les modèles autorégressifs qui alimentent les LLM comme Chatgpt sont beaucoup plus rapides, mais ils produisent des images de plus bonne qualité qui sont souvent criblées d’erreurs.

Des chercheurs du MIT et de NVIDIA ont développé une nouvelle approche qui rassemble le meilleur des deux méthodes. Leur outil de génération d’image hybride utilise un modèle autorégressif pour capturer rapidement la vue d’ensemble, puis un petit modèle de diffusion pour affiner les détails de l’image.

L’œuvre est publiée sur le arxiv serveur de préimprimée.

Leur outil, connu sous le nom de HART (abréviation du transformateur autorégressif hybride), peut générer des images qui correspondent ou dépassent la qualité des modèles de diffusion de pointe, mais le faites environ neuf fois plus rapidement.

Le processus de génération consomme moins de ressources de calcul que les modèles de diffusion typiques, permettant à Hart d’exécuter localement un ordinateur portable ou un smartphone commercial. Un utilisateur n’a besoin que de saisir une invite en langage naturel dans l’interface HART pour générer une image.

Hart pourrait avoir un large éventail d’applications, comme aider les chercheurs à former des robots à accomplir des tâches complexes du monde réel et à aider les concepteurs à produire des scènes frappantes pour les jeux vidéo.

« Si vous peignez un paysage et que vous peignez la toile entière une fois, cela peut ne pas avoir l’air très bien. Mais si vous peignez la vue d’ensemble, puis affinez l’image avec des coups de pinceau plus petits, votre peinture pourrait être beaucoup mieux.

Il est rejoint par l’auteur co-dirigé Yecheng Wu, étudiant de premier cycle à l’Université Tsinghua; L’auteur principal Song Han, professeur agrégé du Département de génie électrique et informatique (EECS), membre du MIT-IBM Watson AI Lab, et un scientifique distingué de Nvidia; ainsi que d’autres au MIT, à l’Université Tsinghua et à Nvidia.

La recherche sera présentée à la Conférence internationale sur les représentations de l’apprentissage.

Le meilleur des deux mondes

Les modèles de diffusion populaires, tels que la diffusion stable et Dall-E, sont connus pour produire des images très détaillées. Ces modèles génèrent des images via un processus itératif où ils prédisent une certaine quantité de bruit aléatoire sur chaque pixel, soustrayent le bruit, puis répétent le processus de prédiction et de «dé-nuire» plusieurs fois jusqu’à ce qu’ils générent une nouvelle image complètement exempte de bruit.

Étant donné que le modèle de diffusion désaclace tous les pixels dans une image à chaque étape, et qu’il peut y avoir 30 étapes ou plus, le processus est lent et coûteux par calcul. Mais parce que le modèle a plusieurs chances de corriger les détails qu’il s’est trompé, les images sont de haute qualité.

Un nouvel outil d'IA génère des images de haute qualité plus rapidement que les approches de pointe

Les modèles autorégressifs, couramment utilisés pour prédire le texte, peuvent générer des images en prédisant les patchs d’une image séquentiellement, quelques pixels à la fois. Ils ne peuvent pas revenir en arrière et corriger leurs erreurs, mais le processus de prédiction séquentiel est beaucoup plus rapide que la diffusion.

Ces modèles utilisent des représentations appelées jetons pour faire des prédictions. Un modèle autorégressif utilise un autoencodeur pour compresser les pixels d’image bruts en jetons discrets et reconstruire l’image à partir de jetons prévus. Bien que cela augmente la vitesse du modèle, la perte d’informations qui se produit pendant la compression provoque des erreurs lorsque le modèle génère une nouvelle image.

Avec HART, les chercheurs ont développé une approche hybride qui utilise un modèle autorégressif pour prédire les jetons d’image compressés et discrets, puis un petit modèle de diffusion pour prédire les jetons résiduels. Les jetons résiduels compensent la perte d’informations du modèle en capturant les détails laissés de côté par des jetons discrets.

« Nous pouvons obtenir un énorme coup de pouce en termes de qualité de reconstruction. Nos jetons résiduels apprennent des détails à haute fréquence, comme les bords d’un objet, ou les cheveux, les yeux ou la bouche d’une personne. Ce sont des endroits où des jetons discrets peuvent faire des erreurs », explique Tang.

Étant donné que le modèle de diffusion ne prédit que les détails restants après que le modèle autorégressif a fait son travail, il peut accomplir la tâche en huit étapes, au lieu des 30 habituels ou plus qu’un modèle de diffusion standard nécessite de générer une image entière.

Cette surcharge minimale du modèle de diffusion supplémentaire permet à Hart de conserver l’avantage de vitesse du modèle autorégressif tout en améliorant considérablement sa capacité à générer des détails d’image complexes.

« Le modèle de diffusion a un travail plus facile à faire, ce qui conduit à plus d’efficacité », ajoute-t-il.

Surpasser les modèles plus grands

Au cours du développement de HART, les chercheurs ont rencontré des défis dans l’intégration efficace du modèle de diffusion pour améliorer le modèle autorégressif. Ils ont constaté que l’incorporation du modèle de diffusion dans les premiers stades du processus autorégressif a entraîné une accumulation d’erreurs. Au lieu de cela, leur conception finale de l’application du modèle de diffusion pour prédire uniquement les jetons résiduels, car l’étape finale a considérablement amélioré la qualité de génération.

Leur méthode, qui utilise une combinaison d’un modèle de transformateur autorégressif avec 700 millions de paramètres et un modèle de diffusion léger avec 37 millions de paramètres, peut générer des images de la même qualité que celles créées par un modèle de diffusion avec 2 milliards de paramètres, mais il le fait environ neuf fois plus rapidement. Il utilise environ 31% de calcul en moins que les modèles de pointe.

De plus, parce que Hart utilise un modèle autorégressif pour faire la majeure partie de l’œuvre – le même type de modèle qui alimente les LLMS – il est plus compatible pour l’intégration avec la nouvelle classe de modèles génératifs de vision unifiés. À l’avenir, on pourrait interagir avec un modèle génératif unifié de la vision, peut-être en lui demandant de montrer les étapes intermédiaires nécessaires pour assembler un meuble.

« Les LLM sont une bonne interface pour toutes sortes de modèles, comme des modèles et des modèles multimodaux qui peuvent raisonner. C’est un moyen de pousser l’intelligence vers une nouvelle frontière. Un modèle efficace de génération d’images débloquerait beaucoup de possibilités », dit-il.

À l’avenir, les chercheurs veulent emprunter ce chemin et construire des modèles de langue visuelle au-dessus de l’architecture Hart. Étant donné que HART est évolutif et généralisable à plusieurs modalités, ils souhaitent également l’appliquer pour des tâches de génération vidéo et de prédiction audio.