De nouvelles recherches pourraient faire des images étranges créées par l'IA une chose du passé

L'intelligence artificielle générative (IA) a souvent du mal à créer des images cohérentes, se trompant souvent sur des détails comme les doigts et la symétrie faciale. De plus, ces modèles peuvent complètement échouer lorsqu'ils sont invités à générer des images à différentes tailles et résolutions.

La nouvelle méthode des informaticiens de l'Université Rice pour générer des images avec des modèles de diffusion pré-entraînés ⎯ une classe de modèles d'IA génératifs qui « apprendre » en ajoutant couche après couche de bruit aléatoire aux images sur lesquelles ils sont formés, puis en générant de nouvelles images en supprimant le bruit ajouté, cela pourrait aider à corriger ces problèmes.

Moayed Haji Ali, doctorant en informatique à l'université Rice, a décrit la nouvelle approche, appelée ElasticDiffusion, dans un article évalué par des pairs présenté à la conférence 2024 de l'Institute of Electrical and Electronics Engineers (IEEE) sur la vision par ordinateur et la reconnaissance de formes (CVPR) à Seattle.

« Les modèles de diffusion tels que Stable Diffusion, Midjourney et DALL-E créent des résultats impressionnants, générant des images assez réalistes et photoréalistes, » Haji Ali a déclaré. « Mais ils ont une faiblesse : ils ne peuvent générer que des images carrées. Donc, dans les cas où vous avez des rapports hauteur/largeur différents, comme sur un moniteur ou une montre connectée… c'est là que ces modèles deviennent problématiques. »

Si vous demandez à un modèle comme Stable Diffusion de créer une image non carrée, par exemple au format 16:9, les éléments utilisés pour créer l'image générée deviennent répétitifs. Cette répétition se manifeste par des déformations étranges dans l'image ou sur les sujets de l'image, comme des personnes avec six doigts ou une voiture étrangement allongée.

Les recherches sur Rice pourraient faire des images d'IA étranges une chose du passé

La manière dont ces modèles sont formés contribue également au problème.

« Si vous entraînez le modèle uniquement sur des images d'une certaine résolution, il ne peut générer que des images avec cette résolution, » a déclaré Vicente Ordóñez-Román, professeur associé d'informatique qui a conseillé Haji Ali sur son travail aux côtés de Guha Balakrishnan, professeur adjoint de génie électrique et informatique.

Ordóñez-Román a expliqué qu'il s'agit d'un problème endémique à l'IA connu sous le nom de surajustement, où un modèle d'IA devient excessivement efficace pour générer des données similaires à celles sur lesquelles il a été formé, mais ne peut pas s'écarter beaucoup de ces paramètres.

« Vous pourriez résoudre ce problème en entraînant le modèle sur une plus grande variété d'images, mais cela coûte cher et nécessite une puissance de calcul énorme ⎯ des centaines, voire des milliers d'unités de traitement graphique, » Ordóñez-Román a déclaré.

Selon Haji Ali, le bruit numérique utilisé par les modèles de diffusion peut être traduit en un signal avec deux types de données : local et global. Le signal local contient des informations détaillées au niveau du pixel, comme la forme d'un œil ou la texture de la fourrure d'un chien. Le signal global contient davantage un aperçu général de l'image.

« L’une des raisons pour lesquelles les modèles de diffusion ont besoin d’aide avec les rapports hauteur/largeur non carrés est qu’ils regroupent généralement les informations locales et globales, » a déclaré Haji Ali, qui a travaillé sur la synthèse du mouvement dans des vidéos générées par l'IA avant de rejoindre le groupe de recherche d'Ordóñez-Román à Rice pour ses études de doctorat. « Lorsque le modèle tente de dupliquer ces données pour tenir compte de l’espace supplémentaire dans une image non carrée, cela entraîne des imperfections visuelles. »

La méthode ElasticDiffusion de l'article de Haji Ali adopte une approche différente pour créer une image. Au lieu de regrouper les deux signaux ensemble, ElasticDiffusion sépare les signaux locaux et globaux en chemins de génération conditionnels et inconditionnels. Elle soustrait le modèle conditionnel du modèle inconditionnel, obtenant ainsi un score contenant des informations sur l'image globale.

Ensuite, le chemin inconditionnel avec les détails au niveau du pixel local est appliqué à l'image en quadrants, en remplissant les détails un carré à la fois. Les informations globales ⎯ quel doit être le rapport hauteur/largeur de l'image et quelle est l'image (un chien, une personne qui court, etc.) ⎯ restent séparées, il n'y a donc aucun risque que l'IA confonde les signaux et répète les données. Le résultat est une image plus nette quel que soit le rapport hauteur/largeur qui ne nécessite pas de formation supplémentaire.

« Cette approche est une tentative réussie d’exploiter les représentations intermédiaires du modèle pour les mettre à l’échelle afin d’obtenir une cohérence globale, » Ordóñez-Román a déclaré.

Le seul inconvénient d'ElasticDiffusion par rapport aux autres modèles de diffusion est le temps. Actuellement, la méthode de Haji Ali met 6 à 9 fois plus de temps à créer une image. L'objectif est de réduire ce temps d'inférence au même niveau que celui d'autres modèles comme Stable Diffusion ou DALL-E.

« J'espère que cette recherche permettra de définir pourquoi les modèles de diffusion génèrent ces parties plus répétitives et ne peuvent pas s'adapter à ces rapports hauteur/largeur changeants et de proposer un cadre capable de s'adapter exactement à n'importe quel rapport hauteur/largeur, quel que soit l'entraînement, au même moment d'inférence, » a déclaré Haji Ali.