Un nouveau framework d'IA génère des images à partir de rien

Un nouveau cadre d’intelligence artificielle potentiellement révolutionnaire appelé « Blackout Diffusion » génère des images à partir d’une image complètement vide, ce qui signifie que, contrairement à d’autres modèles de diffusion générative, l’algorithme d’apprentissage automatique ne nécessite pas le lancement d’une « graine aléatoire » pour démarrer.

Blackout Diffusion, présenté lors de la récente Conférence internationale sur l’apprentissage automatique, génère des échantillons comparables aux modèles de diffusion actuels, tels que DALL-E ou Midjourney, mais nécessitent moins de ressources informatiques que ces modèles.

« La modélisation générative apporte la prochaine révolution industrielle avec sa capacité à faciliter de nombreuses tâches, telles que la génération de code logiciel, de documents juridiques et même d’art », a déclaré Javier Santos, chercheur en IA au Laboratoire national de Los Alamos et co-auteur de Diffusion occultante.

« La modélisation générative pourrait être exploitée pour réaliser des découvertes scientifiques, et le travail de notre équipe a posé les bases et les algorithmes pratiques pour appliquer la modélisation de diffusion générative à des problèmes scientifiques qui ne sont pas de nature continue. »

Les modèles de diffusion créent des échantillons similaires aux données sur lesquelles ils sont formés. Ils fonctionnent en prenant une image et en ajoutant du bruit à plusieurs reprises jusqu’à ce que l’image soit méconnaissable. Tout au long du processus, le modèle essaie d’apprendre comment le ramener à son état d’origine.

Les modèles actuels nécessitent du bruit d’entrée, ce qui signifie qu’ils ont besoin d’une certaine forme de données pour commencer à produire des images.

« Nous avons montré que la qualité des échantillons générés par Blackout Diffusion est comparable aux modèles actuels utilisant un espace de calcul plus petit », a déclaré Yen-Ting Lin, physicien de Los Alamos qui a dirigé la collaboration Blackout Diffusion.

Un autre aspect unique de Blackout Diffusion est l’espace dans lequel il fonctionne. Les modèles de diffusion générative existants fonctionnent dans des espaces continus, ce qui signifie que l’espace dans lequel ils travaillent est dense et infini. Cependant, travailler dans des espaces continus limite leur potentiel d’applications scientifiques.

« Pour faire fonctionner les modèles de diffusion générative existants, mathématiquement parlant, la diffusion doit vivre sur un domaine continu ; elle ne peut pas être discrète », a déclaré Lin.

D’autre part, le cadre théorique de l’équipe fonctionne dans des espaces discrets (ce qui signifie que chaque point de l’espace est isolé des autres par une certaine distance), ce qui ouvre des opportunités pour diverses applications, telles que les textes et les applications scientifiques.

L’équipe a testé Blackout Diffusion sur un certain nombre d’ensembles de données standardisés, notamment la base de données modifiée du National Institute of Standards and Technology ; l’ensemble de données CIFAR-10, qui contient des images d’objets dans 10 classes différentes ; et l’ensemble de données CelebFaces Attributes, qui comprend plus de 200 000 images de visages humains.

En outre, l’équipe a utilisé la nature discrète de Blackout Diffusion pour clarifier plusieurs idées fausses largement répandues sur la façon dont la diffusion modélise en interne, fournissant ainsi une compréhension critique des modèles de diffusion génératifs.

Ils fournissent également des principes de conception pour de futures applications scientifiques. « Cela démontre la première étude fondamentale sur la modélisation de la diffusion à états discrets et ouvre la voie à de futures applications scientifiques avec des données discrètes », a déclaré Lin.

L’équipe explique que la modélisation de diffusion générative peut potentiellement accélérer considérablement le temps passé à exécuter de nombreuses simulations scientifiques sur des superordinateurs, ce qui soutiendrait le progrès scientifique et réduirait l’empreinte carbone de la science informatique. Certains des divers exemples qu’ils mentionnent sont la dynamique des réservoirs souterrains, les modèles chimiques pour la découverte de médicaments et l’expression de gènes monomoléculaires et monocellulaires pour comprendre les mécanismes biochimiques dans les organismes vivants.

L’étude est publiée sur le arXiv serveur de préimpression.