Le nouvel outil d'IA de Nvidia permet une modification précise des scènes 3D et des images photoréalistes

Au cours des dernières années, les informaticiens ont introduit des modèles d'IA génératifs de plus en plus sophistiqués qui peuvent produire du contenu personnalisé après des entrées ou des instructions spécifiques. Bien que les modèles de génération d'images soient désormais largement utilisés, beaucoup d'entre eux sont imprévisibles et contrôlent précisément les images qu'ils créent reste un défi.

Dans un article récent présenté lors de la conférence de cette année sur la vision par ordinateur et la reconnaissance des modèles (CVPR 2025), qui s'est tenue à Nashville, du 11 au 15 juin, des chercheurs de NVIDIA ont introduit DiffusionRenderrer, une nouvelle approche d'apprentissage automatique qui pourrait faire avancer la génération et l'édition des images, permettant aux utilisateurs d'ajuster précisément les attributs d'images spécifiques.

« L'IA générative a fait d'énormes progrès dans la création visuelle, mais il introduit un flux de travail créatif entièrement nouveau qui diffère des graphiques classiques et lutte toujours avec la contrôlabilité », a déclaré à Tech Xplore de Sanja Fidler, vice-président de la recherche sur l'IA à Nvidia et chef du laboratoire d'intelligence spatiale.

« Avec DiFfusionRenderer, nous voulions combler cet écart en combinant la précision des pipelines graphiques traditionnels avec la flexibilité de l'IA. Notre objectif est d'explorer et de concevoir la prochaine génération de rendu pour être plus accessible, contrôlable et facilement intégré aux outils existants. »

La nouvelle approche introduite par Fidler et ses collègues peuvent convertir des vidéos individuelles bidimensionnelles (2D) en représentations de scène compatibles graphiques. Notamment, il permet également aux utilisateurs d'ajuster l'éclairage et les matériaux dans les représentations, produisant de nouveaux contenus alignés sur leurs besoins et leurs préférences.

« DiffusionRenderer est une énorme percée car elle résout simultanément deux défis de longue date dans l'infographie – rendu inverse pour tirer la géométrie et les matériaux des vidéos du monde réel, et le rendu avant pour générer des images photoréalistes et des vidéos des représentations de scène », a déclaré Fidler.

« L'une des réalisations les plus excitantes de diffusionRenderer est qu'elle amène l'IA générative au cœur des flux de travail graphiques et le complète en rendant des tâches traditionnellement longues comme la création d'actifs, la réévolution et l'édition de matériaux plus efficaces. »

La nouvelle approche de rendu neuronal introduit par les chercheurs s'appuie sur des modèles de diffusion, une classe d'algorithmes d'apprentissage en profondeur qui peuvent générer des images en affinant progressivement le bruit aléatoire en graphiques cohérents. Contrairement à d'autres techniques de génération d'images introduites dans le passé, DiffusionRenderer fonctionne en produisant d'abord des Buffers G (c'est-à-dire des représentations d'images intermédiaires décrivant des attributs spécifiques), puis en utilisant ces représentations pour créer des images nouvelles et réalistes.

« Nous sommes également fiers de la percée que nous avons faite dans la construction d'un ensemble de données synthétiques de haute qualité avec un éclairage et des matériaux précis pour aider le modèle à apprendre à décomposer et à reconstruire de manière réaliste », a expliqué Fidler. « Nous avons constaté que les échelles de qualité avec la taille du modèle de diffusion vidéo sous-jacente – ce qui signifie lorsque nous avons intégré à Nvidia Cosmos, les résultats deviennent encore plus nets et plus cohérents. »

À l'avenir, DiffusionRenderer pourrait être utilisé par les chercheurs en robotique et les professionnels de la création. Par exemple, cela pourrait s'avérer précieux pour les créateurs de contenu qui développent des jeux vidéo, des publicités ou des films, car il leur permettrait d'ajouter, de supprimer ou de modifier des attributs spécifiques avec une haute précision. Il pourrait également être utilisé par les informaticiens pour créer des données photoréalistes pour former des algorithmes pour la robotique ou la classification des images.

« Son autre grand impact pourrait figurer dans la simulation et l'IA physique – la robotique et la formation AV ont besoin des ensembles de données les plus diversifiés possibles, et DiffusionRenderer peut générer de nouvelles conditions d'éclairage à partir de nouvelles scènes », a ajouté Fidler. «Nous sommes ravis de continuer à repousser les limites de cet espace.

« Nos travaux futurs se concentrent sur la génération de résultats encore de qualité, l'amélioration de l'efficacité de l'exécution et l'ajout de fonctionnalités plus puissantes comme le contrôle sémantique, le compositing d'objets et les outils d'édition plus avancés. »

Écrit pour vous par notre auteur Ingrid Fadelli, édité par Lisa Lock, et vérifié et examiné par Andrew Zinin – cet article est le résultat d'un travail humain soigneux. Nous comptons sur des lecteurs comme vous pour garder le journalisme scientifique indépendant en vie. Si ce rapport vous importe, veuillez considérer un don (surtout mensuel). Vous obtiendrez un sans publicité compte comme un remerciement.