Un nouvel outil d'imagerie IA permet des manipulations 3D interactives d'images 2D

Un nouvel outil d’imagerie IA permet des manipulations 3D interactives d’images 2D

Notre approche DragGAN permet aux utilisateurs de « glisser » le contenu de toutes les images générées par le GAN. Les utilisateurs n’ont qu’à cliquer sur quelques points de poignée (rouge) et points cibles (bleu) sur l’image, et notre approche déplacera les points de poignée pour atteindre précisément leurs points cibles correspondants. Les utilisateurs peuvent éventuellement dessiner un masque de la région flexible (zone plus lumineuse), en gardant le reste de l’image fixe. Cette manipulation flexible basée sur des points permet de contrôler de nombreux attributs spatiaux tels que la pose, la forme, l’expression et la disposition dans diverses catégories d’objets. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2305.10973

Une équipe d’informaticiens du Max Planck Institute for Informatics, du MIT, de Google et de l’Université de Pennsylvanie a développé un nouvel outil d’imagerie IA pour la manipulation 3D interactive par l’utilisateur d’images 2D représentées sur une photographie. L’équipe a publié un article décrivant le nouvel outil, appelé DragGAN, sur le arXiv serveur de préimpression ainsi que de courtes vidéos illustrant ce que l’outil peut faire.

Photoshop est sorti pour la première fois à la fin des années 1980, et depuis lors, il et des applications similaires ont été utilisés pour éditer des photographies. Une telle utilisation est devenue un élément standard des médias sociaux – les gens photoshopent des images avant de les publier en ligne comme un moyen de « améliorer » eux. Dans ce nouvel effort, l’équipe de recherche a porté l’édition d’images à un tout autre niveau en ajoutant l’intelligence artificielle.

À première vue, DragGAN ressemble beaucoup à n’importe quel autre outil de manipulation d’images. Mais les vidéos publiées par l’équipe créative précisent qu’elle est capable de faire des choses qu’aucune application antérieure n’a même été près de réaliser, permettant aux utilisateurs de modifier des images en 3D imaginaire, à la volée. Les chercheurs appellent les résultats « contenu occlus halluciné. »

Les photographies, de par leur nature même, sont bidimensionnelles. Les outils de retouche photo précédents permettaient de flouter, de colorer ou même de corriger d’autres images. Mais toutes ces modifications sont basées sur l’effort de l’utilisateur – l’utilisateur doit diriger la correction des couleurs ou estomper les rides. Un outil de retouche photo basé sur l’IA, appris à reconnaître les caractéristiques en analysant des milliers ou des millions d’autres images, peut déduire à quoi pourraient ressembler les parties manquantes d’une image et apporter des modifications en fonction de cela, avec l’invite de l’utilisateur.

Dans une vidéo, par exemple, une photo d’une personne en colère peut être modifiée pour montrer la même personne en train de sourire, le tout d’un simple clic et glissement. Le visage de la personne peut également être tourné, révélant des parties de la tête qui n’ont jamais été capturées dans la photographie originale. De même, les voitures, les animaux ou les paysages peuvent être radicalement modifiés en quelques clics et glissements. L’ajout de l’IA à l’édition de photos ajoute une toute nouvelle dimension à la catégorie, une dimension qui pourrait faire autant de bruit que Photoshop lors de son introduction.