L'outil AI permet aux utilisateurs de relancer les portraits à l'aide d'invites de texte descriptives

Un modèle d’IA innovant a été développé pour créer des effets d’éclairage dynamique dans les images et vidéos de portraits en utilisant uniquement la saisie de texte. Cette technologie permet aux utilisateurs d’ajuster facilement les couleurs avec des invites descriptives, telles que «poulet chaud et fraîchement cuit» et «lumière bleue glacée», éliminant le besoin d’outils d’édition complexes.

Le professeur Seungryul Bak et son équipe de la Unist Artificial Intelligence Graduate School ont introduit Text2Relight, un modèle fondamental spécifique à l’éclairage basé sur l’AI qui peut effectuer la réduction d’une seule image de portrait pilotée par une invite de texte créative comme indiqué dans l’image ci-dessus.

Cette étude, menée en collaboration avec Adobe, sera présentée lors de la 39e conférence annuelle de l’AAAI sur l’intelligence artificielle (AAAI 2025) à Philadelphie, qui se déroule au Pennsylvania Convention Center du 25 février au 4 mars 2025. La recherche a également été acceptée par l’Association pour l’avancement de l’intelligence artificielle (AAAI), une conférence dans le domaine. Il est disponible sur le arxiv serveur de préimprimée.

Le nouveau modèle excelle dans l’expression de diverses caractéristiques d’éclairage, telles que l’ambiance émotionnelle, aux côtés des couleurs et de la luminosité, tout au long des entrées de langage naturel. Notamment, il ajuste les couleurs du sujet et de l’arrière-plan simultanément, en maintenant l’intégrité de l’image d’origine.

Contrairement aux modèles de montage d’image basés sur du texte existants qui manquent de spécialisation dans les données d’éclairage et entraînent souvent une distorsion d’image ou un contrôle d’éclairage limité, Text2Relight fournit une solution plus raffinée.

Pour permettre à l’IA d’apprendre la corrélation entre les textes créatifs et l’éclairage, l’équipe de recherche a développé un ensemble de données synthétiques à grande échelle. Ils ont utilisé le chatppt et les modèles de diffusion basés sur le texte pour générer des données d’éclairage, tout en mettant en œuvre des techniques OLAT (One-Light-A-A-A-TO-TOS) et des méthodes de transfert d’éclairage pour explorer diverses conditions d’éclairage.

De plus, l’équipe a encore amélioré les fonctionnalités du modèle en formant des ensembles de données auxiliaires axés sur l’élimination de l’ombre et le positionnement de l’éclairage, améliorant ainsi la cohérence visuelle et le réalisme dans les effets d’éclairage.

Le professeur Bak a commenté: « Text2relight détient un potentiel important dans la création de contenu, notamment la réduction du temps d’édition dans la production photo et vidéo et l’amélioration de l’immersion dans les paramètres de réalité virtuelle et augmentée. »