VideoGigaGAN d'Adobe utilise l'IA pour rendre les vidéos floues nettes et claires

Une équipe d'ingénieurs vidéo et IA d'Adobe Research a développé une application d'IA appelée VideoGigaGAN, capable d'accepter une vidéo floue et de l'améliorer pour en faire un produit beaucoup plus efficace. L'équipe décrit son travail et ses résultats dans un article publié sur le arXiv serveur de préimpression. Ils ont également publié plusieurs exemples de vidéos qu'ils ont améliorées sur la page Web de leur projet.

Les applications d'IA ont fait beaucoup parler d'elles ces derniers temps, principalement en raison de la sortie de LLM, tels que ChatGPT, que les consommateurs peuvent utiliser pour générer une grande variété de résultats. Mais les recherches sur l’IA se poursuivent également dans d’autres domaines, comme la création d’images et de vidéos artificielles.

Dans ce nouvel effort, l'équipe d'Adobe a créé une application capable d'accepter un échantillon vidéo flou et, après traitement, de renvoyer le même échantillon avec une netteté et une clarté considérablement améliorées, également appelée mise à l'échelle.

Il s'appelle VideoGigaGAN – le nom vient de son application précédemment présentée, GigaGAN, qui générait de nouvelles photos ou améliorait les anciennes. GAN signifie réseau contradictoire génératif.

Comme son nom l'indique, l'équipe a utilisé un réseau contradictoire génératif pour enseigner au système à quoi ressemble une vidéo nette et claire (comme des poils individuels dans les sourcils, plutôt qu'une masse floue), puis a ajouté un « module de propagation guidée par flux » pour garder des choses cohérentes entre les images vidéo.

Ils ont également utilisé des techniques d'anticrénelage pour éviter ce qu'ils décrivent comme une « bizarrerie de l'IA » et une navette de fonctionnalités haute fréquence pour gérer les baisses inattendues de la qualité vidéo.

Le résultat, affirme l’équipe, est un système capable d’améliorer jusqu’à huit fois la qualité de l’image vidéo, le tout sans introduire de colorations étranges, de lignes inégales ou d’autres problèmes bien connus avec les images et vidéos générées par l’IA.

Ils reconnaissent qu’une partie des résultats est entièrement générée artificiellement sur la base d’estimations faites par le système alors qu’il cherche à compléter les images manquantes. Des pores de la peau, par exemple, ou des lignes autour des yeux, ou même des cils, sont ajoutés pour donner à la vidéo résultante une qualité nette et claire.

L'équipe note que pour l'instant, l'annonce du système est une démonstration et non une version en attente ; ainsi, il n'est pas clair si Adobe le publiera pour un usage général.