Le modèle AI transforme des vidéos floues et agitées en images claires et transparentes

Une équipe de recherche, dirigée par le professeur Jaejun Yoo de la Graduate School of Artificial Intelligence d'Unist, a annoncé le développement d'un modèle avancé d'intelligence artificielle (IA), « BF-STVSR (super-résolution vidéo spatio-temporelle), » capable d'améliorer simultanée.

Cette recherche a été menée par le premier auteur Eunjin Kim, avec Hyeonjin Kim en tant que co-auteur. Leurs résultats ont été présentés lors de la conférence sur la vision par ordinateur et la reconnaissance des modèles (CVPR 2025) tenue à Nashville du 11 au 15 juin. L'étude est publiée sur le arxiv serveur de préimprimée.

La résolution et la fréquence d'images sont des facteurs critiques qui déterminent la qualité vidéo. Une résolution plus élevée se traduit par des images plus nettes avec des visuels plus détaillés, tandis que l'augmentation des fréquences d'images garantit un mouvement plus fluide sans sauts brusques.

Les techniques traditionnelles de restauration vidéo basée sur l'IA gèrent généralement la résolution et l'amélioration de la fréquence d'images séparément, en s'appuyant fortement sur les réseaux de prédiction de débit optique pré-formés pour l'estimation du mouvement. Le flux optique calcule la direction et la vitesse du mouvement de l'objet pour générer des cadres intermédiaires. Cependant, cette approche implique des calculs complexes et est sujet à des erreurs accumulées, limitant à la fois la vitesse et la qualité de la restauration vidéo.

En revanche, « BF-STVSR » introduit des méthodes de traitement du signal adaptées aux caractéristiques vidéo, permettant au modèle d'apprendre le mouvement bidirectionnel entre les trames indépendamment, sans dépendance à des réseaux de débit optique externes. En déduisant conjointement les contours des objets et le flux de mouvement, le modèle améliore efficacement la résolution et la fréquence d'images simultanément, entraînant une reconstruction vidéo plus naturelle et cohérente.

L'application de ce modèle d'IA à des vidéos à faible résolution et à faible trame a démontré des performances supérieures par rapport aux modèles existants, comme en témoignent les scores de rapport signal / bruit plus élevés (PSNR) et d'indice de similitude structurelle (SSIM). Des valeurs élevées de PSNR et de SSIM indiquent que même des vidéos avec un mouvement significatif conservent des figures humaines et des détails humains claires et non distortées, produisant des résultats plus réalistes.

Le professeur Yoo a expliqué: « Cette technologie a des applications générales, de la restauration des séquences de caméras de sécurité ou des enregistrements de boîte noire capturés avec des appareils bas de gamme pour améliorer rapidement des vidéos de streaming compressées pour le contenu multimédia de haute qualité. Il peut également bénéficier à des domaines tels que l'imagerie médicale et la réalité virtuelle (VR). »

Fourni par unist