Hybrid AI Model Cramez des vidéos lisses et de haute qualité en quelques secondes

Hybrid AI Model Cramez des vidéos lisses et de haute qualité en quelques secondes

À quoi ressemblerait une vidéo générée par un modèle d’intelligence artificielle? Vous pourriez penser que le processus est similaire à l’animation en stop-motion, où de nombreuses images sont créées et cousues ensemble, mais ce n’est pas tout à fait le cas pour les « modèles de diffusion » comme Sora d’Openai et Veo 2 de Google.

Au lieu de produire un cadre vidéo par trame (ou « de manière autorégressive »), ces systèmes traitent la séquence entière à la fois. Le clip résultant est souvent photoréaliste, mais le processus est lent et ne permet pas les changements à la volée.

Les scientifiques du MIT en matière d’informatique et de laboratoire d’intelligence artificielle (CSAIL) et d’Adobe Research ont maintenant développé une approche hybride, appelée «causvid», pour créer des vidéos en quelques secondes. Tout comme un élève à l’esprit rapide apprenant d’un enseignant bien versé, un modèle de diffusion complet forme un système autorégressif pour prédire rapidement le cadre suivant tout en garantissant une qualité et une cohérence de haute. Le modèle étudiant de Causvid peut ensuite générer des clips à partir d’une simple invite de texte, transformer une photo en scène en mouvement, étendre une vidéo ou modifier ses créations avec de nouvelles entrées en milieu de génération.

Cet outil dynamique permet la création de contenu rapide et interactive, coupant un processus en 50 étapes en quelques actions. Il peut fabriquer de nombreuses scènes imaginatives et artistiques, comme un avion en papier se transformant en un cygne, des mammouths laineux s’aventurer à travers la neige, ou un enfant sautant dans une flaque d’eau. Les utilisateurs peuvent également faire une invite initiale, comme « Générer un homme traversant la rue », puis faire des entrées de suivi pour ajouter de nouveaux éléments à la scène, comme « Il écrit dans son cahier quand il arrive au trottoir opposé ».

Les chercheurs du CSAIL disent que le modèle pourrait être utilisé pour différentes tâches d’édition vidéo, comme aider les téléspectateurs à comprendre un flux en direct dans une langue différente en générant une vidéo qui se synchronise avec une traduction audio. Cela pourrait également aider à rendre le nouveau contenu dans un jeu vidéo ou à produire rapidement des simulations d’entraînement pour enseigner aux robots de nouvelles tâches.

Tianwei Yin SM ’25, Ph.D. ’25, un étudiant récemment diplômé en génie électrique et en informatique et affilié CSAIL, attribue la force du modèle à son approche mixte.

« Causvid combine un modèle basé sur la diffusion pré-formé avec une architecture autorégressive qui se trouve généralement dans les modèles de génération de texte », explique Yin, co-dirigeant l’auteur d’un nouvel article sur l’outil disponible sur le arxiv serveur de préimprimée. « Ce modèle d’enseignant propulsé par l’IA peut envisager de futures étapes pour former un système cadre par trame afin d’éviter de faire des erreurs de rendu. »

L’auteur co-dirigé de Yin, Qiang Zhang, est chercheur à XAI et ancien chercheur en visite de CSAIL. Ils ont travaillé sur le projet avec les chercheurs en Adobe Richard Zhang, Eli Shechtman et Xun Huang, et deux chercheurs principaux de CSAIL: les professeurs du MIT Bill Freeman et Frédo Durand.

Causal (vid) et effet

De nombreux modèles autorégressifs peuvent créer une vidéo initialement lisse, mais la qualité a tendance à tomber plus tard dans la séquence. Un clip d’une personne qui coule peut sembler réaliste au début, mais ses jambes commencent à se détourner dans des directions non naturelles, indiquant des incohérences de trame à trame (également appelée « accumulation d’erreur »).

La génération vidéo sujette aux erreurs était courante dans les approches causales antérieures, qui ont appris à prédire les cadres un par un seuls. Causvid utilise plutôt un modèle de diffusion de haute puissance pour enseigner à un système plus simple son expertise vidéo générale, lui permettant de créer des visuels lisses, mais beaucoup plus rapidement.

Causvid a affiché son aptitude vidéo lorsque les chercheurs ont testé sa capacité à réaliser des vidéos à haute résolution de 10 secondes. Il a surpassé les références comme « OpenSora » et « MovieGen », travaillant jusqu’à 100 fois plus vite que sa concurrence tout en produisant les clips les plus stables et de haute qualité.

Ensuite, Yin et ses collègues ont testé la capacité de Causvid à publier des vidéos stables de 30 secondes, où il a également dépassé les modèles comparables sur la qualité et la cohérence. Ces résultats indiquent que Causvid peut éventuellement produire des vidéos stables et de plusieurs heures ou même une durée indéfinie.

Une étude ultérieure a révélé que les utilisateurs préféraient les vidéos générées par le modèle étudiant de Causvid à son enseignant basé sur la diffusion.

« La vitesse du modèle autorégressif fait vraiment une différence », explique Yin. « Ses vidéos semblent aussi bonnes que celles de l’enseignant, mais avec moins de temps pour produire, le compromis est que ses visuels sont moins diversifiés. »

Causvid a également excellé lorsqu’il a été testé sur plus de 900 invites à l’aide d’un ensemble de données de texte à vidéo, recevant le score global le plus élevé de 84,27. Il se vantait des meilleures mesures dans des catégories comme la qualité de l’imagerie et les actions humaines réalistes, éclipsant des modèles de génération de vidéos de pointe comme « Vchitect » et « Gen-3 ».

Bien qu’un pas en avant efficace dans la génération de vidéos IA, Causvid pourrait bientôt être en mesure de concevoir des visuels encore plus rapidement – peut-être instantanément – avec une architecture causale plus petite. Yin dit que si le modèle est formé sur des ensembles de données spécifiques au domaine, il créera probablement des clips de meilleure qualité pour la robotique et les jeux.

Les experts disent que ce système hybride est une mise à niveau prometteuse des modèles de diffusion, qui sont actuellement enlisés par les vitesses de traitement. « [Diffusion models] sont beaucoup plus lents que les LLM [large language models] ou des modèles d’images génératifs « , explique le professeur adjoint de l’Université Carnegie Mellon, Jun-Yan Zhu, qui n’était pas impliqué dans le journal.

« Ce nouveau travail change, ce qui rend la génération de vidéos beaucoup plus efficace.