Vidéos générées par l'IA: Comment fonctionnent les nouveaux modèles

Au cours des neuf derniers mois (pendant que nous écrivons, nous sommes en septembre 2025), OpenII a rendu Sora public, Google Deepmind a lancé VEO 3 et la piste de startup a introduit Gen-4. Ces outils produisent des clips difficiles à distinguer du tournage réel ou des animations CGI. Même Netflix a adopté les effets générés par l'IA dans L'Eternautmarquant les débuts à la télévision de masse de cette technologie.

Si une fois qu'ils étaient démo avec l'art, aujourd'hui, quiconque, avec un abonnement à Chatgpt ou Gemini, peut demander à produire une vidéo au général, le résultat n'est pas toujours parfait, mais la facilité d'utilisation a démocratisé la création audiovisuelle.

Comment les vidéos à gén fonctionnent: la diffusion, du chaos à l'image

Le cœur de la technologie de génération de vidéos est le modèle de diffusion. Imaginez une image sale avec des pixels aléatoires jusqu'à ce que vous le réduisez à une télévision statique. Un modèle de diffusion apprend à inverser le processus: du bruit au contenu. Pendant l'entraînement, il observe des millions d'images à différents niveaux de dégradation, en apprenant à les «nettoyer» pas à pas.

Lorsque l'utilisateur fournit une invite de texte, un modèle linguistique (LLM) mène la diffusion, la poussant vers des images cohérentes avec la description. Cependant, des ensembles de données utilisés (des milliards de couples d'image texte / vidéo extraits du Web) font des critiques des créateurs, inquiets de l'utilisation non autorisée de leurs œuvres.

De la diffusion latente aux vidéos

Le problème est que l'élaboration de millions de pixels pour chaque trame vidéo n'est pas durable. C'est pourquoi la diffusion latente est utilisée, qui comprime les images et le texte dans un « code mathématique » essentiel. C'est un peu comme le streaming: la vidéo se rend compressée et est reconstruite à l'écran.

À la fin du processus, le modèle définit les trames générées, transformant les codes numériques en clips visualisés. Plus efficace, bien sûr, mais toujours énergiquement par rapport à la génération d'images ou de textes.

L'aide du transformateur: cohérence entre les cadres

L'étape suivante consiste à garantir la cohérence visuelle. OpenII a combiné la diffusion avec le transformateur, des modèles connus pour gérer les séquences de données (mots dans les textes, cadres dans la vidéo). En tant que Tim Brooks, le chercheur de Sora explique: « C'est comme avoir un tas de cadre vidéo et le couper en petits cubes ».

Cette architecture vous permet de maintenir des objets et des lumières stables d'un cadre à un autre, en évitant que les éléments apparaissent ou disparaissent. De plus, les vidéos peuvent être formées dans divers formats – de la verticale pour les smartphones aux productions cinématographiques – élargissant énormément la flexibilité des modèles.

L'audio: la fin du changement change

La vraie révolution Veo 3 est l'audio intégré. Pour la première fois, un modèle génère des vidéos avec des dialogues synchronisés, des effets sonores et des bruits environnementaux. En tant que Demabis, PDG de DeepMind, a déclaré: « Nous quittons l'ère du cinéma silencieux de la génération de vidéos ».

Le secret est une nouvelle technique qui comprime ensemble audio et vidéo ensemble, permettant au processus de diffusion de les gérer en parallèle et parfaitement synchronisé.

Le côté obscur: consommation d'énergie et faux contenu

L'autre côté de la médaille est double. D'une part, les créateurs rivalisent avec une vague de contenu médiocre (« Aux slops « ) qui obstruent les réseaux sociaux. De l'autre, la génération de vidéos consomme d'énormes quantités d'énergie, bien plus que du texte ou des images, soulevant des questions sur la durabilité.

Diffusion contre le transformateur: une convergence entrante

Aujourd'hui, les modèles de diffusion dominent dans la génération d'images, d'audio et de vidéo, tandis que les LLM textuelles sont basées sur le transformateur. Mais les lignes s'évanouissent. Google Deepmind a même annoncé un prototype LLM basé sur la diffusion, potentiellement plus efficace que les modèles actuels.

L'avenir pourrait donc voir une approche entre les approches, avec l'IA capable de créer des textes, des images, de l'audio et de la vidéo en exploitant des combinaisons hybrides de diffusion et de transformateur.

Architecture générale: principes communs

Diffusion latente (modèles de diffusion latente, LDM)
De nombreux modèles modernes ne fonctionnent pas directement sur les pixels bruts de la vidéo, mais compressent les cadres vidéo, via un VAE (Autoencoder variationnel) ou similaires, dans un espace latent. Il y a le processus de diffusion, c'est-à-dire un processus itératif de « bruit → Deenising ». Cela réduit les coûts de calcul et la mémoire.
Patch temporo-spatial / patch d'espace-temps
Pour gérer la taille supplémentaire du temps, les vidéos sont divisées en « patch » qui ne sont pas seulement l'espace (parties de l'image), mais aussi les orages: petits cubes d'espace-temps. Les transformateurs sont appliqués aux séquences de ces jeton / patch. Cela vous permet de modéliser soigneusement les relations spatiales (à l'intérieur d'un cadre) et les relations temporelles (entre les cadres).
Transformateur + diffusion
Le modèle de diffusion fournit le « rhombus » génératif (le bruit affiné), tandis que le transformateur (ou série de blocs de transformateurs) est le composant qui guide qui traite, modélisant les dépendances temporelles, la cohérence, les conditions (invite de texte, conditions visuelles, etc.).
Conditionnement du texte et autres signaux
Pour s'assurer que la vidéo suit une invite de texte («une forêt au coucher du soleil», etc.), le modèle intègre des mécanismes de conditionnement: Attribution croisée, intégration du texte, normalisation adaptative conditionnelle, etc. Ces signaux aident à « pousser » la génération vers ce que veut l'utilisateur.
Sur les aspects temporels / cohérence
Un gros problème technique est de garantir que les objets, les lumières, les couleurs, les passerelles, les prospects restent cohérents le long de la séquence de cadres, pour éviter les « sauts », les « tirs », les changements soudains qui distraient. Pour cela, ils sont utilisés:
- Attention temporelle explicite entre les cadres voisins;
- modules fonctionnant sur des séquences temporelles dans le transformateur;
- Apprendre avec un ensemble de données vidéo qui présente une grande variété (durées, coins, mouvements) pour « former » la stabilité.
Cascade / Super-Risolution
Pour obtenir des vidéos avec des résolutions plus élevées ou avec une qualité visuelle accrue, une approche des stades est souvent utilisée: elle est d'abord générée dans la résolution latente / les modèles de base, les modèles de modèles sont appliqués augmentation ou super-révolution vidéo.

Défis techniques

Évolutivité informatique: la quantité de données vidéo est énorme, tant en termes de pixels et de séquences temporelles. Même avec la latence et la compression, le coût reste élevé.
Cohérence à long terme: garder les thèmes, les objets, le style, l'éclairage sur de longues durées restent difficiles, surtout s'il y a de nombreux changements de scène.
Mémoire et vitesse pendant l'entraînement et l'inférence: l'attention de l'espace-temps est coûteuse; De nombreux modèles utilisent l'attention locale (Ferré), moduler le nombre de trames / processus, ou utiliser de lourds niveaux de compression.
Détails vs compression: la compression améliore l'efficacité mais perd les détails; Certains modèles essaient de récupérer par le décodage raffiné ou les modules de super-révolution.
Conditionnement / contrôle: les invites de texte peuvent être vagues; Mieux vaut mieux contrôler les images de référence, le mouvement, la physique, la synchronisation audio-vidéo est toujours un domaine de recherche actif.

Les détails techniques de Sora, Veo 3 et Gen-4

Sora (OpenII)

Durée maximale: avec l'éditeur vidéo, les utilisateurs peuvent générer des vidéos jusqu'à 20 secondes en gardant une bonne qualité visuelle et une adhésion à l'invite.
Résolution et plans: avec la vidéo de la vidéo ChatGpt Plus jusqu'à 720p, 10 secondes; Avec Chatgpt Pro, vous obtenez jusqu'à 1080p, 20 secondes et vu des clips sans filigrane.
Formats: Diverses relations avec l'aspect supporté (horizontal, vertical, carré).
Filtres de sécurité: Sora a déjà un système robuste de « filtrage de contenu », surveillant les abus, bloc de contenu sensible; Par exemple, les limites de la génération d'images réalistes de personnes pour atténuer le risque defake profond.

Veo 3 (Google)

Vidéo avec audio natif: VEO 3 génère non seulement des images / vidéos, mais aussi de l'audio synchronisé (dialogues, effets, bruits environnementaux) dans le cadre du processus.
Résolution et formats: prend en charge les vidéos en 720p et 1080p; Les aspects de l'apparence 16: 9 (horizontaux) et 9:16 (verticaux) sont autorisés.
Longueur: les vidéos générées avec l'invite de texte durent généralement 8 secondes.
Veo 3 Fast: Version plus rapide et bon marché par rapport à Veo 3 « Standard », qui maintient une qualité de haute qualité mais optimise les temps et les coûts. Idéal pour les prototypes ou les applications où vous devez générer de nombreuses vidéos.
Limites de l'API: quelques demandes par minute par projet; Numéro de vidéo maximum par demande; longueur de la vidéo limitée (4, 6, 8 secondes) pour certains cas; Taille d'image maximale si vous utilisez le mode image à vidéo.

Gen-4 (piste)

Contrôle élevé et cohérence: Gen-4 vous permet de fournir des images de référence (« Images de référence« ) Pour les sujets, les objets ou les environnements que vous souhaitez maintenir la cohérence visuelle à travers les cadres (même sous différents coins, changements de lumières).
Duodes et mode: produit des vidéos de 5 ou 10 secondes basées sur l'invite d'image + de texte. Il existe la version « Turbo » qui accélère les générations et est moins chère.
Améliorations par rapport aux versions précédentes: mouvements plus réalistes, réduction des artefacts visuels (objets d'objets, changements d'objet / caractère entre le cadre), meilleure interprétation des invites complexes.
Similitude avec les vidéos VFX / Animation: Runway souligne que Gen-4 peut l'intégrer ou le supporter pour du contenu d'action en direct, des effets d'animation et des effets visuels, offrant une flexibilité pour les productions hybrides.

Que pensent certains réalisateurs célèbres des vidéos générées par l'IA

Steven Spielberg

Spielberg a déclaré qu'il ne voulait pas prendre des décisions créatives qu'il ne pouvait pas contrôler lui-même. (L'étoile)
Il est contraire à l'idée d'utiliser l'IA comme « collaborateur non humain » dans la narration ou dans les principales composantes artistiques des films. (L'étoile)
Pour le moment, il admet que l'IA peut servir d'outil dans les coulisses (logistique, planification, financement) mais place une ligne – « une ligne dans le sable » – au-delà de laquelle il ne veut pas aller. (MENTHE)

Tim Burton

Tim Burton a expressément critiqué les imitations automatiques de son style faites avec l'IA, les appelant « dérangeantes ».
Il a dit que c'était comme si un robot « volé l'humanité », en ce sens que sa vision personnelle, le trait artistique fait d'imperfections et de choix humain, est vidé d'imitations numériques. (Ew.com)

Hayao Miyazaki

Miyazaki est probablement l'un des critiques les plus connus de cette tendance: il a dit que certaines animations générées pour lui faire frissonner, appelant certaines œuvres « une insulte à la vie elle-même ».
Il ne prévoit pas d'utiliser l'IA dans les études de Ghibli, du moins comme il le voit maintenant, car il croit que l'art nécessite une expérience humaine, une émotion, une souffrance, des éléments que l'IA ne peut pas « ressentir ». (Wikipedia)

Rob Minkoff (« The Lion King »)

Minkoff voit l'IA avec un certain espoir: il pense qu'il peut « démocratiser » le cinéma, réduisant les barrières pour ceux qui n'ont pas d'excellentes ressources.
Dans le même temps, il reconnaît qu'il y a de réelles préoccupations concernant le droit d'auteur, la propriété intellectuelle, l'utilisation non éthique du contenu de formation. (CNBC)

Christopher Nolan

Nolan a averti qu'il y a un moment « à Oppenheimer » également pour les experts de l'IA, c'est-à-dire que les implications morales et sociales sont si fortes qu'elles doivent être traitées de manière responsable.
Il estime que l'IA peut représenter des « opportunités terribles » dans des secteurs tels que les effets visuels, tant qu'ils sont équilibrés par la responsabilité: ceux qui utilisent l'IA doivent être responsables de ses décisions. (Le gardien)

Cage de Nicolas

La cage est très critique. Il a dit que « les robots ne peuvent pas refléter la condition humaine » et que permettre à l'IA de manipuler les performances est susceptible de consommer la vérité, la pureté et l'intégrité de l'art.
Il a averti que si vous laissiez l'IA trop entrer dans le processus artistique, la poussée vers les intérêts financiers peut éventuellement remplacer le cœur de l'art. (Forbes)