Meta Movie Gen le "réalisateur" de l'IA qui défie OpenAI et Runway

Meta, la société mère d'Instagram et Facebook, a annoncé le lancement de des modèles d'intelligence artificielle capables de générer des vidéos réalistes à partir d'instructions textuellesnommé Génération de films. Ces outils sont destinés à concurrencer les offres de OpenAI Et Pistesciblant les cinéastes et les créateurs de contenu. La suite de modèles vous permet d'effectuer diverses tâches, telles que la génération de vidéos d'une durée maximale de 16 secondes, le montage vidéo, la correspondance des sons avec les vidéos et la personnalisation avec des images spécifiques.

Meta pense à Hollywood et influenceurs

Meta entend proposer ces outils de génération vidéo aux cinéastes, artistes et influenceurs hollywoodiens qui créent du contenu sur ses plateformes sociales. Bien qu'OpenAI ait annoncé son modèle de génération vidéo, Sora, en février et l'ait présenté à l'industrie cinématographique, il n'a pas encore été commercialisé en tant que produit. Meta, qui a publié quelques exemples de vidéos générées par ses modèles, s'attend à ce que l'intégration dans ses plates-formes d'utilisateurs ait lieu au plus tôt l'année prochaine.

Les défis techniques et le potentiel par Movie Gen

Connor Hayesvice-président des produits d'IA générative chez Meta, a souligné qu'actuellement, les fonctionnalités de montage et de génération vidéo sur Instagram pourraient ne pas répondre aux attentes des utilisateurs en termes de vitesse. Cependant, il a ajouté que « ces modèles pourraient être très puissants pour créer et éditer des Reels », la fonctionnalité de création et de partage de vidéos d'Instagram.

Meta Movie Gen – exemple vidéo

Un marché en expansion

L'initiative de Meta fait partie d'un effort plus large des entreprises technologiques visant à développer des outils pouvant être utilisés dans l'industrie du divertissement, y compris la publicité, cherchant à monétiser les progrès de l'intelligence artificielle. Par exemple, Runway a récemment signé un accord avec Lionsgate pour entraîner un modèle personnalisé sur sa bibliothèque de films.

Meta affirme que ses vidéos surpassent celles de ses concurrents, tels que Sora et Runway, en termes de « qualité globale, de mouvement, de naturel et de cohérence », sur la base d’évaluations humaines aveugles. Les modèles ont été formés sur « une combinaison d’ensembles de données sous licence et accessibles au public », mais Meta n’a pas fourni plus de détails.

Meta Movie Gen en détail

Movie Gen, un ensemble de modèles de base qui génèrent Vidéo HD 1080p de haute qualité avec plusieurs formats d'image et audio synchronisé. Les fonctionnalités supplémentaires sont le montage vidéo basé sur des instructions précises et la génération de vidéos personnalisées basées sur l'image de l'utilisateur.
Les modèles établissent un nouvel état de l'art sur plusieurs tâches : synthèse texte-vidéo, personnalisation vidéo, montage vidéo, génération vidéo-audio et génération texte-audio.

Le plus grand modèle de génération vidéo est un transformateur avec paramètres 30B formé avec une longueur de contexte maximale de 73 000 jetons vidéo,
correspondant à une vidéo générée de 16 secondes à 16 images par seconde.

En mettant à l'échelle les données de formation, les calculs et les paramètres de modèle d'un modèle simple basé sur Transformer (Vaswani et al., 2017) formé avec Correspondance de flux (Lipman et al., 2023) produit des modèles génératifs de haute qualité pour la vidéo ou l'audio.
pour la vidéo ou l'audio. Les modèles sont pré-entraînés sur des données d’images, vidéo et audio à l’échelle Internet.

Génération de films Modifier

Meta a encore amélioré la post-formation du modèle Vidéo de génération de film pour obtenir des vidéos personnalisées conditionnées par le visage d'une personne. Il s'agit d'une procédure post-formation sans précédent pour produire Film Gen Edit, peut éditer avec précision des vidéos. Ensemble, ces modèles peuvent être utilisés pour créer des vidéos HD personnalisées et réalistes jusqu'à 16 secondes (à 16 FPS) et un son 48 kHz, avec la possibilité d'éditer des vidéos réelles ou générées.

Quant au génération de texte en vidéoMeta a surpassé l'état de l'art précédent, y compris les systèmes commerciaux tels que Piste Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) concernant la qualité globale des vidéos.

De plus, Custom Video Gen et Movie Gen Edit permettent une nouvelle personnalisation vidéo et des capacités d'édition vidéo précises.
Ces deux capacités sont absentes des systèmes commerciaux actuels. Même sur ces deux tâches, Meta a surpassé tous les travaux précédents.

Enfin, Movie Gen Audio surpasse l'état de l'art précédent, y compris les systèmes commerciaux tels que PikaLabs (Pika Labs) et OnzeLabs (ElevenLabs) pour générer des effets sonores, pour générer de la musique et pour générer des effets sonores.
Pour permettre de futures analyses comparatives, Meta prévoit de publier plusieurs analyses comparatives.

Movie Gen, aperçu

Le modèle de diffusion Movie Gen génère des vidéos avec de l'audio synchronisé, des caractères personnalisés et prend en charge le montage vidéo.
Ces larges capacités sont obtenues grâce à deux modèles de base :

Vidéo de génération de film. Un modèle de paramètres 30B de base pour la génération conjointe de texte-image et de texte-vidéo qui génère des vidéos HD de haute qualité d'une durée maximale de 16 secondes qui suivent le texte demandé.
Le modèle génère naturellement des images et des vidéos de haute qualité dans différents rapports hauteur/largeur et avec des résolutions et des durées variables.
Le modèle est pré-entraîné conjointement sur des vidéos O(100)M et des images O(1)B et apprend le monde visuel en « apprenant » à lire des textes.
Le modèle pré-entraîné peut raisonner sur le mouvement des objets, les interactions sujet-objet, la géométrie, le mouvement de la caméra et la physique, et apprend les mouvements plausibles pour une grande variété de concepts.
Pour améliorer les générations de vidéos, vous exécutez le réglage fin (SFT) sur un petit ensemble de vidéos et de légendes de texte de haute qualité.

L'architecture du modèle

Génération de films audio. Un modèle de paramètres 13B de base pour la génération vidéo et la génération texte-audio Effets sonores cinématographiques de haute qualité à 48 kHz Et musique synchronisée avec la vidéo d'entrée et suivez une demande de texte entrante. Le modèle gère naturellement la génération d'audio de longueur variable et peut produire un son cohérent de longue durée pour des vidéos allant jusqu'à plusieurs minutes en utilisant des techniques d'étirement audio.
Meta a pré-entraîné le modèle sur O(1)M heures d'audio et a observé qu'il apprenait non seulement l'association physique, mais aussi psychologique entre les vidéos.
Le modèle est capable de générer des sons environnementaux diégétiques (musique provenant d'une source sonore présente et clairement identifiable dans le plan ou la scène) qui correspondent à la scène visuelle même lorsque la source n'est pas visible et également effets sonores diégétiques synchronisés avec des actions visuelles. De plus, il peut générer une musique non diégétique qui soutient l'ambiance et s'aligne sur les actions de la scène visuelle, et mélanger des effets sonores et une musique de fond dans un

Le Édition précise permet aux utilisateurs d'effectuer sans effort des modifications précises et imaginatives sur de vraies vidéos et des vidéos générées à l'aide d'une instruction textuelle. Étant donné que les données de montage vidéo supervisé à grande échelle sont plus difficiles à
Les projets de montage vidéo à grande échelle sont plus difficiles à réaliser, nous montrons une approche innovante pour entraîner ce modèle de montage vidéo sans données de montage vidéo supervisé.

Exemples des capacités de montage vidéo du modèle

La personnalisation permet au modèle de génération vidéo de conditionner le texte et l'image d'une personne pour générer une vidéo mettant en scène la personne choisie. La vidéo personnalisée générée conserve l'identité de la personne, tout en suivant le texte demandé. Vous utilisez un sous-ensemble de vidéos contenant des humains et construisez automatiquement des paires d’entrée (image, texte) et de sortie vidéo pour entraîner le modèle.

Quelqu'un préoccupations et responsabilités

La nature réaliste des vidéos générées par l’IA et la capacité de reproduire l’apparence des personnes ont suscité des inquiétudes parmi les travailleurs de l’industrie, y compris les acteurs et le personnel de production, quant à l’impact futur de ces outils sur leur travail. Meta a souligné que L’IA générative ne remplacera pas le travail des artistes et des animateurs, et elle continuera à solliciter les commentaires des cinéastes et des créateurs.

De plus, Meta a annoncé que les vidéos générées seront marquées d'un filigrane pour éviter les problèmes de droits d’auteur et les deepfakes. Connor Hayes a ajouté : « Ce sont de nombreux défis auxquels nous serons confrontés avant de pouvoir lancer un produit de manière responsable, c'est aussi pourquoi c'est actuellement une annonce purement de recherche« .

Toutes les vidéos de ce document sont disponibles ici.