google

Google Lumière, le nouveau modèle qui crée des vidéos réalistes

ggoogle présenté Lumière, un nouveau modèle de texte vers vidéo capable de générer des vidéos réalistes à partir de courtes entrées de texte. Lumiere peut même utiliser des images et d’autres vidéos comme entrée pour améliorer les résultats. Présenté dans un article intitulé « Un modèle de diffusion spatio-temporelle pour la génération vidéo », Lumiere fonctionne différemment des modèles de génération vidéo existants. Il génère immédiatement une durée temporelle de la vidéo, tandis que les modèles existants synthétisent des images clés distantes suivies d’une super-résolution temporelle.

En d’autres termes, Lumiere se concentre sur le mouvement des objets dans l’image, tandis que les systèmes précédents reconstituent une vidéo à partir d’images clés où le mouvement s’est déjà produit.

Vidéo : Google Lumière

Index des sujets :

Lumiere génère une vidéo de 80 images

Le modèle est capable de générer des vidéos composées de 80 images. À titre de comparaison, la diffusion vidéo stable de La stabilité atteint 14 et 25 images. Plus le nombre d’images est élevé, plus la vidéo se déplace de manière fluide.

Selon l’équipe de Google, Lumiere surpasse les modèles de génération vidéo concurrents, tels que Pika, Moitié et Runway, dans divers tests, y compris le test zéro tir.

Les chercheurs affirment également que Lumière produit des résultats de génération de pointe grâce à son approche alternative. Les résultats de Lumière pourraient être utilisés dans des tâches de création de contenu et de montage vidéo, notammentpeinture de vidéos et de génération stylisée (imitant les styles artistiques présentés) à l’aide de poids de modèle texte-image, qui ont été finement réglés.

Source : Google

Lumière, une nouvelle architecture Espace-Temps U-Net

Pour parvenir à ses résultats, Lumière s’appuie sur une nouvelle architecture, Space-Time U-Net. Cela génère la durée totale de la vidéo en une seule fois, via un seul passage dans le modèle.

L’équipe de Google écrit que la nouvelle approche améliore la cohérence des résultats. « En utilisant à la fois un sous-échantillonnage et un suréchantillonnage spatiaux et (surtout) temporels, et en tirant parti d’un modèle de diffusion texte-image pré-entraîné, notre modèle apprend à générer directement une vidéo basse résolution à pleine vitesse en la traitant sur plusieurs échelles spatio-temporelles », lit-on dans le document.

Google Lumière

Source : Google

L’objectif du projet Lumière était de créer un système permettant aux utilisateurs moins expérimentés de créer plus facilement du contenu vidéo.

Cependant, le document reconnaît le risque d’abus potentiels, avertissant notamment que des modèles comme Lumiere pourrait être utilisé pour créer du contenu faux ou préjudiciable.

« Nous pensons qu’il est essentiel de développer et d’appliquer des outils pour identifier les biais et les cas d’utilisation nuisibles afin de garantir une utilisation sûre et correcte », indique le document.

Au moment de la rédaction de cet article, Google n’a pas mis le modèle à la disposition du public. Cependant, vous pouvez explorer plusieurs exemples de build sur la page de présentation de GitHub.

Google intensifie son travail sur la vidéo

Lumiere suit VideoPoet, un modèle multimodal produit par Google qui crée des vidéos à partir d’entrées de texte, de vidéo et d’image. Dévoilé en décembre dernier, VideoPoet utilise une architecture de transformation uniquement par décodeur, ce qui le rend capable de créer du contenu sur lequel il n’a pas été formé.

Google a développé plusieurs modèles de génération de vidéo, notamment Phenaki et Imagen Video, et prévoit de couvrir les vidéos générées par l’IA avec son outil de détection SynthID.

Le travail de Google sur la vidéo est complémentaire du modèle Gemini, en particulier du point de terminaison multimodal Pro Vision, qui peut gérer des images et des vidéos en entrée et générer du texte en sortie.