Lumiere est l'argument de Google pour remporter la course à la vidéo générée par l'IA. Le problème est que vous ne pourrez pas l'utiliser.

Les modèles d’IA générative fonctionnent étonnamment bien pour générer du texte ou des images, mais qu’en est-il de la vidéo ? Jusqu’à présent, ce type de contenu était très résistant à ce type de système, mais Google vient de présenter sa proposition, et la vérité est que les choses sont prometteuses.

Lumière. C’est le nom du nouveau modèle d’IA présenté par Google et qui utilise un nouveau système appelé Space-Time-U-Net (STUNet). Il s’agit d’un modèle de diffusion qui tente de découvrir où se trouvent les objets dans une vidéo et comment ils se déplacent simultanément et changent au fil du temps. Cela, révèle Ars Technica, permet à Lumiere de créer la vidéo en une seule fois, au lieu de générer de petites images puis de les assembler.

Un saut de qualité. Les premiers outils apparus pour générer des vidéos à partir de modèles d’IA étaient, au mieux, limités, mais ces derniers temps, des avancées frappantes sont apparues et sont progressivement déployées massivement.

lapins au chapeau. Certains extras sont ajoutés au processus de création. Ainsi, il est possible de générer des vidéos à partir d’une invite de texte, mais aussi de convertir des images statiques en vidéos, de générer des vidéos avec un style spécifique à partir d’une image de référence, d’appliquer des tâches de montage vidéo à l’aide d’invites de texte, de créer des cinémagraphes en animant uniquement certaines zones de l’image. , ou proposent également des options d’inpainting pour, par exemple, changer le type ou la couleur de la robe qu’une personne porte dans la vidéo.

Cinq secondes. Ce système est également capable de générer 80 images pour obtenir des vidéos de cinq secondes avec une cadence de 16 images par seconde et une résolution de 1 024 x 1 024 pixels par image. Pas mal pour cette première itération ; Google classe en fait ces images comme « basse résolution ».

Retour à la transparence. Les responsables de l’étude n’ont pas donné de détails sur le contenu avec lequel ils ont formé ce modèle, ce qui continue de poser problème dans ce domaine. Ils soulignent simplement que « nous formons notre modèle Text To Video (T2V) avec un ensemble de données composé de 30 millions de vidéos incluant une description textuelle ».

Vous ne pourrez pas l’utiliser. Le problème, comme pour d’autres projets dans ce domaine, est qu’il s’agit d’une étude de recherche qui ne sera pas accessible au grand public. C’est quelque chose de raisonnable qui permet à Google d’éviter des problèmes de droits d’auteur ou d’hypothétiques utilisations dangereuses dans le domaine de la désinformation, de la cybersécurité ou de la vie privée.

Si après avoir tant entendu parler Samsung Galaxy S24 avec intelligence artificielle Vous en aviez envie, n’attendez plus. Obtenez-le chez Vodafone. Que vous soyez client ou non, vous bénéficierez d’offres exclusives pour que le smartphone du moment soit à vous. Avant!

Conseils proposés par la marque

Dans Engadget : Bing Chat ne s’appelle plus Bing Chat. Il s’appelle désormais Copilot et se confirme comme le grand pari de Microsoft pour l’avenir