Google annonce le développement de Lumiere, un générateur texte-vidéo de nouvelle génération basé sur l'IA

Google annonce le développement de Lumiere, un générateur texte-vidéo de nouvelle génération basé sur l’IA

Une équipe de chercheurs en IA de Google Research a développé un générateur texte-vidéo de nouvelle génération basé sur l’IA appelé Lumiere. Le groupe a publié un article décrivant ses efforts sur le arXiv serveur de préimpression.

Au cours des dernières années, les applications d’intelligence artificielle sont passées du laboratoire de recherche à la communauté des utilisateurs dans son ensemble : des LLM tels que ChatGPT, par exemple, ont été intégrés aux navigateurs, permettant aux utilisateurs de générer du texte de manière sans précédent.

Plus récemment, les générateurs de texte en image ont permis aux utilisateurs de créer des images surréalistes. Et les générateurs de texte en vidéo ont permis aux utilisateurs de générer de courts clips vidéo en utilisant seulement quelques mots. Dans ce nouvel effort, l’équipe de Google a porté cette dernière catégorie vers de nouveaux sommets avec l’annonce d’un générateur de texte en vidéo appelé Lumiere.

Lumiere, probablement nommé d’après les frères Lumière qui ont été les pionniers du matériel photographique, permet aux utilisateurs de saisir une phrase simple telle que « deux ratons laveurs lisant des livres ensemble » et d’obtenir une vidéo entièrement terminée montrant deux ratons laveurs faisant exactement cela – et il le fait dans une résolution incroyablement élevée. Le nouveau générateur représente une prochaine étape dans le développement des générateurs de texte en vidéo en créant des résultats bien plus esthétiques.

Google décrit la technologie derrière le nouveau générateur comme une « architecture U-Net spatio-temporelle révolutionnaire ». Il a été conçu pour générer une vidéo animée en un seul passage de modèle.

La vidéo de démonstration montre que Google a ajouté des fonctionnalités supplémentaires, telles que permettre aux utilisateurs de modifier une vidéo existante en mettant en surbrillance une partie de celle-ci et en tapant des instructions, telles que « changer la couleur de la robe en rouge ». Le générateur produit également différents types de résultats, tels que des stylisations, où le style d’un sujet est créé plutôt qu’une représentation en couleur. Il autorise également des sous-styles, tels que différentes références de style. Il réalise également des images cinématographiques, dans lesquelles un utilisateur peut mettre en évidence une partie ou la totalité d’une image fixe et la faire animer.

Dans son annonce, Google n’a pas précisé s’il prévoyait de diffuser ou de distribuer Lumiere au public, probablement en raison des conséquences juridiques évidentes qui pourraient découler de la création potentielle de vidéos violant les lois sur le droit d’auteur.