Google vient de vous doubler à droite avec son IA vidéo

Google vient de vous doubler à droite avec son IA vidéo

Chez DeepMind, ils font généralement très bien les choses, et après nous avoir surpris avec AlphaGo ou AlphaFold, cette division s'est mise au travail et a lancé un nouveau modèle de génération de vidéo IA appelé Veo 2. Cela a été le meilleur moment pour le faire, surtout si l'on considère que Sora s'est avéré très vert en tant que générateur vidéo IA.

Un modèle bien meilleur en termes de spécifications. Veo 2 peut générer des clips vidéo d'une durée maximale de deux minutes avec des résolutions allant jusqu'à 4K DCI (4 096 x 2 160). C'est quatre fois la résolution offerte par Sora, le modèle OpenAI, mais aussi six fois la durée offerte par ce modèle, qui était jusqu'à présent une référence claire dans ce segment.

Vidéofx1

Comment accéder. Pour l'instant, I Veo 2 est exclusivement disponible via Vertex AI sur VideoFX, l'outil de création vidéo expérimental de Google. Dans ce premier déploiement, l'outil est disponible sur liste d'attente (et n'est pas disponible en Espagne pour le moment), et les vidéos sont actuellement limitées à huit secondes et à une résolution de 720p. Sora peut générer des vidéos 1080p d'une durée maximale de 20 secondes.

Du texte (et image) à la vidéo. Veo 2 est capable de générer une vidéo à partir d'une invite de texte, mais il est également capable de prendre, par exemple, une image de référence puis une invite de texte à partir de cette image. Mais le plus important n’est pas ça.

Capture d'écran 2024 12 17 À 16 45 46
Capture d'écran 2024 12 17 À 16 45 46

Je vois 2 « comprendre » la physique. Selon DeepMind, le modèle a une meilleure « compréhension » de la physique et des commandes de la caméra, ce qui, selon les responsables, lui permet de générer des fragments vidéo plus clairs. C'est-à-dire : les textures et les images sont plus définies, surtout dans les scènes avec beaucoup de mouvement. De plus, le point de vue de la caméra peut être mieux contrôlé pour capturer des objets et des personnes sous différents angles.

Capture d'écran 2024 12 17 À 16 46 28
Capture d'écran 2024 12 17 À 16 46 28

Cela promet. Cette meilleure compréhension de la physique se remarque par exemple dans la génération de vidéos dans lesquelles interviennent des fluides ou dans lesquelles la lumière et les ombres interviennent de manière particulière. Les vidéos que Google a proposées à titre de démonstration sont probablement des fragments dans lesquels le résultat est particulièrement remarquable, mais les résultats sont certainement très, très prometteurs.

Capture d'écran 2024 12 17 À 16 48 20
Capture d'écran 2024 12 17 À 16 48 20

La cohérence reste un défi. Les responsables de DeepMind eux-mêmes admettent qu'il y a place à l'amélioration et que, par exemple, la cohérence et l'homogénéité constituent toujours un défi. Par exemple, pour conserver les caractéristiques d'un personnage de manière cohérente, mais il existe encore des démonstrations dans lesquelles le réalisme et la cohérence obtenus par Veo 2 sont apparemment supérieurs à ceux de Sora.

Capture d'écran 2024 12 17 À 16 51 16
Capture d'écran 2024 12 17 À 16 51 16

Capture d'écran 2024 12 17 À 16 51 53
Capture d'écran 2024 12 17 À 16 51 53

Sora mord la poussière. Il semblait qu'OpenAI était la grande référence sur ce marché grâce à Sora, mais les vidéos présentées laissent le modèle OpenAI sous un mauvais jour. On le voit dans les clips partagés par DeepMind sur YouTube ou sur quelqu'un mangeant des spaghettis qui vient de loin à cause du mème avec Will Smith.

L'avantage d'avoir YouTube. La formation de ces modèles est souvent difficile, mais ici Google et DeepMind ont l'avantage de leur accès à YouTube. Lors du lancement de la première version du modèle Veo, ils avaient déjà indiqué que le modèle « aurait pu » être entraîné avec du contenu YouTube « selon l'accord de Google avec les créateurs YouTube ». La même chose semble s'être produite avec la deuxième itération, et bien sûr, l'accès à cette immense quantité de contenu peut beaucoup contribuer à rendre ses modèles plus puissants.

Images | Google DeepMind

À Simseo | Les chatbots et l’IA générative semblaient être la voie à suivre pour l’industrie de l’IA. Il y a maintenant de nouveaux jolis enfants : les agents