Le prochain jalon pour l'IAS qui génère une vidéo a été de les faire avec l'audio. Google l'a réalisé avec je vois 3

Le prochain jalon pour l'IAS qui génère une vidéo a été de les faire avec l'audio. Google l'a réalisé avec je vois 3

Grande journée pour Google. Nous sommes en pleine E / S 2025, l'événement logiciel le plus important pour la société américaine. Fait intéressant, Android est l'un des noms les moins sonores: cette année, la seule chose qui compte est l'IA.

Et, lié à l'IA, Google a travaillé sur un modèle qui vous permet de générer une vidéo via du texte. Ce modèle est que je vois, et dans sa nouvelle mise à jour, il est capable de générer ces vidéos … avec audio.

Je vois 3. Google a trois niveaux pour son intelligence artificielle générative de vidéo. Je vois 1, je vois 2 et le nouveau je vois 3. Oui, ce sont des noms beaucoup plus faciles à ce que nous nous sommes habitués. Je vois que 3 est le modèle le plus puissant, capable de générer une vidéo 4K avec une compression de film avancée. Dans ce google I / ou Gain une capacité clé: la génération de vidéo avec audio.

De sons environnementaux aux dialogues. Google va avec tout avec I Voir 3. Ce modèle a non seulement une meilleure qualité par rapport à I See 2: c'est le seul de Google capable de générer des vidéos avec audio. Par exemple, si dans l'invite, nous détaillez que nous voulons une scène urbaine, il pourra recréer certains des sons qui y correspondaient (les gens qui marchent, la circulation, l'agitation, etc.).

Google va plus loin et promet de pouvoir créer même des dialogues entre les caractères. C'est l'un des obstacles définitifs pour que le texte au texte devienne pratiquement une fonction de science-fiction. Avec je vois 3, il sera possible de tout faire.

Améliorations dans Voir 2. Bien que je vois que 3 soit le protagoniste absolu, je vois que 2 est mis à jour avec de nouvelles fonctions. Parmi eux, il présente de nouveaux contrôles de caméra beaucoup plus précis pour les mouvements de voyage et de zoom, les options de surpression pour étendre le cadrage (pour passer la verticale à la vidéo horizontale ou vice versa), ainsi que la possibilité d'ajouter ou de supprimer des éléments de la vidéo.

Le flux arrive. Lié à VI, Image et Gemini arrivent à flux, le nouvel outil Google pour créer des vidéos cinématographiques via l'IA. Il s'agit d'un nouvel environnement de travail pour pouvoir donner gratuitement nos créations avec I I See: un éditeur vidéo avec qui nous pouvons créer à la fois avec l'image et je vois.

En plus de fonctionner en tant qu'éditeur, il aura une fonction sociale. Grâce à Flow, nous pouvons accéder à Flow TV, un flux dans lequel nous verrons du contenu, des chaînes et des créateurs qui génèrent des vidéos avec I Voir.

Avant l'Open IA. Les créateurs de Chatgpt ont surpris le monde avec Sora, leur intelligence artificielle pour générer une vidéo à partir d'une invite. Le problème? Au moins, au moment où nous écrivons ces lignes, il n'est pas en mesure de générer une vidéo.

En décembre 2024, Google a déjà avancé Sora à droite montrant les capacités de VIS 2, qui a quadruplé la résolution de sortie vidéo par rapport au modèle d'IA ouvert. Il a également permis de créer des vidéos plus durables et une « compréhension » de la physique spectaculaire, quelque chose qui fait la différence lors de la création d'une vidéo naturelle.

Vos rivaux. Les générateurs de vidéos de rivaux tels que Runway, Luma AI ou Pika Labs permettent d'ajouter un son externe, mais en aucun cas ne générer du son au moment de la livraison de la vidéo finale.

Google vient d'être frappé sur la table avec I See 3, en maintenant le premier poste de carrière et en compliquant davantage les choses aux géants comme Open IA.

À l'heure actuelle, ces fonctions seront disponibles pour les abonnés Gemini Ultra aux États-Unis via l'application Gemini et Flow, ainsi que pour les entreprises via Vertex IA.

Image | Google

Dans Simseo | 14 outils pour créer des images gratuites