Omini Flash veut être à la vidéo ce que Nano Banana était aux images

Créer une image avec l’IA n’est plus aussi surprenant qu’avant. Ce qui commence à faire la différence, c’est la capacité de la modifier, de lui donner une continuité et de transformer une idée initiale en quelque chose de plus élaboré sans perdre le fil en cours de route. En vidéo, ce défi est bien plus grand : il y a du mouvement, du temps, de la physique et des personnages qui doivent continuer à paraître cohérents. Gemini Omni arrive avec la promesse de résoudre ce problème et de rendre l’édition beaucoup plus facile.

Google DeepMind lui-même vous demande de considérer Gemini Omni comme Nano Banana, mais pour la vidéo. La référence est logique car Nano Banana était le générateur d’images de Google qui a porté la création visuelle avec l’IA à une échelle très frappante. La première version, lancée en août 2025, a ajouté 13 millions d’utilisateurs en quatre jours et avait généré plus de 5 milliards d’images à la mi-octobre.

Google présente désormais Gemini Omni Flash comme premier modèle de la famille Gemini Omni. Selon l’entreprise, il est conçu pour créer du contenu à partir de n’importe quelle entrée. L’idée est que l’utilisateur peut combiner des images, de l’audio, de la vidéo et du texte comme point de départ pour générer des vidéos de haute qualité appuyées par les connaissances du monde réel de Gemini.

Un modèle de génération vidéo soucieux de cohérence

La partie la plus intéressante est la façon dont Google décrit le processus d’édition. Il n’est pas seulement proposé comme un outil pour générer un clip à partir de zéro, mais comme un système capable de travailler sur une scène à l’aide d’instructions chaînées. L’entreprise parle de changer des éléments spécifiques ou de transformer complètement une vidéo de départ, en ajustant l’esthétique, l’action, l’environnement, l’angle, le style ou des détails spécifiques. Il promet également de maintenir la cohérence des personnages, de préserver la continuité des scènes et d’offrir une physique plus cohérente.

Dans sa note, il montre comment Gemini Omni peut partir d’une scène et la modifier avec des instructions directes, qu’il s’agisse de changer le matériau d’un objet, de modifier une action ou de transformer une idée complexe en une explication visuelle. Examinons quelques exemples d’invites.

« Faire la sculpture avec des bulles »
« Lorsque la personne touche le miroir, le miroir ondule magnifiquement comme un liquide, et le bras de la personne se transforme en matériau miroir réfléchissant »
« Claymation explicatif du repliement des protéines, tout est fait d’argile, pas de mains, stop motion, précis »

Chez Simseo nous avons réalisé un premier test avec une image reconnaissable : la Puerta de Alcalá, à Madrid. Le point de départ était une photographie statique et l’invite que nous avons utilisée était la suivante :

« Créez une vidéo à partir de cette image. Les voitures avancent et les gens marchent. » (Créez une vidéo à partir de cette image. Les voitures avancent et les gens marchent.)

L’idée était de voir dans quelle mesure Gemini Omni pouvait transformer une scène réelle en un petit clip animé. Dans la vidéo ci-dessus, vous pouvez voir précisément cette tentative d’animation de l’image originale, avec des voitures qui avancent, des piétons qui marchent et un son ambiant qui correspond à la scène. Il semble également conserver certains éléments de marque visibles sur les véhicules, notamment le logo Mercedes-Benz, même si dans d’autres cas, comme chez Fiat, le résultat est moins clair.

Parlons de disponibilité. Google garantit que Gemini Omni Flash commence à atteindre les abonnés Google AI Plus, Pro et Ultra via Gemini et Google Flow, tandis que son déploiement gratuit dans YouTube Shorts et YouTube Create App commence cette semaine.

Lors de notre test avec un compte entreprise, nous nous sommes toutefois retrouvés avec une limite assez serrée : après avoir généré trois vidéos, le système nous a prévenu que « nous avions atteint notre limite de génération de vidéos jusqu’au 20 mai à 19h59 ». Ce n’est pas trop surprenant si l’on pense à ce qui se passe ci-dessous : créer des vidéos avec l’IA nécessite beaucoup de ressources, donc tout indique que Google en limiterait l’accès, du moins dans cette première phase.

Lorsque l’on parle de génération vidéo avec intelligence artificielle, il est probable que l’un des premiers noms qui nous vient à l’esprit soit Sora. Il s’agit de l’une des grandes promesses d’OpenAI dans ce domaine. Le parcours s’est cependant avéré beaucoup plus court que ne le laissait penser cette ambition initiale. Son site Web et son application n’étaient plus disponibles fin avril 2026, même si l’API continuera de fonctionner jusqu’au 24 septembre.

Images | Google | Simseo

À Simseo | Il y a une bataille pour avoir le modèle d’IA qui programme le mieux. Et un bon rival, joli et très bon marché, y est apparu : Cursor