un autre pas en avant dans le développement de l’IA
La course pour diriger le développement de l’intelligence artificielle devient plus qu’intéressante. Quelques heures après que Google ait annoncé Gemini 1.5, une nouvelle version de son modèle multimodal visant à concurrencer dans de meilleures conditions le GPT-4, OpenAI a révélé son premier modèle génération vidéo.
Nous parlons de Sora, un outil qui dans sa version expérimentale actuelle permet de générer des vidéos jusqu’à 60 secondes. La société dirigée par Sam Altman assure que le modèle est capable de générer des scènes réalistes, en respectant les instructions de l’utilisateur. Tout cela en conservant la qualité des cadres.
L’IA générative d’OpenAI réalise désormais également des vidéos
Si nous nous arrêtons un instant pour réfléchir à la façon dont l’IA générative progresse, nous pourrions conclure qu’elle le fait à une vitesse vertigineuse. En 2021, nous avons été surpris par la première version de DALL·E et la « capacité » de créer une chaise-avocat. Et nous vivons actuellement dans un présent où les générateurs vidéo sont une réalité.
Sora fonctionne essentiellement avec les mêmes mécanismes que les générateurs de texte en image. Nous utilisons une invite (indication textuelle) pour décrire ce que nous voulons que le modèle génère. Ici, bien sûr, la capacité de l’utilisateur à générer des invites précises pour le modèle en question entre en jeu. Regardons l’invite dans la vidéo ci-dessus générée par Sora.
« Une femme élégante marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires et porte un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres. Elle marche avec assurance et nonchalance. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons se promènent.
Comme on peut le constater, une scène vidéo surprenante a été réalisée, même avec des changements de plan, mais grâce à des indications très précises. Il est décrit soigneusement l’apparence de la femme marchant dans les rues de Tokyo, et des détails sont donnés sur tout ce qui l’entoure. Des néons brillants à l’humidité réfléchissante du sol.
Le modèle, expliquent-ils, est capable de générer des scènes complexes avec plusieurs personnages. Mais ce n’est pas tout, vous pouvez également préciser le type de mouvement du sujet et des détails précis de l’environnement. « Le modèle comprend non seulement ce que l’utilisateur a demandé dans le message, mais aussi comment ces choses existent dans le monde physique », explique la société.
OpenAI ajoute que toutes les vidéos publiées dans le billet de blog annonçant ce nouveau modèle n’ont pas été édités. Si l’on prend en compte ce que prétend l’entreprise, nous avons vraiment affaire à un outil prometteur, même si nous devrons le tester directement pour tirer des conclusions sur ses capacités.
La société prévient que, comme tout modèle d’IA, Sora a également ses propres limites et inconvénients. Il dit qu’il « peut avoir des difficultés à simuler avec précision la physique d’une scène complexe et peut ne pas comprendre des cas spécifiques de cause à effet ». Désormais, il faudra attendre pour pouvoir utiliser ce nouveau modèle.

Pour le moment, il n’est disponible que pour les chercheurs d’OpenAI, c’est-à-dire que son fonctionnement est limité à tests de laboratoire. Ils soulignent cependant qu’il sera disponible dans le catalogue de produits OpenAI, mais pas avant que plusieurs mesures ne soient prises pour assurer la sécurité des utilisateurs.
Images : OpenAI

Si après avoir tant entendu parler Samsung Galaxy S24 avec intelligence artificielle Vous en aviez envie, n’attendez plus. Obtenez-le chez Vodafone. Que vous soyez client ou non, vous bénéficierez d’offres exclusives pour que le smartphone du moment soit à vous. Avant!
Conseils proposés par la marque
Dans Simseo : Sam Altman a parlé d’investir sept milliards de dollars dans des puces. C’est scandaleux, mais cela explique mieux le chiffre
