Alors que Google reste coincé avec Gemini, Sora montre qui a de nombreuses longueurs d'avance en matière d'IA : OpenAI

Cela a été un de ces grands jours. En quelques heures, Google et OpenAI ont présenté leurs dernières innovations en matière d’intelligence artificielle. Ce fut d’abord Google avec Gemini 1.5, son modèle d’IA avec un million de jetons pour surpasser GPT-4 Turbo. Immédiatement après, OpenAI a contre-attaqué avec Sora, son modèle texte-vidéo permettant de générer des clips allant jusqu’à 60 secondes.

Et les réactions de la communauté n’auraient pas pu être plus différentes. La nouvelle version de Gemini est très prometteuse et vise très haut, mais il y a une nette différence avec Sora. Pendant que Google nous donne des chiffres vertigineux, OpenAI nous montre des vidéos. Si une image vaut mille mots, dans ce cas une vidéo vaut mille chiffres.

Il s’agit de deux stratégies très différentes, mais il semble clair laquelle suscite le plus d’attention. Depuis l’annonce de Gemini 1.5, il nous reste que alors que GPT-4 Turbo dispose de 128 000 jetons, Gemini atteint un million. Ces jetons indiquent la capacité de l’IA à recevoir beaucoup d’informations à la fois. Autrement dit, Gemini est capable de lire un plus grand nombre de livres à la fois ou de traiter une plus grande quantité de temps vidéo. En bref : c’est plus rapide et plus efficace. Jusqu’ici, tout va bien.

Ce qui se passe, c’est que ceci la promesse de plus grandes performances ne sert à rien si l’on n’a pas en tête des exemples frappants. Après avoir essayé Gemini sur mobile, notre expérience a été plus ou moins bonne mais pas révolutionnaire.

Chiffres versus exemples

Si l’on regarde la déclaration Gemini 1.5 de Sundar Pichai et Demis Hassabis, nous verrons un texte avec de nombreux exemples et de nombreuses figures. Jetons, architecture, temps d’exécution et lignes de code. Qu’est-ce que cela se traduit dans notre quotidien ? Difficile de déterminer à court terme.

Avec Sora, cela a été très différent. Tout d’abord, la page de Sora contient plusieurs exemples vidéo. Le résultat est impressionnant, avec un réalisme jamais vu jusqu’à présent. Mais même si nous lisons le texte technique, il regorge d’exemples graphiques.

Logiquement, la comparaison n’est pas juste. Sora est un outil vidéo et Gemini est un modèle d’IA. Ce sont deux projets très différents, mais c’est précisément pour cette raison que la réaction qu’ils génèrent est différente. OpenAI sait que son plus grand atout réside dans la façon dont l’IA peut être frappante, car l’IA de Google semble être une impulsion pour optimiser son excellent équipement.

Il est encore difficile de trouver des exemples en Gemini qui ne peuvent pas être réalisés pendant longtemps dans ChatGPT. Les deux obtiennent de meilleurs résultats en fonction de l’invite, mais en général, ils sont tout à fait à égalité. Mais Les initiatives d’OpenAI montrent clairement en un coup d’œil qu’elles ont une longueur d’avance.

.@OpenAI SORA contre. @pika_labs contre @runwayml contre @StabilitéAI Vidéo.

J’ai donné aux autres modèles le cadre de départ de SORA. J’ai essayé mes meilleures techniques d’incitation et de mouvement de caméra pour que les autres modèles produisent quelque chose de similaire à SORA.

SORA est tout simplement bien meilleur dans les scènes plus longues. pic.twitter.com/TK7QR6jaUK

– Gabor Cselle (@gabor) 16 février 2024

Gabor Cselle, ancien cadre de Google, publie une comparaison entre la vidéo générée par Sora et ce que proposent des alternatives telles que Pika, RunwayML ou Stable Video et sa conclusion est que Sora est un net pas en avant, notamment en termes de cohérence et de durée. « Révolutionnaire », décrit-il.

Sora n’est pas encore accessible au public, mais il a déjà montré des dizaines d’exemples. Des vidéos si surprenantes qu’il n’est pas nécessaire d’expliquer davantage pour savoir que nous sommes confrontés à un pas important. Quelque chose que Google n’a pas encore réalisé.

À Simseo | Google était à la traîne d’OpenAI, mais il vient de le dépasser dans un domaine très important : l’IA pour mobile