Avec ChatGPT Images 2.0, OpenAI affirme avoir résolu le gros problème des générateurs d'images : les lettres

Au cours des dernières années, nous avons vu les générateurs d’images devenir de plus en plus spectaculaires, plus rapides et aussi plus populaires. Le problème est qu’il n’est pas toujours utile de travailler avec une image frappante. C’est une chose de demander un chat astronaute et une autre d’obtenir une affiche utilisable pour le marketing, une vignette cohérente ou un graphisme qui respecte ce que nous avons demandé. C’est là qu’OpenAI veut désormais faire avancer la conversation avec son nouveau modèle : non pas tant vers la jolie image, mais vers l’image utile.

La réponse. Ce que propose OpenAI va dans ce sens. L’entreprise dirigée par Sam Altman affirme que son nouveau modèle n’est pas seulement créé pour générer des images attrayantes, mais aussi pour résoudre des tâches visuelles avec plus d’intention et moins d’essais et d’erreurs. Dans la présentation, il est allé jusqu’à déclarer que « les images sont un langage, pas une décoration », une manière assez claire de résumer où il veut amener le produit dans un présent avec un peu de concurrence. La thèse est la suivante : que demander une image dans ChatGPT revient moins à lancer une invite créative qu’à commander une pièce que nous pouvons réellement utiliser.

La pièce manquante. Si l’entreprise veut que nous parlions de quelque chose de plus que des images voyantes, elle devait améliorer exactement les points où ces modèles échouent habituellement. Ils promettent ici des changements importants sur trois fronts bien précis : suivre plus précisément des instructions complexes, mieux organiser les éléments au sein de l’image et reproduire avec plus de fiabilité un texte dense. En d’autres termes, nous recherchons non seulement des résultats plus beaux, mais aussi moins ambigus et plus contrôlables.

Réfléchissez avant de dessiner. L’une des nouveautés qu’OpenAI tente de mettre le plus en avant est qu’il s’agit de son premier modèle d’image doté de capacités de raisonnement. Traduit en termes pratiques, l’entreprise soutient que, lorsqu’un modèle avec « réflexion » est choisi dans ChatGPT, le système peut prendre plus de temps, mieux structurer la tâche, s’appuyer sur le Web pour rechercher des informations mises à jour et examiner ses propres résultats avant de fournir l’image. Et nous l’avons essayé, en demandant l’image de deux personnes marchant sur la Gran Vía, à Madrid, près de Cines Callao, et quelques notes sur les activités à faire en Espagne au mois de mai. Ce sont les images que nous pouvons voir sur l’image de couverture.

De plus, nous avons effectué ces autres tests :

Il génère une comparaison visuelle entre trois villes espagnoles pour le télétravail : Valence, Málaga et Bilbao. Divisez l’image en trois colonnes, avec les icônes, le climat, le coût de la vie indicatif, l’environnement, les connexions internationales et la qualité de vie.

Essayez Chatgpt Images 2 0 1

Nous avons entièrement créé cette image avec ChatGPT Images 2.0. Données non vérifiées, échantillon uniquement

Créez un storyboard de six vignettes sur un matin pluvieux à Gràcia, Barcelone. Il doit montrer la continuité du même protagoniste, un habitant du quartier qui quitte son domicile, entre dans une cafétéria, regarde l’atmosphère par la fenêtre, reçoit un appel important et part précipitamment.

Nous avons entièrement créé cette image avec ChatGPT Images 2.0. Données non vérifiées, échantillon uniquement

Les clés. OpenAI parle de prototypage de jeux, de storyboards, de créations marketing, de bandes dessinées, de graphiques sociaux et d’autres matériaux où le contenu et la forme comptent. Pour soutenir cette ambition, l’entreprise affirme s’être améliorée sur deux fronts délicats : le traitement des textes non latins, avec des avancées notamment en japonais, coréen, chinois, hindi et bengali, et la reproduction plus fidèle de styles visuels très marqués. Il élargit également les formats possibles, avec des proportions allant jusqu’à 3:1 et 1:3, une résolution jusqu’à 2K et, dans certains modes, la possibilité de générer jusqu’à dix images au sein d’une même requête avec continuité entre personnages et objets.

Le contexte concurrentiel. Cette annonce ne peut pas non plus être lue comme si OpenAI avait soudainement découvert un nouveau marché. Midjourney est déjà devenu une référence incontournable pour les œuvres à forte charge artistique, Nano Banana a attiré l’attention pour sa capacité d’édition conversationnelle et FLUX 2 est devenu fort en photoréalisme. Avec ce tableau devant, l’entreprise semble chercher un autre angle. Plutôt que de contester chaque terrain séparément, il tente de présenter ChatGPT comme un environnement dans lequel l’image n’est pas générée de manière isolée, mais dans le cadre d’un flux plus large, quelque chose qui, sur le papier, peut être attrayant s’il tient réellement ses promesses.

Anthropic n'a pas augmenté le prix de Claude. Il a inventé quelque chose de mieux : l’inflation symbolique

Cela commence déjà à se déployer. L’une des clés de l’annonce est qu’OpenAI garantit que le modèle ne reste pas en phase de vitrine, mais commence à atteindre un produit. Il est désormais possible de l’utiliser aussi bien dans les comptes gratuits que dans les comptes payants Go, Plus et Pro. De plus, l’entreprise a décidé de l’intégrer à l’API et au Codex, signe qu’elle ne veut pas le limiter à une utilisation occasionnelle au sein du chat.

Images | Simseo avec ChatGPT Images 2.0 | OpenAI

À Simseo | Amazon veut gagner la course à l’IA à tout prix. C’est pourquoi il a investi à la fois dans Anthropic et OpenAI