GPT-4o generazione immagini

OpenII ajoute la génération d’images GPT-4O

OU Penai a annoncé le début de la phase de déploiement de la fonction de génération d’images ChatGpt pour ChatGpt Plus, Pro, Team et Users Gratuit. La génération d’images FunZone sera disponible directement dans l’expérience de chat en tant qu’outil par défaut dans le modèle 4eet sera également disponible en Sora. Les plans ChatGpt Enterprise et ED auront accès sous peu.

Que peuvent faire les images Chatgpt

Chatgpt génère des images de haute qualité IN Réponse aux invites, conversations et fichiers chargés. Soutien à la fois la création de nouvelles images et la transformation de celles existantes, Avec des améliorations dans le rendu du texte, le respect des invites et de la compréhension contextuelle.

OpenII a élargi les options de génération des images en simplifiant le processus, le tout dans un seul modèle. GPT-4O utilise une approche autoritaire et sa connaissance du monde réel pour fournir des résultats de qualité professionnelle de manière plus intuitive et utile.

  • Des images qui bénéficient d’une conversation et du contexte du monde réel: Par exemple, une vision d’une ère historique d’art discutée précédemment dans la conversation.
  • Génération d’images pour le travail: Par exemple, des diagrammes, des infographies, des graphiques promotionnels pour les médias sociaux avec des codes hexadécimaux, des logos, des instructions complexes.
  • Images axées principalement sur le texte: Par exemple, les affiches d’instruction, la visualisation des concepts pour l’apprentissage, le WordMark, les cartes de visite.
  • Sortie pour une utilisation externe: Par exemple, des photos personnalisées avec un arrière-plan transparent pour une utilisation dans une présentation.
  • Images de haute qualité et photojournalistes: forte capacité du photojournalisme, y compris la lumière, l’ombre et la précision des textures. Par exemple, le stock de photos.
  • Possibilité de charger une image comme point de départ: Par exemple, une peinture personnalisée de votre chien, la modification de votre portrait, des inspirations pour un mobilier intérieur basé sur une image de votre salon.

Exemples du monde réel

Un tableau noir en verre sur l’avenir de la mégmeadalité

Une grande image prise avec un téléphone d’un tableau noir en verre, dans une pièce donnant sur le pont de la baie. Le champ visuel montre une femme qui écrit, portant un t-shirt avec un grand logo OpenI. L’écriture semble naturelle et vous pouvez voir le reflet du photographe dans le verre.

Selfies du photographe, pendant qu’elle se tourne pour lui donner cinq.

L’image en tant qu’instrument de pensée et la puissance du contexte

Des peintures rocheuses aux infographies, l’être humain a toujours utilisé des images pour communiquer, persuader, analyser. Les modèles génératifs d’aujourd’hui savent comment créer des scénarios spectaculaires, mais souvent ils ne parviennent pas à produire des images de «travail»: logos, motifs, menus, invitations. GPT – 4O filme cet écart, excellé dans la fabrication de textes avec précision et suivi les invites avec rigueur.

L’une des compétences GPT -4O les plus puissantes est La compréhension native du contexte du chat, y compris des textes, des images chargées ou transformées, des éléments stylistiques. Cela en fait un outil extraordinaire pour ceux qui doivent communiquer des idées complexes à travers des éléments visuels cohérents.

Poésie sur le carton de luxe avec des textures de coquille d’oeuf

Compréhension visuelle avancée et fidélité du texte

Le modèle a été formé sur le Distribution commune des images et textes en ligne. Une formation agressive en rétrospective a permis d’atteindre une fluidité visuelle surprenante, également utile dans les domaines éducatifs: expériences scientifiques, cartes, affiches éducatives, diagrammes techniques.

La capacité de GPT -4O à faire des symboles et des mots dans une image le transforme en un outil de communication visuelle. Il peut générer des menus de restaurants traditionnels avec des illustrations élégantes, des invitations de mariage conceptuelles, des poèmes visuels sur du papier fin, pour créer des panneaux urbains surréalistes mais plausibles, avec des sorcières et des tapis volants.

Génération d’Itali: l’art de la co-création

Étant intégré nativement, La génération d’images GPT -4O permet des changements à travers des conversations naturelles. Par exemple, il est possible d’affiner l’apparition d’un personnage de jeu vidéo, en gardant la cohérence visuelle tout en expérimentant les styles, les couleurs, les accessoires.

Complexité et contrôle: jusqu’à 20 objets cohérents

GPT –4o parvient à gérer 10-20 objets distincts dans une seule imageles liant régulièrement à leurs propriétés et relations. Cela se traduit par des infographies ordonnées, des scènes complexes avec plusieurs éléments, de la publicité, des jeux de mots visuels et bien plus encore.

Exemple

Créez une image photojournaliste de deux sorcières de vingt ans qui ont lu un panneau routier.

Contexte:
Une route de la ville dans une route aléatoire de Williamsburg, NY, avec un poteau entièrement couvert par de nombreux panneaux de signalisation détaillés (par exemple, des temps de balayage de la route, des permis de stationnement requis, des classifications des véhicules, des règles de suppression), y compris des panneaux ridicules au centre: (paraphrasant en le faisant pour rendre ces panneaux routiers légitimes) « Le parc de la borom pour le sorcier non permis dans le C » Loading et l’entrée de la magie (15 minutes pour le prix de l’orche Limite) « et » Parking des rennes uniquement avec permission (24-25 décembre).

Personnages:
Une sorcière a un balai sur son chemin et l’autre un tapis magique roulé. Je suis au premier plan, le dos, le dos légèrement tourné vers la caméra et la tête légèrement inclinée alors qu’ils scrutent les signes.

Composition de l’arrière-plan au premier étage:
Routes + voiture garée voitures + bâtiments -> panneau routier -> sorcières. Les personnages doivent être les plus proches de la caméra qui commence la photo.

Précision et contexte: images du code et des connaissances du monde

Le modèle peut générer des vues à partir du code (comme dans le cas de la bannière 3D avec trois.js), des infographies météorologiques, des guides vers la faune marine ou la préparation du match, intégrant le texte et les connaissances visuelles.

Styles et photojournalisme

La formation sur un large éventail de styles visuels permet au modèle de produire des images photojournalistes, vintage, abstraites, éditoriales et émotionnelles. Parmi les exemples: Paparazzi Marx avec des sacs de créateurs, un chat qui se reflète comme Tiger, marchés estivaux de 2006, invitations visuelles générées entièrement par GPT.

Une salle candide dans le style paparazzi de Karl Marx qui a rouillé dans le parking du centre commercial d’Amérique, regardant derrière une expression étaine dans une tentative d’éviter d’être photographiée. Il resserre plusieurs sacs à provisions brillants pleins de produits de luxe. Son manteau vole derrière lui dans le vent et l’un des sacs oscille comme s’il était à mi-chemin de sa course. Fond flou avec une voiture et une entrée lumineuse du centre commercial pour souligner le mouvement. Le flash du flash de l’appareil photo surexponine partiellement l’image, lui donnant une apparence chaotique et tabloïde.

Le cheval est situé vers l’horizon, où l’océan rencontre le ciel. Utilisez la règle du tiers pour placer le cheval. La taille du cheval est égale à 1% de l’image entière car la caméra est très loin du sujet. La vue de la caméra est très proche du sol / océan. Le cheval galope où l’océan rencontre le ciel.

Limites connues

Le modèle n’est pas parfait. Il peut couper de longues images, des éléments «hallucinants» si l’invite est médiocre, a des difficultés avec plusieurs concepts (par exemple le tableau périodique), faire des textes dans des langues non-latiques avec une mauvaise précision ou des zones de modification qui ne sont pas demandées lors d’une modification.

Le GPT-4O peut parfois couper les images les plus longues, comme les affiches, en particulier en bas.

Sécurité et transparence

Toutes les images générées Ils contiennent des métadonnées C2PA pour assurer sa traçabilité. Les blocs sont actifs pour un contenu violent, explicite sexuellement ou impliquant de vraies personnes dans des contextes non spécifiés
De façon similaire au travail d’alignement délibératif, un raisonnement LLM a été formé pour travailler directement à partir des spécifications de sécurité écrites et interprétables par les humains. Ce raisonnement a été utilisé pendant le développement pour aider à identifier et à résoudre l’ambiguïté dans les politiques. Avec les progrès multimodaux et les techniques de sécurité existantes développées pour Chatgpt et Sora, cela permet de modérer à la fois le texte d’entrée et les images de sortie par rapport aux politiques.

Disponibilité et accès

La génération d’images avec GPT -4O est disponible pour les utilisateurs gratuits, plus, les pros et l’équipe. Il arrivera également bientôt pour les utilisateurs de l’entreprise et de l’éducation. Il sera également intégré à Sora et bientôt disponible via API.

Décrivez simplement l’image souhaitée pour l’obtenir. Il est possible de spécifier les relations d’apparence, les couleurs hexagonales, les transparents. Les images prennent plus de temps pour être générées, mais les résultats parlent d’eux-mêmes.


GPT -4O ne se limite pas à la génération d’images. Il les comprend, les construit, les relie à la langue. Et, dans ce processus, il redéfinit ce que signifie « imaginer ».

Pour plus d’informations sur l’approche, visitez l’addendum sur la génération d’images du système GPT-4O.