ChatGPT apresenta a geração de imagens 4o
A OpenAI, acredita que a geração de imagens deve ser um recurso primário de modelos de linguagem. É por isso que construíram o gerador de imagens mais avançado até agora no GPT-4o. O resultado - geração de imagens que não é apenas bonita, mas útil.

Prompt usado para gerar a imagem:
Uma imagem ampla tirada com um telefone de um quadro branco de vidro, em uma sala com vista para a Bay Bridge. O campo de visão mostra uma mulher escrevendo, ostentando uma camiseta com um grande logotipo da OpenAI. A caligrafia parece natural e um pouco confusa, e vemos o reflexo do fotógrafo.
O texto diz:
(esquerda)
"Transferência entre Modalidades:
Suponha que modelemos
diretamente p(texto, pixels, som) [equação]
com um grande transformador autorregressivo.
Prós:
* geração de imagens aumentada com vasto conhecimento
do mundo* renderização de texto de próximo nível
* aprendizado
nativo no contexto* pilha
unificada pós-treinamento Contras:
* taxa de bits variável entre as modalidades
* computação não adaptável"
(Direita)
"Correções:
* representações compactadas
de modelo* compor autorregressivo anterior com um poderoso decodificador"
No canto inferior direito do quadro, ela desenha um diagrama:
"tokens -> [transformador] -> [difusão] -> pixels"
Melhorando a imagem:

Prompt usado: vista selfie do fotógrafo, enquanto ela se vira para cumprimentá-lo
Poesia magnética em uma geladeira em uma casa de meados do século:

Linha 1: "Uma imagem"
Linha 2: "vale a pena"
Linha 3: "mil palavras,"
Linha 4: "mas às vezes"Grande lacunaLinha 5: "no lugar certo"
Linha 6: "pode elevar"
Linha 7: "seu significado.
"O homem está segurando as palavras "alguns" na mão direita e "palavras" na esquerda.
Melhor de 5
Faça uma imagem de uma faixa de quatro painéis, com algum preenchimento ao redor da borda:
Um pequeno caracol está no balcão de um showroom de carros chamativo. O vendedor se inclinou sobre a mesa para vê-lo.
Close-up no caracol parecendo muito sério. Ele diz: "Eu quero o seu carro esportivo mais rápido... e eu quero que você pinte grandes letras 'S' nas portas, no capô e no teto.
O vendedor está coçando a cabeça. "Hum... podemos fazer isso, mas por que os S's?"
Smash corta para um borrão vermelho rugindo pela estrada. O carro esportivo está coberto de S's gigantes. As pessoas na calçada estão apontando e rindo: "UAU! OLHE PARA AQUELE S-CAR GO!"

Melhor de ~2
Um infográfico explicando o experimento do prisma de Newton em grande detalhe

Melhor de 3
agora gere um ponto de vista de uma pessoa desenhando este diagrama em seu caderno, em uma mesa redonda de café no Washington Square Park

Melhor de 2
agora mostre a mesma cena com um jovem presunçoso Isaac Newton sentado à mesa, com um prisma, demonstrando o experimento, sem o caderno à vista

Melhor de 4
Geração de imagens úteis
Desde as primeiras pinturas rupestres até os infográficos modernos, os humanos usaram imagens visuais para se comunicar, persuadir e analisar - não apenas para decorar. Os modelos generativos de hoje podem evocar cenas surreais e de tirar o fôlego, mas lutam com as imagens robustas que as pessoas usam para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir um significado preciso quando aumentadas com símbolos que se referem à linguagem e à experiência compartilhadas.
A geração de imagens GPT-4o se destaca na renderização precisa de texto, seguindo instruções com precisão e aproveitando a base de conhecimento inerente e o contexto de bate-papo do 4o, incluindo a transformação de imagens carregadas ou o uso delas como inspiração visual. Esses recursos facilitam a criação exata da imagem que você imagina, ajudando você a se comunicar com mais eficiência por meio de recursos visuais e transformando a geração de imagens em uma ferramenta prática com precisão e poder.
00:0000:00
00:0000:00
00:0000:00
00:0000:00
00:0000:00
Recursos aprimorados
Treinamos nossos modelos na distribuição conjunta de imagens e textos online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como elas se relacionam umas com as outras. Combinado com um pós-treinamento agressivo, o modelo resultante tem uma fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e sensíveis ao contexto.
Renderização de texto
Uma imagem vale mais que mil palavras, mas às vezes gerar algumas palavras no lugar certo pode elevar o significado de uma imagem. A capacidade do 4o de misturar símbolos precisos com imagens transforma a geração de imagens em uma ferramenta de comunicação visual.
Placas de ruaMenuConvitePlacas de ruaMenuConvite
Crie uma imagem fotorrealista de duas bruxas na casa dos 20 anos (uma balayage cinza, outra com longos cabelos ruivos ondulados) lendo uma placa de rua.
Contexto:
uma rua da cidade em uma rua aleatória em Williamsburg, NY, com um poste coberto inteiramente por vários sinais de rua detalhados (por exemplo, horários de varredura de rua, licenças de estacionamento necessárias, classificações de veículos, regras de reboque), incluindo alguns sinais ridículos no meio: (parafraseie-o para fazer esses sinais de rua legítimos) "Estacionamento de vassouras para bruxas não é permitido na zona C" e "Apenas carregamento e descarregamento de tapete mágico (limite de 15 minutos)" e "Estacionamento de renas com permissão Apenas (24 a 25 de dezembro)\n Os infratores serão colocados na lista impertinente." A placa de sinalização fica à direita de uma rua. Não repita sinais. Os sinais devem ser realistas.
Personagens:
uma bruxa está segurando uma vassoura e a outra tem um tapete mágico enrolado. Eles estão em primeiro plano, com as costas ligeiramente voltadas para a câmera e a cabeça ligeiramente inclinada enquanto examinam os sinais.
Composição do fundo para o primeiro plano:
ruas + carros estacionados + edifícios -> placa de rua -> bruxas. Os personagens devem estar mais próximos da câmera que tira a foto
Ler mais

Melhor de ~8
Estou abrindo um restaurante de conceito tradicional em Marin chamado Haein. Ele se concentra na comida coreana preparada com ingredientes orgânicos e frescos da fazenda, com um menu rotativo baseado no que é sazonal. Quero que você crie uma imagem - um menu que incorpore os seguintes itens de menu - incline-se para o estilo tradicional / rústico, mantendo-o sofisticado e elegante. Por favor, inclua também ilustrações de cada prato em um estilo elegante de coelho peter. Certifique-se de que todo o texto seja renderizado corretamente, com um fundo branco.
(Início)
Doenjang Jjigae (ensopado de soja fermentado) - $ 18 Doenjang caseiro com cogumelos locais, tofu e vegetais sazonais servidos com arroz.
Galbi Jjim (costelinha refogada) - $ 34 Costelas de boi alimentadas com capim locais refogadas lentamente com cobertura de pêra e alho preto, raízes sazonais e jujuba.
Peixe Grelhado da Estação - Preço de Mercado ($ 22- $ 30) Inteiro ou filé de peixe local e sustentável grelhado no carvão, servido com ssam de folha de perilla e molhos caseiros.
Bibimbap - $ 19 Arroz tradicional com uma seleção rotativa de vegetais frescos da fazenda, gochujang fermentado em casa e ovo criado a pasto.
Bossam (Heritage Pork Wraps) - $ 28 Barriga de porco cozida lentamente com wraps de repolho napa, kimchi de ostra, perilla e condimentos sazonais.
(Abaixo) Sobremesa e Bebidas Makgeolli Sazonal (Vinho de Arroz) - $ 12 / copo
Sabores rotativos com base em frutas e flores da estação (caqui, frutas cítricas, flor de sabugueiro, etc.).
Hoddeok (panqueca doce coreana) - $ 9 Panqueca recheada com canela frita com sorvete de gergelim preto.
Ler mais

Melhor de ~2
Foto de um convite de casamento delicioso em uma mesa de madeira de bom gosto. O cartão é robusto, com texturas de casca de ovo e belos relevos, com decorações elegantes representando abstratamente o casal integrado com bom gosto aos designs. A iconografia é usada, mas com moderação e de forma minimalista. composição tipográfica perfeita.
"Você está cordialmente convidado
para a tão esperada união de
Imagem
e
Texto
Depois de anos de flerte e colaboração
, eles estão finalmente se tornando Um.
Juntos, finalmente, no GPT-4o,
eles agora falam a mesma língua -
onde um sussurro se torna uma obra-prima
e um prompt se torna uma imagem.
Junte-se a nós na celebração
deste matrimônio multimodal mágico
onde a imaginação não conhece limites.
Data: 25 de março de 2025
Localização: chatgpt.com
Código de vestimenta: Pixels ou Prosa
Com amor,OpenAI
"
composição tipográfica.
Ler mais

Melhor de ~10
Geração multi-turnos
Como a geração de imagens agora é nativa do GPT-4o, você pode refinar as imagens por meio de conversas naturais. O GPT-4o pode se basear em imagens e texto no contexto do bate-papo, garantindo consistência por toda parte. Por exemplo, se você estiver criando um personagem de videogame, a aparência do personagem permanecerá coerente em várias iterações à medida que você refina e experimenta.
Vídeo gamePoema concretoEtiquetaVídeo gamePoema concretoEtiqueta

Dê a este gato um chapéu de detetive e um monóculo

Melhor de 1
transforme isso em um videogame AAA feito com um mecanismo de jogo 4k e adicione alguma interface de usuário como sobreposição de um RPG misterioso onde podemos ver uma barra de saúde e um minimapa na parte superior, bem como feitiços na parte inferior com consistência e iconografia

Melhor de 1
atualize para uma proporção de 16:9 de imagem de paisagem, adicione mais feitiços na interface do usuário e desamplie o visual para que vejamos o gato em uma visão de terceira pessoa andando por uma manhattan steampunk criando um belo contraste e iluminação como no melhor jogo AAA, com cores em tons frios

Melhor de 2
criar a interface quando o jogador abrir o menu e vemos o perfil do personagem do gato com seu equipamento e outra página mostrando missões ativas (e deve fazer sentido em relação à construção de mundo do universo que estamos descrevendo na imagem)

Melhor de 8
criador de crédito: Manuel Sainsily
poema concreto em cartão
texturizado de casca de ovo de luxo Na OpenAI, há muito acreditamos que a geração de imagens deve ser uma capacidade primária de nossos modelos de linguagem. É por isso que construímos nosso gerador de imagens mais avançado até agora no GPT-4o. O resultado - geração de imagens que não é apenas bonita, mas útil.
Desde as primeiras pinturas rupestres até os infográficos modernos, os humanos usaram imagens visuais para se comunicar, persuadir e analisar - não apenas para decorar. Os modelos generativos de hoje podem evocar vistas de tirar o fôlego e cenários surreais, mas ainda lutam com as imagens robustas que estão por trás de como a maioria dos dados visuais é usada para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir um significado preciso quando aumentadas com símbolos que se referem à linguagem e à experiência compartilhadas.
Com esse novo recurso, o ChatGPT avança na geração de imagens para ser uma ferramenta prática com precisão e potência.
Ler mais

Melhor de 8
Mostre este cartão, mas em uma sala de designers. cartão perto da câmera

Melhor de 8
Você pode me fazer um guaxinim minimalista fofo comendo um adesivo de morango? Use uma borda branca grossa e um fundo transparente

Experimente um estilo minimalista diferente e um guaxinim cinza

Aww, você pode adicionar uma marca de mastigação ao morango e talvez um pouco de bagunça vermelha ao redor da boca

Instruções a seguir
A geração de imagens do GPT-4o segue prompts detalhados com atenção aos detalhes. Enquanto outros sistemas lutam com ~ 5-8 objetos, o GPT-4o pode lidar com até 10-20 objetos diferentes. A ligação mais estreita dos objetos às suas características e relações permite um melhor controle.
Objetos organizadosCidade vaziaTaçaElefante invisívelEquação matemáticaObjetos organizadosCidade vaziaTaçaElefante invisívelEquação matemática
Uma imagem quadrada contendo uma grade de 4 linhas por 4 colunas contendo 16 objetos em um fundo branco. Vá da esquerda para a direita, de cima para baixo. Aqui está a lista:
1. uma estrela
azul 2. triângulo vermelho
3. quadrado
verde 4. círculo
rosa 5. ampulheta
laranja 6. Sinal
de infinito roxo 7. Gravata
borboleta de bolinhas preto e branco 8. tiedye "42"
9. um gato laranja usando um boné
de beisebol preto 10. um mapa com um baú
do tesouro 11. um par de olhos
arregalados 12. um emoji de polegar para cima
13. uma tesoura
14. uma girafa azul e branca
15. a palavra "OpenAI" escrita em letra cursiva
16. um relâmpago com as cores do arco-íris
Ler mais

Melhor de 5
Times Square na cidade de Nova York à tarde, sem pessoas, veículos ou outdoors iluminados.

Melhor de ~1
Travessia de Shibuya sem pessoas, veículos ou outdoors iluminados.

Melhor de ~1
mostre-me uma taça de vinho com apenas uma gota de vinho tinto.

Melhor de ~1
Precisamos de evidências de que existe um elefante invisível atualmente presente. Considere o que um elefante é e faz no ambiente, então mostre-nos isso, talvez no meio do processo - mas o elefante em si não é mostrado de forma alguma

criador de crédito: Eskcanta
um quadro branco que diz as seguintes equações:
E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 - 4ac)) / 2a

Melhor de ~1
Aprendizagem no contexto
O GPT-4o pode analisar e aprender com imagens carregadas pelo usuário, integrando perfeitamente seus detalhes em seu contexto para informar a geração de imagens.
Veículo com rodas triangularesMotosserraMulherEdifícioVeículo com rodas triangularesMotosserraMulherEdifício

- Desenhe um desenho para um veículo com rodas triangulares, usando essas imagens como referência.
- Rotule a roda dianteira, a roda traseira e, no diagrama, diga (em versalete)
- VEÍCULO COM RODAS TRIANGULARES. Patente inglesa. 2025. OPENAI.

Melhor de ~16
Agora coloque isso em uma foto tirada na cidade de Nova York.

Melhor de ~16
Uma imagem fotorrealista de uma motosserra azul

Melhor de 1
Faça um anúncio para esta motosserra, de uma avó esculpindo peru na mesa de jantar de Ação de Graças. Adicionar um slogan

Melhor de 4

Transforme essa cena em uma foto. Filmado em um DLSR

Melhor de ~8

Transforme isso em uma foto

Melhor de ~4
Conhecimento do mundo
A geração de imagens nativas permite que a 4o vincule seu conhecimento entre texto e imagens, resultando em um modelo que parece mais inteligente e eficiente.
Imagem gerada por códigoReceitas de coquetéisInfográfico do tempoGuia de baleiasInstruções MatchaImagem gerada por códigoReceitas de coquetéisInfográfico do tempoGuia de baleiasInstruções Matcha
Exemplo de código (Three.js)
HTML
1<!DOCTYPE html>2<html lang="en">3 <head>4 <meta charset="UTF-8" />5 <title>OpenAI Banner</title>6 <style>7 body { margin: 0; overflow: hidden; }8 canvas { display: block; }9 </style>10 </head>11 <body>12 <script type="module">13 import * as THREE from 'https://cdn.jsdelivr.net/npm/[email protected]/build/three.module.js';14 import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/controls/OrbitControls.js';15 import { FontLoader } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/loaders/FontLoader.js';16 import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/geometries/TextGeometry.js';1718 const scene = new THREE.Scene();19 const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);20 const renderer = new THREE.WebGLRenderer({ antialias: true });21 renderer.setSize(window.innerWidth, window.innerHeight);22 document.body.appendChild(renderer.domElement);2324 // Lighting25 const light = new THREE.AmbientLight(0xffffff, 1);26 scene.add(light);2728 const dirLight = new THREE.DirectionalLight(0xffffff, 1);29 dirLight.position.set(0, 5, 10);30 scene.add(dirLight);3132 // Camera position33 camera.position.z = 20;3435 // Controls36 const controls = new OrbitControls(camera, renderer.domElement);3738 // Banner background39 const bannerGeometry = new THREE.PlaneGeometry(20, 10);40 const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });41 const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);42 scene.add(banner);4344 // OpenAI Logo texture (placeholder)45 const loader = new THREE.TextureLoader();46 loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {47 const logoGeometry = new THREE.PlaneGeometry(4, 4);48 const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });49 const logo = new THREE.Mesh(logoGeometry, logoMaterial);50 logo.position.set(-5, 0, 0.1); // Slightly in front of the banner51 scene.add(logo);52 });5354 // Load font and add text55 const fontLoader = new FontLoader();56 fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {57 const textGeometry = new TextGeometry("I am 4-o", {58 font: font,59 size: 1,60 height: 0.2,61 curveSegments: 12,62 bevelEnabled: true,63 bevelThickness: 0.02,64 bevelSize: 0.02,65 bevelOffset: 0,66 bevelSegments: 567 });6869 textGeometry.center();7071 const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });72 const textMesh = new THREE.Mesh(textGeometry, textMaterial);73 textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo74 scene.add(textMesh);75 });7677 // Resize handler78 window.addEventListener('resize', () => {79 camera.aspect = window.innerWidth / window.innerHeight;80 camera.updateProjectionMatrix();81 renderer.setSize(window.innerWidth, window.innerHeight);82 });8384 // Render loop85 function animate() {86 requestAnimationFrame(animate);87 controls.update();88 renderer.render(scene, camera);89 }9091 animate();92 </script>93 </body>94</html>
Faça uma imagem do que isso significa para você

Faça um diagrama fotorrealista filmado profissionalmente dos coquetéis mais vendidos em meu bar com receitas rotuladas em cada bebida.
Coloque as receitas em cartões manuscritos na frente de cada bebida.
os cartões são marrons e o texto é preto.
o fundo é branco
O título é "4 coquetéis mais populares"
Ler mais

Melhor de 1
faça um infográfico visual descrevendo por que a ficção científica é tão nebulosa

Melhor de 3
Crie um pôster educacional de diferentes tipos de baleias em um estilo aquarela efervescente. Faça o fundo branco puro.

Melhor de 3
Faça uma risografia bem colorida sobre como fazer matcha

Melhor de 3
Fotorrealismo e estilo
O treinamento em imagens que refletem uma grande variedade de estilos de imagem permite que o modelo crie ou transforme imagens de forma convincente.







](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)




Limitações
Nosso modelo não é perfeito. Estamos cientes de várias limitações no momento, que trabalharemos para resolver por meio de melhorias no modelo após o lançamento inicial.
CorteAlucinaçõesProblemas de alta ligaçãoGráficos precisosRenderização de texto multilínguePrecisão de ediçãoInformações densas com texto pequenoCorteAlucinaçõesProblemas de alta ligaçãoGráficos precisosRenderização de texto multilínguePrecisão de ediçãoInformações densas com texto pequeno

Percebemos que o GPT-4o pode ocasionalmente cortar imagens mais longas, como pôsteres, com muita força, especialmente perto da parte inferior.

Como nossos outros modelos de texto, a geração de imagens também pode compor informações, especialmente em prompts de baixo contexto.

Ao gerar imagens que dependem de sua base de conhecimento, ele pode ter dificuldade para renderizar com precisão mais de 10 a 20 conceitos distintos de uma só vez, como uma tabela periódica completa.
Mostre mais


O modelo às vezes tem dificuldade em renderizar idiomas não latinos e os caracteres podem ser imprecisos ou alucinados, especialmente com mais complexidade.
Mostre mais

Percebemos que solicitações para editar partes específicas de uma geração de imagem, como erros de digitação, nem sempre são eficazes e também podem alterar outras partes da imagem de uma forma que não foi solicitada ou introduzir mais erros. No momento, estamos trabalhando para introduzir maior precisão de edição no modelo.
Estamos cientes de um bug em que o modelo luta para manter a consistência das edições nos rostos dos uploads dos usuários, mas esperamos que isso seja corrigido dentro de uma semana.
Mostre mais

O modelo é conhecido por ter dificuldades quando solicitado a renderizar informações detalhadas em um tamanho muito pequeno.
Segurança
De acordo com nossa especificação de modelo, pretendemos maximizar a liberdade criativa, apoiando casos de uso valiosos, como desenvolvimento de jogos, exploração histórica e educação, mantendo fortes padrões de segurança. Ao mesmo tempo, continua sendo tão importante como sempre bloquear solicitações que violem esses padrões. Abaixo estão as avaliações de áreas de risco adicionais em que estamos trabalhando para permitir conteúdo seguro e de alta utilidade e oferecer suporte a uma expressão criativa mais ampla para os usuários.
Proveniência via C2PA e pesquisareversível interna Todas as imagens geradas vêm com metadados C2PA, que identificarão uma imagem como proveniente do GPT-4o, para fornecer transparência. Também criamos uma ferramenta de pesquisa interna que usa atributos técnicos de gerações para ajudar a verificar se o conteúdo veio do nosso modelo.
Bloqueando as coisasruins Continuamos bloqueando solicitações de imagens geradas que possam violar nossas políticas de conteúdo, como materiais de abuso sexual infantil e deepfakes sexuais. Quando imagens de pessoas reais estão em contexto, aumentamos as restrições sobre que tipo de imagens podem ser criadas, com salvaguardas particularmente robustas em torno da nudez e da violência gráfica. Como em qualquer lançamento, a segurança nunca termina e é uma área de investimento contínua. À medida que aprendermos mais sobre o uso desse modelo no mundo real, ajustaremos nossas políticas de acordo.
Para saber mais sobre nossa abordagem, visite o adendo de geração de imagem para o cartão do sistema GPT-4o.
Usando o raciocínio para impulsionar a segurançaSemelhante ao nosso trabalho de alinhamento deliberativo, treinamos um LLM de raciocínio para trabalhar diretamente a partir de especificações de segurança escritas por humanos e interpretáveis. Usamos esse LLM de raciocínio durante o desenvolvimento para nos ajudar a identificar e resolver ambiguidades em nossas políticas. Juntamente com nossos avanços multimodais e técnicas de segurança existentes desenvolvidas para ChatGPT e Sora, isso nos permite moderar o texto de entrada e as imagens de saída de acordo com nossas políticas.
Acesso e disponibilidade
A geração de imagens 4o é lançada a partir de hoje para usuários Plus, Pro, Team e Free como o gerador de imagens padrão no ChatGPT, com acesso em breve ao Enterprise e Edu. Também está disponível para uso em Sora. Para aqueles que ocupam um lugar especial em seus corações para DALL· E, ainda pode ser acessado por meio de um DALL· E GPT.
Em breve, os desenvolvedores poderão gerar imagens com GPT-4o por meio da API, com o acesso sendo lançado nas próximas semanas.
Criar e personalizar imagens é tão simples quanto conversar usando GPT-4o - basta descrever o que você precisa, incluindo detalhes como proporção, cores exatas usando códigos hexadecimais ou um fundo transparente. Como esse modelo cria imagens mais detalhadas, as imagens demoram mais para serem renderizadas, geralmente até um minuto.