Notícias

ChatGPT apresenta a geração de imagens 4o

Por Elton Ciatto

30 mar 2025 — 18 min read min de leitura

A OpenAI, acredita que a geração de imagens deve ser um recurso primário de modelos de linguagem. É por isso que construíram o gerador de imagens mais avançado até agora no GPT-4o. O resultado - geração de imagens que não é apenas bonita, mas útil.

oai_image-generation_whiteboard1 — Criado com ChatGPT

Prompt usado para gerar a imagem:

Uma imagem ampla tirada com um telefone de um quadro branco de vidro, em uma sala com vista para a Bay Bridge. O campo de visão mostra uma mulher escrevendo, ostentando uma camiseta com um grande logotipo da OpenAI. A caligrafia parece natural e um pouco confusa, e vemos o reflexo do fotógrafo.

O texto diz:

(esquerda)
"Transferência entre Modalidades:

Suponha que modelemos
diretamente p(texto, pixels, som) [equação]
com um grande transformador autorregressivo.

Prós:
* geração de imagens aumentada com vasto conhecimento
do mundo* renderização de texto de próximo nível
* aprendizado
nativo no contexto* pilha

unificada pós-treinamento Contras:
* taxa de bits variável entre as modalidades
* computação não adaptável"

(Direita)
"Correções:
* representações compactadas
de modelo* compor autorregressivo anterior com um poderoso decodificador"

No canto inferior direito do quadro, ela desenha um diagrama:
"tokens -> [transformador] -> [difusão] -> pixels"

Melhorando a imagem:

oai_image-generation_whiteboard2 — Criado com ChatGPT

Prompt usado: vista selfie do fotógrafo, enquanto ela se vira para cumprimentá-lo

Poesia magnética em uma geladeira em uma casa de meados do século:

Imagem do herói 2 - imagem que vale mais que mil palavras

Linha 1: "Uma imagem"
Linha 2: "vale a pena"
Linha 3: "mil palavras,"
Linha 4: "mas às vezes"Grande lacunaLinha 5: "no lugar certo"
Linha 6: "pode elevar"
Linha 7: "seu significado.

"O homem está segurando as palavras "alguns" na mão direita e "palavras" na esquerda.

^{Melhor de 5}

Faça uma imagem de uma faixa de quatro painéis, com algum preenchimento ao redor da borda:

Um pequeno caracol está no balcão de um showroom de carros chamativo. O vendedor se inclinou sobre a mesa para vê-lo.

Close-up no caracol parecendo muito sério. Ele diz: "Eu quero o seu carro esportivo mais rápido... e eu quero que você pinte grandes letras 'S' nas portas, no capô e no teto.

O vendedor está coçando a cabeça. "Hum... podemos fazer isso, mas por que os S's?"

Smash corta para um borrão vermelho rugindo pela estrada. O carro esportivo está coberto de S's gigantes. As pessoas na calçada estão apontando e rindo: "UAU! OLHE PARA AQUELE S-CAR GO!"

Imagem ChatGPT 24 de março de 2025, 08 49 15 AM

^{Melhor de ~2}

Um infográfico explicando o experimento do prisma de Newton em grande detalhe

^{Melhor de 3}

agora gere um ponto de vista de uma pessoa desenhando este diagrama em seu caderno, em uma mesa redonda de café no Washington Square Park

^{Melhor de 2}

agora mostre a mesma cena com um jovem presunçoso Isaac Newton sentado à mesa, com um prisma, demonstrando o experimento, sem o caderno à vista

^{Melhor de 4}

Geração de imagens úteis

Desde as primeiras pinturas rupestres até os infográficos modernos, os humanos usaram imagens visuais para se comunicar, persuadir e analisar - não apenas para decorar. Os modelos generativos de hoje podem evocar cenas surreais e de tirar o fôlego, mas lutam com as imagens robustas que as pessoas usam para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir um significado preciso quando aumentadas com símbolos que se referem à linguagem e à experiência compartilhadas.

A geração de imagens GPT-4o se destaca na renderização precisa de texto, seguindo instruções com precisão e aproveitando a base de conhecimento inerente e o contexto de bate-papo do 4o, incluindo a transformação de imagens carregadas ou o uso delas como inspiração visual. Esses recursos facilitam a criação exata da imagem que você imagina, ajudando você a se comunicar com mais eficiência por meio de recursos visuais e transformando a geração de imagens em uma ferramenta prática com precisão e poder.

00:0000:00

Recursos aprimorados

Treinamos nossos modelos na distribuição conjunta de imagens e textos online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como elas se relacionam umas com as outras. Combinado com um pós-treinamento agressivo, o modelo resultante tem uma fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e sensíveis ao contexto.

Renderização de texto

Uma imagem vale mais que mil palavras, mas às vezes gerar algumas palavras no lugar certo pode elevar o significado de uma imagem. A capacidade do 4o de misturar símbolos precisos com imagens transforma a geração de imagens em uma ferramenta de comunicação visual.

Placas de ruaMenuConvitePlacas de ruaMenuConvite

Crie uma imagem fotorrealista de duas bruxas na casa dos 20 anos (uma balayage cinza, outra com longos cabelos ruivos ondulados) lendo uma placa de rua.

Contexto:
uma rua da cidade em uma rua aleatória em Williamsburg, NY, com um poste coberto inteiramente por vários sinais de rua detalhados (por exemplo, horários de varredura de rua, licenças de estacionamento necessárias, classificações de veículos, regras de reboque), incluindo alguns sinais ridículos no meio: (parafraseie-o para fazer esses sinais de rua legítimos) "Estacionamento de vassouras para bruxas não é permitido na zona C" e "Apenas carregamento e descarregamento de tapete mágico (limite de 15 minutos)" e "Estacionamento de renas com permissão Apenas (24 a 25 de dezembro)\n Os infratores serão colocados na lista impertinente." A placa de sinalização fica à direita de uma rua. Não repita sinais. Os sinais devem ser realistas.

Personagens:
uma bruxa está segurando uma vassoura e a outra tem um tapete mágico enrolado. Eles estão em primeiro plano, com as costas ligeiramente voltadas para a câmera e a cabeça ligeiramente inclinada enquanto examinam os sinais.

Composição do fundo para o primeiro plano:
ruas + carros estacionados + edifícios -> placa de rua -> bruxas. Os personagens devem estar mais próximos da câmera que tira a foto

Ler mais

^{Melhor de ~8}

Estou abrindo um restaurante de conceito tradicional em Marin chamado Haein. Ele se concentra na comida coreana preparada com ingredientes orgânicos e frescos da fazenda, com um menu rotativo baseado no que é sazonal. Quero que você crie uma imagem - um menu que incorpore os seguintes itens de menu - incline-se para o estilo tradicional / rústico, mantendo-o sofisticado e elegante. Por favor, inclua também ilustrações de cada prato em um estilo elegante de coelho peter. Certifique-se de que todo o texto seja renderizado corretamente, com um fundo branco.

(Início)

Doenjang Jjigae (ensopado de soja fermentado) - $ 18 Doenjang caseiro com cogumelos locais, tofu e vegetais sazonais servidos com arroz.

Galbi Jjim (costelinha refogada) - $ 34 Costelas de boi alimentadas com capim locais refogadas lentamente com cobertura de pêra e alho preto, raízes sazonais e jujuba.

Peixe Grelhado da Estação - Preço de Mercado ($ 22- $ 30) Inteiro ou filé de peixe local e sustentável grelhado no carvão, servido com ssam de folha de perilla e molhos caseiros.

Bibimbap - $ 19 Arroz tradicional com uma seleção rotativa de vegetais frescos da fazenda, gochujang fermentado em casa e ovo criado a pasto.

Bossam (Heritage Pork Wraps) - $ 28 Barriga de porco cozida lentamente com wraps de repolho napa, kimchi de ostra, perilla e condimentos sazonais.

(Abaixo) Sobremesa e Bebidas Makgeolli Sazonal (Vinho de Arroz) - $ 12 / copo

Sabores rotativos com base em frutas e flores da estação (caqui, frutas cítricas, flor de sabugueiro, etc.).

Hoddeok (panqueca doce coreana) - $ 9 Panqueca recheada com canela frita com sorvete de gergelim preto.

Ler mais

Imagem ChatGPT 24 de março de 2025, 07 55 11h

^{Melhor de ~2}

Foto de um convite de casamento delicioso em uma mesa de madeira de bom gosto. O cartão é robusto, com texturas de casca de ovo e belos relevos, com decorações elegantes representando abstratamente o casal integrado com bom gosto aos designs. A iconografia é usada, mas com moderação e de forma minimalista. composição tipográfica perfeita.

"Você está cordialmente convidado
para a tão esperada união de

Imagem
e
Texto

Depois de anos de flerte e colaboração
, eles estão finalmente se tornando Um.

Juntos, finalmente, no GPT-4o,
eles agora falam a mesma língua -
onde um sussurro se torna uma obra-prima
e um prompt se torna uma imagem.

Junte-se a nós na celebração
deste matrimônio multimodal mágico
onde a imaginação não conhece limites.

Data: 25 de março de 2025
Localização: chatgpt.com
Código de vestimenta: Pixels ou Prosa

Com amor,OpenAI
"

composição tipográfica.

Ler mais

^{Melhor de ~10}

Geração multi-turnos

Como a geração de imagens agora é nativa do GPT-4o, você pode refinar as imagens por meio de conversas naturais. O GPT-4o pode se basear em imagens e texto no contexto do bate-papo, garantindo consistência por toda parte. Por exemplo, se você estiver criando um personagem de videogame, a aparência do personagem permanecerá coerente em várias iterações à medida que você refina e experimenta.

Vídeo gamePoema concretoEtiquetaVídeo gamePoema concretoEtiqueta

Dê a este gato um chapéu de detetive e um monóculo

^{Melhor de 1}

transforme isso em um videogame AAA feito com um mecanismo de jogo 4k e adicione alguma interface de usuário como sobreposição de um RPG misterioso onde podemos ver uma barra de saúde e um minimapa na parte superior, bem como feitiços na parte inferior com consistência e iconografia

^{Melhor de 1}

atualize para uma proporção de 16:9 de imagem de paisagem, adicione mais feitiços na interface do usuário e desamplie o visual para que vejamos o gato em uma visão de terceira pessoa andando por uma manhattan steampunk criando um belo contraste e iluminação como no melhor jogo AAA, com cores em tons frios

^{Melhor de 2}

criar a interface quando o jogador abrir o menu e vemos o perfil do personagem do gato com seu equipamento e outra página mostrando missões ativas (e deve fazer sentido em relação à construção de mundo do universo que estamos descrevendo na imagem)

^{Melhor de 8}

criador de crédito: Manuel Sainsily

poema concreto em cartão

texturizado de casca de ovo de luxo Na OpenAI, há muito acreditamos que a geração de imagens deve ser uma capacidade primária de nossos modelos de linguagem. É por isso que construímos nosso gerador de imagens mais avançado até agora no GPT-4o. O resultado - geração de imagens que não é apenas bonita, mas útil.

Desde as primeiras pinturas rupestres até os infográficos modernos, os humanos usaram imagens visuais para se comunicar, persuadir e analisar - não apenas para decorar. Os modelos generativos de hoje podem evocar vistas de tirar o fôlego e cenários surreais, mas ainda lutam com as imagens robustas que estão por trás de como a maioria dos dados visuais é usada para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir um significado preciso quando aumentadas com símbolos que se referem à linguagem e à experiência compartilhadas.

Com esse novo recurso, o ChatGPT avança na geração de imagens para ser uma ferramenta prática com precisão e potência.

Ler mais

Captura de tela 24/03/2025 às 9.10.27 AM

^{Melhor de 8}

Mostre este cartão, mas em uma sala de designers. cartão perto da câmera

Captura de tela 2025-03-18 em 1.40.24 PM

^{Melhor de 8}

Você pode me fazer um guaxinim minimalista fofo comendo um adesivo de morango? Use uma borda branca grossa e um fundo transparente

Experimente um estilo minimalista diferente e um guaxinim cinza

Aww, você pode adicionar uma marca de mastigação ao morango e talvez um pouco de bagunça vermelha ao redor da boca

Gere uma imagem transparente: um guaxinim com um morango.

Instruções a seguir

A geração de imagens do GPT-4o segue prompts detalhados com atenção aos detalhes. Enquanto outros sistemas lutam com ~ 5-8 objetos, o GPT-4o pode lidar com até 10-20 objetos diferentes. A ligação mais estreita dos objetos às suas características e relações permite um melhor controle.

Objetos organizadosCidade vaziaTaçaElefante invisívelEquação matemáticaObjetos organizadosCidade vaziaTaçaElefante invisívelEquação matemática

Uma imagem quadrada contendo uma grade de 4 linhas por 4 colunas contendo 16 objetos em um fundo branco. Vá da esquerda para a direita, de cima para baixo. Aqui está a lista:
1. uma estrela
azul 2. triângulo vermelho
3. quadrado
verde 4. círculo
rosa 5. ampulheta
laranja 6. Sinal
de infinito roxo 7. Gravata
borboleta de bolinhas preto e branco 8. tiedye "42"
9. um gato laranja usando um boné
de beisebol preto 10. um mapa com um baú
do tesouro 11. um par de olhos
arregalados 12. um emoji de polegar para cima
13. uma tesoura
14. uma girafa azul e branca
15. a palavra "OpenAI" escrita em letra cursiva
16. um relâmpago com as cores do arco-íris

Ler mais

Captura de tela 2025-03-24 em 10.07.12 AM

^{Melhor de 5}

Times Square na cidade de Nova York à tarde, sem pessoas, veículos ou outdoors iluminados.

Captura de tela 2025-03-24 em 10.18.39 AM

^{Melhor de ~1}

Travessia de Shibuya sem pessoas, veículos ou outdoors iluminados.

Captura de tela 2025-03-24 em 10.12.04 AM

^{Melhor de ~1}

mostre-me uma taça de vinho com apenas uma gota de vinho tinto.

Captura de tela 2025-03-17 em 2.25.30 PM

^{Melhor de ~1}

Precisamos de evidências de que existe um elefante invisível atualmente presente. Considere o que um elefante é e faz no ambiente, então mostre-nos isso, talvez no meio do processo - mas o elefante em si não é mostrado de forma alguma

Captura de tela 2025-03-24 em 10.26.23 AM

criador de crédito: Eskcanta

um quadro branco que diz as seguintes equações:
E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 - 4ac)) / 2a

^{Melhor de ~1}

Aprendizagem no contexto

O GPT-4o pode analisar e aprender com imagens carregadas pelo usuário, integrando perfeitamente seus detalhes em seu contexto para informar a geração de imagens.

Veículo com rodas triangularesMotosserraMulherEdifícioVeículo com rodas triangularesMotosserraMulherEdifício

Desenhe um desenho para um veículo com rodas triangulares, usando essas imagens como referência.
Rotule a roda dianteira, a roda traseira e, no diagrama, diga (em versalete)
VEÍCULO COM RODAS TRIANGULARES. Patente inglesa. 2025. OPENAI.

Captura de tela 2025-03-24 em 10.41.56 AM

^{Melhor de ~16}

Agora coloque isso em uma foto tirada na cidade de Nova York.

Captura de tela 2025-03-24 em 10.42.45 AM

^{Melhor de ~16}

Uma imagem fotorrealista de uma motosserra azul

Imagem ChatGPT 24 de março de 2025, 09 48 14 PM

^{Melhor de 1}

Faça um anúncio para esta motosserra, de uma avó esculpindo peru na mesa de jantar de Ação de Graças. Adicionar um slogan

Imagem ChatGPT 24 de março de 2025, 09 48 59 PM

^{Melhor de 4}

Captura de tela 2025-03-24 em 10.46.58 AM

Transforme essa cena em uma foto. Filmado em um DLSR

^{Melhor de ~8}

Captura de tela 2025-03-24 em 10.48.37 AM

Transforme isso em uma foto

Captura de tela 2025-03-24 em 10.48.47 AM

^{Melhor de ~4}

Conhecimento do mundo

A geração de imagens nativas permite que a 4o vincule seu conhecimento entre texto e imagens, resultando em um modelo que parece mais inteligente e eficiente.

Imagem gerada por códigoReceitas de coquetéisInfográfico do tempoGuia de baleiasInstruções MatchaImagem gerada por códigoReceitas de coquetéisInfográfico do tempoGuia de baleiasInstruções Matcha

Exemplo de código (Three.js)

HTML

1<!DOCTYPE html>2<html lang="en">3 <head>4 <meta charset="UTF-8" />5 <title>OpenAI Banner</title>6 <style>7 body { margin: 0; overflow: hidden; }8 canvas { display: block; }9 </style>10 </head>11 <body>12 <script type="module">13 import * as THREE from 'https://cdn.jsdelivr.net/npm/[email protected]/build/three.module.js';14 import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/controls/OrbitControls.js';15 import { FontLoader } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/loaders/FontLoader.js';16 import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/[email protected]/examples/jsm/geometries/TextGeometry.js';1718 const scene = new THREE.Scene();19 const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);20 const renderer = new THREE.WebGLRenderer({ antialias: true });21 renderer.setSize(window.innerWidth, window.innerHeight);22 document.body.appendChild(renderer.domElement);2324 // Lighting25 const light = new THREE.AmbientLight(0xffffff, 1);26 scene.add(light);2728 const dirLight = new THREE.DirectionalLight(0xffffff, 1);29 dirLight.position.set(0, 5, 10);30 scene.add(dirLight);3132 // Camera position33 camera.position.z = 20;3435 // Controls36 const controls = new OrbitControls(camera, renderer.domElement);3738 // Banner background39 const bannerGeometry = new THREE.PlaneGeometry(20, 10);40 const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });41 const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);42 scene.add(banner);4344 // OpenAI Logo texture (placeholder)45 const loader = new THREE.TextureLoader();46 loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {47 const logoGeometry = new THREE.PlaneGeometry(4, 4);48 const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });49 const logo = new THREE.Mesh(logoGeometry, logoMaterial);50 logo.position.set(-5, 0, 0.1); // Slightly in front of the banner51 scene.add(logo);52 });5354 // Load font and add text55 const fontLoader = new FontLoader();56 fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {57 const textGeometry = new TextGeometry("I am 4-o", {58 font: font,59 size: 1,60 height: 0.2,61 curveSegments: 12,62 bevelEnabled: true,63 bevelThickness: 0.02,64 bevelSize: 0.02,65 bevelOffset: 0,66 bevelSegments: 567 });6869 textGeometry.center();7071 const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });72 const textMesh = new THREE.Mesh(textGeometry, textMaterial);73 textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo74 scene.add(textMesh);75 });7677 // Resize handler78 window.addEventListener('resize', () => {79 camera.aspect = window.innerWidth / window.innerHeight;80 camera.updateProjectionMatrix();81 renderer.setSize(window.innerWidth, window.innerHeight);82 });8384 // Render loop85 function animate() {86 requestAnimationFrame(animate);87 controls.update();88 renderer.render(scene, camera);89 }9091 animate();92 </script>93 </body>94</html>

Faça uma imagem do que isso significa para você

Captura de tela 2025-03-18 em 11.46.24 AM

Faça um diagrama fotorrealista filmado profissionalmente dos coquetéis mais vendidos em meu bar com receitas rotuladas em cada bebida.

Coloque as receitas em cartões manuscritos na frente de cada bebida.

os cartões são marrons e o texto é preto.

o fundo é branco

O título é "4 coquetéis mais populares"

Ler mais

Imagem ChatGPT 24 de março de 2025, 11: 20, 33 AM

^{Melhor de 1}

faça um infográfico visual descrevendo por que a ficção científica é tão nebulosa

Imagem ChatGPT 24 de março de 2025, 12 51 05 PM

^{Melhor de 3}

Crie um pôster educacional de diferentes tipos de baleias em um estilo aquarela efervescente. Faça o fundo branco puro.

^{Melhor de 3}

Faça uma risografia bem colorida sobre como fazer matcha

^{Melhor de 3}

Fotorrealismo e estilo

O treinamento em imagens que refletem uma grande variedade de estilos de imagem permite que o modelo crie ou transforme imagens de forma convincente.

Uma foto sincera no estilo paparazzi de Karl Marx andando apressadamente pelo estacionamento do Mall of America, olhando por cima do ombro com uma expressão assustada enquanto tenta evitar ser fotografado. Ele está segurando várias sacolas de compras brilhantes cheias de produtos de luxo. Seu casaco esvoaça atrás dele ao vento, e uma das sacolas está balançando como se ele estivesse no meio do passo. Fundo desfocado com carros e uma entrada de shopping brilhante para enfatizar o movimento. O brilho do flash da câmera superexpõe parcialmente a imagem, dando-lhe uma sensação caótica e tablóide.

Foto de uma fruteira que consiste em frutas reais misturadas com planetas em miniatura (Júpiter, Saturno, Marte, Terra), mantendo reflexos realistas, iluminação e sombras consistentes com a foto original, composição limpa, texturas autênticas, renderização detalhada nítida

Uma cena subaquática realista com golfinhos nadando pelas janelas de um vagão de metrô abandonado, com bolhas e fluxo de água detalhado simulado com precisão.

Fotografia realista de um cavalo galopando da direita para a esquerda através de uma vasta e calma superfície do oceano, retratando com precisão respingos, reflexos e padrões sutis de ondulação sob seus cascos. Exagere os movimentos do cavalo, mas todo o resto deve estar parado, quieto para contrastar com a força do cavalo. composição limpa, cinematográfica. Uma composição ampla e panorâmica mostrando um horizonte distante. Perspectiva atmosférica criando profundidade. ampliado para que o cavalo pareça minúsculo em comparação com o vasto oceano.

cavalo está bem no horizonte onde o oceano encontra o céu. Use a regra dos terços para posicionar o cavalo. O tamanho do cavalo é 1% do tamanho de toda a imagem porque a câmera está muito longe do assunto. A visão da câmera está super perto do solo/oceano como a visão de um verme. cavalo está galopando exatamente onde o oceano encontra o céu

Um astronauta solitário flutua dentro de uma vasta estação espacial, pintando galáxias rodopiantes em uma tela enorme que paira sem peso no ar. Seu pincel deixa para trás rastros de poeira cósmica, e seu traje está manchado com tons coloridos de nebulosa. Seu capacete está desligado, revelando olhos cheios do reflexo de planetas distantes. Do lado de fora da janela de vidro, um buraco negro se aproxima, distorcendo a luz em padrões hipnotizantes.

Melhor de 1 | Gere um anúncio de retrato em um plano de fundo pastel sólido.

Em texto san serif branco sólido, "Geração de imagem ChatGPT" no canto superior esquerdo, cerca de um terço do caminho para baixo.

Em texto san serif branco sólido, "A forma segue a função", no canto inferior direito, cerca de um terço do caminho para cima.

No fundo, coloque uma foto de uma escultura realmente elegante e moderna. Ele deve fazer a transição gradual de um esboço de wireframe à esquerda para a versão totalmente fotorrealista à direita.

Na parte inferior, em texto médio-pequeno, diga "Este pôster inteiro foi gerado pela geração de imagens do ChatGPT".

Crie uma imagem super-realista dessas 4 criaturas jogando pôquer em uma toalha de piquenique, ampliada, no parque Dolores. fotorrealista. O gato malhado de pêlo comprido está segurando uma mão; Bem ao lado dele estão 2 lascas pretas verticais altas (com listras) enquanto ele está varrendo a massa. As pupilas de Tabby são grandes e fofas, e eu olho para baixo e examino suas cartas, focado. Derpy gato preto foi all-in. Dois cães estão espiando por cima do ombro do gato para ver suas cartas. Todas as cartas estão viradas para baixo e da mesma cor de verso, exceto por um três de ouros expostos. Pequenas pilhas de fichas de pôquer estão na frente de cada criatura, mas o gato preto foi all-in. Os dois cães desistiram. Todas as fichas são do mesmo conjunto e todas as cartas têm a mesma cor. Fotorrealista, filmado no iPhone, formato RAW.

fotografia de filme analógico antigo embaçado, foto de carro estacionado na rua lateral, noite tranquila. criador de créditos: [Roope Rainisto](https://www.instagram.com/never_ever_never_land/?igsh=MXh3N3EyOWdoMmNubg%3D%3D#)

Gere uma imagem fotorrealista do mercado do fazendeiro em Toronto em um sábado no verão de 2006, é um belo dia de final de junho, as pessoas estão fazendo compras e comendo sanduíches. Em foco deve estar uma jovem asiática vestindo macacão jeans e bebendo um smoothie de morango e banana - o descanso pode ser borrado. A foto deve ser uma reminiscência do que uma câmera digital de 2006 tiraria, com um carimbo de data/hora como uma foto impressa teria. A proporção deve ser de 3:2

Gere uma fotografia sincera no estilo Polaroid de quatro amigos diversos em seus 20 e poucos anos em um bar de mergulho corajoso. A iluminação apresenta um flash direto e muito forte, criando sombras nítidas e dando à foto uma sensação de câmera instantânea vintage muito superexposta. As cores devem ser ligeiramente suaves, evocando vibrações nostálgicas de festa do início dos anos 2000. A estética é casualmente emo. Sem borda ou logotipos ou sinais. Há uma parede interessante atrás deles com alguns grafites leves. A qualidade da imagem deve ser muito nítida e detalhada (muito pouca granulação). A energia deve ser boba e caótica. Eles estão brincando fazendo caretas, sorrindo ou fingindo parecer durões. Um deles deveria ter seu amigo em uma chave de braço boba e brincalhona. Suas bocas estão fechadas.

Um gato olhando para uma poça d'água em uma rua, mas seu reflexo é o de um tigre, e ambos os reflexos são realisticamente distorcidos por ondulações na água

Limitações

Nosso modelo não é perfeito. Estamos cientes de várias limitações no momento, que trabalharemos para resolver por meio de melhorias no modelo após o lançamento inicial.

CorteAlucinaçõesProblemas de alta ligaçãoGráficos precisosRenderização de texto multilínguePrecisão de ediçãoInformações densas com texto pequenoCorteAlucinaçõesProblemas de alta ligaçãoGráficos precisosRenderização de texto multilínguePrecisão de ediçãoInformações densas com texto pequeno

Percebemos que o GPT-4o pode ocasionalmente cortar imagens mais longas, como pôsteres, com muita força, especialmente perto da parte inferior.

Como nossos outros modelos de texto, a geração de imagens também pode compor informações, especialmente em prompts de baixo contexto.

Ao gerar imagens que dependem de sua base de conhecimento, ele pode ter dificuldade para renderizar com precisão mais de 10 a 20 conceitos distintos de uma só vez, como uma tabela periódica completa.

Mostre mais

O modelo às vezes tem dificuldade em renderizar idiomas não latinos e os caracteres podem ser imprecisos ou alucinados, especialmente com mais complexidade.

Mostre mais

Percebemos que solicitações para editar partes específicas de uma geração de imagem, como erros de digitação, nem sempre são eficazes e também podem alterar outras partes da imagem de uma forma que não foi solicitada ou introduzir mais erros. No momento, estamos trabalhando para introduzir maior precisão de edição no modelo.

Estamos cientes de um bug em que o modelo luta para manter a consistência das edições nos rostos dos uploads dos usuários, mas esperamos que isso seja corrigido dentro de uma semana.

Mostre mais

O modelo é conhecido por ter dificuldades quando solicitado a renderizar informações detalhadas em um tamanho muito pequeno.

Segurança

De acordo com nossa especificação de modelo, pretendemos maximizar a liberdade criativa, apoiando casos de uso valiosos, como desenvolvimento de jogos, exploração histórica e educação, mantendo fortes padrões de segurança. Ao mesmo tempo, continua sendo tão importante como sempre bloquear solicitações que violem esses padrões. Abaixo estão as avaliações de áreas de risco adicionais em que estamos trabalhando para permitir conteúdo seguro e de alta utilidade e oferecer suporte a uma expressão criativa mais ampla para os usuários.

Proveniência via C2PA e pesquisareversível interna Todas as imagens geradas vêm com metadados C2PA, que identificarão uma imagem como proveniente do GPT-4o, para fornecer transparência. Também criamos uma ferramenta de pesquisa interna que usa atributos técnicos de gerações para ajudar a verificar se o conteúdo veio do nosso modelo.

Bloqueando as coisasruins Continuamos bloqueando solicitações de imagens geradas que possam violar nossas políticas de conteúdo, como materiais de abuso sexual infantil e deepfakes sexuais. Quando imagens de pessoas reais estão em contexto, aumentamos as restrições sobre que tipo de imagens podem ser criadas, com salvaguardas particularmente robustas em torno da nudez e da violência gráfica. Como em qualquer lançamento, a segurança nunca termina e é uma área de investimento contínua. À medida que aprendermos mais sobre o uso desse modelo no mundo real, ajustaremos nossas políticas de acordo.

Para saber mais sobre nossa abordagem, visite o adendo de geração de imagem para o cartão do sistema GPT-4o.

Usando o raciocínio para impulsionar a segurançaSemelhante ao nosso trabalho de alinhamento deliberativo, treinamos um LLM de raciocínio para trabalhar diretamente a partir de especificações de segurança escritas por humanos e interpretáveis. Usamos esse LLM de raciocínio durante o desenvolvimento para nos ajudar a identificar e resolver ambiguidades em nossas políticas. Juntamente com nossos avanços multimodais e técnicas de segurança existentes desenvolvidas para ChatGPT e Sora, isso nos permite moderar o texto de entrada e as imagens de saída de acordo com nossas políticas.

Acesso e disponibilidade

A geração de imagens 4o é lançada a partir de hoje para usuários Plus, Pro, Team e Free como o gerador de imagens padrão no ChatGPT, com acesso em breve ao Enterprise e Edu. Também está disponível para uso em Sora. Para aqueles que ocupam um lugar especial em seus corações para DALL· E, ainda pode ser acessado por meio de um DALL· E GPT.

Em breve, os desenvolvedores poderão gerar imagens com GPT-4o por meio da API, com o acesso sendo lançado nas próximas semanas.

Criar e personalizar imagens é tão simples quanto conversar usando GPT-4o - basta descrever o que você precisa, incluindo detalhes como proporção, cores exatas usando códigos hexadecimais ou um fundo transparente. Como esse modelo cria imagens mais detalhadas, as imagens demoram mais para serem renderizadas, geralmente até um minuto.

ChatGPT apresenta a geração de imagens 4o

Por Elton Ciatto

Prompt usado para gerar a imagem:

Melhorando a imagem:

Poesia magnética em uma geladeira em uma casa de meados do século:

Geração de imagens úteis

Recursos aprimorados

Renderização de texto

Geração multi-turnos

Instruções a seguir

Aprendizagem no contexto

Conhecimento do mundo

HTML

Fotorrealismo e estilo

Limitações

Segurança

Acesso e disponibilidade

Leia mais

Nova corrida espacial: EUA e China disputam o futuro lunar

Falso antivírus no Android rouba senhas bancárias e preocupa especialistas

SpaceX adia planos de chegar a Marte e volta atenção para a Lua

Guia completo: como ativar e usar o Facebook Namoro no seu celular