25. marts 2025

Præsentation af 4o-billedgenerering

Få adgang til nyttig og værdifuld billedgenerering med en indbygget multimodal model, der kan levere præcise, nøjagtige og fotorealistiske resultater.

Prøv i ChatGPT

Indlæser ...

Hos OpenAI har vi længe ment, at billedgenerering bør være en primær kapacitet i vores sprogmodeller. Derfor har vi indbygget vores hidtil mest avancerede billedgenerator i GPT‑4o. Resultatet – billedgenerering, der ikke kun er smuk, men også nyttig.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Brugbar billedgenerering

Fra de første hulemalerier til moderne infografik har mennesker brugt visuelle billeder til at kommunikere, overtale og analysere – ikke kun til at dekorere. Dagens generative modeller kan fremtrylle surrealistiske, betagende scener, men har svært ved de praktiske billeder, som folk bruger til at dele og skabe information. Billeder kan formidle præcis betydning, når de forstærkes med symboler, der refererer til fælles sprog og erfaring, fra logoer til diagrammer.

GPT‑4o billedgenerering udmærker sig ved præcis gengivelse af tekst, præcist at følge instruktioner og udnytte 4os iboende vidensbase og chatkontekst – herunder at transformere uploadede billeder eller bruge dem som visuel inspiration. Disse funktioner gør det lettere at skabe præcis det billede, du forestiller dig, så du kan kommunikere mere effektivt gennem visuelle elementer og fremme billedgenerering til et praktisk værktøj med præcision og styrke.

Forbedrede kapaciteter

Vi trænede vores modeller i den fælles distribution af onlinebilleder og tekst, hvor vi ikke kun lærte, hvordan billeder relaterer sig til sprog, men også hvordan de relaterer sig til hinanden. Kombineret med aggressiv eftertræning har den resulterende model en overraskende visuel flydende karakter, der er i stand til at generere billeder, der er nyttige, konsistente og kontekstbevidste.

Tekstgengivelse

Et billede siger mere end tusind ord, men nogle gange kan dét at generere et par ord på det rette sted løfte betydningen af et billede. 4o's evne til at blande præcise symboler med billeder gør billedgenerering til et værktøj til visuel kommunikation.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Generering ad flere omgange

Fordi billedgenerering nu er indbygget i GPT‑4o, kan du forfine billeder gennem naturlig samtale. GPT‑4o kan bygge videre på billeder og tekst i chatkontekst, hvilket sikrer konsistens hele vejen igennem. Hvis du for eksempel designer en figur i et videospil, forbliver figurens udseende sammenhængende på tværs af flere iterationer, mens du raffinerer og eksperimenterer.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Følge instruktioner

GPT‑4o’s billedgenerering følger detaljerede forespørgsler med opmærksomhed på detaljer. Mens andre systemer kæmper med ~5-8 objekter, kan GPT‑4o håndtere op til 10-20 forskellige objekter. Den strammere binding af objekter til deres egenskaber og relationer giver bedre kontrol.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Kontekstbaseret læring

GPT‑4o kan analysere og lære fra bruger-uploadede billeder og integrere deres detaljer problemfrit i sin kontekst for at informere billedgenerering.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Verdensviden

Generering af indbyggede billeder gør det muligt for 4o at sammenkæde sin viden mellem tekst og billeder, hvilket resulterer i en model, der føles smartere og mere effektiv.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotorealisme og stil

Træning på billeder, der afspejler en bred vifte af billedstile, gør det muligt for modellen at skabe eller forvandle billeder på en overbevisende måde.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Begrænsninger

Vores model er ikke perfekt. Vi er klar over flere begrænsninger lige nu, som vi vil arbejde på at løse gennem modelforbedringer efter den første lancering.

Vi har bemærket, at GPT‑4o til tider kan beskære længere billeder, såsom plakater, for stramt, især nær bunden.

Sikkerhed

I overensstemmelse med vores modelspecifikation sigter vi mod at maksimere den kreative frihed ved at understøtte værdifulde anvendelsesscenarier som spiludvikling, historisk udforskning og uddannelse – samtidig med at vi opretholder stærke sikkerhedsstandarder. Samtidig er det stadig lige så vigtigt som altid at blokere anmodninger, der overtræder disse standarder. Nedenfor er evalueringer af yderligere risikoområder, hvor vi arbejder på at aktivere sikkert, højnyttigt indhold og understøttelse af bredere kreativ udfoldelse for brugerne.

Proveniens via C2PA og intern reversibel søgning
Alle genererede billeder leveres med C2PA⁠-metadata, som identificerer et billede som kommende fra GPT‑4o for at sikre gennemsigtighed. Vi har også udviklet et internt søgeværktøj, der anvender tekniske egenskaber ved generationer til at hjælpe med at verificere, om indholdet stammer fra vores model.

Blokering af det dårlige indhold
Vi fortsætter med at blokere anmodninger om genererede billeder, der kan overtræde vores indholdspolitikker, såsom materiale med seksuelt misbrug af børn og seksuelle deepfakes. Når billeder af virkelige mennesker er i kontekst, har vi skærpede restriktioner for, hvilken slags billeder der kan skabes, med særligt robuste beskyttelsesforanstaltninger omkring nøgenhed og grafisk vold. Som ved enhver lancering er sikkerhed aldrig afsluttet, men snarere et løbende investeringsområde. Efterhånden som vi lærer mere om den faktiske anvendelse af denne model, vil vi justere vores politikker i overensstemmelse hermed.

Du kan finde flere oplysninger om vores tilgang ved at se tillægget til GPT‑4o systemkortet⁠ om billedgenerering.

Brug af avanceret tænkning til at styrke sikkerheden
Ligesom vores deliberative alignment⁠ arbejde har vi trænet en avanceret tænknings-LLM til at arbejde direkte ud fra menneskeskrevne og fortolkelige sikkerhedsspecifikationer. Vi brugte denne avanceret tænkning-LLM under udviklingen til at hjælpe os med at identificere og løse uklarheder i vores politikker. Sammen med vores multimodale fremskridt og eksisterende sikkerhedsteknikker udviklet til ChatGPT og Sora, giver dette os mulighed for at moderere⁠ både inputtekst og outputbilleder imod vores politikker.

Adgang og tilgængelighed

4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It’s also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.

Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.

Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Genafspilning af livestream

Skrevet af

OpenAI

Ledelse

Gabriel Goh: Image Generation

Jackie Shannon: ChatGPT Product

Mengchao Zhong, Wayne Chang: ChatGPT Engineering

Rohan Sahai: Sora Product and Engineering

Brendan Quinn, Tomer Kaftan: Inference

Prafulla Dhariwal: Multimodal Organization

Research

Grundlæggende forskning

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Kerneresearch

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Forskningsbidragydere

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Modeladfærd

Laurentia Romaniuk

Multimodal Organisation

Andrew Gibiansky, Yang Lu

Data

Dataansvarlige

Gildas Chabot, James Park Lennon

Data

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderatorer

Hazel Byrne, Jennifer Luckenbill, Mariano López

Human Data Advisors

Long Ouyang

Skalering

Inferensansvarlige

Brendan Quinn, Tomer Kaftan

Inferens

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev og Stanley Hsieh

Ansøgt

ChatGPT Product Lead

Jackie Shannon

ChatGPT Engineering Leads

Mengchao Zhong, Wayne Chang

Product Design Lead

Matt Chan

Data Science

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Sora Product Leads

Rohan Sahai, Wesam Manassra

Sora Product og Engineering

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Sikkerhed

Sikkerhedsansvarlig

Somay Jain

Sikkerhed

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Strategi

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Marketing og kommunikation

Kommunikations- og marketingansvarlige

Minnia Feng, Natalie Summers, Taya Christianson

Kommunikation

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Design og kreativitet

Ansvarlige

Kendra Rimbach, Veit Moeller

Design

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Særlig tak

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco