25. marec 2025

Predstavljamo 4o Image Generation

Odpiramo pot uporabnemu in dragocenemu generiranju slik z nativno multimodalnim modelom, ki omogoča natančne, točne in fotorealistične izhode.

Preizkusite v ChatGPT-ju

Nalaganje …

Pri OpenAI že dolgo verjamemo, da bi moralo biti generiranje slik osnovna zmogljivost naših jezikovnih modelov. Zato smo v GPT‑4o vključili naš doslej najnaprednejši generator slik. Rezultat je generiranje slik, ki ni samo estetsko dovršeno, temveč tudi uporabno.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Uporabno generiranje slik

Od prvih jamskih poslikav do sodobnih infografik ljudje uporabljajo vizualne podobe za komuniciranje, prepričevanje in analizo, ne zgolj za okras. Današnji generativni modeli lahko ustvarijo nadrealistične in osupljive prizore, vendar imajo pogosto težave pri vsakdanjih slikah, ki jih ljudje uporabljajo za prenašanje in ustvarjanje informacij. Od logotipov do diagramov lahko slike posredujejo natančen pomen, kadar jih dopolnjujejo simboli, ki se opirajo na skupni jezik in izkušnje.

Generiranje slik GPT‑4o zelo natančno upodablja besedilo, zanesljivo sledi pozivom in izkorišča podedovano bazo znanja ter kontekst klepeta 4o. Prav tako lahko preoblikuje naložene slike ali jih uporabi kot vizualno izhodišče. Te sposobnosti olajšajo ustvarjanje slike, ki jo imate v mislih, pomagajo jasneje komunicirati z vizualnimi elementi in premikajo generiranje slik v smer praktičnega orodja z visoko natančnostjo in zmogljivostjo.

Izboljšane zmogljivosti

Naše modele smo trenirali na skupni porazdelitvi spletnih slik in besedila. Tako so se naučili ne le odnosa med slikami in jezikom, temveč tudi medsebojnih odnosov med slikami samimi. V kombinaciji z intenzivnim naknadnim treniranjem ima rezultat presenetljivo vizualno tekočnost in omogoča generiranje slik, ki so uporabne, konsistentne in občutljive na kontekst.

Upodabljanje besedila

Slika lahko posreduje več kot tisoč besed, včasih pa lahko prav nekaj skrbno umeščenih besed še okrepi njen pomen. Zmožnost modela 4o, da natančne simbole združi s slikami, spremeni generiranje slik v orodje vizualnega sporočanja.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Generacija v več korakih

Ker je generiranje slik v GPT‑4o del sistema že privzeto, lahko slike izpopolnjujete skozi naraven potek pogovora. GPT‑4o gradi na slikah in besedilu, ki se pojavijo v kontekstu klepeta, zato ohranja konsistentnost med celotnim procesom. Na primer, ko oblikujete lik za videoigro, njegov videz ostane skladen skozi številne iteracije, med katerimi ga prilagajate in preizkušate.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Sledenje navodilom

Generiranje slik GPT‑4o natančno sledi podrobnim pozivom. Medtem ko se drugi sistemi običajno spopadejo s približno petimi do osmimi predmeti, lahko GPT‑4o zanesljivo upravlja med deset in dvajset različnih predmetov. Tesno povezovanje predmetov z njihovimi lastnostmi in odnosi omogoča boljši nadzor.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Učenje v kontekstu

GPT‑4o lahko analizira slike, ki jih naložijo uporabniki, ter njihove podrobnosti vključuje v kontekst in jih uporablja pri generiranju novih slik.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Splošno znanje

Nativno generiranje slik omogoča modelu 4o, da povezuje znanje med besedilom in slikami, kar vodi do občutka večje učinkovitosti in razumevanja.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotorealizem in slog

Učenje na slikah, ki zajemajo izjemno širok razpon slogov, modelu omogoča prepričljivo ustvarjanje ali preoblikovanje slik.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Omejitve

Naš model ni popoln. Zavedamo se več omejitev, ki jih bomo po začetni predstavitvi odpravljali z nadaljnjim izboljševanjem modela.

Opazili smo, da GPT‑4o občasno pretesno obreže daljše slike, na primer plakate, zlasti pri spodnjem spodnjega roba.

Varnost

V skladu z našimi specifikacijami modela želimo omogočiti čim več ustvarjalne svobode ter podpreti dragocene primere uporabe, kot so razvoj iger, raziskovanje zgodovine in izobraževanje. Poleg tega želimo ohraniti visoke varnostne standarde. Enako pomembno je tudi, da zavračamo zahteve, ki te standarde kršijo. Spodaj so evalvacije dodatnih tveganih področij, kjer si prizadevamo zagotavljati varno in visoko uporabno vsebino ter uporabnikom ponujati širše možnosti ustvarjanja.

Izvor podatkov z uporabo C2PA in internega reverzibilnega iskanja
Vse generirane slike vsebujejo metapodatke C2PA, ki jasno označujejo, da so bile ustvarjene z modelom GPT‑4o. Na ta način zagotavljamo večjo preglednost. Vzpostavili smo tudi interno iskalno orodje. To orodje uporablja tehnične značilnosti generiranih slik in nam pomaga preveriti, ali je bila vsebina ustvarjena z našim modelom.

Preprečevanje nedovoljenih vsebin
Še naprej zavračamo zahteve za generiranje slik, ki lahko kršijo naše vsebinske politike. Med drugim zavračamo gradiva spolne zlorabe otrok in spolne deepfake posnetke. Kadar se v kontekstu pojavijo slike resničnih ljudi, uvedemo strožje omejitve glede vrste slik, ki jih je dovoljeno ustvariti. Posebej skrbno pazimo na vsebine, povezane z goloto in nazornim nasiljem. Kot pri vsakem lansiranju modela je tudi tukaj varnost nenehen proces, ki zahteva stalna vlaganja. Ko bomo pridobili več informacij o uporabi modela v realnem okolju, bomo ustrezno prilagodili naše politike.

Več podrobnosti o našem pristopu najdete v dodatku o generiranju slik v sistemski kartici GPT‑4o⁠.

Uporaba sklepanja za zagotavljanje varnosti
Podobno kot pri našem delu na deliberativnem usklajevanju⁠ smo usposobili veliki jezikovni model (LLM) za sklepanje. Ta model deluje neposredno na podlagi človeško napisanih in razlagljivih varnostnih specifikacij. Med razvojem smo ta LLM uporabljali kot pomoč pri prepoznavanju in odpravljanju nejasnosti v naših politikah. Skupaj z našimi multimodalnimi napredki in obstoječimi varnostnimi tehnikami, razvitimi za ChatGPT in Sora, nam to omogoča, da vhodno besedilo in izhodne slike obravnavamo⁠ v skladu z našimi pravilniki.

Dostop in razpoložljivost

Generiranje slik z modelom 4o se od danes dalje postopoma uvaja za uporabnike Plus, Pro, Team in Free, kjer postaja privzeti generator slik v ChatGPT. Dostop bo kmalu na voljo tudi uporabnikom Enterprise in Edu. Na voljo je tudi v Sora. Uporabniki, ki imajo radi DALL·E, ga lahko še naprej uporabljajo preko namenskega DALL·E GPT.

Razvijalci bodo kmalu lahko generirali slike z GPT‑4o preko API, pri čemer se dostop uvaja v prihodnjih tednih.

Ustvarjanje in prilagajanje slik je preprosto. Dovolj je, da v GPT‑4o opišete, kaj potrebujete, vključno z natančnimi podatki, kot so razmerje stranic, določene barve po heksadecimalnih kodah ali prosojno ozadje. Ker ta model ustvarja bolj podrobne slike, je njihovo upodabljanje nekoliko počasnejše. Pogosto traja do približno ene minute.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Ponovitev prenosa v živo

Avtor

OpenAI

Vodstvo

Gabriel Goh: Generiranje slike

Jackie Shannon: ChatGPT izdelek

Mengchao Zhong, Wayne Chang: ChatGPT inženiring

Rohan Sahai: Izdelki in inženiring za Soro

Brendan Quinn, Tomer Kaftan: Inferiranje

Prafulla Dhariwal: Multimodalna organizacija

Raziskave

Temeljne raziskave

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Temeljne raziskave

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Prispevki k raziskavam

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Obnašanje modela

Laurentia Romaniuk

Multimodalna organizacija

Andrew Gibiansky, Yang Lu

Podatki

Podatkovna obdelava

Gildas Chabot, James Park Lennon

Podatki

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderatorji

Hazel Byrne, Jennifer Luckenbill, Mariano López

Svetovalec za človeške podatke

Long Ouyang

Skaliranje

Inferenca

Brendan Quinn, Tomer Kaftan

Inferenca

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

Aplikacija

Idelek ChatGPT

Jackie Shannon

ChatGPT inženiring

Mengchao Zhong, Wayne Chang

Oblikovanje izdelka

Matt Chan

Obdelava podatkov

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Izdelek Sora

Rohan Sahai, Wesam Manassra

Izdelek in inženiring za Soro

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Varnost

Varnost

Somay Jain

Varnost

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Strategija

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Trženje in komunikacija

Komunikacija in marketing

Minnia Feng, Natalie Summers, Taya Christianson

Komunikacija

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Oblikovanje in kreativnost

Glavni razvijalci

Kendra Rimbach, Veit Moeller

Oblikovanje

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Posebna zahvala

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco