25. marca 2025

Predstavujeme generovanie obrázkov s modelom 4o

Uvoľnenie užitočného a hodnotného generovania obrázkov s natívne multimodálnym modelom schopným precíznych, presných a fotorealistických výstupov.

Vyskúšať v nástroji ChatGPT

Načítava sa…

V spoločnosti OpenAI sme už dlho presvedčení, že generovanie obrázkov by malo byť primárnou schopnosťou našich jazykových modelov. Preto sme do modelu GPT‑4o zabudovali náš doteraz najpokročilejší generátor obrázkov. Výsledkom je generovanie obrázkov, ktoré nie sú len krásne, ale aj užitočné.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Užitočné generovanie obrázkov

Od prvých jaskynných malieb až po moderné infografiky ľudia používajú vizuálne obrazy na komunikáciu, presviedčanie a analýzu – nielen na zdobenie. Dnešné generatívne modely dokážu vyčarovať surrealistické, dychvyrážajúce scény, ale trápia sa s bežnými obrazmi, ktoré ľudia používajú na zdieľanie a vytváranie informácií. Od log až po diagramy môžu obrazy vyjadrovať presný význam, keď sú doplnené o symboly, ktoré odkazujú na spoločný jazyk a skúsenosti.

Generovanie obrázkov s modelom GPT‑4o vyniká presným vykresľovaním textu, presným dodržiavaním príkazov a využívaním inherentnej znalostnej základne a kontextu četov cez 4o – vrátane transformácie nahraných obrázkov alebo ich použitia ako vizuálnej inšpirácie. Vďaka týmto funkciám je ľahšie vytvoriť presne taký obrázok, aký si predstavujete, pomáhajú vám efektívnejšie komunikovať prostredníctvom vizuálov a posúvajú generovanie obrázkov na úroveň praktického nástroja s precíznosťou a výkonom.

Vylepšené schopnosti

Naše modely sme trénovali na spoločnej distribúcii online obrázkov a textu, pričom sme sa učili nielen to, ako obrázky súvisia s jazykom, ale aj to, ako súvisia medzi sebou. V kombinácii s agresívnym následným tréningom má výsledný model prekvapivú vizuálnu plynulosť a dokáže generovať obrázky, ktoré sú užitočné, konzistentné a kontextovo uvedomelé.

Vykresľovanie textu

Obrázok má hodnotu tisíc slov, ale niekedy môže vygenerovanie niekoľkých slov na správnom mieste význam obrázka pozdvihnúť. Schopnosť modelu 4o kombinovať presné symboly s obrazmi premieňa generovanie obrázkov na nástroj vizuálnej komunikácie.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Generovanie viacerých krokov

Keďže generovanie obrázkov je teraz natívne pre GPT‑4o, môžete obrázky vylepšiť prostredníctvom prirodzenej konverzácie. GPT‑4o dokáže v kontexte četu stavať na obrázkoch a texte, čím zabezpečuje konzistenciu v rámci celého procesu. Ak napríklad navrhujete postavu z videohry, vzhľad postavy zostane konzistentný vo viacerých iteráciách, keď ich vylepšujete a experimentujete.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Dodržiavanie pokynov

Generovanie obrázkov s modelom GPT‑4o sa riadi podrobnými príkazmi s dôrazom na detaily. Zatiaľ čo iné systémy majú problém s ~5 – 8 objektmi, GPT‑4o dokáže spracovať až 10 – 20 rôznych objektov. Pevnejšie prepojenie objektov s ich vlastnosťami a vzťahmi umožňuje lepšiu kontrolu.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Učenie v kontexte

GPT‑4o dokáže analyzovať a učiť sa z obrázkov nahraných používateľmi, pričom bez problémov integruje ich detaily do svojho kontextu s cieľom ovplyvniť generovanie obrázkov.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Znalosti sveta

Natívne generovanie obrázkov umožňuje modelu 4o prepojiť svoje znalosti medzi textom a obrázkami, čo vedie k modelu, ktorý pôsobí inteligentnejšie a efektívnejšie.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotorealizmus a štýl

Tréning na obrázkoch, ktoré odrážajú širokú škálu štýlov, umožňuje modelu presvedčivo vytvárať alebo transformovať obrázky.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Obmedzenia

Náš model nie je dokonalý. Momentálne si uvedomujeme viacero obmedzení, ktoré sa budeme snažiť riešiť vylepšeniami modelu po prvotnom spustení.

Všimli sme si, že GPT‑4o môže občas orezať dlhšie obrázky ako plagáty príliš tesne, najmä v spodnej časti.

Bezpečnosť

V súlade s našou špecifikáciou modelu sa snažíme maximalizovať tvorivú slobodu podporovaním cenných prípadov použitia, ako je vývoj hier, historický prieskum a vzdelávanie – pričom zachovávame prísne bezpečnostné štandardy. Zároveň je rovnako dôležité ako kedykoľvek predtým blokovať žiadosti, ktoré porušujú tieto normy. Nižšie uvádzame hodnotenia ďalších rizikových oblastí, v ktorých pracujeme na povolení bezpečného a mimoriadne užitočného obsahu a podpore širšieho kreatívneho vyjadrenia pre používateľov.

Pôvod prostredníctvom C2PA a interného reverzibilného vyhľadávania
Všetky vygenerované obrázky obsahujú metaúdaje C2PA, ktoré identifikujú, že obrázok pochádza z modelu GPT‑4o, aby sa zabezpečila transparentnosť. Taktiež sme vytvorili interný vyhľadávací nástroj, ktorý využíva technické atribúty generácií s cieľom overiť, či obsah pochádza z nášho modelu.

Blokovanie nevhodného obsahu
Ďalej blokujeme žiadosti o generovanie obrázkov, ktoré môžu porušovať naše pravidlá pre obsah, ako sú materiály týkajúce sa sexuálneho zneužívania detí a sexuálne deepfakes. Keď sú obrázky skutočných ľudí v kontexte, máme prísnejšie obmedzenia týkajúce sa toho, aký druh obrázkov je možné vytvoriť, s obzvlášť robustnými ochrannými opatreniami pre nahotu a grafické násilie. Rovnako ako pri každom uvedení na trh, bezpečnosť nikdy nie je úplná a je skôr oblasťou nepretržitých investícií. Ako sa dozvieme viac o reálnom používaní tohto modelu, príslušným spôsobom upravíme zásady.

Viac informácií o našom prístupe nájdete v dodatku ku karte systému GPT‑4o o generovaní obrázkov⁠.

Používanie myslenia na podporu bezpečnosti
Podobne ako pri našej práci na deliberatívnom zosúladení⁠ sme vycvičili LLM na myslenie, aby pracoval priamo na základe človekom napísaných a interpretovateľných bezpečnostných špecifikácií. Tento LLM na myslenie sme použili počas vývoja, aby nám pomohol identifikovať a riešiť nejasnosti v našich zásadách. Spolu s našimi multimodálnymi vylepšeniami a existujúcimi bezpečnostnými technikami vyvinutými pre nástroje ChatGPT a Sora nám to umožňuje moderovať⁠ vstupný text aj výstupné obrázky v súlade s našimi zásadami.

Prístup a dostupnosť

Generovanie obrázkov s modelom 4o sa od dnešného dňa zavádza pre používateľov taríf Plus, Pro, Team a Free ako predvolený generátor obrázkov v nástroji ChatGPT, pričom prístup pre používateľov Enterprise a Edu bude čoskoro k dispozícii. Je tiež k dispozícii na použitie v nástroji Sora. Pre tých, ktorí majú vo svojich srdciach vyhradené špeciálne miesto pre DALL·E, je stále možné k nemu pristupovať prostredníctvom vyhradeného modelu DALL·E GPT.

Vývojári budú čoskoro môcť generovať obrázky pomocou modelu GPT‑4o prostredníctvom rozhrania API, pričom prístup sa začne zavádzať v najbližších týždňoch.

Vytvoriť a prispôsobiť obrázky je také jednoduché ako čet pomocou GPT‑4o – stačí opísať, čo potrebujete, vrátane špecifík, ako je pomer strán, presné farby pomocou hexadecimálnych kódov alebo priehľadné pozadie. Keďže tento model vytvára detailnejšie obrázky, ich vykresľovanie trvá dlhšie, často až jednu minútu.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Záznam z priameho prenosu

Autor

OpenAI

Vedenie

Gabriel Goh: Generovanie obrázkov

Jackie Shannon: Produkt ChatGPT

Mengchao Zhong, Wayne Chang: Inžinierstvo ChatGPT

Rohan Sahai: Produkty a inžinierstvo Sora

Brendan Quinn, Tomer Kaftan: Inferencia

Prafulla Dhariwal: Multimodálna organizácia

Vyhľadávanie

Základný výskum

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Hlavný výskum

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Prispievatelia do výskumu

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Správanie modelu

Laurentia Romaniuk

Multimodálna organizácia

Andrew Gibiansky, Yang Lu

Údaje

Vedúci pre údaje

Gildas Chabot, James Park Lennon

Údaje

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderátori

Hazel Byrne, Jennifer Luckenbill, Mariano López

Poradcovia pre ľudské údaje

Long Ouyang

Škálovanie

Vedúci inferencie

Brendan Quinn, Tomer Kaftan

Inferencia

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

Použité

Vedúci produktu ChatGPT

Jackie Shannon

Vedúci inžinierstva ChatGPT

Mengchao Zhong, Wayne Chang

Vedúci produktového dizajnu

Matt Chan

Dátová veda

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Vedúci produktu Sora

Rohan Sahai, Wesam Manassra

Produkt a inžinierstvo Sora

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Bezpečnosť

Bezpečnostný vedúci

Somay Jain

Bezpečnosť

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Stratégia

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Marketing a komunikácia

Vedúci komunikácie a marketingu

Minnia Feng, Natalie Summers, Taya Christianson

Komunikácia

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Dizajn a kreatíva

Vedúci

Kendra Rimbach, Veit Moeller

Dizajn

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Špeciálne poďakovanie

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco