25. března 2025

Představujeme model 4o pro generování obrázků

Odemknutí užitečného a cenného generování obrázků pomocí nativně multimodálního modelu schopného přesných, spolehlivých a fotorealistických výstupů.

Vyzkoušej v ChatGPT

Načítání…

V OpenAI už dlouho věříme, že generování obrázků by mělo být hlavní schopností našich jazykových modelů. Proto jsme do GPT‑4o zabudovali náš dosud nejpokročilejší generátor obrázků. Výsledkem je generování obrázků, které jsou nejen krásné, ale také užitečné.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Užitečné generování obrázků

Od prvních jeskynních maleb až po moderní infografiku lidé používali vizuální obrazy ke komunikaci, přesvědčování a analýze – nejen ke zdobení. Dnešní generativní modely mohou vykouzlit surrealistické, dechberoucí scény, ale mají potíže s běžnými obrazy, které lidé používají ke sdílení a k vytváření informací. Od log po diagramy mohou obrázky sdělovat přesný význam, pokud jsou doplněny symboly odkazujícími na sdílený jazyk a zkušenosti.

Model GPT‑4o pro generování obrázků vyniká v přesném vykreslování textu, důsledném plnění zadaných pokynů a využívání vlastní znalostní základny i kontextu chatu. Dokáže také upravovat nahrané obrázky nebo je použít jako vizuální inspiraci. Tyto schopnosti usnadňují přesně vytvořit obrázek, jaký si představuješ, pomáhají ti efektivněji komunikovat prostřednictvím vizuálů a posouvají generování obrázků na úroveň praktického nástroje s přesností a výkonem.

Vylepšené schopnosti

Naše modely jsme trénovali na společném pravděpodobnostním rozdělení online obrázků a textu, takže se nenaučily jen vztahům mezi obrazem a jazykem, ale i tomu, jak obrázky souvisejí mezi sebou navzájem. V kombinaci s agresivním následným školením má výsledný model překvapivou vizuální plynulost a je schopen vytvářet užitečné, konzistentní a kontextově uvědomělé obrázky.

Vykreslování textu

Obrázek vydá za tisíc slov, ale někdy může vytvoření několika slov na správném místě pozvednout význam obrázku. Schopnost 4o kombinovat přesné symboly s obrazy mění generování obrázků na nástroj pro vizuální komunikaci.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Vícestupňové generování

Protože generování obrázků je nyní nativní pro GPT‑4o, můžeš obrázky vylepšovat přirozenou konverzací. GPT‑4o může stavět na obrázcích a textu v kontextu chatu a zajistit tak konzistenci v celém průběhu. Pokud například navrhuješ postavu ve videohře, její vzhled zůstává konzistentní i v několika opakováních, kdy jej postupně zdokonaluješ a experimentuješ.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Dodržování pokynů

Generování obrázků GPT‑4o se řídí podrobnými prompty s důrazem na detail. Zatímco jiné systémy se potýkají s ~5-8 objekty, GPT‑4o zvládne až 10-20 různých objektů. Užší propojení objektů s jejich vlastnostmi a vztahy umožňuje lepší kontrolu.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Učení v kontextu

GPT‑4o dokáže analyzovat a učit se z obrázků nahraných uživatelem a plynule začleňuje jejich detaily do svého kontextu, aby je mohl využít při generování obrázků.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Světové znalosti

Generování nativních obrázků povoluje 4o propojovat své znalosti mezi textem a obrázky, což vede k modelu, který je chytřejší a efektivnější.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotorealismus a styl

Školení na obrázcích, které odrážejí širokou škálu stylů, umožňuje modelu přesvědčivě vytvářet nebo transformovat obrázky.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Omezení

Náš model není dokonalý. Jsme si vědomi několika omezení, na jejichž odstranění budeme pracovat vylepšováním modelu po jeho úvodním spuštění.

Všimli jsme si, že GPT‑4o může občas oříznout delší obrázky, jako jsou plakáty, příliš těsně, zejména u spodního okraje.

Bezpečnost

V souladu s našimi specifikacemi modelů se snažíme maximalizovat tvůrčí svobodu podporou hodnotných případů použití, jako je vývoj her, historický průzkum a vzdělávání, přičemž zachováváme přísné bezpečnostní standardy. Zároveň je stále stejně důležité blokovat žádosti, které tyto standardy porušují. Níže jsou hodnocení dalších rizikových oblastí, kde pracujeme na povolení bezpečného a vysoce užitečného obsahu a podpoře širšího kreativního vyjádření pro uživatele.

Ověřitelnost původu pomocí C2PA a interní reverzibilní kontroly
Všechny vytvořené obrázky jsou dodávány s metadaty C2PA⁠, která identifikují obrázek jako pocházející z GPT‑4o, aby byla zajištěna transparentnost. Také jsme vytvořili interní vyhledávací nástroj, který využívá technické atributy generovaných obrázků k ověření, zda obsah pochází z našeho modelu.

Blokování závadného obsahu
Nadále blokujeme požadavky na generování obrázků, které by mohly porušovat naše zásady týkající se obsahu, jako jsou materiály týkající se sexuálního zneužívání dětí a sexuální deepfakes. Když jsou obrázky skutečných lidí v kontextu, máme přísnější omezení ohledně toho, jaký druh snímků lze vytvořit, se zvláště silnými ochrannými opatřeními kolem nahoty a grafického násilí. Stejně jako u každého spuštění, bezpečnost nikdy nekončí a je spíše oblastí neustálých investic. Jakmile se dozvíme více o skutečném používání tohoto modelu, upravíme podle toho naše zásady.

Pro více informací o našem přístupu navštivte dodatek o generování obrázků ke kartě systému GPT‑4o⁠.

Využití uvažování k posílení bezpečnosti
Podobně jako v našem přístupu deliberative alignment⁠ (metodika, ve které model před odpovědí prochází vícekrokovým uvažováním, aby lépe dodržoval bezpečnostní zásady), jsme natrénovali model LLM zaměřený na uvažování tak, aby přímo pracoval s člověkem psanými a snadno interpretovatelnými bezpečnostními specifikacemi. Tento odůvodňovací LLM jsme použili během vývoje, abychom identifikovali a řešili nejasnosti v našich zásadách. Spolu s našimi multimodálními vylepšeními a stávajícími bezpečnostními technikami vyvinutými pro ChatGPT a Sora nám to umožňuje moderovat⁠ vstupní text i výstupní obrázky podle našich zásad.

Přístup a dostupnost

Generování obrázků 4o se ode dneška zavádí pro uživatele plánů Plus, Pro, Team a Free jako výchozí generátor obrázků v ChatGPT, přičemž přístup bude brzy k dispozici pro Enterprise a Edu. Je také dostupné k použití v Sora. Pro ty, kteří mají ve svých srdcích zvláštní místo pro DALL·E, je stále přístupný prostřednictvím vyhrazeného DALL·E GPT.

Vývojáři budou brzy moci vytvářet obrázky pomocí GPT‑4o přes API, přičemž přístup bude spuštěn v příštích několika týdnech.

Vytváření a přizpůsobování obrázků je stejně jednoduché jako chat pomocí GPT‑4o – stačí popsat, co potřebuješ, včetně jakýchkoli specifik, jako je poměr stran, přesné barvy pomocí hexadecimálních kódů nebo průhledné pozadí. Protože tento model vytváří detailnější obrázky, jejich vykreslování trvá déle, často až jednu minutu.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Záznam živého vysílání

Autor

OpenAI

Vedení

Gabriel Goh: Generování obrázků

Jackie Shannon: Produktový tým ChatGPT

Mengchao Zhong, Wayne Chang: Technický tým ChatGPT

Rohan Sahai: Produktový a technický tým Sora

Brendan Quinn, Tomer Kaftan: Inference

Prafulla Dhariwal: Multimodální organizace

Výzkum

Základní výzkum

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Hlavní výzkum

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Přispěvatelé výzkumu

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Chování modelu

Laurentia Romaniuk

Multimodální organizace

Andrew Gibiansky, Yang Lu

Data

Vedoucí týmu Data

Gildas Chabot, James Park Lennon

Data

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderátoři

Hazel Byrne, Jennifer Luckenbill, Mariano López

Poradci pro lidská data

Long Ouyang

Škálování

Vedoucí týmu Inference

Brendan Quinn, Tomer Kaftan

Inference

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

Applied

Produktový vedoucí ChatGPT

Jackie Shannon

Technické vedení ChatGPT

Mengchao Zhong, Wayne Chang

Vedoucí produktového designu

Matt Chan

Datová věda

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Produktoví vedoucí Sora

Rohan Sahai, Wesam Manassra

Produktový a technický tým Sora

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Bezpečnost

Vedoucí bezpečnosti

Somay Jain

Bezpečnost

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Strategie

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Marketing a komunikace

Vedoucí komunikace a marketingu

Minnia Feng, Natalie Summers, Taya Christianson

Komunikace

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Design a kreativa

Kontakty

Kendra Rimbach, Veit Moeller

Design

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Zvláštní poděkování

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco