2025. március 25.

Bemutatkozik a 4o Image Generation

Hasznos és értékes képgenerálás felszabadítása egy eredendően multimodális modellel, amely képes pontos, precíz és fotorealisztikus kimenetek előállítására.

Kipróbálás ChatGPT-ben

Betöltés…

Az OpenAI-nál régóta hisszük, hogy a képgenerálásnak a nyelvi modelljeink egyik alapvető képességének kell lennie. Ezért építettük be az eddigi legfejlettebb képgenerátorunkat a GPT‑4o‑ba. Az eredmény olyan képgenerálás, amely nemcsak szép, de hasznos is.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Hasznos képgenerálás

Az első barlangfestményektől a modern infografikákig az emberek a vizuális képeket kommunikációra, meggyőzésre és elemzésre használják—nem csupán díszítésre. A mai generatív modellek szürreális, lélegzetelállító jeleneteket varázsolhatnak, de nehézségbe ütköznek az olyan hétköznapi képekkel, amelyeket az emberek az információk megosztására és létrehozására használnak. A logóktól a diagramokig a képek pontos jelentést közvetíthetnek, ha olyan szimbólumokkal egészítik ki őket, amelyek közös nyelvre és tapasztalatra alapoznak.

A GPT‑4o képalkotás kiválóan teljesíti a szöveg pontos megjelenítését, pontosan követi az utasításokat, és kihasználja a 4o benne rejlő tudásbázisát és csevegési kontextusát—beleértve a feltöltött képek átalakítását vagy vizuális inspirációként történő felhasználását. Ezek a képességek megkönnyítik a pontos alkotást, amit elképzeltél, segítve a hatékonyabb kommunikációt a vizuális elemekkel, és a képgenerálást precíz és erőteljes gyakorlati eszközzé fejlesztik.

Fejlesztett képességek

Modelljeinket online képek és szövegek közös eloszlásán tanítottuk, így nemcsak azt tanulták meg, hogyan kapcsolódnak a képek a nyelvhez, hanem azt is, hogyan viszonyulnak egymáshoz a képek. Az agresszív utólagos betanítással kombinációban az így kapott modell meglepő vizuális folyékonysággal bír, képes hasznos, következetes és kontextusérzékeny képeket generálni.

Szöveg renderelése

Egy kép többet mond ezer szónál, de néha pár szó a megfelelő helyen felerősítheti egy kép jelentését. A 4o képessége, miszerint precíz szimbólumokat képekkel ötvöz, a képgenerálást a vizuális kommunikáció eszközévé alakítja.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Többmenetes generálás

Mivel a kép mostantól a GPT‑4o natív része, természetes beszélgetéseken keresztül finomíthatod a képeket. A GPT‑4o képekre és szövegre építhet a csevegés kontextusában, biztosítva a következetességet végig. Például, ha videojáték-karaktert tervezel, a karakter megjelenése több iteráción keresztül koherens marad, miközben finomítasz és kísérletezel.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Utasítás követése

A GPT‑4o képgenerálása részletes utasításokat követ, különös figyelmet fordítva a részletekre. Míg más rendszerek ~5-8 objektummal küzdenek, a GPT‑4o akár 10-20 különböző objektumot is képes kezelni. Az objektumok szorosabb kötődése a tulajdonságaikhoz és kapcsolataikhoz jobb irányítást tesz lehetővé.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Kontextusban történő tanulás

A GPT‑4o képes elemezni és tanulni a felhasználók által feltöltött képekből, zökkenőmentesen integrálva azok részleteit a kontextusába, hogy javítsa a képgenerálást.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Világtudás

A natív képgenerálás engedélyezése lehetővé teszi a 4o számára, hogy linkelje tudását a szöveg és a képek között, így egy intelligensebb és hatékonyabb modell jön létre.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotórealizmus és stílus

A különböző képstílusokat tükröző képeken való betanítás lehetővé teszi a modell számára, hogy meggyőzően létrehozzon vagy alakítson át képeket.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Korlátozások

A modellünk nem tökéletes. Jelenleg több korláttal is tisztában vagyunk, amelyeket a kezdeti bevezetés után a modell fejlesztéseivel fogunk feloldani.

Észrevettük, hogy a GPT‑4o időnként túl szorosan vágja le a hosszabb képeket, mint például a plakátokat, különösen az alsó rész közelében.

Biztonság

A modellspecifikációnkkal összhangban arra törekszünk, hogy a kreatív szabadságot olyan értékes felhasználási esetek támogatásával maximalizáljuk, mint a játékfejlesztés, a történelmi felfedezés és az oktatás—miközben fenntartjuk a szigorú biztonsági előírásokat. Emellett továbbra is ugyanolyan fontos, mint korábban, hogy blokkoljuk azokat a kéréseket, amelyek megsértik ezeket a szabványokat. Az alábbiakban értékeljük azokat a további kockázati területeket, ahol azon dolgozunk, hogy biztonságos, magas hasznosságú tartalmat hozzunk létre, és támogassuk a felhasználók szélesebb körű kreatív kifejezését.

Származás C2PA-n keresztül és belső reverzibilis keresés
Minden generálás kép C2PA metaadatokkal rendelkezik, amelyek az átláthatóság érdekében azonosítják a képet, mint a GPT‑4o‑ból származót. Készítettünk egy belső keresőeszközt is, amely a generációk technikai jellemzőit használja annak igazolására, hogy a tartalom a mi modellünkből származik-e.

A helytelen dolgok blokkolása
Továbbra is blokkoljuk az olyan generált képek iránti kérelmeket, amelyek megsérthetik a tartalmi irányelveinket, például a gyermekek szexuális bántalmazását tartalmazó anyagokat és a szexuális deepfake-eket. Amikor a valódi emberek képei kontextusban vannak, szigorúbb korlátozások vonatkoznak arra, hogy milyen képeket lehet létrehozni, különösen szigorú keretekkel a meztelenség és a grafikus erőszak tekintetében. Mint minden bevezetésnél, a biztonság biztosítása sosem ér véget, hanem inkább egy folyamatos munkaterület. Ahogy egyre többet tudunk meg a modell valós használatáról, annak megfelelően módosítjuk a szabályzatainkat.

A megközelítésünkről bővebben a GPT‑4o rendszerkártyához tartozó képgenerálási kiegészítésben⁠ olvashatsz.

Az érvelés használata a biztonság érdekében
Hasonlóan a deliberatív összehangolás⁠ munkánkhoz, egy érvelő LLM-et képeztünk ki, hogy közvetlenül az ember által írt és értelmezhető biztonsági specifikációkból dolgozzon. A fejlesztés során ezt az érvelő LLM-et használtuk, hogy segítségünkre legyen a szabályzatainkban lévő kétértelműségek felismerésében és kezelésében. A multimodális fejlesztéseink és a ChatGPT és Sora számára kifejlesztett meglévő biztonsági technikáink révén ez lehetővé teszi számunkra, hogy mind a bevitel szöveget, mind a kimenet képeket a szabályzatainkkal összhangban moderáljuk⁠.

Hozzáférés és elérhetőség

A 4o kép generálást mától kezdve a Plus, Pro, Team és Free felhasználók részére vezetjük be a ChatGPT alapértelmezett képgenerátoraként, és hamarosan az Enterprise és Edu felhasználók számára is elérhető lesz. A Sora-ban is elérhető a használata. Azok számára, akik különleges helyet tartanak fenn a szívükben a DALL·E számára, továbbra is elérhető egy dedikált DALL·E GPT‑n keresztül.

A fejlesztők hamarosan képeket generálhatnak a GPT‑4o‑val az API-n keresztül, a hozzáférés pedig a következő hetekben fokozatosan válik elérhetővé.

A képek létrehozása és testreszabása olyan egyszerű, mint a GPT‑4o használatával történő csevegés – csak írd le, mire van szükséged, beleértve az olyan sajátosságokat, mint a képarány, a pontos színek hexadecimális kódokkal vagy az áttetsző háttér. Mivel ez a modell részletesebb képeket hoz létre, a képek renderelése hosszabb időt vesz igénybe, gyakran akár egy percet is.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Élő közvetítés visszajátszása

Szerző

OpenAI

Vezetés

Gabriel Goh: Képgenerálás

Jackie Shannon: ChatGPT termék

Mengchao Zhong, Wayne Chang: ChatGPT mérnöki munka

Rohan Sahai: Sora Termék és mérnökségi munka

Brendan Quinn, Tomer Kaftan: Következtetés

Prafulla Dhariwal: Multimodális szervezet

Kutatások

Alapvető kutatás

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Alapkutatás

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Kutatási közreműködők

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Modellviselkedés

Laurentia Romaniuk

Multimodális szervezet

Andrew Gibiansky, Yang Lu

Adatok

Adatvezérlés

Gildas Chabot, James Park Lennon

Adatok

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderátorok

Hazel Byrne, Jennifer Luckenbill, Mariano López

Human Data Advisors

Long Ouyang

Skálázás

Következtetések vezetői

Brendan Quinn, Tomer Kaftan

Következtetés

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

Alkalmazva

ChatGPT termékvezető

Jackie Shannon

ChatGPT mérnökségi vezetők

Mengchao Zhong, Wayne Chang

Terméktervezési vezető

Matt Chan

Adattudomány

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Sora termékfelelősök

Rohan Sahai, Wesam Manassra

Sora Termék és mérnökségi munka

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Biztonság

Biztonsági vezető

Somay Jain

Biztonság

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Stratégia

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Marketing & Kommunikáció

Kommunikációs és marketing vezetők

Minnia Feng, Natalie Summers, Taya Christianson

Kommunikáció

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Design & Kreatív

Érdeklődők

Kendra Rimbach, Veit Moeller

Terv

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Különleges köszönet

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

Bemutatkozik a 4o Image Generation

Hasznos képgenerálás

Fejlesztett képességek

Szöveg renderelése

Többmenetes generálás

Utasítás követése

Kontextusban történő tanulás

Világtudás

HTML

Fotórealizmus és stílus

Korlátozások

Biztonság

Hozzáférés és elérhetőség

Élő közvetítés visszajátszása

Szerző

Vezetés

Kutatások

Adatok

Skálázás

Alkalmazva

Sora

Biztonság

Stratégia

Marketing &amp; Kommunikáció

Design &amp; Kreatív

Különleges köszönet

Marketing & Kommunikáció

Design & Kreatív