25. maaliskuuta 2025

Esittelyssä 4o-kuvan luonti

Hyödyllisen ja arvokkaan kuvan luonnin avaaminen natiivisti multimodaalisella mallilla, joka pystyy tuottamaan tarkkoja, fotorealistisia tuloksia.

Kokeile ChatGPT:ssä

Ladataan...

OpenAI:ssa olemme jo pitkään uskoneet, että kuvien luomisen tulisi olla kielimalliemme ensisijainen kyvykkyys. Siksi olemme rakentaneet GPT‑4o:hon edistyneimmän kuvageneraattorimme tähän mennessä. Tuloksena on paitsi kaunis, myös hyödyllinen kuvan luonti.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Hyödyllinen kuvan luonti

Ensimmäisistä luolamaalauksista nykyaikaisiin infografiikoihin ihmiset ovat käyttäneet visuaalista kuvastoa kommunikoidakseen, vakuuttaakseen ja analysoidakseen – ei vain koristeluun. Nykypäivän generatiiviset mallit voivat loihtia surrealistisia, henkeäsalpaavia kohtauksia, mutta kamppailevat sellaisten arkikuvien kanssa, joita ihmiset käyttävät tiedon jakamiseen ja luomiseen. Logot ja kaaviot voivat välittää tarkkaa merkitystä, kun kuvia täydennetään symboleilla, jotka viittaavat yhteiseen kieleen ja kokemukseen.

GPT‑4o:n kuvan luonti on erinomainen tekstin tarkassa renderoinnissa, kehotteiden tarkassa noudattamisessa ja 4o:n sisäisen tietokannan ja chat-kontekstin hyödyntämisessä – mukaan lukien ladattujen kuvien muuntaminen tai niiden käyttäminen visuaalisena inspiraationa. Nämä ominaisuudet helpottavat juuri haluamasi kuvan luomista, auttavat sinua kommunikoimaan tehokkaammin visuaalisesti ja tekevät kuvan luonnista tarkan ja tehokkaan käytännön työkalun.

Parannetut ominaisuudet

Koulutimme mallimme verkossa olevien kuvien ja tekstin yhteisen jakamisen perusteella oppien paitsi kuvien ja kielen välisen suhteen, myös kuvien keskinäisen suhteen. Yhdistettynä tehokkaaseen jälkikoulutukseen, tuloksena oleva malli on yllättävän visuaalisesti sujuva ja pystyy tuottamaan hyödyllisiä, johdonmukaisia ja kontekstia huomioivia kuvia.

Tekstin renderöinti

Kuva kertoo enemmän kuin tuhat sanaa, mutta joskus muutama sana oikeassa paikassa voi korostaa kuvan merkitystä. 4o:n kyky yhdistää tarkkoja symboleja ja kuvastoa muuttaa kuvan luonnin visuaalisen viestinnän työkaluksi.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Monivaiheinen generointi

Koska kuvan luonti on GPT‑4o:n natiiviominaisuus, voit muokata kuvia luonnollisen keskustelun kautta. GPT‑4o voi hyödyntää kuvia ja tekstiä chat-kontekstissa, mikä takaa johdonmukaisuuden. Esimerkiksi, jos suunnittelet videopelihahmoa, hahmon ulkonäkö pysyy yhdenmukaisena useiden iteraatioiden ajan, kun tarkennat ja kokeilet hahmon luontia.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Ohjeiden seuraaminen

GPT‑4o:n kuvan luonti noudattaa tarkasti yksityiskohtaisia kehotteita. Kun muut järjestelmät kamppailevat noin 5–8 objektin kanssa, GPT‑4o pystyy käsittelemään jopa 10–20 erilaista objektia. Objektien tiukempi sitoutuminen niiden ominaisuuksiin ja suhteisiin mahdollistaa paremman hallinnan.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Kontekstuaalinen oppiminen

GPT‑4o voi analysoida ja oppia käyttäjän lataamista kuvista, integroimalla niiden yksityiskohdat saumattomasti kontekstiinsa kuvan luontia varten.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Maailmantuntemus

Natiivi kuvan luonti mahdollistaa 4o:n yhdistää tietonsa tekstin ja kuvien välillä, mikä johtaa älykkäämpään ja tehokkaampaan malliin.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Fotorealismi ja tyyli

Koulutus, joka perustuu hyvin erilaisiin kuvatyyleihin, mahdollistaa mallin luoda tai muokata kuvia vakuuttavasti.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Rajoitukset

Mallimme ei ole täydellinen. Olemme tietoisia useista rajoituksista, joita pyrimme korjaamaan mallin parannuksilla alkuperäisen julkaisun jälkeen.

Olemme huomanneet, että GPT‑4o saattaa joskus rajata pidempiä kuvia, kuten julisteita, liian tiukasti, erityisesti alareunasta.

Turvallisuus

Mallispesifikaatiomme mukaisesti pyrimme maksimoimaan luovan vapauden tukemalla arvokkaita käyttötapauksia, kuten pelien kehittämistä, historiallista tutkimusta ja koulutusta, samalla kun ylläpidämme tiukkoja turvallisuusstandardeja. Samalla on edelleen yhtä tärkeää kuin ennenkin estää pyynnöt, jotka rikkovat näitä standardeja. Alla on arvioita muista riskialueista, joilla pyrimme mahdollistamaan turvallisen ja hyödyllisen sisällön sekä tukemaan käyttäjien laajempaa luovuuden ilmaisua.

Alkuperä C2PA:n ja sisäisen käänteishaun kautta
Kaikki luodut kuvat sisältävät C2PA-metatiedot, jotka tunnistavat kuvan olevan peräisin GPT‑4o:sta, mikä tarjoaa läpinäkyvyyttä. Olemme myös kehittäneet sisäisen hakutyökalun, joka hyödyntää sukupolvien teknisiä ominaisuuksia auttaakseen varmistamaan, onko sisältö peräisin mallistamme.

Haitallisen sisällön estäminen
Jatkamme sellaisten luotujen kuvien pyyntöjen estämistä, jotka saattavat rikkoa sisältökäytäntöjämme, kuten lasten seksuaalista hyväksikäyttöä sisältävä materiaali ja seksuaaliset deepfake-kuvat. Kun kuvat todellisista ihmisistä ovat kontekstissa, meillä on tiukemmat rajoitukset sen suhteen, millaisia kuvia voidaan luoda, ja erityisen vahvat turvatoimet alastomuuden ja graafisen väkivallan suhteen. Kuten minkä tahansa julkaisun yhteydessä, turvallisuus ei ole koskaan valmis, vaan se on jatkuva investointikohde. Kun saamme lisää tietoa tämän mallin käytöstä käytännössä, mukautamme käytäntöjämme sen mukaisesti.

Lisätietoja lähestymistavastamme löytyy kuvien luomista koskevasta lisäyksestä GPT‑4o‑järjestelmäkorttiin⁠.

Päättelyn käyttö turvallisuuden tehostamiseen
Samoin kuin harkitsevan yhdenmukaistamisen⁠ työssämme, olemme kouluttaneet päättelevän LLM:n toimimaan suoraan ihmisten kirjoittamien ja tulkittavissa olevien turvallisuusmäärittelyjen pohjalta. Käytimme tätä päättelyyn perustuvaa LLM:ää kehityksen aikana auttamaan meitä tunnistamaan ja käsittelemään käytäntöjemme epäselvyyksiä. Yhdessä multimodaalisten edistysaskeliemme ja ChatGPT:lle ja Soralle kehitettyjen olemassa olevien turvallisuustekniikoiden kanssa tämä antaa meille mahdollisuuden moderoida⁠ sekä syötettyä tekstiä että tuotettuja kuvia käytäntöjemme mukaisesti.

Käyttö ja saatavuus

4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It’s also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.

Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.

Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Livelähetyksen uusinta

Tekijä

OpenAI

Johtajuus

Gabriel Goh: Kuvan luonti

Jackie Shannon: ChatGPT-tuote

Mengchao Zhong, Wayne Chang: ChatGPT Engineering

Rohan Sahai: Sora-tuotteet ja -tekniikka

Brendan Quinn, Tomer Kaftan: Päättely

Prafulla Dhariwal: Multimodaalinen organisaatio

Tutkimus

Perustutkimus

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Ydintutkimus

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Tutkimuksen avustajat

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Mallin käyttäytyminen

Laurentia Romaniuk

Multimodaalinen organisaatio

Andrew Gibiansky, Yang Lu

Data

Tietojohtajat

Gildas Chabot, James Park Lennon

Data

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderaattorit

Hazel Byrne, Jennifer Luckenbill, Mariano López

Ihmistietojen neuvonantajat

Long Ouyang

Skaalaaminen

Päättelyjohtajat

Brendan Quinn, Tomer Kaftan

Päättely

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev ja Stanley Hsieh

Sovellettu

ChatGPT-tuotepäällikkö

Jackie Shannon

ChatGPT:n suunnittelujohtajat

Mengchao Zhong, Wayne Chang

Tuotesuunnittelun johtaja

Matt Chan

Tietojenkäsittelytiede

Xiaolin Hao

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Soran tuotejohtajat

Rohan Sahai, Wesam Manassra

Sora-tuotteet ja -tekniikka

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Turvallisuus

Turvallisuusvastaava

Somay Jain

Turvallisuus

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Perez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Strategia

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Markkinointi ja viestintä

Viestinnän ja markkinoinnin vastuuhenkilöt

Minnia Feng, Natalie Summers, Taya Christianson

Viestintä

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Suunnittelu ja luonti

Vastuuhenkilöt

Kendra Rimbach, Veit Moeller

Design

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Erityiset kiitokset

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco