25 березня 2025 р.

Представляємо генерацію зображень 4o

Генерація корисних і цінних зображень за допомогою мультимодальної моделі, здатної створювати точні, достовірні та фотореалістичні результати.

Спробувати у ChatGPT

Завантаження…

Ми в OpenAI давно вважали, що створення зображень має бути основною можливістю наших мовних моделей. Ось чому ми вбудували найсучасніший генератор зображень у GPT‑4o. Результат — генерація не лише гарних, а й корисних зображень.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Створення корисних зображень

Від перших наскельних малюнків до сучасної інфографіки люди завжди використовували візуальні образи для спілкування, переконання та аналізу, а не лише для краси. Сучасні генеративні моделі здатні створювати сюрреалістичні, захоплюючі дух сцени, але зазнають труднощів із повсякденними зображеннями, які люди використовують для обміну та створення інформації. Зображення — від логотипів до діаграм — можуть передавати точне значення, якщо їх доповнити символами, які надсилають до спільної мови та досвіду.

Генерація зображень GPT‑4o відрізняється точною візуалізацією тексту, точним виконанням підказок та використанням вбудованих знань 4o та контексту чату, включаючи перетворення завантажених зображень або використання їх як візуального натхнення. Ці можливості полегшують створення саме того зображення, яке ви собі уявляєте, допомагаючи вам ефективніше спілкуватися за допомогою візуальних засобів і перетворюючи генерацію зображень на практичний, точний і потужний інструмент.

Покращені можливості

Ми навчили наші моделі на спільному розподілі онлайн-зображень та тексту, навчивши їх не лише тому, як зображення співвідносяться з описом, а й тому, як вони співвідносяться один із одним. У поєднанні з агресивним постнавчанням це дозволило створити модель, яка має дивовижну швидкість аналізу візуальної інформації, і здатна формувати корисні та послідовні зображення, що враховують контекст.

Рендеринг тексту

Одне зображення варте тисячі слів, але іноді, додавши кілька слів у потрібному місці, можна наголосити на сенсі зображення. Здатність 4o поєднувати точні символи із зображеннями перетворює генерацію зображень на інструмент візуальної комунікації.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Багатоетапне генерування

Генерація зображень тепер вбудована у GPT‑4o, тож ви можете покращувати зображення через природний діалог. GPT‑4o може працювати із зображеннями та текстом у контексті чату, забезпечуючи узгодженість протягом усього процесу. Наприклад, якщо ви розробляєте персонажа для відеоігри, його зовнішній вигляд залишатиметься послідовним протягом кількох ітерацій, поки ви його вдосконалюєте та експериментуєте.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Дотримання інструкцій

Генерація зображень GPT‑4o виконується за детальними підказками та з увагою до деталей. У той час як інші системи мають труднощі з 5–8 об'єктами, GPT‑4o може обробляти до 10–20 різних об'єктів. Тісніша прив'язка об'єктів до їхніх характеристик і зв'язків дозволяє краще контролювати процес генерації.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Навчання в контексті

GPT‑4o може аналізувати та вивчати завантажені користувачем зображення, безперешкодно інтегруючи їхні деталі у свій контекст для осмисленої генерації зображень.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Світові знання

Нативна генерація зображень дає 4o можливість створення зв'язку між даними в тексті і зображеннях, у результаті чого модель стає розумнішою та ефективною.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Фотореалізм і стиль

Навчання на зображеннях, що відображають велику різноманітність стилів, дозволяє моделі переконливо створювати чи перетворювати зображення.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Обмеження

Наша модель не є досконалою. Наразі нам відомо про численні обмеження, які ми будемо усувати шляхом вдосконалення моделі після початкового запуску.

Ми помітили, що GPT‑4o іноді може надто щільно обрізати довгі зображення, такі як плакати, особливо у нижній частині.

Безпека

Відповідно до нашої специфікації моделі, ми прагнемо максимально розширити творчу свободу, підтримуючи такі сценарії використання, як розробка ігор, історичні дослідження та освіта, при цьому зберігаючи сувору відданість стандартам безпеки. У той же час, як і раніше, важливо блокувати запити, які порушують ці стандарти. Нижче наведено оцінки додаткових сфер ризику, в яких ми працюємо над включенням безпечного та корисного контенту та підтримкою ширшого творчого самовираження для користувачів.

Доступ до даних походження через C2PA та внутрішній реверсивний пошук
Усі згенеровані зображення містять метадані C2PA, які ідентифікують зображення як створене за допомогою GPT‑4o, забезпечуючи прозорість. Ми також розробили внутрішній інструмент пошуку, який використовує технічні атрибути генерацій та дозволяє перевіряти, чи був контент створений нашою моделлю.

Блокування небажаного контенту
Ми продовжуємо блокувати запити на генерування зображень, які можуть порушувати нашу політику щодо контенту: наприклад, матеріали з натяком на сексуальне насильство над дітьми та дипфейки відвертого характеру. Коли в контексті знаходяться зображення реальних людей, ми застосовуємо підвищені обмеження щодо того, які зображення можна створити з особливо суворими заходами захисту щодо зображення наготи та графічного насильства. Як і у випадку з будь-яким запуском, робота над безпекою ведеться постійно і постійно потребує інвестицій. У міру того, як ми дізнаватимемося більше про реальне використання цієї моделі, ми відповідним чином коригуватимемо нашу політику.

Щоб дізнатися більше про наш підхід, див. додаток до системної карти GPT‑4o щодо генерації зображень⁠.

Використання міркувань для забезпечення безпеки
Подібно до нашої роботи з усвідомленим узгодженням⁠, ми навчили LLM, засновану на міркуваннях, працювати безпосередньо з написаними людиною та інтерпретованими специфікаціями з безпеки. Ми використовували цю LLM для міркувань під час розробки, щоб виявити та усунути неясності у наших політиках. Разом з нашими мультимодальними досягненнями та існуючими методами безпеки, розробленими для ChatGPT і Sora, це дозволяє нам модерувати⁠ як текст, що вводиться, так і отримані зображення відповідно до наших політик.

Доступ

Генерація зображень 4o запускається з сьогоднішнього дня для користувачів Plus, Pro, Team і Free як генератор зображень за замовчуванням у ChatGPT, а незабаром стане доступною для користувачів Enterprise та Edu. Інструмент також можна використовувати у Sora. Для тих, у кого особливе місце в серці займає DALL·E, доступ до інструменту все ще буде можливий через спеціальний DALL·E GPT.

Розробники невдовзі зможуть генерувати зображення за допомогою GPT‑4o через API, доступ до якого буде надано протягом найближчих кількох тижнів.

Створювати та редагувати зображення тепер так само просто, як спілкуватися з GPT‑4o: просто опишіть, що вам потрібно, додавши за бажання такі деталі, як співвідношення сторін, точні кольори з використанням шістнадцяткових кодів або прозоре тло. Ця модель створює більш детальні зображення, тому час рендерингу часто може становити до однієї хвилини.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Запис прямої трансляції

Автор

OpenAI

Лідерство

Габріель Гох: Генерація зображень

Джекі Шеннон: Продукт ChatGPT

Менчао Чжун, Вейн Чанг: Інженерія ChatGPT

Рохан Сахай: Продукт і інженерія Sora

Брендан Квінн, Томер Кафтан: Висновки

Прафулла Дхарівал: Мультимодальна організація

Дослідження

Фундаментальні дослідження

Аллан Джабрі, Девід Медіна, Ґабріель Го, Кендзі Хата, Лу Лю, Прафулла Дхарівал

Основні дослідження

Адітья Рамеш, Алекс Нікол, Кейсі Чу, Чен Лу, Дянь Анг Яп, Хью Джун, Джеймс Беткер, Цзяньфен Ван, Лун Оуян, Лі Цзін, Весам Манасра

Учасники дослідження

Ейден Лоу, Брендон МакКінзі, Чарлі Неш, Хейвен Чанг, Ішаан Гулраджані, Джеймі Кірос, Джі Лін, Кшитідж Гупта, Ян Сонг

Поведінка моделі

Лаврентія Романюк

Мультимодальна організація

Ендрю Гібіанський, Ян Лу

Дані

Ліди по роботі з даними

Гілдас Шабо, Джеймс Парк Леннон

Дані

Арші Бхатнагар, Драгош Опріка, Рохан Кширсагар, Спенсер Папай, Сі-ч'є Ю, Весам Манасра, Ілей Цянь

Модератори

Хейзел Бірн, Дженніфер Лакенбіл, Маріано Лопес

Консультанти з питань людських даних

Лун Оуян

Масштабування

Висновки

Брендан Квінн, Томер Кафтан

Висновки

Алісса Хуанг, Джейкоб Менік, Нік Статас, Руслан Васильєв, Стенлі Шей

Прикладні сфери

Керівник по продукту ChatGPT

Джекі Шеннон

Керівники інженерії ChatGPT

Менчао Чжун, Вейн Чанг

Керівник дизайну продукту

Метт Чан

Наука про дані

Сяолінь Хао

ChatGPT

Ендрю Сіма, Енні Ченг, Бенджамін Гох, Боян Ніу, Дянь Анг Яп, Дюк Тран, Едеде Ойво, Ерік Чжан, Ітан Чанг, Джеффрі Данем, Джей Чен, Кан Ву, Карен Лі, Келлі Стірман, Менг'юань Сюй, Мішель Цінь, Ола Окелола, Педро Агілар, Роккі Сміт, Рохіт Рамчандані, Сара Калвер, Шон Фіцджеральд, Влад Фоменко, Ваннін Цзян, Весам Манасра, Сяолінь Хао, Ілей Цянь

Sora

Лідери продукту Sora

Рохан Сахай, Весам Манасра

Продукція та інженерія Sora

Боян Ню, Девід Шнурр, Гілман Толле, Джо Тейлор, Джої Флінн, Майк Старр, Раджив Наяк, Рохан Сахай, Весам Манасра

Безпека

Керівник з безпеки

Сомай Джайн

Безпека

Алекс Бойтель, Андреа Валлоне, Ботао Хао, Брендан Квінн, Камерон Реймонд, Чонг Чжан, Девід Робінсон, Ерік Воллес, Філіппо Расо, Хуейвен Чанг, Ян Ківлічан, Ірина Кофман, Керен Гу-Лемберг, Крістен Їн, Маделейн Бойд, Меган Шах, Майкл Лампе, Оуен Кемпбелл-Мур, Рохан Сахай, Родріго Ріаза Перес, Сем Тойзер, Сандіні Агарвал, Трой Петерсон

Стратегія

Адам Коен, Адам Веллс, Еллі Беннетт, Ешлі Пантуліано, Кароліна Пас, Клаудія Фішер, Деклан Грабб, Габі Сакрамоне-Лутц, Лорен Джонас, Райан Байєрмейстер, Шао Лі, Том Стазі, Тайс Уолтерс, Зіад Реслан, Зої Столл

Маркетинг і комунікації

Керівники з комунікацій та маркетингу

Міннія Фенг, Наталі Саммерс, Тая Крістіансон

Комунікації

Алекс Бейкер-Віткомб, Ешлі Тайра, Бейлі Річардсон, Габі Раїла, Марселус Кейтон, Скотт Етерсміт, Сукі Мансур

Дизайн та креатив

Ліди

Кендра Римбах, Вейт Меллер

Дизайн

Адам Брендон, Адам Коппель, Анджела Бек, Кері Гадсон, Дана Палмі, Фредді Суліт, Джеффрі Сабін Мацумото, Лейан Ло, Метт Ніколс, Томас Дегрі, Ванесса Антонія Шефке, Яра Хакбаз

Особлива подяка

Адіт'я Рамеш, Ейдан Кларк, Алекс Бойтел, Бен Ньюхаус, Бен Россен, Че Чанг, Грег Брокман, Ханна Вонг, Ішаан Сінгал, Джейсон Квон, Цзячен Фенг, Цзяхуей Ю, Джоан Джанг, Йоханнес Хайдеке, Кевін Вейл, Марк Чен, Міа Глейз, Нік Терлі, Рауль Пурі, Рейчіро Накано, Руї Шу, Сем Альтман, Шучао Бі, Вінні Монако