25 марта 2025 г.

Представляем функцию генерации изображений 4o

Генерация полезных и ценных изображений с помощью изначально мультимодальной модели, способной создавать точные, достоверные и фотореалистичные результаты.

Попробовать в ChatGPT

Загрузка…

Мы в OpenAI давно полагали, что генерация изображений должна быть основной возможностью наших языковых моделей. Вот почему мы встроили наш самый современный генератор изображений в GPT‑4o. Результат — генерация не только красивых, но и полезных изображений.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Генерация полезных изображений

От первых наскальных рисунков до современной инфографики люди всегда использовали визуальные образы для общения, убеждения и анализа — не только для красоты. Современные генеративные модели могут создавать сюрреалистические, захватывающие дух сцены, но испытывают трудности с повседневными изображениями, которые люди используют для обмена и создания информации. Изображения — от логотипов до диаграмм — могут передавать точное значение, если их дополнить символами, которые отсылают к общему языку и опыту.

Генерация изображений GPT‑4o отличается точной визуализацией текста, точным выполнением подсказок и использованием встроенных знаний 4o и контекста чата, включая преобразование загруженных изображений или использование их в качестве визуального вдохновения. Эти возможности облегчают создание именно того изображения, которое вы себе представляете, помогая вам более эффективно общаться с помощью визуальных средств и превращая генерацию изображений в практичный, точный и мощный инструмент.

Улучшенные возможности

Мы обучили наши модели на совместном распределении онлайн-изображений и текста, научив их не только тому, как изображения соотносятся с описанием, но и тому, как они соотносятся друг с другом. Вместе с агрессивным постобучением это позволило создать модель, которая обладает удивительной визуальной беглостью, и способна формировать полезные, последовательные и учитывающие контекст изображения.

Рендеринг текста

Одна картинка стоит тысячи слов, но иногда, добавив несколько слов в нужном месте, можно подчеркнуть смысл изображения. Способность 4o сочетать точные символы с изображениями превращает генерацию изображений в инструмент визуальной коммуникации.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Многоходовая генерация

Генерация изображений теперь встроена в GPT‑4o, и вы можете улучшать изображения через естественный диалог. GPT‑4o может работать с изображениями и текстом в контексте чата, обеспечивая согласованность на протяжении всего процесса. Например, если вы разрабатываете персонажа для видеоигры, его внешний вид будет оставаться последовательным на протяжении нескольких итераций, пока вы его совершенствуете и экспериментируете.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Следование инструкции

Генерация изображений GPT‑4o следует подробным подсказкам с вниманием к деталям. В то время как другие системы испытывают трудности с 5–8 объектами, GPT‑4o может обрабатывать до 10–20 различных объектов. Более тесная привязка объектов к их характеристикам и связям позволяет лучше контролировать процесс генерации.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Обучение в контексте

GPT‑4o может анализировать и изучать загруженные пользователем изображения, беспрепятственно интегрируя их детали в свой контекст для осмысленной генерации изображений.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Мировые знания

Нативная генерация изображений дает 4o возможность создания связи между данными в тексте и изображениях, в результате чего модель становится более умной и эффективной.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Фотореализм и стиль

Обучение на изображениях, отражающих большое разнообразие стилей, позволяет модели убедительно создавать или преобразовывать изображения.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Ограничения

Наша модель не идеальна. На данный момент нам известно о многочисленных ограничениях, над устранением которых мы будем работать, улучшая модель после первого запуска.

Мы заметили, что GPT‑4o иногда может слишком плотно обрезать длинные изображения, такие как плакаты, особенно в нижней части.

Безопасность

В соответствии с нашей спецификацией модели, мы стремимся максимально расширить творческую свободу, поддерживая такие сценарии использования, как разработка игр, исторические исследования и образование, при этом сохраняя строгую приверженность стандартам безопасности. В то же время, как и прежде, важно блокировать запросы, которые нарушают эти стандарты. Ниже приведены оценки дополнительных областей риска, в которых мы работаем над включением безопасного и полезного контента и поддержкой более широкого творческого самовыражения для пользователей.

Доступ к данным происхождения через C2PA и внутренний обратимый поиск
Все сгенерированные изображения содержат метаданные C2PA, которые идентифицируют изображение как созданное с помощью GPT‑4o, обеспечивая прозрачность. Мы также разработали внутренний инструмент поиска, который использует технические атрибуты генераций и позволяет проверять, был ли контент создан нашей моделью.

Блокировка нежелательного контента
Мы продолжаем блокировать запросы на генерирование изображений, которые могут нарушать нашу политику в отношении контента — например, материалы с намеком на сексуальное насилие над детьми и дипфейки откровенного характера. Когда в контексте находятся изображения реальных людей, мы применяем повышенные ограничения относительно того, какие изображения можно создать, с особенно строгими мерами защиты в отношении изображения наготы и графического насилия. Как и при любом запуске, работа над безопасностью ведется постоянно и постоянно требует инвестиций. По мере того как мы узнаем больше о реальном использовании этой модели, мы будем соответствующим образом корректировать нашу политику.

Более подробную информацию о нашем подходе можно найти в приложении к системной карте GPT‑4o по созданию изображений⁠.

Использование рассуждений для обеспечения безопасности
Подобно нашей работе по осознанному согласованию⁠, мы обучили языковую модель, основанную на рассуждениях, работать непосредственно с написанными человеком и интерпретируемыми спецификациями по безопасности. Мы использовали эту LLM для рассуждений во время разработки, чтобы выявить и устранить неясности в наших политиках. Вместе с нашими мультимодальными достижениями и существующими методами безопасности, разработанными для ChatGPT и Sora, это позволяет нам модерировать⁠ как вводимый текст, так и получаемые изображения в соответствии с нашими политиками.

Доступ

Генерация изображений 4o запускается с сегодняшнего дня для пользователей Plus, Pro, Team и Free в качестве генератора изображений по умолчанию в ChatGPT, а вскоре станет доступна для пользователей Enterprise и Edu. Инструмент также можно использовать в Sora. Для тех, у кого особое место в сердце занимает DALL·E, доступ к инструменту все еще будет возможен через специальный DALL·E GPT.

Разработчики вскоре смогут генерировать изображения с помощью GPT‑4o через API, доступ к которому будет предоставлен в течение ближайших нескольких недель.

Создавать и редактировать изображения теперь так же просто, как общаться с GPT‑4o: просто опишите, что вам нужно, добавив при желании такие детали, как соотношение сторон, точные цвета с использованием шестнадцатеричных кодов или прозрачный фон. Данная модель создает более детализированные изображения, поэтому время рендеринга часто может составлять до одной минуты.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Повтор трансляции в прямом эфире

Автор

OpenAI

Руководство

Габриэль Го: Генерация изображений

Джеки Шеннон: Продукт ChatGPT

Менгчао Чжун, Уэйн Чанг: Инженерия ChatGPT

Рохан Сахай: Продукт и инженерия Sora

Брендан Куинн, Томер Кафтан: Выводы

Прафулла Дхаривал: Мультимодальная организация

Исследования

Фундаментальные исследования

Аллан Джабри, Дэвид Медина, Габриэль Го, Кенджи Хата, Лу Лю, Прафулла Даривал

Основные исследования

Адитья Рамеш, Алекс Никол, Кейси Чу, Чэн Лу, Дянь Анг Яп, Хиу Цзюнь, Джеймс Беткер, Цзяньфэн Ван, Лун Оуян, Ли Цзин, Уэсам Манассра

Участники исследования

Эйден Лоу, Брэндон Маккинзи, Чарли Нэш, Хуэйвен Чанг, Ишаан Гулраджани, Джейми Кирос, Цзи Лин, Кшитий Гупта, Ян Сонг

Поведение модели

Лаврентия Романюк

Мультимодальная организация

Эндрю Гибиански, Ян Лу

Данные

Ведущие специалисты по данным

Гилдас Шабо, Джеймс Парк Леннон

Данные

Арши Бхатнагар, Драгош Оприка, Рохан Кширсагар, Спенсер Папай, Си-чи Ю, Уэсам Манассра

Модераторы

Хейзел Бирн, Дженнифер Лакенбилл, Мариано Лопес

Консультанты по человеческим данным

Лун Оуян

Масштабирование

Выводы

Брендан Куинн, Томер Кафтан

Выводы

Алисса Хуанг, Джейкоб Меник, Ник Статас, Руслан Васильев, Стэнли Шей

Прикладные сферы

Руководитель по продукту ChatGPT

Джеки Шеннон

Руководители инженерной команды ChatGPT

Мэнчао Чжун, Уэйн Чанг

Ведущий дизайнер продукта

Мэтт Чан

Наука о данных

Сяолинь Хао

ChatGPT

Эндрю Сима, Энни Ченг, Бенджамин Го, Боян Ню, Дайан Анг Яп, Дюк Тран, Эдеде Ойво, Эрик Чжан, Итан Чанг, Джеффри Данэм, Джей Чен, Кан Ву, Карен Ли, Келли Стирман, Мэнъюань Сюй, Мишель Цинь, Ола Окелола, Педро Агилар, Рокки Смит, Рохит Рамчандани, Сара Калвер, Шон Фицджеральд, Влад Фоменко, Ваннин Цзян, Уэсам Манассра, Сяолинь Хао, Илэй Цянь

Sora

Лиды по продуктам Sora

Рохан Сахаи, Уэсам Манассра

Продукты и инженерия Sora

Боян Ню, Дэвид Шнурр, Гилман Толле, Джо Тейлор, Джоуи Флинн, Майк Старр, Раджив Наяк, Рохан Сахаи, Уэсам Манассра

Безопасность

Руководитель по безопасности

Сомай Джайн

Безопасность

Алекс Бойтель, Андреа Валлоне, Ботао Хао, Брендан Куинн, Кэмерон Рэймонд, Чонг Чжан, Дэвид Робинсон, Эрик Уоллес, Филиппо Расо, Хуэйвен Чанг, Ян Кивличан, Ирина Кофман, Керен Гу-Лемберг, Кристен Инг, Мадлен Бойд, Меган Шах, Майкл Лампе, Оуэн Кэмпбелл-Мур, Рохан Сахай, Родриго Риаза Перес, Сэм Тойзер, Сандини Агарвал, Трой Петерсон

Стратегия

Адам Коэн, Адам Уэллс, Элли Беннетт, Эшли Пантулиано, Каролина Пас, Клаудия Фишер, Деклан Грабб, Габи Сакрамон-Лутц, Лорен Джонас, Райан Байермайстер, Шиао Ли, Том Стази, Тайс Уолтерс, Зиад Реслан, Зои Столл

Маркетинг и коммуникации

Руководители по коммуникациям и маркетингу

Минния Фэн, Натали Саммерс, Тая Кристиансон

Коммуникации

Алекс Бейкер-Уиткомб, Эшли Тайра, Бейли Ричардсон, Габи Райла, Марселус Кейтон, Скотт Этерсмит, Суки Мансур

Дизайн и креатив

Лиды

Кендра Римбах, Вейт Мёллер

Дизайн

Адам Брэндон, Адам Коппел, Анджела Бэк, Кэри Хадсон, Дана Палми, Фредди Сулит, Джеффри Сабин Мацумото, Лейан Ло, Мэтт Николс, Томас Дегри, Ванесса Антония Шефке, Яра Хакбаз

Особая благодарность

Адитья Рамеш, Эйдан Кларк, Алекс Бойтель, Бен Ньюхаус, Бен Россен, Че Чанг, Грег Брокман, Ханна Вонг, Ишаан Сингал, Джейсон Квон, Цзячэн Фэн, Цзяхуэй Юй, Джоан Джанг, Йоханнес Хайдеке, Кевин Вейл, Марк Чен, Миа Глезе, Ник Терли, Рауль Пури, Рейитиро Накано, Руи Шу, Сэм Альтман, Шучао Би, Винни Монако