25 март 2025 г.

Представяме Ви 4o генериране на изображения

Отключете полезно и ценно генериране на изображения с вграден мултимодален модел, способен на прецизни, точни, фотореалистични резултати.

Изпробвайте в ChatGPT

Зареждане…

В OpenAI отдавна вярваме, че генерирането на изображения трябва да бъде основна способност на нашите езикови модели. Ето защо вградихме нашия най-усъвършенстван генератор на изображения досега в GPT‑4o. Резултатът — генериране на изображения, което е не само красиво, но и полезно.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Полезно генериране на изображения

От първите пещерни рисунки до съвременните инфографики, хората са използвали визуални изображения, за да комуникират, убеждават и анализират—не само за украса. Съвременните генеративни модели могат да създават сюрреалистични, спиращи дъха сцени, но изпитват затруднения с основните изображения, които хората използват за споделяне и създаване на информация. От лога до диаграми, изображенията могат да предадат точно значение, когато са допълнени със символи, които се отнасят до споделен език и опит.

Генерирането на изображения с GPT‑4o се отличава с точно изобразяване на текст, прецизно следване на подкани и използване на присъщата база от знания и контекста на чата на 4o—включително трансформиране на качени изображения или използването им като визуално вдъхновение. Тези възможности улесняват създаването точно на изображението, което си представяте, като Ви помагат да комуникирате по-ефективно чрез визуализации и превръщат генерирането на изображения в практичен инструмент с прецизност и мощност.

Подобрени възможности

Обучихме нашите модели върху съвместното разпределение на онлайн изображения и текст, като научихме не само как изображенията се свързват с езика, но и как се свързват помежду си. В съчетание с агресивно последващо обучение, полученият модел има изненадваща визуална плавност, способен да генерира изображения, които са полезни, последователни и контекстно осъзнати.

Рендиране на текст

Една картина струва повече от хиляда думи, но понякога използването на няколко думи на правилното място може да повиши значението на изображението. Способността на 4o да съчетава прецизни символи с изображения превръща генерирането на изображения в инструмент за визуална комуникация.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Генериране на няколко оборота

Тъй като генерирането на изображения вече е вградено в GPT‑4o, можете да прецизирате изображенията чрез естествен разговор. GPT‑4o може да надгражда изображения и текст в контекста на чата, осигурявайки последователност през цялото време. Например, ако проектирате герой за видеоигра, външният вид на героя остава последователен в множество итерации, докато усъвършенствате и експериментирате.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Следване на инструкции

Генерирането на изображения в GPT‑4o следва подробни подкани с внимание към детайла. Докато други системи се затрудняват с ~5-8 обекта, GPT‑4o може да обработва до 10-20 различни обекта. По-тясното обвързване на обектите с техните характеристики и връзки позволява по-добър контрол.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Обучение в контекст

GPT‑4o може да анализира и да се учи от изображения, качени от потребителя, безпроблемно интегрирайки техните подробности в своя контекст, за да ги използва при генерирането на изображения.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Световно знание

Генерирането на естествени изображения позволява на 4o да свърже знанията си между текст и изображения, което води до по-интелигентен и ефективен модел.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Фотореализъм и стил

Обучението върху изображения, отразяващи разнообразие от стилове, позволява на модела да създава или трансформира изображения убедително.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Ограничения

Нашият модел не е съвършен. В момента сме наясно с множество ограничения, върху които ще работим за отстраняване чрез подобрения на модела след първоначалното пускане.

Забелязахме, че GPT‑4o понякога може да изрязва по-дълги изображения, като постери, особено близо в долната част.

Безопасност

В съответствие с нашата спецификация на модела, ние се стремим да увеличим максимално творческата свобода, като подкрепяме ценни случаи на употреба като разработване на игри, историческо проучване и образование—като същевременно поддържаме строги стандарти за безопасност. В същото време остава толкова важно, колкото винаги, да се блокират заявки, които нарушават тези стандарти. По-долу са представени оценки на допълнителни рискови области, върху които работим, за да осигурим безопасно и съдържание с голяма полезност и да подкрепим по-широкото творческо изразяване на потребителите.

Произход чрез C2PA и вътрешно обратимо търсене
Всички генерирани изображения са снабдени с метаданни C2PA⁠, които идентифицират изображението като създадено от GPT‑4o, за да се осигури прозрачност. Също така създадохме вътрешен инструмент за търсене, който използва техническите характеристики на поколенията, за да помогне да се проверява дали съдържанието произхожда от нашия модел.

Блокиране на лошите неща
Продължаваме да блокираме заявките за генерирани изображения, които могат да нарушават нашите политики за съдържание, като материали за сексуално насилие над деца и сексуални дийпфейкове. Когато става въпрос за изображения на реални хора, имаме засилени ограничения относно вида изображения, които могат да бъдат създадени, с особено строги предпазни мерки срещу голотата и графичното насилие. Както при всяко стартиране, безопасността никога не е завършена и е по-скоро област на непрекъсната инвестиция. С научаването на повече за реалното използване на този модел ще коригираме съответно нашите политики.

За повече информация относно нашия подход посетете допълнение за генериране на изображения към системната карта GPT‑4o⁠.

Използване на разсъждения за осигуряване на безопасност
Подобно на нашата работа по съзнателно съгласуване⁠, ние обучихме LLM, базиран на разсъждение, да работи директно с написани от човек и интерпретируеми спецификации за безопасност. Използвахме този LLM за разсъждения по време на разработката, за да ни помогне да идентифицираме и адресираме неясноти в нашите политики. Заедно с нашите мултимодални подобрения и съществуващите техники за безопасност, разработени за ChatGPT и Sora, това ни позволява да модерираме⁠ както входния текст, така и изходните изображения спрямо нашите политики.

Достъп и наличност

4o генериране на изображение започва от днес за потребителите на Plus, Pro, Team и Free като генератор на изображение по подразбиране в ChatGPT, като скоро ще бъде достъпно и за Enterprise и Edu. Също така е налично за използване в Sora. За тези, които държат специално място в сърцата си за DALL·E, все още може да бъде достъпен чрез специален DALL·E GPT.

Разработчиците скоро ще могат да генерират изображения с GPT‑4o чрез API, като достъпът ще бъде предоставен през следващите няколко седмици.

Създаването и персонализирането на изображения е толкова просто, колкото чатът с помощта на GPT‑4o - просто опишете от какво се нуждаете, включително всякакви специфики като съотношение на страните, точни цветове, използвайки шестнадесетични кодове, или прозрачен фон. Тъй като този модел създава по-подробни изображения, рендирането на изображенията отнема повече време, често до една минута.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Повторение на излъчване в реално време

Автор

OpenAI

Лидерство

Габриел Го: Генериране на изображения

Джаки Шанън: Продукт на ChatGPT

Менгчао Чжун, Уейн Чанг: Инженеринг на ChatGPT

Рохан Сахай: Продукти и инженеринг на Sora

Брендън Куин, Томер Кафтан: Разсъждение

Прафула Дхаривал: Мултимодална организация

Проучване

Фундаментални изследвания

Алън Джабри, Дейвид Медина, Габриел Го, Кенджи Хата, Лу Лиу, Прафула Дхаривал

Основни изследвания

Адитя Рамеш, Алекс Никол, Кейси Чу, Ченг Лу, Диан Анг Яп, Хиу Джун, Джеймс Беткър, Джианфън Уанг, Лонг Оуян, Ли Дзин, Уесам Манасра

Сътрудници в изследването

Ейдън Лоу, Брандън МакКинзи, Чарли Неш, Хуивен Чанг, Ишан Гулраджани, Джейми Кирос, Джи Лин, Кшитидж Гупта, Янг Сонг

Поведение на модела

Лаурентия Романюк

Мултимодална организация

Андрю Гибиански, Ян Лу

Данни

Ръководители по данни

Гилдас Шабот, Джеймс Парк Ленън

Данни

Арши Бхатнагар, Драгос Оприца, Рохан Кширсагар, Спенсър Папай, Си-чие Ю, Уесам Манасра, Йилей Чиан

Модератори

Хейзъл Бърн, Дженифър Лъкенбил, Мариано Лопес

Консултанти по човешки данни

Лонг Оуянг

Мащабиране

Ръководители по разсъждения

Брендън Куин, Томер Кафтан

Разсъждение

Алиса Хуанг, Джейкъб Меник, Ник Статас, Руслан Василев, Стенли Хсие

Приложимо

Ръководител на продукти на ChatGPT

Джаки Шанън

Ръководители на инженерния екип на ChatGPT

Менгчао Чонг, Уейн Чанг

Ръководител на продуктовия дизайн

Мат Чан

Наука за данни

Сяолин Хао

ChatGPT

Андрю Сима, Ани Ченг, Бенджамин Гох, Боянг Ниу, Диан Анг Яп, Дък Тран, Едеде Ойвох, Ерик Джанг, Итън Чанг, Джефри Дънам, Джей Чен, Кан Ву, Карън Ли, Кели Стърман, Менгюан Сю, Мишел Цин, Ола Окелола, Педро Агилар, Роки Смит, Рохит Рамчандани, Сара Кълвър, Шон Фицджералд, Влад Фоменко, Уанинг Джианг, Уесам Манасра, Сяолин Хао, Йилей Циен

Sora

Ръководител на продукти на Sora

Рохан Сахай, Уесам Манасра

Продукти и инженеринг на Sora

Боян Ниу, Дейвид Шнур, Гилман Толе, Джо Тейлър, Джоуи Флин, Майк Стар, Раджив Наяк, Рохан Сахай, Уесам Манасра

Безопасност

Ръководител по безопасност

Сомай Джайн

Безопасност

Алекс Ботел, Андреа Валоне, Ботао Хао, Брендън Куин, Камерън Реймънд, Чонг Джан, Дейвид Робинсън, Ерик Уолъс, Филипо Расо, Хуивен Чанг, Иън Кивличан, Ирина Кофман, Керен Гу-Лемберг, Кристен Инг, Мадлен Бойд, Меган Шах, Майкъл Лампе, Оуен Кембъл-Мур, Рохан Сахай, Родриго Риаза Перес, Сам Тойзер, Сандини Агарвал, Трой Питърсън

Стратегия

Адам Коен, Адам Уелс, Али Бенет, Ашли Пантулиано, Каролина Пас, Клаудия Фишер, Деклан Граб, Габи Сакрамоне-Луц, Лорън Джонас, Райън Байермайстер, Шиао Лий, Том Стаси, Тайс Уолтърс, Зиад Реслан, Зоуи Стол

Маркетинг и комуникации

Ръководители по комуникации и маркетинг

Миния Фенг, Натали Съмърс, Тая Кристиансън

Комуникации

Алекс Бейкър-Уиткомб, Ашли Тайра, Бейли Ричардсън, Габи Райла, Марселус Кейтън, Скот Етърсмит, Суки Мансур

Дизайн и креативност

Ръководители

Кендра Римбах, Файт Мьолер

Дизайн

Адам Брандън, Адам Копел, Анджела Бек, Кари Хъдсън, Дана Палми, Фреди Сулит, Джефри Сабин Мацумото, Леян Ло, Мат Никълс, Томас Дегри, Ванеса Антония Шефке, Яра Хакбаз

Специални благодарности

Адитья Рамеш, Ейдън Кларк, Алекс Ботел, Бен Нюхаус, Бен Росен, Че Чанг, Грег Брокман, Хана Уонг, Ишан Сингал, Джейсън Куон, Джиаченг Фенг, Джиахуи Ю, Джоан Джанг, Йоханес Хайдеке, Кевин Уейл, Марк Чен, Миа Глезе, Ник Търли, Раул Пури, Рейчиро Накано, Руи Шу, Сам Алтман, Шучао Би, Вини Монако