25 март 2025 г.

Претставување на генерирањето слики во 4o

Овозможување корисно и вредно генерирање слики со директно враден мултимоделен модел способен да генерира прецизни, точни и фотореалистични резултати.

Пробај го во ChatGPT

Се вчитува...

Во OpenAI, долго време веруваме дека генерирањето слики треба да биде основна способност на нашите јазични модели. Затоа го вградивме нашиот најнапреден генератор на слики досега во GPT‑4o. Резултатот—генерирање на слики што не се само убави, туку се и корисни.

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"

^{Best of 8}

selfie view of the photographer, as she turns around to high five him

^{Best of 8}

Корисно генерирање на слики

Од првите пештерски слики до современите инфографици, луѓето користеле визуелни слики за комуникација, убедување и анализа - не само за украсување. Денешните генеративни модели можат да создадат надреални, зачудувачки сцени, но имаат потешкотии со секојдневните слики што луѓето ги користат за споделување и креирање информации. Од логоа до дијаграми, сликите можат да пренесат прецизно значење кога се надополнети со симболи што се однесуваат на споделен јазик и искуство.

Генерирањето слики со GPT‑4o извонредно точно визуализира текст, прецизно ги следи промптите и ја користи вградената база на знаење на 4o и контекстот од разговорот—вклучително и трансформирање на прикачени слики или користење на истите како визуелна инспирација. Овие можности го олеснуваат креирањето на сликата што ја замислуваш, помагајќи ти да комуницираш поефикасно преку визуелни средства и го унапредува генерирањето слики во практична алатка со прецизност и моќ.

Подобрени способности

Ги обучивме нашите модели на заедничката распределба на онлајн слики и текст, учејќи не само како сликите се поврзуваат со јазикот, туку и како се поврзуваат меѓусебно. Во комбинација со агресивна пост-обука, добиениот модел има изненадувачка визуелна подготвеност, способен да генерира слики коишто се корисни, доследни и свесни за контекстот.

Прикажување текст

Сликата вреди илјада зборови, но понекогаш генерирањето на неколку зборови на вистинското место може да го подигне значењето на сликата. Способноста на 4o да ги комбинира прецизните симболи со слики го претвора генерирањето слики во алатка за визуелна комуникација.

Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.

Context:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)"Broom Parking for Witches Not Permitted in Zone C" and "Magic Carpet Loading and Unloading Only (15-Minute Limit)" and "Reindeer Parking by Permit Only (Dec 24–25)
Violators will be placed on Naughty List." The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.

Characters:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.

Composition from background to foreground:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot

^{Best of ~8}

Генерирање со повеќе чекори

Бидејќи сега генерирањето слики е вградено во GPT‑4o, можеш да ги рафинираш сликите преку природен разговор. GPT‑4o може да се базира на слики и текст во контекст на разговор, обезбедувајќи конзистентност низ целиот разговор. На пример, ако дизајнираш лик од видео игра, изгледот на ликот останува кохерентен во многуте верзии креирани додека го рафинираш и експериментираш.

Give this cat a detective hat and a monocle

^{Best of 1}

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

^{Best of 1}

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

^{Best of 2}

create the interface when the player opens the menu and we see the cat's character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

^{Best of 8}

credit creator: Manuel Sainsily

Следење инструкции

Генерирањето слики на GPT‑4o следи детални промпти и внимава на деталите. Додека другите системи се мачат со ~5-8 објекти, GPT‑4o може да обработи до 10-20 различни објекти. Поцврстото поврзување на објектите со нивните особини и односи овозможува подобра контрола.

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
9. an orange cat wearing a black baseball cap
10. a map with a treasure chest
11. a pair of googly eyes
12. a thumbs up emoji
13. a pair of scissors
14. a blue and white giraffe
15. the word "OpenAI" written in cursive
16. a rainbow-colored lightning bolt

^{Best of 5}

Учење во контекст

GPT‑4o може да анализира и да учи од сликите поставени од корисникот, беспрекорно интегрирајќи ги нивните детали во својот контекст за да го насочи генерирањето слики.

draw a design for a vehicle with triangular wheels, using these images as reference.
label the front wheel, the back wheel, and at the of the diagram say (in small caps)
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI.

^{Best of ~16}

now put this in a photo taken in new york city.

^{Best of ~16}

Светско знаење

Генерирањето слики овозможува 4o да воспостави врска помеѓу своето знаење и текстот и сликите, што резултира во модел којшто остава впечаток дека е попаметен и поефикасен.

Code Example (Three.js)

HTML

1<!DOCTYPE html>
2<html lang="en">
3  <head>
4    <meta charset="UTF-8" />
5    <title>OpenAI Banner</title>
6    <style>
7      body { margin: 0; overflow: hidden; }
8      canvas { display: block; }
9    </style>
10  </head>
11  <body>
12    <script type="module">
13      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18      const scene = new THREE.Scene();
19      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20      const renderer = new THREE.WebGLRenderer({ antialias: true });
21      renderer.setSize(window.innerWidth, window.innerHeight);
22      document.body.appendChild(renderer.domElement);
23
24      // Lighting
25      const light = new THREE.AmbientLight(0xffffff, 1);
26      scene.add(light);
27
28      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
29      dirLight.position.set(0, 5, 10);
30      scene.add(dirLight);
31
32      // Camera position
33      camera.position.z = 20;
34
35      // Controls
36      const controls = new OrbitControls(camera, renderer.domElement);
37
38      // Banner background
39      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
40      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
41      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
42      scene.add(banner);
43
44      // OpenAI Logo texture (placeholder)
45      const loader = new THREE.TextureLoader();
46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47        const logoGeometry = new THREE.PlaneGeometry(4, 4);
48        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
49        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51        scene.add(logo);
52      });
53
54      // Load font and add text
55      const fontLoader = new FontLoader();
56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57        const textGeometry = new TextGeometry("I am 4-o", {
58          font: font,
59          size: 1,
60          height: 0.2,
61          curveSegments: 12,
62          bevelEnabled: true,
63          bevelThickness: 0.02,
64          bevelSize: 0.02,
65          bevelOffset: 0,
66          bevelSegments: 5
67        });
68
69        textGeometry.center();
70
71        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
72        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74        scene.add(textMesh);
75      });
76
77      // Resize handler
78      window.addEventListener('resize', () => {
79        camera.aspect = window.innerWidth / window.innerHeight;
80        camera.updateProjectionMatrix();
81        renderer.setSize(window.innerWidth, window.innerHeight);
82      });
83
84      // Render loop
85      function animate() {
86        requestAnimationFrame(animate);
87        controls.update();
88        renderer.render(scene, camera);
89      }
90
91      animate();
92    </script>
93  </body>
94</html>

make an image of what this means to you

Фотореализам и стил

Обуката со слики што одразуваат голема разновидност на стилови му овозможува на моделот уверливо да креира или трансформира слики.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water — A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

Ограничувања

Нашиот модел не е совршен. Свесни сме за повеќе ограничувања во моментот кои ќе се обидеме да ги решиме преку подобрување на моделот по првичното лансирање.

Забележавме дека GPT‑4o повремено може да претера со потсечување на подолгите слики, како што се постерите, особено близу до дното.

Безбедност

Во согласност со нашиот спецификациски модел, целиме да ја максимизираме креативната слобода поддржувајќи вредни употреби како развој на игри, историско истражување и образование — притоа задржувајќи високи стандарди за безбедност. Во исто време, останува подеднакво важно како и секогаш да се блокираат барањата што ги прекршуваат тие стандарди. Подолу се дадени оценки за дополнителни ризични области каде што работиме на овозможување безбедна и високо корисна содржина, како и на поддршка на поширока креативна експресија за корисниците.

Потекло на содржината се утврдува преку C2PA и внатрешно реверзибилно пребарување
Сите генерирани слики се со C2PA метаподатоци, коишто ќе идентификуваат слика којшто потекнува од GPT‑4o, заради транспарентност. Исто така изградивме внатрешна алатка за пребарување што ги користи техничките атрибути на генерираните содржини за да помогне во проверката дали содржината потекнува од нашиот модел.

Блокирање на штетната содржина
Продолжуваме да ги блокираме барањата за генерирани слики што можат да ги прекршат нашите политики за содржина, како материјали за сексуална злоупотреба на деца и сексуални дипфејкови. Кога станува збор за слики од вистински луѓе, имаме засилени ограничувања во однос на тоа каков вид слики може да се создаваат, со особено строги заштитни мерки за голотија и изразито насилство. Како и со секое лансирање, безбедноста никогаш не е завршена и претставува континуирана област на инвестирање. Како што ќе го продлабочуваме знаењето за употребата на овој модел во реалниот свет, ќе ги приспособуваме и нашите политики соодветно.

За повеќе информации за нашиот пристап, посети го додатокот за генерирање слики на системската картичка GPT‑4o⁠.

Користење на расудување за подобрување на безбедноста
Слично на нашата напори за внимателно и структурирано усогласување⁠, обучивме LLM со расудување да работи директно од спецификации за безбедност напишани и толкувани од луѓе. Го користевме овој LLM за расудување во текот на развојот за да ни помогне да ги идентификуваме и решиме двосмисленостите во нашите политики. Заедно со нашите мултимодални достигнувања и постојните безбедносни техники развиени за ChatGPT и Sora, ова ни овозможува модерирање⁠ и на влесен текст и излезни слики според нашите политики.

Пристап и достапност

Генерирањето на слики со 4o започнува од денес за корисниците на опциите Plus, Pro, Team и Free, како стандарден генератор на слики во ChatGPT. Исто така е достапно за употреба во Sora. За оние во чии срца DALL·E има посебно место, до него сè уште ќе може да се пристапи преку посветен DALL·E GPT.

Развивачите на софтвер наскоро ќе можат да генерираат слики со GPT‑4o преку API, со пристап кој ќе се воведува во следните неколку недели.

Креирањето и приспособувањето на слики е едноставно како разговор со GPT‑4o — само опиши што ви треба, вклучително и детали како сооднос на страни, точни бои со hex-кодови или проѕирна заднина. Бидејќи овој модел креира подетални слики, сликите се визуализираат подолго, често до една минута.

credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#) — credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)
credit creator: [Alex Duffy](https://every.to/@AlxAi)

Снимка од пренос во живо

Автор

OpenAI

Лидерство

Габриел Гох: Генерирање слики

Џеки Шенон: Производи на ChatGPT

Менгчао Жонг, Вејн Чанг: ChatGPT инженерство

Рохан Сахаи: Производи на Sora и инженеринг

Брендан Квин, Томер Кафтан: Инференција

Прафула Даривал: Мултимодална организација

Истражување

Основно истражување

Алан Џабри, Дејвид Медина, Габриел Гох, Кенџи Хата, Лу Лиу, Прафула Даривал

Јадрено истражување

Адитја Рамеш, Алекс Никол, Кејси Чу, Ченг Лу, Дијан Анг Јап, Хиву Јун, Џејмс Беткер, Џианфенг Ванг, Лонг Оујанг, Ли Џинг, Весам Манасра

Истражувачки соработници

Ејден Лоу, Брендон Мекинзи, Чарли Неш, Хуивен Чанг, Ишан Гулрајани, Џејми Кирос, Џи Лин, Кшитиј Гупта, Јанг Сонг

Однесување на модел

Лорентија Романиук

Мултимодална организација

Ендру Гибиански, Јанг Лу

Податоци

Раководители за податоци

Гилдас Чабот, Џејмс Парк Ленон

Податоци

Арши Батнагар, Драгос Оприка, Рохан Кширсагар, Спенсер Папај, Ши-чие Ју, Весам Манасра, Јилеи Квиан

Модератори

Хејзел Брн, Џенифер Лукенбил, Маријано Лопез

Советници за човечки податоци

Лонг Оујанг

Скалирање

Раководители за инференција

Брендан Квин, Томер Кафтан

Инференција

Алиса Хуанг, Џејкоб Меник, Ник Статас, Руслан Василев, Стенли Хсиех

Примена

Раководител за производи на ChatGPT

Џеки Шенон

Раководители за инженерство за ChatGPT

Менчао Жонг, Вејн Чанг

Раководител за дизајн на производи

Мет Чан

Наука за податоци

Шјаолин Хао

ChatGPT

Ендрју Сима, Ени Ченг, Бенџамин Гох, Бојанг Ниу, Дијан Анг Јап, Дук Тран, Едиде Оивох, Ерик Жанг, Итан Чанг, Џефри Данхам, Џеј Чен, Кан Ву, Карен Ли, Кели Стирман, Менгјуан Ксу, Мишел Квин, Ола Окелола, Педро Агилар, Роки Смит, Рохит Рамчандани, Сара Калвер, Шон Фицџералд, Влад Фоменко, Ванинг Џијанг, Весам Манасра, Шјаолин Хао, Јилеи Квијан

Sora

Раководители за производи на Sora

Рохан Сахаи, Весам Манасра

Производи на Sora и инженерство

Бојанг Ниу, Дејвид Шнур, Гилман Толе, Џо Тејлор, Џои Флин, Мајк Стар, Раџив Најак, Рохан Сахаи, Весам Манасра

Безбедност

Раководител за безбедност

Сомај Џаин

Безбедност

Алекс Беутел, Андреа Валоне, Ботао Хао, Брендан Квин, Камерон Рејмонд, Чонг Жанг, Дејвид Робинсон, Ерик Валас, Филипо Расо, Хуивен Чанг, Иан Кивличан, Ирина Кофман, Керен Гу-Лемберг, Кристен Јинг, Маделин Бојд, Меган Шах, Мајкл Лампе, Овен Кемпбел-Мур, Рохан Сахаи, Родриго Риаза Перез, Сем Тојзер, Сандини Агарвал, Трој Петерсон

Стратегија

Адам Коен, Адам Велс, Али Бенет, Ешли Пантулиано, Каролина Паз, Клаудија Фишер, Деклан Граб, Габи Сакрамоне-Луц, Лорен Џоунас, Рајан Бајермајстер, Шијао Ли, Том Стаси, Тајс Волтерс, Зијад Реслан, Зои Стол

Маркетинг & комуникации

Раководители за комуникации и маркетинг

Минија Фенг, Натали Самерс, Таја Кристијансон

Комуникации

Алекс Бејкер-Витком, Ешли Тајра, Бејли Ричардсон, Габи Раила, Марселус Кејтон, Скот Етерсмит, Суки Мансур

Дизајн & Креативност

Раководители

Кендра Римбах, Веит Мелер

Дизајн

Адам Брендон, Адам Копел, Анџела Баек, Кери Хадсон, Дејна Палми, Фреди Сулит, Џефри Сабин Матцумото, Лејан Ло, Мет Николс, Томас Дегри, Ванеса Антонија Шефке, Јара Какбаз

Посебна благодарност

Адитја Рамеш, Ејдан Кларк, Алекс Беутел, Бен Њухаус, Бен Росен, Че Чанг, Грег Брокман, Хана Вонг, Ишан Сингал, Џејсон Квон, Џиахенг Фенг, Џиахуи Ју, Џоан Јанг, Јоханес Хајдеке, Кевин Вајл, Марк Чен, Миа Глиз, Ник Турли, Раул Пури, Реичиро накано, Руи Шу, Сем Алтман, Шушао Би, Вини Монако

Претставување на генерирањето слики во 4o

Корисно генерирање на слики

Подобрени способности

Прикажување текст

Генерирање со повеќе чекори

Следење инструкции

Учење во контекст

Светско знаење

HTML

Фотореализам и стил

Ограничувања

Безбедност

Пристап и достапност

Снимка од пренос во живо

Автор

Лидерство

Истражување

Податоци

Скалирање

Примена

Sora

Безбедност

Стратегија

Маркетинг &amp; комуникации

Дизајн &amp; Креативност

Посебна благодарност

Маркетинг & комуникации

Дизајн & Креативност