Представляємо генерацію зображень 4o
Генерація корисних і цінних зображень за допомогою мультимодальної моделі, здатної створювати точні, достовірні та фотореалістичні результати.
Ми в OpenAI давно вважали, що створення зображень має бути основною можливістю наших мовних моделей. Ось чому ми вбудували найсучасніший генератор зображень у GPT‑4o. Результат — генерація не лише гарних, а й корисних зображень.
Від перших наскельних малюнків до сучасної інфографіки люди завжди використовували візуальні образи для спілкування, переконання та аналізу, а не лише для краси. Сучасні генеративні моделі здатні створювати сюрреалістичні, захоплюючі дух сцени, але зазнають труднощів із повсякденними зображеннями, які люди використовують для обміну та створення інформації. Зображення — від логотипів до діаграм — можуть передавати точне значення, якщо їх доповнити символами, які надсилають до спільної мови та досвіду.
Генерація зображень GPT‑4o відрізняється точною візуалізацією тексту, точним виконанням підказок та використанням вбудованих знань 4o та контексту чату, включаючи перетворення завантажених зображень або використання їх як візуального натхнення. Ці можливості полегшують створення саме того зображення, яке ви собі уявляєте, допомагаючи вам ефективніше спілкуватися за допомогою візуальних засобів і перетворюючи генерацію зображень на практичний, точний і потужний інструмент.
Ми навчили наші моделі на спільному розподілі онлайн-зображень та тексту, навчивши їх не лише тому, як зображення співвідносяться з описом, а й тому, як вони співвідносяться один із одним. У поєднанні з агресивним постнавчанням це дозволило створити модель, яка має дивовижну швидкість аналізу візуальної інформації, і здатна формувати корисні та послідовні зображення, що враховують контекст.
Одне зображення варте тисячі слів, але іноді, додавши кілька слів у потрібному місці, можна наголосити на сенсі зображення. Здатність 4o поєднувати точні символи із зображеннями перетворює генерацію зображень на інструмент візуальної комунікації.
Генерація зображень тепер вбудована у GPT‑4o, тож ви можете покращувати зображення через природний діалог. GPT‑4o може працювати із зображеннями та текстом у контексті чату, забезпечуючи узгодженість протягом усього процесу. Наприклад, якщо ви розробляєте персонажа для відеоігри, його зовнішній вигляд залишатиметься послідовним протягом кількох ітерацій, поки ви його вдосконалюєте та експериментуєте.
Генерація зображень GPT‑4o виконується за детальними підказками та з увагою до деталей. У той час як інші системи мають труднощі з 5–8 об'єктами, GPT‑4o може обробляти до 10–20 різних об'єктів. Тісніша прив'язка об'єктів до їхніх характеристик і зв'язків дозволяє краще контролювати процес генерації.
GPT‑4o може аналізувати та вивчати завантажені користувачем зображення, безперешкодно інтегруючи їхні деталі у свій контекст для осмисленої генерації зображень.
Нативна генерація зображень дає 4o можливість створення зв'язку між даними в тексті і зображеннях, у результаті чого модель стає розумнішою та ефективною.
Навчання на зображеннях, що відображають велику різноманітність стилів, дозволяє моделі переконливо створювати чи перетворювати зображення.
Наша модель не є досконалою. Наразі нам відомо про численні обмеження, які ми будемо усувати шляхом вдосконалення моделі після початкового запуску.

Ми помітили, що GPT‑4o іноді може надто щільно обрізати довгі зображення, такі як плакати, особливо у нижній частині.
Відповідно до нашої специфікації моделі, ми прагнемо максимально розширити творчу свободу, підтримуючи такі сценарії використання, як розробка ігор, історичні дослідження та освіта, при цьому зберігаючи сувору відданість стандартам безпеки. У той же час, як і раніше, важливо блокувати запити, які порушують ці стандарти. Нижче наведено оцінки додаткових сфер ризику, в яких ми працюємо над включенням безпечного та корисного контенту та підтримкою ширшого творчого самовираження для користувачів.
Доступ до даних походження через C2PA та внутрішній реверсивний пошук
Усі згенеровані зображення містять метадані C2PA, які ідентифікують зображення як створене за допомогою GPT‑4o, забезпечуючи прозорість. Ми також розробили внутрішній інструмент пошуку, який використовує технічні атрибути генерацій та дозволяє перевіряти, чи був контент створений нашою моделлю.
Блокування небажаного контенту
Ми продовжуємо блокувати запити на генерування зображень, які можуть порушувати нашу політику щодо контенту: наприклад, матеріали з натяком на сексуальне насильство над дітьми та дипфейки відвертого характеру. Коли в контексті знаходяться зображення реальних людей, ми застосовуємо підвищені обмеження щодо того, які зображення можна створити з особливо суворими заходами захисту щодо зображення наготи та графічного насильства. Як і у випадку з будь-яким запуском, робота над безпекою ведеться постійно і постійно потребує інвестицій. У міру того, як ми дізнаватимемося більше про реальне використання цієї моделі, ми відповідним чином коригуватимемо нашу політику.
Щоб дізнатися більше про наш підхід, див. додаток до системної карти GPT‑4o щодо генерації зображень.
Використання міркувань для забезпечення безпеки
Подібно до нашої роботи з усвідомленим узгодженням, ми навчили LLM, засновану на міркуваннях, працювати безпосередньо з написаними людиною та інтерпретованими специфікаціями з безпеки. Ми використовували цю LLM для міркувань під час розробки, щоб виявити та усунути неясності у наших політиках. Разом з нашими мультимодальними досягненнями та існуючими методами безпеки, розробленими для ChatGPT і Sora, це дозволяє нам модерувати як текст, що вводиться, так і отримані зображення відповідно до наших політик.
Генерація зображень 4o запускається з сьогоднішнього дня для користувачів Plus, Pro, Team і Free як генератор зображень за замовчуванням у ChatGPT, а незабаром стане доступною для користувачів Enterprise та Edu. Інструмент також можна використовувати у Sora. Для тих, у кого особливе місце в серці займає DALL·E, доступ до інструменту все ще буде можливий через спеціальний DALL·E GPT.
Розробники невдовзі зможуть генерувати зображення за допомогою GPT‑4o через API, доступ до якого буде надано протягом найближчих кількох тижнів.
Створювати та редагувати зображення тепер так само просто, як спілкуватися з GPT‑4o: просто опишіть, що вам потрібно, додавши за бажання такі деталі, як співвідношення сторін, точні кольори з використанням шістнадцяткових кодів або прозоре тло. Ця модель створює більш детальні зображення, тому час рендерингу часто може становити до однієї хвилини.
Автор
Лідерство
Габріель Гох: Генерація зображень
Джекі Шеннон: Продукт ChatGPT
Менчао Чжун, Вейн Чанг: Інженерія ChatGPT
Рохан Сахай: Продукт і інженерія Sora
Брендан Квінн, Томер Кафтан: Висновки
Прафулла Дхарівал: Мультимодальна організація
Дослідження
Фундаментальні дослідження
Аллан Джабрі, Девід Медіна, Ґабріель Го, Кендзі Хата, Лу Лю, Прафулла Дхарівал
Основні дослідження
Адітья Рамеш, Алекс Нікол, Кейсі Чу, Чен Лу, Дянь Анг Яп, Хью Джун, Джеймс Беткер, Цзяньфен Ван, Лун Оуян, Лі Цзін, Весам Манасра
Учасники дослідження
Ейден Лоу, Брендон МакКінзі, Чарлі Неш, Хейвен Чанг, Ішаан Гулраджані, Джеймі Кірос, Джі Лін, Кшитідж Гупта, Ян Сонг
Поведінка моделі
Лаврентія Романюк
Мультимодальна організація
Ендрю Гібіанський, Ян Лу
Дані
Ліди по роботі з даними
Гілдас Шабо, Джеймс Парк Леннон
Дані
Арші Бхатнагар, Драгош Опріка, Рохан Кширсагар, Спенсер Папай, Сі-ч'є Ю, Весам Манасра, Ілей Цянь
Модератори
Хейзел Бірн, Дженніфер Лакенбіл, Маріано Лопес
Консультанти з питань людських даних
Лун Оуян
Масштабування
Висновки
Брендан Квінн, Томер Кафтан
Висновки
Алісса Хуанг, Джейкоб Менік, Нік Статас, Руслан Васильєв, Стенлі Шей
Прикладні сфери
Керівник по продукту ChatGPT
Джекі Шеннон
Керівники інженерії ChatGPT
Менчао Чжун, Вейн Чанг
Керівник дизайну продукту
Метт Чан
Наука про дані
Сяолінь Хао
ChatGPT
Ендрю Сіма, Енні Ченг, Бенджамін Гох, Боян Ніу, Дянь Анг Яп, Дюк Тран, Едеде Ойво, Ерік Чжан, Ітан Чанг, Джеффрі Данем, Джей Чен, Кан Ву, Карен Лі, Келлі Стірман, Менг'юань Сюй, Мішель Цінь, Ола Окелола, Педро Агілар, Роккі Сміт, Рохіт Рамчандані, Сара Калвер, Шон Фіцджеральд, Влад Фоменко, Ваннін Цзян, Весам Манасра, Сяолінь Хао, Ілей Цянь
Sora
Лідери продукту Sora
Рохан Сахай, Весам Манасра
Продукція та інженерія Sora
Боян Ню, Девід Шнурр, Гілман Толле, Джо Тейлор, Джої Флінн, Майк Старр, Раджив Наяк, Рохан Сахай, Весам Манасра
Безпека
Керівник з безпеки
Сомай Джайн
Безпека
Алекс Бойтель, Андреа Валлоне, Ботао Хао, Брендан Квінн, Камерон Реймонд, Чонг Чжан, Девід Робінсон, Ерік Воллес, Філіппо Расо, Хуейвен Чанг, Ян Ківлічан, Ірина Кофман, Керен Гу-Лемберг, Крістен Їн, Маделейн Бойд, Меган Шах, Майкл Лампе, Оуен Кемпбелл-Мур, Рохан Сахай, Родріго Ріаза Перес, Сем Тойзер, Сандіні Агарвал, Трой Петерсон
Стратегія
Адам Коен, Адам Веллс, Еллі Беннетт, Ешлі Пантуліано, Кароліна Пас, Клаудія Фішер, Деклан Грабб, Габі Сакрамоне-Лутц, Лорен Джонас, Райан Байєрмейстер, Шао Лі, Том Стазі, Тайс Уолтерс, Зіад Реслан, Зої Столл
Маркетинг і комунікації
Керівники з комунікацій та маркетингу
Міннія Фенг, Наталі Саммерс, Тая Крістіансон
Комунікації
Алекс Бейкер-Віткомб, Ешлі Тайра, Бейлі Річардсон, Габі Раїла, Марселус Кейтон, Скотт Етерсміт, Сукі Мансур
Дизайн та креатив
Ліди
Кендра Римбах, Вейт Меллер
Дизайн
Адам Брендон, Адам Коппель, Анджела Бек, Кері Гадсон, Дана Палмі, Фредді Суліт, Джеффрі Сабін Мацумото, Лейан Ло, Метт Ніколс, Томас Дегрі, Ванесса Антонія Шефке, Яра Хакбаз
Особлива подяка
Адіт'я Рамеш, Ейдан Кларк, Алекс Бойтел, Бен Ньюхаус, Бен Россен, Че Чанг, Грег Брокман, Ханна Вонг, Ішаан Сінгал, Джейсон Квон, Цзячен Фенг, Цзяхуей Ю, Джоан Джанг, Йоханнес Хайдеке, Кевін Вейл, Марк Чен, Міа Глейз, Нік Терлі, Рауль Пурі, Рейчіро Накано, Руї Шу, Сем Альтман, Шучао Бі, Вінні Монако

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






