Представляем функцию генерации изображений 4o
Генерация полезных и ценных изображений с помощью изначально мультимодальной модели, способной создавать точные, достоверные и фотореалистичные результаты.
Мы в OpenAI давно полагали, что генерация изображений должна быть основной возможностью наших языковых моделей. Вот почему мы встроили наш самый современный генератор изображений в GPT‑4o. Результат — генерация не только красивых, но и полезных изображений.
От первых наскальных рисунков до современной инфографики люди всегда использовали визуальные образы для общения, убеждения и анализа — не только для красоты. Современные генеративные модели могут создавать сюрреалистические, захватывающие дух сцены, но испытывают трудности с повседневными изображениями, которые люди используют для обмена и создания информации. Изображения — от логотипов до диаграмм — могут передавать точное значение, если их дополнить символами, которые отсылают к общему языку и опыту.
Генерация изображений GPT‑4o отличается точной визуализацией текста, точным выполнением подсказок и использованием встроенных знаний 4o и контекста чата, включая преобразование загруженных изображений или использование их в качестве визуального вдохновения. Эти возможности облегчают создание именно того изображения, которое вы себе представляете, помогая вам более эффективно общаться с помощью визуальных средств и превращая генерацию изображений в практичный, точный и мощный инструмент.
Мы обучили наши модели на совместном распределении онлайн-изображений и текста, научив их не только тому, как изображения соотносятся с описанием, но и тому, как они соотносятся друг с другом. Вместе с агрессивным постобучением это позволило создать модель, которая обладает удивительной визуальной беглостью, и способна формировать полезные, последовательные и учитывающие контекст изображения.
Одна картинка стоит тысячи слов, но иногда, добавив несколько слов в нужном месте, можно подчеркнуть смысл изображения. Способность 4o сочетать точные символы с изображениями превращает генерацию изображений в инструмент визуальной коммуникации.
Генерация изображений теперь встроена в GPT‑4o, и вы можете улучшать изображения через естественный диалог. GPT‑4o может работать с изображениями и текстом в контексте чата, обеспечивая согласованность на протяжении всего процесса. Например, если вы разрабатываете персонажа для видеоигры, его внешний вид будет оставаться последовательным на протяжении нескольких итераций, пока вы его совершенствуете и экспериментируете.
Генерация изображений GPT‑4o следует подробным подсказкам с вниманием к деталям. В то время как другие системы испытывают трудности с 5–8 объектами, GPT‑4o может обрабатывать до 10–20 различных объектов. Более тесная привязка объектов к их характеристикам и связям позволяет лучше контролировать процесс генерации.
GPT‑4o может анализировать и изучать загруженные пользователем изображения, беспрепятственно интегрируя их детали в свой контекст для осмысленной генерации изображений.
Нативная генерация изображений дает 4o возможность создания связи между данными в тексте и изображениях, в результате чего модель становится более умной и эффективной.
Обучение на изображениях, отражающих большое разнообразие стилей, позволяет модели убедительно создавать или преобразовывать изображения.
Наша модель не идеальна. На данный момент нам известно о многочисленных ограничениях, над устранением которых мы будем работать, улучшая модель после первого запуска.

Мы заметили, что GPT‑4o иногда может слишком плотно обрезать длинные изображения, такие как плакаты, особенно в нижней части.
В соответствии с нашей спецификацией модели, мы стремимся максимально расширить творческую свободу, поддерживая такие сценарии использования, как разработка игр, исторические исследования и образование, при этом сохраняя строгую приверженность стандартам безопасности. В то же время, как и прежде, важно блокировать запросы, которые нарушают эти стандарты. Ниже приведены оценки дополнительных областей риска, в которых мы работаем над включением безопасного и полезного контента и поддержкой более широкого творческого самовыражения для пользователей.
Доступ к данным происхождения через C2PA и внутренний обратимый поиск
Все сгенерированные изображения содержат метаданные C2PA, которые идентифицируют изображение как созданное с помощью GPT‑4o, обеспечивая прозрачность. Мы также разработали внутренний инструмент поиска, который использует технические атрибуты генераций и позволяет проверять, был ли контент создан нашей моделью.
Блокировка нежелательного контента
Мы продолжаем блокировать запросы на генерирование изображений, которые могут нарушать нашу политику в отношении контента — например, материалы с намеком на сексуальное насилие над детьми и дипфейки откровенного характера. Когда в контексте находятся изображения реальных людей, мы применяем повышенные ограничения относительно того, какие изображения можно создать, с особенно строгими мерами защиты в отношении изображения наготы и графического насилия. Как и при любом запуске, работа над безопасностью ведется постоянно и постоянно требует инвестиций. По мере того как мы узнаем больше о реальном использовании этой модели, мы будем соответствующим образом корректировать нашу политику.
Более подробную информацию о нашем подходе можно найти в приложении к системной карте GPT‑4o по созданию изображений.
Использование рассуждений для обеспечения безопасности
Подобно нашей работе по осознанному согласованию, мы обучили языковую модель, основанную на рассуждениях, работать непосредственно с написанными человеком и интерпретируемыми спецификациями по безопасности. Мы использовали эту LLM для рассуждений во время разработки, чтобы выявить и устранить неясности в наших политиках. Вместе с нашими мультимодальными достижениями и существующими методами безопасности, разработанными для ChatGPT и Sora, это позволяет нам модерировать как вводимый текст, так и получаемые изображения в соответствии с нашими политиками.
Генерация изображений 4o запускается с сегодняшнего дня для пользователей Plus, Pro, Team и Free в качестве генератора изображений по умолчанию в ChatGPT, а вскоре станет доступна для пользователей Enterprise и Edu. Инструмент также можно использовать в Sora. Для тех, у кого особое место в сердце занимает DALL·E, доступ к инструменту все еще будет возможен через специальный DALL·E GPT.
Разработчики вскоре смогут генерировать изображения с помощью GPT‑4o через API, доступ к которому будет предоставлен в течение ближайших нескольких недель.
Создавать и редактировать изображения теперь так же просто, как общаться с GPT‑4o: просто опишите, что вам нужно, добавив при желании такие детали, как соотношение сторон, точные цвета с использованием шестнадцатеричных кодов или прозрачный фон. Данная модель создает более детализированные изображения, поэтому время рендеринга часто может составлять до одной минуты.
Автор
Руководство
Габриэль Го: Генерация изображений
Джеки Шеннон: Продукт ChatGPT
Менгчао Чжун, Уэйн Чанг: Инженерия ChatGPT
Рохан Сахай: Продукт и инженерия Sora
Брендан Куинн, Томер Кафтан: Выводы
Прафулла Дхаривал: Мультимодальная организация
Исследования
Фундаментальные исследования
Аллан Джабри, Дэвид Медина, Габриэль Го, Кенджи Хата, Лу Лю, Прафулла Даривал
Основные исследования
Адитья Рамеш, Алекс Никол, Кейси Чу, Чэн Лу, Дянь Анг Яп, Хиу Цзюнь, Джеймс Беткер, Цзяньфэн Ван, Лун Оуян, Ли Цзин, Уэсам Манассра
Участники исследования
Эйден Лоу, Брэндон Маккинзи, Чарли Нэш, Хуэйвен Чанг, Ишаан Гулраджани, Джейми Кирос, Цзи Лин, Кшитий Гупта, Ян Сонг
Поведение модели
Лаврентия Романюк
Мультимодальная организация
Эндрю Гибиански, Ян Лу
Данные
Ведущие специалисты по данным
Гилдас Шабо, Джеймс Парк Леннон
Данные
Арши Бхатнагар, Драгош Оприка, Рохан Кширсагар, Спенсер Папай, Си-чи Ю, Уэсам Манассра
Модераторы
Хейзел Бирн, Дженнифер Лакенбилл, Мариано Лопес
Консультанты по человеческим данным
Лун Оуян
Масштабирование
Выводы
Брендан Куинн, Томер Кафтан
Выводы
Алисса Хуанг, Джейкоб Меник, Ник Статас, Руслан Васильев, Стэнли Шей
Прикладные сферы
Руководитель по продукту ChatGPT
Джеки Шеннон
Руководители инженерной команды ChatGPT
Мэнчао Чжун, Уэйн Чанг
Ведущий дизайнер продукта
Мэтт Чан
Наука о данных
Сяолинь Хао
ChatGPT
Эндрю Сима, Энни Ченг, Бенджамин Го, Боян Ню, Дайан Анг Яп, Дюк Тран, Эдеде Ойво, Эрик Чжан, Итан Чанг, Джеффри Данэм, Джей Чен, Кан Ву, Карен Ли, Келли Стирман, Мэнъюань Сюй, Мишель Цинь, Ола Окелола, Педро Агилар, Рокки Смит, Рохит Рамчандани, Сара Калвер, Шон Фицджеральд, Влад Фоменко, Ваннин Цзян, Уэсам Манассра, Сяолинь Хао, Илэй Цянь
Sora
Лиды по продуктам Sora
Рохан Сахаи, Уэсам Манассра
Продукты и инженерия Sora
Боян Ню, Дэвид Шнурр, Гилман Толле, Джо Тейлор, Джоуи Флинн, Майк Старр, Раджив Наяк, Рохан Сахаи, Уэсам Манассра
Безопасность
Руководитель по безопасности
Сомай Джайн
Безопасность
Алекс Бойтель, Андреа Валлоне, Ботао Хао, Брендан Куинн, Кэмерон Рэймонд, Чонг Чжан, Дэвид Робинсон, Эрик Уоллес, Филиппо Расо, Хуэйвен Чанг, Ян Кивличан, Ирина Кофман, Керен Гу-Лемберг, Кристен Инг, Мадлен Бойд, Меган Шах, Майкл Лампе, Оуэн Кэмпбелл-Мур, Рохан Сахай, Родриго Риаза Перес, Сэм Тойзер, Сандини Агарвал, Трой Петерсон
Стратегия
Адам Коэн, Адам Уэллс, Элли Беннетт, Эшли Пантулиано, Каролина Пас, Клаудия Фишер, Деклан Грабб, Габи Сакрамон-Лутц, Лорен Джонас, Райан Байермайстер, Шиао Ли, Том Стази, Тайс Уолтерс, Зиад Реслан, Зои Столл
Маркетинг и коммуникации
Руководители по коммуникациям и маркетингу
Минния Фэн, Натали Саммерс, Тая Кристиансон
Коммуникации
Алекс Бейкер-Уиткомб, Эшли Тайра, Бейли Ричардсон, Габи Райла, Марселус Кейтон, Скотт Этерсмит, Суки Мансур
Дизайн и креатив
Лиды
Кендра Римбах, Вейт Мёллер
Дизайн
Адам Брэндон, Адам Коппел, Анджела Бэк, Кэри Хадсон, Дана Палми, Фредди Сулит, Джеффри Сабин Мацумото, Лейан Ло, Мэтт Николс, Томас Дегри, Ванесса Антония Шефке, Яра Хакбаз
Особая благодарность
Адитья Рамеш, Эйдан Кларк, Алекс Бойтель, Бен Ньюхаус, Бен Россен, Че Чанг, Грег Брокман, Ханна Вонг, Ишаан Сингал, Джейсон Квон, Цзячэн Фэн, Цзяхуэй Юй, Джоан Джанг, Йоханнес Хайдеке, Кевин Вейл, Марк Чен, Миа Глезе, Ник Терли, Рауль Пури, Рейитиро Накано, Руи Шу, Сэм Альтман, Шучао Би, Винни Монако

















](https://images.ctfassets.net/kftzwdyauwt9/2R9czqCiP1nqec6UED0AJd/0f24e9e9299c871ffd3d5b76f5635d16/roope-car.png?w=3840&q=90&fm=webp)






](https://images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/30DNW3QcEb1BosJhJqPAfA/56e4708045e63d40d5fe31c122da2bfb/August_Kamp_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2ukMfLwQHGEnwMbS43M3Hf/6f5fa57419fdc16ca603e41c1ac290ff/August_Kamp_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2KZaGKW5emVRwnYBMcMYCP/560cd7d513aed92b4a943b66b6b5e836/August_Kamp_4.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2PVNlktDwuJJgAlrviWfF1/bf374f33e21c41e770068f4f66a22394/August_Kamp_5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/39oS3hSQqMSqHHNAS0q3DB/0624bcc17a3e7a3fd318a1eb5c63146e/August_Kamp.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5WdHD3ToXx1mj13bjDhdQh/46c283533309492585f3538a5ed3a2fd/August_Kamp_1_.png?w=3840&q=90&fm=webp)

](https://images.ctfassets.net/kftzwdyauwt9/37BlQeBhtmTAazdT7LyRIU/7e6472d3ba12c22748cf14a670c0a725/Copy_of_Isa.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2pRf2V2Zmd1YF7GfBtfRwG/92ac8188795fcdd4be9152a27a971289/Copy_of_Isa2.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/2D1UY4SXAHAxN0uCGT4KCd/43da3a5152c1a823fdf2bed6acea5cf8/Derya_Unutmaz1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1jRz4YFkVwGIVQC6yz5DJV/af2ed5507df32860b8b82a4a326c437e/Derya2.jpg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1hakInZjBH5SENKVLD68Gl/0140eb82eae9e5cd2f1fbc7ef8f5c46c/Derya3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/3viXLb1u1ZsUXju6gc0Izh/51b37635165df801077399b26e6c0ff5/Elene_6.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6EoS1QOv0KOi4aESduy0cU/12705b1ca86abce06bf7366f98e9a8c7/Elene_Chekurishvili.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5sKaN7iVvtLlzGJQtFmfMg/4ef6d51d2e54d4effd3019401401deb1/Elene3.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1iA7pHLA84KDCRIuoG5pTk/ae8e52600bfbd53a10a749dcd78b2382/Elene4.jpeg?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5MPmWWYE3fDk6M5QSpA0X8/ac729246785fc8d052be4427085bbcda/Elene5.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2CrXaGuZ3fcCIyKNcDaiRr/26fb7c949919a2de82f7b8340ad4e708/Eugenio_Marongiu.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/6JJh92fHC6diXnnj0rz6DP/53a43e30200729a648cfda1faa6328a5/Eugenio2.png?w=3840&q=90&fm=webp)



](https://images.ctfassets.net/kftzwdyauwt9/tZr3EpmNfrkZBQAIYMffM/d85415f7a01a49718adf2509bb9ad8f1/Minh_Do1.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/1TQS4fCbgIOjdnML4u6i5o/bc81b9ff76e503e32b69dbf447a967e6/niceaunties.png?w=3840&q=90&fm=webp)


](https://images.ctfassets.net/kftzwdyauwt9/1TYYxCnSFWzwoEOHJ7OlfC/767ce4ec94b972138598cce0be1e8d79/Roope_2.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/2Gr22uAGGIQjmDBQt2ccKx/620417fa3b9667f7e95a1fd98c692203/Roope_3.png?w=3840&q=90&fm=webp)
](https://images.ctfassets.net/kftzwdyauwt9/5neXFSFNWbbdhruFManjbU/3a084e08790a90af52cb7005372539b9/Roope_Rainisto1.png?w=3840&q=90&fm=webp)






