Update on June 10, 2025: OpenAI o3‑pro is now available to Pro users in ChatGPT, as well as in our API. Like OpenAI o1‑pro, o3‑pro is a version of our most intelligent model, OpenAI o3, designed to think longer and provide the most reliable responses. Full details can be found in our release notes(открывается в новом окне).
Today, we’re releasing OpenAI o3 and o4-mini, the latest in our o-series of models trained to think for longer before responding. These are the smartest models we’ve released to date, representing a step change in ChatGPT's capabilities for everyone from curious users to advanced researchers. For the first time, our reasoning models can agentically use and combine every tool within ChatGPT—this includes searching the web, analyzing uploaded files and other data with Python, reasoning deeply about visual inputs, and even generating images. Critically, these models are trained to reason about when and how to use tools to produce detailed and thoughtful answers in the right output formats, typically in under a minute, to solve more complex problems. This allows them to tackle multi-faceted questions more effectively, a step toward a more agentic ChatGPT that can independently execute tasks on your behalf. The combined power of state-of-the-art reasoning with full tool access translates into significantly stronger performance across academic benchmarks and real-world tasks, setting a new standard in both intelligence and usefulness.
OpenAI o3 — наша самая мощная модель рассуждений, которая расширяет границы возможностей в сфере программирования, математики, науки, визуального восприятия и других областях. Она устанавливает новый стандарт SOTA на таких тестах, как Codeforces, SWE-bench (без создания специализированного каркаса для модели) и MMMU. Она идеально подходит для выполнения сложных запросов, требующих многогранного анализа, и ответы на которые могут быть не сразу очевидны. Особенно хорошо она справляется с визуальными задачами, такими как анализ изображений, диаграмм и графиков. В оценках внешних экспертов o3 допускает на 20% меньше крупных ошибок, чем OpenAI o1 в сложных реальных задачах — особенно преуспевая в таких областях, как программирование, бизнес-консалтинг и творческое мышление. Ранние тестировщики отмечали аналитическую строгость модели как интеллектуального партнёра и подчеркнули способность формировать и критически оценивать новые гипотезы, особенно в контекстах биологии, математики и инженерии.
OpenAI o4-mini — это уменьшенная модель, оптимизированная для быстрых и рациональных рассуждений: она демонстрирует выдающуюся эффективность для своего размера и стоимости, особенно в математических, программных и визуальных задачах. Это — лучшая эталонная модель по оценкам AIME 2024 и 2025. Хотя доступ к компьютеру значительно снижает сложность экзамена AIME, мы также отметили, что o4-mini достигает 99,5% pass@1 (100% consensus@8) на AIME 2025 при доступе к интерпретатору Python. Хотя эти результаты не следует сравнивать с производительностью моделей без доступа к инструментам, они являются примером того, насколько эффективно o4-mini использует доступные инструменты; o3 демонстрирует аналогичные улучшения на AIME 2025 благодаря использованию инструментов (98,4% pass@1, 100% consensus@8).
По оценкам экспертов, o4-mini также превосходит своего предшественника o3‑mini в задачах, не относящихся к STEM, а также в таких сферах, как наука о данных. Благодаря своей эффективности o4-mini поддерживает значительно более высокие лимиты использования, чем o3, что делает ее сильным вариантом с большим объёмом и высокой пропускной способностью для вопросов, для которых требуется больше рассуждений. Внешние эксперты оценили обе модели как демонстрирующие улучшенное выполнение инструкций и более полезные, проверяемые ответы, чем их предшественники, благодаря улучшенному интеллекту и использованию веб-источников. По сравнению с предыдущими итерациями наших моделей рассуждений, эти две модели также должны казаться более естественными при разговоре, особенно когда они ссылаются на память и прошлые обсуждения, чтобы сделать ответы более персонализированными и релевантными.
Мультимодальность
Кодирование
Все оценочные прогоны SWE-bench используют фиксированное подмножество из n=477 проверенных задач, которые были проверены на нашей внутренней инфраструктуре.
Следование инструкциям и использование агентских инструментов
Все модели проходили оценку при высоком «уровне рассуждений», аналогично таким вариантам, как «o4-mini-high» в ChatGPT.
Throughout the development of OpenAI o3, we’ve observed that large-scale reinforcement learning exhibits the same “more compute = better performance” trend observed in GPT‑series pretraining. By retracing the scaling path—this time in RL—we’ve pushed an additional order of magnitude in both training compute and inference-time reasoning, yet still see clear performance gains, validating that the models’ performance continues to improve the more they’re allowed to think. At equal latency and cost with OpenAI o1, o3 delivers higher performance in ChatGPT—and we've validated that if we let it think longer, its performance keeps climbing.
We also trained both models to use tools through reinforcement learning—teaching them not just how to use tools, but to reason about when to use them. Their ability to deploy tools based on desired outcomes makes them more capable in open-ended situations—particularly those involving visual reasoning and multi-step workflows. This improvement is reflected both in academic benchmarks and real-world tasks, as reported by early testers.

For the first time, these models can integrate images directly into their chain of thought. They don’t just see an image—they think with it. This unlocks a new class of problem-solving that blends visual and textual reasoning, reflected in their state-of-the-art performance across multimodal benchmarks.
People can upload a photo of a whiteboard, a textbook diagram, or a hand-drawn sketch, and the model can interpret it—even if the image is blurry, reversed, or low quality. With tool use, the models can manipulate images on the fly—rotating, zooming, or transforming them as part of their reasoning process.
These models deliver best-in-class accuracy on visual perception tasks, enabling it to solve questions that were previously out of reach. Check out the visual reasoning research blog to learn more.
OpenAI o3 и o4-mini имеют полный доступ к инструментам внутри ChatGPT, а также к вашим собственным инструментам через вызов функций в API. Эти модели обучены рассуждать о том, как решать задачи, выбирая, когда и как использовать инструменты для получения подробных и продуманных ответов в нужных форматах быстро — обычно менее чем за минуту.
Например, пользователь может спросить: «Как будет выглядеть летнее потребление энергии в Калифорнии в сравнении с прошлым годом?». Модель может поискать в интернете данные о коммунальных услугах, написать код на Python для построения прогноза, сгенерировать график или изображение и объяснить ключевые факторы, лежащие в основе прогноза, объединив несколько вызовов инструментов. Рассуждение позволяет моделям реагировать и при необходимости менять ход беседы в зависимости от полученной информации. Например, они могут выполнять многократный поиск в Интернете с помощью поисковых систем, просматривать результаты и пробовать новые запросы, если им нужна дополнительная информация.
Этот гибкий стратегический подход позволяет моделям решать задачи, которые требуют доступа к актуальной информации, выходящей за пределы встроенных знаний модели, расширенного рассуждения, синтеза и генерации результатов в различных модальностях.
Все примеры были выполнены с OpenAI o3.
OpenAI o3
OpenAI o1
OpenAI o3 получает ответ правильно без использования поиска, тогда как o1 не может предоставить правильный ответ.
Рациональное рассуждение
Стоимость и производительность: o3‑mini и o4-mini


Стоимость и производительность: o1 и o3


o3 и o4-mini от OpenAI — самые интеллектуальные модели, которые мы когда-либо выпускали: в большинстве случаев они более эффективны, чем их предшественники OpenAI o1 и o3‑mini. Например, на математическом конкурсе AIME 2025 года соотношение затрат и производительности для o3 было серьезно улучшено по сравнению с o1; аналогичным образом, соотношение для o4-mini было серьезно улучшено по сравнению с o3‑mini. В более общем смысле мы ожидаем, что для большинства реальных применений o3 и o4-mini также будут как умнее, так и дешевле, чем o1 и o3‑mini соответственно.
Each improvement in model capabilities warrants commensurate improvements to safety. For OpenAI o3 and o4-mini, we completely rebuilt our safety training data, adding new refusal prompts in areas such as biological threats (biorisk), malware generation, and jailbreaks. This refreshed data has led o3 and o4-mini to achieve strong performance on our internal refusal benchmarks (e.g., instruction hierarchy, jailbreaks). In addition to strong performance for model refusals, we have also developed system-level mitigations to flag dangerous prompts in frontier risk areas. Similar to our earlier work in image generation, we trained a reasoning LLM monitor which works from human-written and interpretable safety specifications. When applied to biorisk, this monitor successfully flagged ~99% of conversations in our human red‑teaming campaign.
We stress tested both models with our most rigorous safety program to date. In accordance with our updated Preparedness Framework, we evaluated o3 and o4-mini across the three tracked capability areas covered by the Framework: biological and chemical, cybersecurity, and AI self-improvement. Based on the results of these evaluations, we have determined that both o3 and o4‑mini remain below the Framework's "High" threshold in all three categories. We have published the detailed results from these evaluations in the accompanying system card.
We’re also sharing a new experiment: Codex CLI, a lightweight coding agent you can run from your terminal. It works directly on your computer and is designed to maximize the reasoning capabilities of models like o3 and o4-mini, with upcoming support for additional API models like GPT‑4.1.
You can get the benefits of multimodal reasoning from the command line by passing screenshots or low fidelity sketches to the model, combined with access to your code locally. We think of it as a minimal interface to connect our models to users and their computers. Codex CLI is fully open-source at github.com/openai/codex(открывается в новом окне) today.
Alongside, we are launching a $1 million initiative to support projects using Codex CLI and OpenAI models. We will evaluate and accept applications for grants in increments of $25,000 USD in the form of API credits. Proposals can be submitted here.
Начиная с сегодняшнего дня пользователи ChatGPT Plus, Pro и Team увидят в селекторе моделей o3, o4-mini и o4-mini-high, которые заменят o1, o3‑mini и o3‑mini‑high. Пользователи ChatGPT Enterprise и Edu получат доступ через одну неделю. Пользователи плана Free могут попробовать o4-mini, отметив вариант «Думать» в редакторе перед отправкой запроса. Лимиты скорости по всем тарифным планам остались без изменений по сравнению с предыдущим набором моделей.
Через несколько недель мы планируем выпустить OpenAI o3‑pro с полной поддержкой инструментов. Пока что пользователи Pro по-прежнему могут получить доступ к o1‑pro.
o3 и o4-mini также доступны разработчикам сегодня через API Chat Completions и API Responses (некоторым разработчикам потребуется пройти верификацию своих организаций(открывается в новом окне) для доступа к этим моделям). API Responses поддерживает краткое содержание рассуждений, возможность сохранять токены рассуждений с вызовами функций для повышения производительности, а также вскоре будет поддерживать встроенные инструменты, такие как веб-поиск, поиск файлов и интерпретатор кода в рамках рассуждений модели. Следите за новостями! Пока что вы можете ознакомиться с нашей документацией(открывается в новом окне).
Today's updates reflect the direction our models are heading in: we’re converging the specialized reasoning capabilities of the o-series with more of the natural conversational abilities and tool use of the GPT‑series. By unifying these strengths, our future models will support seamless, natural conversations alongside proactive tool use and advanced problem-solving.
Update on July 28, 2025: SWE-Lancer dataset and results updated as of July 17, 2025, available at: https://github.com/openai/preparedness(открывается в новом окне) and in our system cards. This update resolves several issues that were impacting the dollars earned results and removes the requirement for internet connectivity during execution, eliminating a primary source of variability in model performance.
Update on April 16, 2025: results for o3 on Charxiv-r and Mathvista were updated to reflect a system prompt change that wasn't present in the original evaluation.
Автор
Сноски
* Результаты оценки tau-bench усредняются по 5 запускам для снижения дисперсии и выполняются без использования специальных инструментов или подсказок. Мы обнаружили, что розничные версии tau-bench более подвержены ошибкам пользовательской модели. Результаты для заштрихованной области получены с использованием GPT-4.1 в качестве пользовательской модели, поскольку она значительно лучше GPT-4o в следовании инструкциям.
* SWE-bench использует максимальную длину контекста 256 тыс., что улучшает скорость решения для o4-mini примерно на 3% и влияет на скорость решения o3 менее чем на 1%. Мы также исключили 23 образца, которые нельзя запустить на нашей внутренней инфраструктуре.
** При включении режима просмотра модель иногда может находить точные ответы в интернете — например, читая блоги с примерами задач из набора данных. Мы снижаем опасения по поводу обмана модели при просмотре, используя две стратегии:
Блокирование доменов, в связи с которыми наблюдался обман со стороны модели ранее.
Модель рассуждений использовалась в качестве контролера для проверки всех токенов в каждой попытке, чтобы выявить подозрительное поведение. Подозрительное поведение определяется как «страница, файл или фрагмент, основная цель которых — предоставить точный ответ на данный вопрос: например, официальный ключ оценки, утечка «решений» или обсуждение, дословно цитирующее готовый ответ». Доброкачественное поведение определяется как «любой авторитетный ресурс, к которому может обратиться добросовестный человек (документация, руководства, научные статьи, авторитетные статьи), даже если он случайно содержит правильный ответ». Любые попытки, которые контролер счел подозрительными, считаются неверными. Большинство примеров, не прошедших эту проверку, представляли собой задачи, точное решение которых было доступно в нескольких интернет-источниках,не связанных с HLE.
Наконец, наши оценки при просмотре могут быть не идеально воспроизводимы в API OpenAI из-за различий в поисковых системах между ChatGPT и OpenAI API. Эти результаты предназначены для представления пользовательского опыта ChatGPT, но в зависимости от спроса конфигурация поиска может изменяться со временем.
Участники
Аадитья Сингх, Аарон Шлезингер, Адам Фрай, Адам Лерер, Адам Перельман, Адам Уокер, Ахмед Эль-Кишки, Айдан Кларк, Айдан Маклафлин, Айден Лоу, Акила Велихинда, Акшай Натан, Александр Мадри, Александра Спайра, Алекс Карпенко, Алекс Нейтц, Алекс Тачард Пассос, Алекс Вэй, Александр Прокофьев, Александр Зелински, Александра Барр, Алексей Иванов, Алексей Кристакис, Альфред Сюэ, Эллисон Там, Элли Беннетт, Элли Беннетт, Амелия Лю, Эми Макдональд Санджиде, Ананья Кумар, Андре Сарайва, Андреа Валлоне, Эндрю Чен, Эндрю Дуберстайн, Эндрю Гибиански, Эндрю Кондрих, Эндрю Таллох, Андрей Мищенко, Энди Эпплбаум, Энди Ванг, Анджела Бэк, Энни Вэй, Антинг Шен, Антуан Пелисс, Анудж Сахаран, Арун Виджайвергия, Эшли Тайра, Ашвин Наир, Ави Наяк, Авиталь Оливер, Бехруз Горбани, Белинда Труонг, Бен Соколовски, Бет Хувер, Бо Сю, Боаз Барак, Бохан Чжан, Борис Минаев, Ботао Хао, Боуэн Бейкер, Боуэн Ченг, Брэндон Маккинзи, Брэндон Ванг, Брайан Хсу, Брайан Янг, Брайан Ю, Брайан Чжан, Камилло Лугарези, Каролина Паз, Карпус Чанг, Кэри Бассин, Кэри Хадсон, Кейси Чу, Чак Ли, Чарльз Чжао, Чарли Джатт, Шарлотта Коул, Челси Восс, Чен Шэнь, Чэнсюй Чжуан, Крис Колби, Крис Холласи, Крис Кох, Кристина Каплан, Кристина Ким, Колин Рид, Колин Вэй, Кристина Шо, Д. Скалли, Дэмиен Девиль, Дэн Робертс, Дана Палми, Дейн Стаки, Дэниел Левин, Дэвид Ху, Дэвид Мартин, Дэвид Робинсон, Дэвид Сасаки, Дэвис Ву, Дерек Чен, Дибья Бхаттачарджи, Димитрис Ципрас, Дингхуа Ли, Д.Ж. Штроус, dmed Medina, Дрю Хинц, Эдди Чжан, Эдмунд Вонг, Элейн Я Ле, Эли Яни, Элизабет Проэл, Эмили Соколова, Энок Чеунг, Эри Шварц, Эрик Митчелл, Эрик Нинг, Эрик Сиглер, Эрик Уоллес, Эудженио Панеро, Эван Мэйс, Евгений Никишин, Фан Ван, Фаньюань Ли, Филиппо Расо, Фойвос Цимпурлас, Фуад Матин, Фрэнсис Сонг, Фрэнсис Чжан, Гэри Янг, Джин Оден, Джамбаттиста Параскандоло, Гильдас Шабо, Грейс Ким, Грейс Чжао, Грег Брокман, Грегори Валиант, Гийом Леклерк, Хади Салман, Хайтанг Ху, Ханна Шихан, Хао Шэн, Хаою Ван, Энрике Понде де Оливейра Пинто, Генри Аспегрен, Хэцин Ян, Хессам Багеринежад, Хунъю Жэнь, Хантер Лайтман, Хёнву Но, Иэн Кивличан, Иэн Сол, Игнаси Клавера, Икаи Лан, Илге Аккая, Илья Костриков, Ирина Кофман, Иса Фулфорд, Джейк Брилл, Якуб Пачоцки, Джеймс Беткер, Джеймс Ли, Джеймс Цин, Джейми Кирос, Джейсон Ай, Джей Ванг, Джин Харб, Джефф Микки, Джеффри Хан, Джеффри Ванг, Джереми Чен, Джерри Турек, Джессика Лян, Джессика Шие, Цзи Линь, Цзяхуэй Ю, Цзяньфэн Ван, Цзе Тан, Цзихань Инь, Цзин Ли, Джоан Чан, Джоэл Моррис, Йоханнес Ферстад, Йоханнес Хайдеке, Джон Фишбейн, Джон Окун, Джонатан Гордон, Йоост Хёйзинга, Джос Крайжевелд, Джозеф Мо, Джош Лоусон, Джош Тобин, Цзюньхуа Мао, Кай Чен, Кай Хаяши, Каран Сингхал, Карина Нгуен, Кэти Ши, Келли Стирман, Кенджи Хата, Кенни Нгуен, Керен Гу-Лемберг, Кевин Гладстон, Кевин Кинг, Кевин Лю, Кевин Лу, Кевин Парк, Кевин Стоун, Кевин Вейл, Кевин Уиннери, Кевин Ю, Коте Мушегиани, Кристен Инг, Кристиан Георгиев, Кшитий Гупта, Кайл Косич, Лама Ахмад, Ларри Лв, Лорен Итоу, Лорен Янг, Ли Байрон, Лео Чен, Лео Лю, Леон Максин, Лейтон Хо, Ли Цзин, Лян Сюн, Линь Ян, Линден Ли, Лоренц Кун, Луи Фоврье, Лу Чжан, Лукаш Кайзер, Махмуд Эриби, Майя Трембач, Манас Джоглекар, Маноли Лиодакис, Манука Стратта, Марк Чен, Марк Хадналл, Марк Сан, Марк Ванг, Мартин Ли, Марвин Чжан, Матеуш Литвин, Мэтт Джонс, Мэтт Лим, Макс Джонсон, Макс Шварцер, Майанк Гупта, Меган Шах, Мэнцин Ван, Мэнъюань Ян, Миа Глейзе, Майкл Болин, Майкл Лампе, Майкл Малек, Майкл Шарман, Майкл Чжан, Мишель Ванг, Мишель Покрасс, Мигель Оом Темудо де Кастро, Михай Флориан, Майк МакКлэй, Майк Трпчич, Мики Хабрин, Майлз Ванг, Минг Чен, Минсюань Ванг, Минния Фэн, Митчелл Гордон, Мо Бавариан, Мостафа Роханинежад, Начо Сото, Накул Ханна, Нат МакАлис, Натали Стаудахер, Натан ЛаФонтейн, Нил Аджарапу, Ник Фелт, Ник Терли, Никил Панча, Никита Михайлин, Нико Феликс, Никундж Ханда, Нинг Лю, Нишант Рай, Ноа Йоргенсен, Ноам Браун, Олег Бойко, Олег Мурк, Оливия Уоткинс, Оливье Годеман, Уна Глисон, Пол Эшборн, Павел Белов, Питер Флокхарт, Питер Хёшеле, Питер Жохов, Филип Пронин, Филлип Го, Фиби Тэкер, Прафулла Дхаривал, Прашант Р, Рэйчел Диас, Рахул Арора, Раджкумар Самуэль, Расмус Ригаард, Рави Теджа Муллапуди, Рэймонд Ли, Раз Гаон, Реа Мияра, Рейичиро Накано, Реймар Лейке, Ренни Сонг, Ритм Гарг, Р.Дж. Марсан, Роберт Сьонг, Робин Браун, Роман Циупа, Руи Шу, Руслан Нигматуллин, Саачи Джайн, Саагар Патель, Сэм Альтман, Сэм Тойзер, Сэм Тойер, Самир Ахмед, Самуэль Мисерендино, Самуэль Волрих, Сандхини Агарвал, Сантьяго Эрнандес, Сара Донг, Саванна Хон, Скотт Этерсмит, Скотт Майер МакКинни, Шон Фицджеральд, Север Банесиу, Шамез Хемани, Шэнцзя Чжао, Шэнли Ху, Шибани Сантуркар, Шреяс Кришнасвами, Шучао Би, Шунью Яо, Шуюань Чжан, Симон Посада Фишман, Спенсер Папай, Спаг Голден, Сринивас Нараянан, Стэнли Сие, Стивен Логсдон, Сундип Тирумаларедди, Тал Страмер, Тао Ванг, Тао Син, Тейлор Гордон, Теджал Патвардхан, Тибо Соттио, Тина Срискандараджа, Тони Каспарро, Тони Чжао, Тревор Крич, Узайр Навид Ифтихар, Валери Ци, Винит Косараджу, Вишал Куо, Витчир Понг, Вивек Верма, Влад Петров, Вэнда Чжоу, Вэньлэй Се, Вэньтин Чжан, Уилл ДеПю, Уилл Эллсворт, Уильям Шеу, Уайатт Томпсон, Ямин Лин, Ян Дюбуа, Яодун Ю, Яра Хакбаз, Яш Патил, Ифан Ву, Илун Цин, Инин Чэнь, Ируй Чжан, Ё Шавит, Ён Ча, Юньюнь Ван, Юши Ван, Зак Султан, Цзэхао Доу, Цзэвэй Чу, Чжэн Шао, Чжиган Ван, Чжишуай Чжан, Цзыхао Чжан