Оновлення від 10 червня 2025 р.: OpenAI o3‑pro тепер доступний для користувачів Pro у ChatGPT, а також у нашому API. Як і OpenAI o1‑pro, o3‑pro — це версія нашої найрозумнішої моделі OpenAI o3, розроблена для довшого мислення та надання найточніших відповідей. Деталі можна знайти у наших нотатках до релізу(відкривається у новому вікні).
Сьогодні ми випускаємо OpenAI o3 та o4-mini, найновіші моделі нашої серії o, навчені довше думати перед тим, як відповідати. Це найрозумніші моделі, які ми випустили на сьогодні, що представляють собою значний крок у зміні можливостей ChatGPT для всіх — від допитливих користувачів до досвідчених дослідників. Вперше наші моделі міркування можуть агентно використовувати та комбінувати всі інструменти в ChatGPT — це включає пошук у вебі, аналіз переданих файлів та інших даних за допомогою Python, глибоке міркування про візуальні введення і навіть генерування зображень. Що важливо, так це те, що ці моделі навчені аргументувати, коли і як використовувати інструменти для створення детальних і продуманих відповідей у правильних форматах виводу, зазвичай менш ніж за хвилину, щоб розв'язувати складніші проблеми. Це дозволяє їм ефективніше вирішувати багатогранні питання, що є кроком до більш агентного ChatGPT, який може самостійно виконувати завдання від вашого імені. Поєднання передового мислення з повним доступом до інструментів перетворюється на значно більшу ефективність у академічних тестах і реальних завданнях, встановлюючи новий стандарт як в інтелекті, так і в корисності.
OpenAI o3 is our most powerful reasoning model that pushes the frontier across coding, math, science, visual perception, and more. It sets a new SOTA on benchmarks including Codeforces, SWE-bench (without building a custom model-specific scaffold), and MMMU. It’s ideal for complex queries requiring multi-faceted analysis and whose answers may not be immediately obvious. It performs especially strongly at visual tasks like analyzing images, charts, and graphics. In evaluations by external experts, o3 makes 20 percent fewer major errors than OpenAI o1 on difficult, real-world tasks—especially excelling in areas like programming, business/consulting, and creative ideation. Early testers highlighted its analytical rigor as a thought partner and emphasized its ability to generate and critically evaluate novel hypotheses—particularly within biology, math, and engineering contexts.
OpenAI o4-mini is a smaller model optimized for fast, cost-efficient reasoning—it achieves remarkable performance for its size and cost, particularly in math, coding, and visual tasks. It is the best-performing benchmarked model on AIME 2024 and 2025. Although access to a computer meaningfully reduces the difficulty of the AIME exam, we also found it notable that o4-mini achieves 99.5% pass@1 (100% consensus@8) on AIME 2025 when given access to a Python interpreter. While these results should not be compared to the performance of models without tool access, they are one example of how effectively o4-mini leverages available tools; o3 shows similar improvements on AIME 2025 from tool use (98.4% pass@1, 100% consensus@8).
In expert evaluations, o4-mini also outperforms its predecessor, o3‑mini, on non-STEM tasks as well as domains like data science. Thanks to its efficiency, o4-mini supports significantly higher usage limits than o3, making it a strong high-volume, high-throughput option for questions that benefit from reasoning. External expert evaluators rated both models as demonstrating improved instruction following and more useful, verifiable responses than their predecessors, thanks to improved intelligence and the inclusion of web sources. Compared to previous iterations of our reasoning models, these two models should also feel more natural and conversational, especially as they reference memory and past conversations to make responses more personalized and relevant.
Multimodal
Coding
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
Виконання інструкцій і використання інструментів
Усі моделі проходили оцінку при високому рівні міркувань, аналогічно таким варіантам, як o4-mini-high в ChatGPT.
Throughout the development of OpenAI o3, we’ve observed that large-scale reinforcement learning exhibits the same “more compute = better performance” trend observed in GPT‑series pretraining. By retracing the scaling path—this time in RL—we’ve pushed an additional order of magnitude in both training compute and inference-time reasoning, yet still see clear performance gains, validating that the models’ performance continues to improve the more they’re allowed to think. At equal latency and cost with OpenAI o1, o3 delivers higher performance in ChatGPT—and we've validated that if we let it think longer, its performance keeps climbing.
We also trained both models to use tools through reinforcement learning—teaching them not just how to use tools, but to reason about when to use them. Their ability to deploy tools based on desired outcomes makes them more capable in open-ended situations—particularly those involving visual reasoning and multi-step workflows. This improvement is reflected both in academic benchmarks and real-world tasks, as reported by early testers.

Вперше ці моделі можуть інтегрувати зображення безпосередньо у свій ланцюжок міркувань. Вони не просто бачать зображення — вони думають із його допомогою. Це відкриває новий клас вирішення завдань, який поєднує візуальне та текстове мислення, що відображається в їхніх передових результатах на мультимодальних тестах.
Люди можуть завантажити фотографію дошки, діаграму з підручника або ескіз, що намальований від руки, і модель зможе його інтерпретувати, навіть якщо зображення розмито, перевернуто або низької якості. Використовуючи інструменти, моделі можуть миттєво маніпулювати зображеннями — обертати, масштабувати або трансформувати їх у процесі міркування.
Ці моделі забезпечують найкращу у своєму класі точність у виконанні завдань візуального сприйняття, дозволяючи розв'язувати питання, розв'язання яких раніше були недоступним. Більше детальної інформації можна отримати в нашому блозі досліджень візуального мислення.
OpenAI o3 and o4-mini have full access to tools within ChatGPT, as well as your own custom tools via function calling in the API. These models are trained to reason about how to solve problems, choosing when and how to use tools to produce detailed and thoughtful answers in the right output formats quickly—typically in under a minute.
For example, a user might ask: “How will summer energy usage in California compare to last year?” The model can search the web for public utility data, write Python code to build a forecast, generate a graph or image, and explain the key factors behind the prediction, chaining together multiple tool calls. Reasoning allows the models to react and pivot as needed to information it encounters. For example, they can search the web multiple times with the help of search providers, look at results, and try new searches if they need more info.
This flexible, strategic approach allows the models to tackle tasks that require access to up-to-date information beyond the model’s built-in knowledge, extended reasoning, synthesis, and output generation across modalities.
All examples were completed with OpenAI o3.
OpenAI o3
OpenAI o1
OpenAI o3 gets the response correctly without using search, whereas o1 fails to deliver a correct response.
Раціональне міркування
Вартість і продуктивність: o3‑mini та o4-mini


Вартість і продуктивність: o1 та o3


o3 і o4-mini від OpenAI — найінтелектуальніші моделі, які ми коли-небудь випускали: в більшості випадків вони більш ефективні, ніж їхні попередники OpenAI o1 і o3‑mini. Наприклад, на математичному конкурсі AIME 2025 співвідношення витрат і продуктивності для o3 було серйозно поліпшено в порівнянні з o1; аналогічно, співвідношення для o4-mini було серйозно поліпшено порівняно з o3‑mini. Загалом, ми очікуємо, що для більшості реальних застосувань o3 та o4-mini також будуть як розумнішими, так і дешевшими, ніж o1 та o3‑mini відповідно.
Each improvement in model capabilities warrants commensurate improvements to safety. For OpenAI o3 and o4-mini, we completely rebuilt our safety training data, adding new refusal prompts in areas such as biological threats (biorisk), malware generation, and jailbreaks. This refreshed data has led o3 and o4-mini to achieve strong performance on our internal refusal benchmarks (e.g., instruction hierarchy, jailbreaks). In addition to strong performance for model refusals, we have also developed system-level mitigations to flag dangerous prompts in frontier risk areas. Similar to our earlier work in image generation, we trained a reasoning LLM monitor which works from human-written and interpretable safety specifications. When applied to biorisk, this monitor successfully flagged ~99% of conversations in our human red‑teaming campaign.
We stress tested both models with our most rigorous safety program to date. In accordance with our updated Preparedness Framework, we evaluated o3 and o4-mini across the three tracked capability areas covered by the Framework: biological and chemical, cybersecurity, and AI self-improvement. Based on the results of these evaluations, we have determined that both o3 and o4‑mini remain below the Framework's "High" threshold in all three categories. We have published the detailed results from these evaluations in the accompanying system card.
Ми також представляємо новий експеримент: Codex CLI, легкий агент програмування, який можна запускати з вашого терміналу. Він працює безпосередньо на вашому ПК і призначений для максимального використання можливостей міркувань моделей, таких як o3 та o4-mini, із подальшою підтримкою додаткових моделей API, таких як GPT‑4.1.
Ви можете отримати переваги мультимодального міркування з командного рядка, передаючи в модель скріншоти або низькодеталізовані нариси у поєднанні з локальним доступом до коду. Ми вважаємо це мінімальним інтерфейсом для підключення наших моделей до користувачів та їх комп'ютерів. Codex CLI з повністю відкритим вихідним кодом доступний на github.com/openai/codex(відкривається у новому вікні) вже сьогодні.
Поряд із цим ми запускаємо ініціативу на суму 1 мільйон дол. США для підтримки проєктів, що використовують Codex CLI та моделі OpenAI. Ми оцінюватимемо та прийматимемо заявки на гранти у розмірі 25 000 дол. США у вигляді кредитів на API. Пропозиції можна надіслати тут.
ChatGPT Plus, Pro, and Team users will see o3, o4-mini, and o4-mini-high in the model selector starting today, replacing o1, o3‑mini, and o3‑mini‑high. ChatGPT Enterprise and Edu users will gain access in one week. Free users can try o4-mini by selecting 'Think' in the composer before submitting their query. Rate limits across all plans remain unchanged from the prior set of models.
We expect to release OpenAI o3‑pro in a few weeks with full tool support. For now, Pro users can still access o1‑pro.
Both o3 and o4-mini are also available to developers today via the Chat Completions API and Responses API (some developers will need to verify their organizations(відкривається у новому вікні) to access these models). The Responses API supports reasoning summaries, the ability to preserve reasoning tokens around function calls for better performance, and will soon support built-in tools like web search, file search, and code interpreter within the model’s reasoning. To get started, explore our docs(відкривається у новому вікні) and stay tuned for more updates.
Сьогоднішні оновлення відображають напрямок, у якому рухаються наші моделі: ми об'єднуємо спеціалізовані можливості мислення серії o з природнішими розмовними здібностями та використанням інструментів серії GPT. Об’єднавши ці сильні сторони, наші майбутні моделі без проблем підтримуватимуть природні розмови разом із ініціативним використанням інструментів та розв'язанням складних проблем.
Оновлення від 28 липня 2025 р.: Набір даних SWE-Lancer та результати, оновлені станом на 17 липня 2025 р., доступні за адресою: https://github.com/openai/preparedness(відкривається у новому вікні) та в наших системних картках. Це оновлення вирішує кілька проблем, які впливали на результати в доларовому еквіваленті, і вилучає необхідність підключення до Інтернету під час виконання, прибираючи основне джерело варіативності продуктивності моделі.
Оновлення від 16 квітня 2025 р.: результати для o3 на Charxiv-r та Mathvista були оновлені, щоб відобразити зміну системного запиту, якої не було в початковій оцінці.
Автор
Виноски
* Результати оцінки tau-bench усереднюються по 5 запускам зниження дисперсії і виконуються без використання спеціальних інструментів чи підказок. Ми виявили, що роздрібні версії tau-bench більш схильні до помилок користувальницької моделі. Результати для заштрихованої області отримані з використанням GPT-4.1 як користувацької моделі, оскільки вона значно краща за GPT-4o у дотриманні інструкцій.
* SWE-bench використовує максимальну довжину контексту 256 тис., що покращує швидкість рішення для o4-mini приблизно на 3% та впливає на швидкість рішення o3 менш ніж на 1%. Ми також виключили 23 зразки, які не підлягають запуску на нашій внутрішній інфраструктурі.
** На початку перегляду модель іноді може знаходити точні відповіді в Інтернеті, наприклад, читаючи повідомлення в блогах зі зразками задач із набору даних. Ми зменшуємо ризики можливого обману моделі під час перегляду за допомогою двох стратегій:
Блокування доменів, із якими спостерігався обман моделі в минулому.
Використання додаткової моделі міркування як контролера для перевірки всіх токенів у кожній спробі з метою виявлення підозрілої поведінки. Підозріла поведінка визначається як «сторінка, файл або фрагмент, основною метою якого є надання точної відповіді на конкретне запитання — наприклад, офіційний ключ оцінювання, витік «рішень» або обговорення з дослівним цитуванням готової відповіді.» Доброякісною поведінкою вважається «будь-який авторитетний ресурс, до якого може звернутися відповідальна людина (документація, посібники, наукові праці, авторитетні статті), навіть якщо він випадково містить правильну відповідь.» Будь-які спроби, де контролер вважав розгортання підозрілим, зараховуються як неправильні. Більшість прикладів, які не пройшли цю перевірку, були завданнями, точне розв'язання яких було доступне в багатьох інтернет-джерелах, не пов’язаних з HLE.
Зрештою, наші оцінки під час перегляду можуть бути не ідеально відтворені в API OpenAI через відмінності у пошукових системах між ChatGPT та OpenAI API. Ці результати призначені для репрезентації досвіду користувача ChatGPT, але в залежності від попиту конфігурація пошуку може змінюватися з часом.
Учасники
Адітья Сінгх, Аарон Шлезінгер, Адам Фрай, Адам Лерер, Адам Перельман, Адам Вокер, Ахмед Ель-Кішкі, Айдан Кларк, Айдан Маклафлін, Айден Лоу, Акіла Веліхінда, Акшай Натан, Александер Мадрі, Александра Спіра, Алекс Карпенко, Алекс Нейц, Алекс Тачард Пассос, Алекс Вей, Олександр Прокоф'єв, Олександр Зіленський, Александра Барр, Олексій Іванов, Алексі Крістакіс, Альфред Сюе, Еллісон Там, Еллі Беннетт, Еллі Беннетт, Амелія Лю, Емі Макдональд Санджіде, Ананья Кумар, Андре Сарайва, Андреа Валлоне, Ендрю Чен, Ендрю Дуберштейн, Ендрю Гібіанський, Ендрю Кондріх, Ендрю Таллох, Андрій Міщенко, Енді Епплбаум, Енді Ванг, Анджела Бек, Енні Вей, Антінг Шен, Антуан Пеліссе, Анудж Сахаран, Арун Віджайвергія, Ешлі Тайра, Ашвін Наїр, Аві Наяк, Авіталь Олівер, Бехруз Горбані, Белінда Труонг, Бен Соколовскі, Бет Гувер, Бо Сюй, Боаз Барак, Бохан Чжан, Борис Мінаєв, Ботао Хао, Боуен Бейкер, Боуен Ченг, Брендон Маккінзі, Брендон Ван, Браян Сюй, Браян Ян, Браян Юй, Браян Чжан, Камілло Лугаресі, Кароліна Пас, Карпус Чанг, Кері Бассін, Кері Хадсон, Кейсі Чу, Чак Лі, Чарльз Чжао, Чарлі Джатт, Шарлотта Коул, Челсі Восс, Чень Шень, Ченсюй Чжуан, Кріс Колбі, Кріс Халласі, Кріс Кох, Крістіна Каплан, Крістіна Кім, Колін Рід, Колін Вей, Крістіна Шо, Д. Скаллі, Демієн Девілл, Ден Робертс, Дана Палмі, Дейн Стакі, Деніел Лівайн, Девід Ху, Девід Мартін, Девід Робінсон, Девід Сасакі, Девіс Ву, Дерек Чен, Дібія Бхаттачарджі, Дімітріс Ципрас, Дінхуа Лі, Діджей Строус, Дмед Медіна, Дрю Хінц, Едді Чжан, Едмунд Вонг, Елейн Я Ле, Елі Яні, Елізабет Проел, Емілі Соколова, Енох Ченг, Ері Шварц, Ерік Мітчелл, Ерік Нін, Ерік Сіглер, Ерік Уоллес, Еудженіо Панеро, Еван Мейс, Євген Нікішин, Фан Ван, Фан'юань Лі, Філіппо Расо, Фойвос Цімпурлас, Фуад Матін, Френсіс Сонг, Френсіс Чжан, Гері Янг, Джин Оден, Джамбаттіста Параскандоло, Гілдас Шабо, Грейс Кім, Грейс Чжао, Грег Брокман, Грегорі Валіант, Гійом Леклерк, Хаді Салман, Хайтан Ху, Ханна Шеахан, Хао Шен, Хаоюй Ван, Енріке Понде де Олівейра Пінто, Генрі Аспегрен, Хекін Ян, Хессам Багерінежад, Хонг'ю Рен, Хантер Лайтман, Хьонву Но, Ієн Ківлічан, Ієн Сол, Ігнасі Клавера, Ікай Лан, Ілге Аккая, Ілля Костріков, Ірина Кофман, Іза Фулфорд, Джейк Брілл, Якуб Пачокі, Джеймс Беткер, Джеймс Лі, Джеймс Цін, Джеймі Кірос, Джейсон Ай, Джей Ван, Джин Харб, Джефф Міккі, Джеффрі Хан, Джеффрі Ван, Джеремі Чен, Джеррі Турек, Джессіка Лян, Джессіка Ші, Цзі Лін, Цзяхуей Ю, Цзяньфен Ван, Цзе Тан, Джихан Інь, Цзін Лі, Джоанн Джанг, Джоел Морріс, Йоханнес Ферстад, Йоганнес Гайдеке, Джон Фішбейн, Джон Окун, Джонатан Гордон, Йост Хейзінга, Джос Краайвельд, Джозеф Мо, Джош Лоусон, Джош Тобін, Джунхуа Мао, Кай Чен, Кай Хаяші, Каран Сінгхал, Каріна Нгуєн, Кеті Ши, Келлі Стирман, Кендзі Хата, Кенні Нгуєн, Керен Гу-Лемберг, Кевін Гладстон, Кевін Кінг, Кевін Лю, Кевін Лу, Кевін Парк, Кевін Стоун, Кевін Вейл, Кевін Віннері, Кевін Ю, Коте Мушегіані, Крістен Ін, Крістіан Георгієв, Кшітідж Гупта, Кайл Косич, Лама Ахмад, Ларрі Лв, Лорен Ітоу, Лорен Янг, Лі Байрон, Лео Чен, Лео Лю, Леон Максін, Лейтон Хо, Лі Цзін, Лян Сюн, Лінь Янг, Лінден Лі, Лоренц Кун, Луї Февріє, Лу Чжан, Лукаш Кайзер, Махмуд Ерібі, Майя Требац, Манас Джоглекар, Манолі Ліодакіс, Манука Стратта, Марк Чен, Марк Хадналл, Марк Сан, Марк Ван, Мартін Лі, Марвін Чжан, Матеуш Літвін, Метт Джонс, Метт Лім, Макс Джонсон, Макс Шварцер, Маянк Гупта, Меган Шах, Менцін Ван, Мен'юань Ян, Міа Глейз, Майкл Болін, Майкл Лампе, Майкл Малек, Майкл Шарман, Майкл Чжан, Мішель Ван, Мішель Покрасс, Мігель Оом Темудо де Кастро, Міхай Флоріан, Майк Макклей, Майк Трпчич, Мікі Хабрін, Майлз Ван, Мін Чен, Мінсюань Ван, Міннія Фенг, Мітчелл Гордон, Мо Баваріан, Мостафа Роханінежад, Начо Сото, Накул Ханна, Нат МакАліз, Наталі Штаудахер, Натан Лафонтен, Ніл Аджарапу, Нік Фелт, Нік Терлі, Нікіл Панча, Микита Михайлін, Ніко Фелікс, Нікундж Ханда, Нін Лю, Нішант Рай, Ной Йоргенсен, Ноам Браун, Олег Бойко, Олег Мурк, Олівія Воткінс, Олів'є Годеман, Уна Глісон, Пол Ешборн, Павло Бєлов, Пітер Флокхарт, Пітер Хешеле, Пітер Жохов, Філіп Пронін, Філіп Гуо, Фібі Текер, Прафулла Дхарівал, Прашант Р., Рейчел Діас, Рахул Арора, Раджкумар Самуель, Расмус Рігаард, Раві Теджа Муллапуді, Реймонд Лі, Раз Гаон, Реа Міяра, Рейічіро Накано, Реймар Лейке, Ренні Сонг, Ритм Гарг, Р. Дж. Марсан, Роберт Сюн, Робін Браун, Роман Цюпа, Руй Шу, Руслан Нігматуллін, Саачі Джейн, Саагар Пател, Сем Олтман, Сем Тойзер, Сем Тойєр, Самір Ахмед, Семюель Мізерендіно, Семюел Волріч, Сандіні Агарвал, Сантьяго Ернандес, Сара Донг, Саванна Хеон, Скотт Етерсміт, Скотт Майєр МакКінні, Шон Фіцджеральд, Север Банесіу, Шамес Хемані, Шенджя Чжао, Шенлі Ху, Шибані Сантуркар, Шреяс Крішнасвамі, Шучао Бі, Шунью Яо, Шуюань Чжан, Сімон Посада Фішман, Спенсер Папай, Спуг Голден, Срінівас Нараянан, Стенлі Хсіе, Стівен Логсдон, Сандіп Тірумаларедді, Тал Страмер, Тао Ван, Тао Сінь, Тейлор Гордон, Теджал Патвардхан, Тібо Соттьо, Тіна Сріскандараджа, Тоні Каспарро, Тоні Чжао, Тревор Кріч, Узейр Навід Іфтіхар, Валері Ці, Вініт Косараджу, Вішал Куо, Вітчір Понг, Вівек Верма, Влад Петров, Венда Чжоу, Венлей Сє, Вентінг Чжан, Вілл ДеПуе, Вілл Еллсворт, Вільям Шеу, Вайатт Томпсон, Ямін Лін, Янн Дюбуа, Яодун Ю, Яра Хакбаз, Яш Патіл, Іфань Ву, Ілун Цінь, Інін Чен, Іруй Чжан, Йо Шавіт, Янг Ча, Юньюнь Ван, Юші Ван, Зак Султан, Зехао Доу, Цзевей Чу, Чжен Шао, Чжиган Ван, Чжишуай Чжан, Цзіхао Чжан