Ажурирање на 10 јуни 2025 година: OpenAI o3‑pro сега е достапен за Pro корисници во ChatGPT, како и во нашето API. Како OpenAI o1‑pro, o3‑pro е верзија на нашиот најинтелигентен модел, OpenAI o3, дизајниран да размислува подолго и да обезбедува најсигурни одговори. Целосните детали може да ги најдеш во нашите белешки за објавување(се отвора во нов прозорец).
Денес ги објавуваме OpenAI o3 и o4-mini, најновите во нашата o-серија модели обучени да размислуваат подолго пред да одговорат. Ова се најпаметните модели што ги објавивме досега, претставувајќи значителен напредок во можностите на ChatGPT за сите, од љубопитни корисници до напредни истражувачи. За првпат, нашите модели на расудување може агентски да ги користат и комбинираат сите алатки во ChatGPT — тоа вклучува пребарување на веб, анализа на поставени датотеки и други податоци со Python, длабоко размислување за визуелни внесувања, па дури и генерирање слики. Критички, овие модели се обучени да расудуваат кога и како да користат алатки за да произведат детални и внимателни одговори во соодветни резултати формати, обично за помалку од една минута, за решавање на посложени проблеми. Ова им овозможува поефикасно да се справуваат со повеќеслојни прашања, чекор кон поагентен ChatGPT кој може самостојно да извршува задачи во твое име. Комбинираната моќ на најсовременото расудување со целосен пристап до алатки се претвора во значително посилни перформанси низ академските референтни тестови и реалните задачи, поставувајќи нов стандард и во интелигенција и во корисност.
OpenAI o3 е нашиот најмоќен модел на расудување кој ги поместува границите во кодирање, математика, наука, визуелна перцепција и друго. Поставува ново SOTA на бенчмаркови, вклучувајќи ги Codeforces, SWE-bench (без да се изгради приспособена специфична скела за моделот) и MMMU. Идеално е за сложени прашања што бараат повеќестрана анализа и чии одговори можеби не се веднаш очигледни. Особено добро се истакнува во визуелни задачи како што се анализирање на слики, графикони и графики. Во евалуации од надворешни експерти, o3 прави 20 проценти помали грешки од OpenAI o1 на тешки, реални задачи — особено се истакнува во области како програмирање, Business/консалтинг и креативна идеација. Раните тестери ја истакнаа неговата аналитичка ригорозност како партнер за размислување и ја нагласија способноста да генерира и критички оценува нови хипотези — особено во контекстите на биологијата, математиката и инженерството.
OpenAI o4-mini е помал модел оптимизиран за брзо и економично расудување - постигнува извонредни перформанси за својата големина и цена, особено во математика, кодирање и визуелни задачи. Тоа е најдобриот модел со најдобри перформанси на AIME 2024 и 2025. Иако пристапот до компјутер значително ја намалува тежината на AIME испитот, исто така забележавме дека o4-mini постигнува 99,5% pass@1 (100% consensus@8) на AIME 2025 кога има пристап до Python интерпретатор. Иако овие резултати не треба да се споредуваат со перформансите на модели без пристап до алатки, тие се пример за тоа колку ефективно o4-mini ги користи достапните алатки; o3 покажува слични подобрувања на AIME 2025 од користење на алатки (98,4% pass@1, 100% consensus@8).
Во експертските евалуации, o4-mini исто така го надминува својот претходник, o3‑mini, во задачи кои не се поврзани со STEM, како и во домени како науката за податоци. Благодарение на својата ефикасност, o4-mini поддржува значително повисоки ограничувања на употреба од o3, што го прави силна опција за голем обем и висок капацитет за прашања што имаат корист од расудување. Надворешни експерти ги оценија двата модела како демонстрираат подобрено следење на инструкциите и покорисни, проверливи одговори од нивните претходници, благодарение на подобрената интелигенција и вклучувањето на веб-извори. Во споредба со претходните итерации на нашите модели на размислување, овие два модели исто така треба да се чувствуваат пориродно и поразговорно, особено бидејќи се повикуваат на меморија и минати разговори за да ги направат одговорите поперсонализирани и релевантни.
Мултимодален
Coding
Сите евалуации на SWE-bench користат фиксно подмножество од n=477 потврдени задачи кои се валидирани на нашата внатрешна инфраструктура.
Следење на упатства и користење на агентска алатка
Сите модели се оценуваат на високи поставки за „напор за расудување“ — слично на варијанти како „o4-mini-high“ во ChatGPT.
Throughout the development of OpenAI o3, we’ve observed that large-scale reinforcement learning exhibits the same “more compute = better performance” trend observed in GPT‑series pretraining. By retracing the scaling path—this time in RL—we’ve pushed an additional order of magnitude in both training compute and inference-time reasoning, yet still see clear performance gains, validating that the models’ performance continues to improve the more they’re allowed to think. At equal latency and cost with OpenAI o1, o3 delivers higher performance in ChatGPT—and we've validated that if we let it think longer, its performance keeps climbing.
We also trained both models to use tools through reinforcement learning—teaching them not just how to use tools, but to reason about when to use them. Their ability to deploy tools based on desired outcomes makes them more capable in open-ended situations—particularly those involving visual reasoning and multi-step workflows. This improvement is reflected both in academic benchmarks and real-world tasks, as reported by early testers.

За прв пат, овие модели може директно да интегрираат слики во нивниот синџир на размислување. Тие не гледаат само слика—размислуваат со неа. Ова отклучува нова класа на решавање проблеми што ги спојува визуелното и текстуалното расудување, што се рефлектира во нивните најсовремени перформанси низ мултимодални репери.
Луѓето може да постават фотографија од бела табла, дијаграм од учебник или рачно нацртана скица, а моделот може да ја интерпретира — дури и ако сликата е заматена, превртена или со низок квалитет. Со користење на алатки, моделите можае да манипулираат со слики во реално време - ротирајќи, зумирајќи или трансформирајќи ги како дел од нивниот процес на расудување.
Овие модели испорачуваат најдобра точност во својата класа за задачи за визуелна перцепција, овозможувајќи им да решаваат прашања кои претходно беа недостапни. Погледни го блогот за истражување на визуелното расудување за да дознаеш повеќе.
OpenAI o3 и o4-mini имаат целосен пристап до алатки во ChatGPT, како и до вашите сопствени алатки преку повикување функции во API. Овие модели се обучени да расудуваат за тоа како да решаваат проблеми, избирајќи кога и како да користат алатки за да создадат детални и внимателни одговори во вистинските формати на резултат брзо — обично за помалку од една минута.
На пример, корисник може да праша: „Како летната потрошувачка на енергија во Калифорнија ќе се спореди со минатата година?“ Моделот може да пребарува на интернет за податоци за јавни комунални услуги, да напише Python код за да изработи прогноза, да генерира графикон или слика и да ги објасни клучните фактори зад предвидувањето, поврзувајќи повеќе повици на алатки. Расудувањето им овозможува на моделите да реагираат и да се приспособуваат според потребата на информациите што ги среќаваат. На пример, може да пребаруваат на интернет повеќе пати со помош на пребарувачи, да ги прегледуваат резултатите и да пробаат нови пребарувања ако им треба повеќе информации.
Овој флексибилен, стратешки пристап им овозможува на моделите да се справат со задачи кои бараат пристап до најнови информации надвор од вграденото знаење на моделот, проширено размислување, синтеза и генерирање на резултат низ различни модалитети.
Сите примери беа завршени со OpenAI o3.
OpenAI o3
OpenAI o1
OpenAI o3 го добива одговорот точно без да користи пребарување, додека o1 не успева да даде точен одговор.
Унапредување на економично и ефикасно расудување
Цена наспроти перформанси: o3‑mini и o4-mini


Цена наспроти перформанси: o1 и o3


OpenAI o3 и o4-mini се најинтелигентните модели што некогаш сме ги објавиле, а тие исто така често се поефикасни од нивните претходници, OpenAI o1 и o3‑mini. На пример, на математичкиот натпревар AIME во 2025 година, границата на цена-перформанси за o3 строго се подобрува во однос на o1, и слично, границата на o4-mini строго се подобрува во однос на o3‑mini. Погенерално, очекуваме дека за најголем дел од реалната употреба, o3 и o4-mini ќе бидат и попаметни и поевтини од o1 и o3‑mini, соодветно.
Each improvement in model capabilities warrants commensurate improvements to safety. For OpenAI o3 and o4-mini, we completely rebuilt our safety training data, adding new refusal prompts in areas such as biological threats (biorisk), malware generation, and jailbreaks. This refreshed data has led o3 and o4-mini to achieve strong performance on our internal refusal benchmarks (e.g., instruction hierarchy, jailbreaks). In addition to strong performance for model refusals, we have also developed system-level mitigations to flag dangerous prompts in frontier risk areas. Similar to our earlier work in image generation, we trained a reasoning LLM monitor which works from human-written and interpretable safety specifications. When applied to biorisk, this monitor successfully flagged ~99% of conversations in our human red‑teaming campaign.
We stress tested both models with our most rigorous safety program to date. In accordance with our updated Preparedness Framework, we evaluated o3 and o4-mini across the three tracked capability areas covered by the Framework: biological and chemical, cybersecurity, and AI self-improvement. Based on the results of these evaluations, we have determined that both o3 and o4‑mini remain below the Framework's "High" threshold in all three categories. We have published the detailed results from these evaluations in the accompanying system card.
Исто така, споделуваме нов експеримент: Codex CLI, лесен агент за кодирање што можеш да го стартуваш од твојот терминал. Работи директно на твојот компјутер и е дизајниран да ги максимизира расудувачките способности на модели како o3 и o4-mini, а ќе поддржува и дополнителни API модели како GPT‑4.1.
Може да ги добиеш придобивките од мултимодалното расудување од командната линија со пренесување на слики од екранот или скици со ниска веродостојност до моделот, во комбинација со пристап до твојот код локално. Го сметаме за минимален интерфејс што ги поврзува нашите модели со корисниците и нивните компјутери. Codex CLI е целосно со отворен код на github.com/openai/codex(се отвора во нов прозорец) денес.
Паралелно, лансираме иницијатива вредна 1 милион долари за поддршка на проекти кои користат Codex CLI и OpenAI модели. Ќе ги оценуваме и прифаќаме апликациите за грантови во износи од $25,000 USD во форма на API кредити. Предлозите може да се поднесат овде.
Корисниците на ChatGPT Plus, Pro и Team ќе ги гледаат o3, o4-mini и o4-mini-high во селекторот на модели почнувајќи од денеска, заменувајќи ги o1, o3‑mini и o3‑mini‑high. Корисниците на Организација ChatGPT и Edu ќе добијат пристап за една седмица. Free корисници може да пробаат o4-mini со избор на 'размислува' во композиторот пред да го поднесат своето барање. Ограничувањата на стапките за сите планови остануваат непроменети од претходниот сет на модели.
Очекуваме да го објавиме OpenAI o3‑pro за неколку седмици со целосна поддршка за алатки. Засега, корисниците на Pro сè уште може да пристапат до o1‑pro.
И o3 и o4-mini се достапни и за развивачи на софтвер денес преку разговор Completions API и Responses API (некои развивачи на софтвер ќе треба да потврдуваат своите организации(се отвора во нов прозорец) за пристап до овие модели). Responses API поддржува резимеа на расудување, можност за зачувување на токени околу повици на функции за подобра изведба, и наскоро ќе поддржува вградени алатки како веб-пребарување, пребарување на датотека и толкувач на кодови во рамките на расудувањето на моделот. За да започнеш, истражи ја нашата документација(се отвора во нов прозорец) и остани во тек за повеќе ажурирања.
Today's updates reflect the direction our models are heading in: we’re converging the specialized reasoning capabilities of the o-series with more of the natural conversational abilities and tool use of the GPT‑series. By unifying these strengths, our future models will support seamless, natural conversations alongside proactive tool use and advanced problem-solving.
Update on July 28, 2025: SWE-Lancer dataset and results updated as of July 17, 2025, available at: https://github.com/openai/preparedness(се отвора во нов прозорец) and in our system cards. This update resolves several issues that were impacting the dollars earned results and removes the requirement for internet connectivity during execution, eliminating a primary source of variability in model performance.
Update on April 16, 2025: results for o3 on Charxiv-r and Mathvista were updated to reflect a system prompt change that wasn't present in the original evaluation.
Автор
Фусноти
* Броевите за евалуација на tau-bench се пресметуваат како просек од 5 извршувања за да се намали варијансата и се извршуваат без никакви приспособени алатки или потсетници. Откривме дека малопродажните изданија на tau-bench се повеќе склони кон грешки во корисничкиот модел. Броевите за засенчената лента се извршуваат со GPT-4.1 како кориснички модел бидејќи е значително подобар од GPT-4o во следење на инструкциите.
* SWE-bench користи 256k максимална должина на контекст, што ја подобрува стапката на решавање за o4-mini за околу 3% и влијае на стапката на решавање на o3 за помалку од 1%. Исто така, исклучуваме 23 примероци кои не можат да се извршуваат на нашата внатрешна инфраструктура.
** Кога е овозможено прелистување, моделот понекогаш може да пронајде точни одговори онлајн, на пример преку читање блог-постови со проблеми за пример од некоја група податоци. Ја ублажуваме загриженоста за можноста моделот да „мами” при прелистување со две стратегии:
Блокирани домени од кои сме забележале дека моделот мамел во минатото.
Користеше модел за расудување како монитор за да ги испита сите токени во секој обид, со цел да се идентификува сомнително однесување. Сомнителното однесување се дефинира како „страница, датотека или фрагмент чија главна цел е да го обезбеди точниот одговор на ова конкретно прашање — на пример, официјален клуч за оценување, протечени „решенија“ или дискусија која дословно го цитира готовиот одговор.“ Бенигното однесување се дефинира како „Секој авторитативен ресурс со кој темелен човек може да се консултира (документација, прирачници, научни трудови, реномирани статии), дури и ако случајно го содржи точниот одговор.“ Сите обиди каде што мониторот го сметаше воведувањето за сомнително се сметаат за неточни. Повеќето примероци кои не ја поминаа оваа проверка беа проблеми чие точно решение беше достапно на повеќе интернет извори неповрзани со HLE.
Конечно, нашите проценки со прелистувањето можеби не може целосно да се репродуцираат во OpenAI API поради разликата во заднинските системи на пребарувачот помеѓу ChatGPT и OpenAI API. Овие резултати се наменети да бидат репрезентативни за искуството на корисниците на ChatGPT, но во зависност од побарувачката, конфигурацијата на пребарувањето може да се менува со текот на времето.
Придонесувачи
Адитија Синг, Арон Шлезингер, Адам Фрај, Адам Лерер, Адам Перелман, Адам Вокер, Ахмед Ел-Кишки, Ајдан Кларк, Ајдан Меклафлин, Ајден Лоу, Акила Велихинда, Акшај Натан, Александар Мадри, Александра Спира, Алекс Карпенко, Алекс Најц, Алекс Тачард Пасос, Алекс Веи, Александар Прокофјев, Александар Зиленски, Александра Бар, Алексеј Иванов, Алекси Кристакис, Алфред Сјуе, Алисон Там, Али Бенет, Али Бенет, Амелија Лиу, Ејми Мекдоналд Санџидех, Анања Кумар, Андре Сараива, Андреа Валоне, Ендру Чен, Ендру Дуберштајн, Ендру Гибијански, Ендру Кондрич, Ендру Тулох, Андреј Мишченко, Енди Аплбаум, Енди Ванг, Анџела Бек, Ени Веи, Антинг Шен, Антоан Пелис, Ануџ Сахаран, Арун Виџајвергија, Ешли Тајра, Ашвин Наир, Ави Најак, Авитал Оливер, Бехруз Горбани, Белинда Труонг, Бен Соколовски, Бет Хувер, Бо Сју, Боаз Барак, Бохан Жанг, Борис Минаев, Ботао Хао, Бовен Бејкер, Бовен Ченг, Брендон Мекинзи, Брендон Ванг, Брајан Хсу, Брајан Јанг, Брајан Ју, Брајан Жанг, Камило Лугареси, Каролина Паз, Карпус Чанг, Кери Басин, Кери Хадсон, Кејси Чу, Чак Ли, Чарлс Жао, Чарли Џат, Шарлот Кол, Челси Вос, Чен Шен, Ченгсу Жуанг, Крис Колби, Крис Халаси, Крис Кох, Кристина Каплан, Кристина Ким, Колин Рид, Колин Веи, Кристина Шео, Д. Скули, Демиен Девил, Ден Робертс, Дејна Палми, Дејн Стаки, Даниел Левин, Дејвид Ху, Дејвид Мартин, Дејвид Робинсон, Дејвид Сасаки, Дејвис Ву, Дерек Чен, Дибија Батачарџи, Димитрис Ципрас, Дингхуа Ли, диџеј Строус, dmed Medina, Дру Хингај Ел Јани, Елизабет Проел, Емили Соколова, Енох Чеунг, Ери Шварц, Ерик Мичел, Ерик Нинг, Ерик Сиглер, Ерик Валас, Еугенио Панеро, Еван Мејс, Евгени Никишин, Фан Ванг, Фангјуан Ли, Филипо Расо, Фоивос Франкис Цимпур, Фоивос Франкис Цимпур Јанг, Џин Оден, Џамбатиста Параскандоло, Гилдас Шабот, Грејс Ким, Грејс Жао, Грег Брокман, Грегори Валијант, Гијом Леклер, Хади Салман, Хаитанг Ху, Хана Шехан, Хао Шенг, Хаоју Ванг, Хенрике Понде де Оливеира Пинто, Хенри Аспегрен, Хекинг Јан, Хесам Багеринежад, Хонгју Рен, Хантер Лајтман, Хјеонву Но, Иан Кивличан, Иан Сол, Игнаси Клавера, Икаи Лан, Илгеј Акајаман Фулфорд, Џејк Брил, Јакуб Пачоки, Џејмс Беткер, Џејмс Ли, Џејмс Чин, Џејми Кирос, Џејсон Аи, Џеј Ванг, Џин Харб, Џеф Мики, Џефри Хан, Џефри Ванг, Џереми Чен, Џери Творек, Џесика Лианг, Џесика Џиаху, Џианг, Џианг. Јин, Џинг Ли, Џоан Јанг, Џоел Морис, Јоханес Ферстад, Јоханес Хајдеке, Џон Фишбејн, Џон Окун, Џонатан Гордон, Јост Хуизинга, Џос Крајјевелд, Џозеф Мо, Џош Лосон, Џош Тобин, Џунхуа Мао, Каи Чен, Каи Хајаши, Каран Сингал, Карина Нгујен, Кети Ши, Кели Стирман, Кенџи Хата, Кени Нгујен, Керен Гу-Лемберг, Кевин Гладстон, Кевин Кинг, Кевин Лиу, Кевин Лу, Кевин Парк, Кевин Стоун, Кевин Веил, Кевин Винери, Муингше Ју, Кристенев Кристени Кшитиј Гупта, Кајл Косиќ, Лама Ахмад, Лери Лв, Лорен Итоу, Лорен Јанг, Ли Бајрон, Лео Чен, Лео Лиу, Леон Максин, Лејтон Хо, Ли Јинг, Лианг Ксионг, Лин Јанг, Линден Ли, Лоренц Кун, Луис Февриер, Лук Жангиј, Требац, Манас Жоглекар, Маноли Лиодакис, Манука Страта, Марк Чен, Марк Хаднал, Марк Сан, Марк Ванг, Мартин Ли, Марвин Џанг, Матеуш Литвин, Мет Џонс, Мет Лим, Макс Џонсон, Макс Шварцер, Мајанк Гупта, Меган Шах, Менгкинг Ванг, Менгјуан Јан, Миа Глазе, Мајкл Болин, Мајкл Лампе, Мајкл Малек, Мајкл Шарман, Мајкл Жанг, Мишел Ванг, Мишел Покрас, Мигел Оом Темудо де Кастро, Михаи Флоријан, Мајк Меклеј, Мајк Трпчиќ, Мики Хабрин, Мајлс Ванг, Минг Чен, Мингсуан Ванг, Минија Фенг, Мичел Гордон, Мо Баварија, Мостафа Роханинеџад, Начо Сото, Накул Кана, Нат МекАлиз, Натали Стаудачер, Натан ЛаФонтен, Нил Аџарапу, Ник Фелт, Ник Терли, Никил Панча, Никита Михајлин, Нико Феликс, Никунџ Ханда, Нинг Лиу, Нишант Раи, Ноа Јоргенсен, Ноам Браун, Олег Бојко, Олег Мурк, Оливија Воткинс, Оливие Годемент, Уна Глисон, Пол Ешборн, Павел Белов, Питер Флокхарт, Питер Хошел, Питер Жохов, Филип Пронин, Филип Гуо, Фиби Такер, Прафула Даривал, Прашант Р, Рејчел Диас, Рахул Арора, Рајкумар Самуел, Расмус Рајгард, Рави Теја Мулапуди, Рејмонд Ли, Раз Гаон, Реа Мијара, Реичиро Накано, Рејмар Леикенгхи, Рејмар Леикенгхи, Ксионг, Робин Браун, Роман Циупа, Руи Шу, Руслан Нигматулин, Сачи Џаин, Сагар Пател, Сем Алтман, Сем Тојзер, Сем Тојер, Самир Ахмед, Семјуел Мизерендино, Семјуел Волрих, Сандини Агарвал, Сантијаго Хернандез, Сара Хејтонми, Савана, Савана Шон Фицџералд, Север Банесиу, Шамез Хемани, Шенџија Жао, Шенгли Ху, Шибани Сантуркар, Шрејас Кришнасвами, Шучао Би, Шунју Јао, Шујуан Жанг, Симон Посада Фишман, Спенсер Папај, Спаг Голден, Шринивас Нарајанан, Стенли Хсиех, Стивен Логсдон, Сандип Тирумалареди, Тал Страмер, Тао Ванг, Тао Син, Тејлор Гордон, Теџал Патвардхан, Тибол Сотијау, Тина Срискандараџа, Тони Каспаро, Тони Жао, Тревор Крич, Узаир Навид Ифтихар, Валери Ки, Винеет Косараџу, Вишал Куо, Вичир Понг, Вивек Верма, Влад Петров, Венда Жоу, Венлеи Сие, Вентинг Жан, Вил ДеПуе, Вил Елсворт, Вилијам Шеу, Вајат Томпсон, Јаминг Лин, Јан Дубоа, Јаодонг Ју, Јара Какбаз, Јаш Патил, Јифан Ву, Јилонг Кин, Јининг Чен, Јируи Жанг, Јо Шавит, Јанг Ча, Јунјун Ванг, Јуши Ванг, Зак Султан, Зехао Доу, Зевеј Чу, Женг Шао, Жиганг Ванг, Жишуаи Џанг, Зихао Џанг