Әзірлеушілерге арналған GPT‑5 таныстыруы
Кодтау мен агенттік тапсырмаларға арналған ең үздік модель.
Бүгін біз API платформамызда GPT‑5‑ті ұсынамыз — бұл кодтау және агенттік тапсырмалар үшін әзірге ең үздік моделіміз.
GPT‑5 негізгі кодтау бенчмарктері бойынша заманауи озық деңгейде (SOTA): SWE-bench Verified-та 74.9%, ал Aider polyglot-та 88% көрсетті. Біз GPT‑5‑ті код жазудағы шынайы серіктес болатындай етіп үйреттік. Ол жоғары сапалы код жасауда және қателерді түзету, кодты өңдеу, күрделі код базалары туралы сұрақтарға жауап беру сияқты тапсырмаларда озық. Модель басқаруға икемді және бірлесіп жұмыс істеуге ыңғайлы — ол өте егжей-тегжейлі нұсқауларды жоғары дәлдікпен орындай алады және құрал шақыруларына дейін де, олардың арасында да өз әрекеттерін алдын ала түсіндіріп бере алады. Модель фронтенд кодтауда да өте мықты: ішкі тестілеуде OpenAI o3‑ті 70% жағдайда веб-фронтенд әзірлеуде басып озды.
Біз GPT‑5‑ті стартаптар мен ірі кәсіпорындардағы ерте тестілеушілермен бірге нақты әлемдегі кодтау тапсырмаларында үйреттік. Cursor GPT‑5‑ті «[олар] қолданған ең ақылды модель» және «айрықша зерек, басқаруға оңай, тіпті басқа модельдерден көрмеген өзіндік мінезі бар» дейді. Windsurf GPT‑5 олардың бағалауларында SOTA екенін және «басқа озық модельдерге қарағанда құрал шақыру қателік деңгейі екі есе төмен» екенін бөлісті. Vercel «бұл эстетикалық сезім де, код сапасы да бойынша ең жоғары нәтижеге жететін ең үздік фронтенд AI моделі, өз санатында дара» дейді.
GPT‑5 ұзаққа созылатын агенттік тапсырмаларда да озық — бар болғаны 2 ай бұрын шыққан құрал шақыру бенчмаркі τ2-bench telecom бойынша SOTA нәтижесіне (96.7%) жетті. GPT‑5‑тің жақсарған құрал интеллекті оған ондаған құрал шақыруын — тізбектей де, параллель де — бағдарынан жаңылмай сенімді түрде байланыстыруға мүмкіндік береді, сондықтан ол күрделі, нақты әлемдегі тапсырмаларды басынан аяғына дейін әлдеқайда жақсы орындайды. Сонымен қатар ол құрал нұсқауларын дәлірек орындайды, құрал қателерін жақсырақ өңдейді және ұзын контексттен мазмұн алуда озық. Manus GPT‑5 «[олардың] ішкі бенчмарктерінде бір модельден көрген ең үздік нәтижеге жетті» дейді. Notion «[модельдің] жылдам жауаптары, әсіресе төмен ой қорыту режимінде, GPT‑5‑ті күрделі тапсырмаларды бір мысалмен шешу керек кезде мінсіз модель етеді» дейді. Inditex «[GPT‑5]‑ті шын мәнінде ерекшелендіретіні — оның ой қорыту тереңдігі: тақырыпты шын түсінуді көрсететін нәзік, көпқабатты жауаптар» деп бөлісті.
Біз API-де әзірлеушілерге модель жауаптарын көбірек басқару мүмкіндігін беру үшін жаңа мүмкіндіктерді ұсынып отырмыз. GPT‑5 жаңа verbosity параметрін қолдайды (мәндері: low, medium, high), ол жауаптардың қысқа әрі нақты немесе ұзақ әрі жан-жақты болуын басқаруға көмектеседі. GPT‑5‑тің reasoning_effort параметрі енді минималды мәнді де қабылдай алады, осылайша ұзақ ой қорытуға бармай, жауаптарды жылдамырақ қайтаруға болады. Сондай-ақ біз жаңа құрал түрін — custom tools — қостық, ол GPT‑5‑ке құралдарды JSON орнына жай мәтінмен шақыруға мүмкіндік береді. Custom tools әзірлеуші ұсынған контекстсіз грамматикалар арқылы шектеуді қолдайды.
Біз API-де GPT‑5‑ті үш өлшемде ұсынамыз — gpt-5, gpt-5-mini және gpt-5-nano — осылайша әзірлеушілер өнімділік, құн және кідіріс арасындағы айырбасты икемдірек басқара алады. ChatGPT‑тегі GPT‑5 ойлайтын, ойламайтын және роутер модельдер жүйесі болса, API платформасындағы GPT‑5 — ChatGPT‑тегі ең жоғары өнімділікті қамтамасыз ететін ойлайтын модель. Айта кетерлігі, минималды ой қорытуы бар GPT‑5 — ChatGPT‑тегі ойламайтын модельден бөлек модель және ол әзірлеушілерге жақсырақ бейімделген. ChatGPT‑те қолданылатын ойламайтын модель gpt-5-chat-latest ретінде қолжетімді.
ChatGPT‑тегі GPT‑5 туралы оқу және ChatGPT‑тегі басқа жақсартулар жайлы көбірек білу үшін біздің research blog-ты қараңыз. Кәсіпорындардың GPT‑5‑ті қалай пайдалануға ынталы екені туралы көбірек білу үшін біздің enterprise blog-ты қараңыз.
GPT‑5 — біз шығарған ең мықты код жазу моделі. Ол кодтау бенчмарктері мен нақты қолдану жағдайларында o3‑тен озып шығады және Cursor, Windsurf, GitHub Copilot және Codex CLI сияқты агенттік кодтау өнімдерінде жарқырау үшін қосымша бапталған. GPT‑5 альфа-тестілеушілерімізді таңғалдырды және олардың көптеген жабық ішкі бағалауларында рекорд орнатты.
Нақты кодтау тапсырмаларындағы GPT‑5 туралы ерте пікірлер
«GPT-5 — біз қолданған ең ақылды код жазу моделі. Біздің команда GPT-5-ті айрықша зерек, басқаруға оңай, тіпті басқа ешбір модельден көрмеген өзіндік мінезі бар деп тапты. Ол қиын, терең жасырын қателерді тауып қана қоймай, күрделі тапсырмаларды соңына дейін жеткізу үшін ұзақ, көп айналымды фондық агенттерді де іске қоса алады — бұрын басқа модельдер тығырыққа тірелетін мәселелердің дәл өзі. Ол PR-ларды ауқымдау мен жоспарлаудан бастап, толық ұшынан-ұшына құрастыруларды аяқтауға дейінгі күнделікті негізгі құралымызға айналды.»
Нақты әлемдегі бағдарламалық инженерия тапсырмаларына негізделген SWE-bench Verified бағалауында GPT‑5 74.9% көрсетеді, ал o3 — 69.1%. Айта кетерлігі, GPT‑5 бұл жоғары нәтижеге үлкен тиімділік пен жылдамдықпен жетеді: жоғары ой қорыту күш-жігеріндегі o3‑пен салыстырғанда GPT‑5 шығыс токендерін 22% аз және құрал шақыруларын 45% аз қолданады.
SWE-bench Verified бағалауында модельге код репозиторийі мен мәселе сипаттамасы беріледі және ол мәселені шешетін патч жасауы керек. Мәтін белгілері ой қорыту күш-жігерін көрсетеді. Біздің ұпайларымыз шешімдері инфрақұрылымымызда сенімді өтпеген 500 есептің 23-ін қамтымайды. GPT‑5‑ке шешімдерді мұқият тексеруді баса көрсететін қысқа көмексөз берілді; дәл сол көмексөз o3‑ке пайда әкелген жоқ.
Код өңдеуді бағалайтын Aider polyglot-та GPT‑5 88% көрсеткішімен жаңа рекорд орнатты, бұл o3‑пен салыстырғанда қателік деңгейін үштен біріне азайтады.
Aider polygot(жаңа терезеде ашылады) (diff) бағалауында модельге Exercism-тен бағдарламалау тапсырмасы беріледі және ол шешімін код diff түрінде жазуы керек. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.
Сондай-ақ GPT‑5 әртүрлі бөліктердің қалай жұмыс істейтінін не өзара әрекеттесетінін түсіндіру үшін код базаларына терең үңілуде өте мықты екенін байқадық. OpenAI-дің күшейтпелі оқыту стегі сияқты күрделі код базасында GPT‑5 біздің код туралы ой қорытып, сұрақтарға жауап беруге көмектесіп, күнделікті жұмысымызды жеделдетіп отыр.
Веб-қолданбаларға арналған фронтенд кодын жасағанда, GPT‑5 эстетикаға көбірек мән береді, батылырақ және дәлірек. o3‑пен қатар қойылған салыстыруларда тестілеушілеріміз GPT‑5‑ті 70% жағдайда таңдады.
Міне, GPT‑5 бір ғана көмексөзбен не істей алатынының қызықты, іріктелген мысалдары:
Көмексөз: Өтінемін, кофе қуыру және мінсіз эспрессо жасау үшін жабдықты жалға беру мен коучинг ұсынатын, айына $200 тұратын қызметке арналған әдемі, шынайы landing page жасаңыз. Нысаналы аудитория — tech саласында жұмыс істеуі мүмкін, білімді, бос қаражаты бар және кофенің өнері мен ғылымына құмар Bay Area-дағы орта жастағы адам. 6 айлық жазылымға конверсияны оңтайландырыңыз.
GPT‑5 жасаған көбірек мысалдарды біздің галереядан осында(жаңа терезеде ашылады) көріңіз.
GPT‑5 — әсіресе Cursor, Windsurf, GitHub Copilot және Codex CLI сияқты агенттік кодтау өнімдерінде — жақсырақ серіктес. Жұмыс барысында GPT‑5 құрал шақыруларының арасында жоспарларды, жаңартуларды және қорытындыларды шығара алады. Алдыңғы модельдерімізбен салыстырғанда GPT‑5 өршіл тапсырмаларды сіздің рұқсатыңызды күтпей немесе күрделіліктен тайсақтамай аяқтауда белсендірек.
Міне, GPT‑5 күрделі тапсырманы орындау кезінде қалай көрінетініне мысал (бұл жағдайда — мейрамханаға арналған веб-сайт жасау):
Пайдаланушы мейрамханасына арналған веб-сайт сұрағаннан кейін, GPT‑5 қысқа жоспар ұсынады, қосымшаның қаңқасын жасайды, тәуелділіктерді орнатады, сайт контентін құрады, компиляция қателерін тексеру үшін құрастыруды іске қосады, атқарған жұмысын қорытындылайды және ықтимал келесі қадамдарды ұсынады. Бұл видеода күту уақытын қысқарту үшін жылдамдық шамамен 3 есе арттырылған; сайтты толық жасау уақыты шамамен үш минут болды.
Агенттік кодтаудан бөлек, GPT‑5 жалпы агенттік тапсырмаларда да жақсырақ. GPT‑5 нұсқауды орындау (Scale MultiChallenge-та 69.6%, o3‑mini арқылы бағаланған) және құрал шақыру (τ2-bench telecom-та 96.7%) бенчмарктерінде жаңа рекордтар орнатты. Жақсарған құрал интеллекті GPT‑5‑ке нақты әлемдегі тапсырмаларды орындау үшін әрекеттерді сенімдірек тізбектеуге мүмкіндік береді.
Агенттік тапсырмалардағы GPT‑5 туралы ерте пікірлер
«GPT-5 — үлкен қадам алға. Ол біздің ішкі бенчмарктерімізде бір модельден көрген ең үздік өнімділікке қол жеткізді. GPT-5 түрлі агенттік тапсырмаларда тіпті бір жол кодты өзгертпей немесе көмексөзді бейімдемей тұрып-ақ озық болды. Жаңа кіріспе хабарламалар мен құрал қолдануды дәлірек басқару агенттеріміздің тұрақтылығы мен басқарылуында елеулі секіріс жасауға мүмкіндік берді.»
GPT‑5 өзінен бұрынғы кез келген модельден гөрі нұсқауларды сенімдірек орындайды, COLLIE, Scale MultiChallenge және нұсқауды орындау жөніндегі ішкі бағалауымызда жоғары нәтиже көрсетті.
COLLIE(жаңа терезеде ашылады) бағалауында модельдер әртүрлі шектеулерге сай келетін мәтін жазуы керек. Scale MultiChallenge(жаңа терезеде ашылады) бағалауында модельдерге алдыңғы хабарламалардағы ақпараттың төрт түрін дұрыс қолдануды талап ететін көп айналымды әңгімелер ұсынылады. Біздің ұпайлар бағалаушы ретінде o3‑mini қолданудан алынған, ол GPT‑4o‑ға қарағанда дәлірек болды. OpenAI API үшін нұсқауды орындау жөніндегі ішкі бағалауымызда модельдер нақты әзірлеуші пікірлерінен алынған күрделі нұсқауларды орындауы керек. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.
Біз құрал шақыруды әзірлеушілер үшін маңызды бағыттарда жақсарту үшін көп еңбек еттік. GPT‑5 құрал нұсқауларын жақсырақ орындайды, құрал қателерін жақсырақ өңдейді және көптеген құрал шақыруларын тізбектей де, параллель де белсендірек жасай алады. Нұсқау берілсе, GPT‑5 ұзақ агенттік тапсырмалар кезінде пайдаланушыларды прогресс туралы хабардар ету үшін құрал шақыруларына дейін және олардың арасында кіріспе хабарламаларды да шығара алады.
Екі ай бұрын Sierra.ai компаниясы τ2-bench telecom-ды пайдаланушылар әлем күйін өзгерте алатын ортада өзара әрекеттескенде тілдік модель өнімділігінің айтарлықтай төмендейтінін көрсететін күрделі құрал қолдану бенчмаркі ретінде жариялады. Олардың жарияланымында(жаңа терезеде ашылады) ешбір модель 49%-дан жоғары ұпай жинаған жоқ. GPT‑5 — 97%.
τ2-bench(жаңа терезеде ашылады) бағалауында модель клиенттерге қызмет көрсету тапсырмасын орындау үшін құралдарды қолдануы керек, мұнда сөйлесе алатын және әлем күйіне әрекет жасай алатын пайдаланушы болуы мүмкін. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.
GPT‑5 ұзын контекст өнімділігінде де айқын жақсаруды көрсетеді. Ұзын контекстен ақпарат алуды өлшейтін OpenAI-MRCR бағалауында GPT‑5 o3 пен GPT‑4.1‑ден озады, әрі бұл айырмашылық енгізу ұзындығы артқан сайын едәуір ұлғаяды.
OpenAI-MRCR(жаңа терезеде ашылады) (көп айналымды сілтемелік сәйкестікті шешу) бағалауында бірдей бірнеше «ине» пайдаланушы сұрауы ұқсас сұраулар мен жауаптардан тұратын ұзын «шөмелелерге» енгізіледі, содан кейін модельден i-ші инеге берілген жауапты қайта шығару сұралады. Орташа сәйкестік қатынасы модель жауабы мен дұрыс жауап арасындағы жолдық сәйкестіктің орташа қатынасын өлшейді. Ең көбі 256k енгізу токені бар нүктелер 128k–256k енгізу токендері бойынша орташа мәндерді білдіреді және сол сияқты жалғаса береді. Мұнда 256k дегеніміз 256 * 1,024 = 262,114 токен. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.
Сондай-ақ біз BrowseComp Long Context(жаңа терезеде ашылады) атты ұзын контекстегі сұрақ-жауапты бағалауға арналған жаңа бенчмаркті ашық кодпен ұсынып отырмыз. Бұл бенчмаркте модельге пайдаланушы сұрауы, соған қатысты іздеу нәтижелерінің ұзын тізімі беріледі және ол сол нәтижелерге сүйеніп сұраққа жауап беруі керек. Біз BrowseComp Long Context-ті шынайы, қиын және сенімді түрде дұрыс эталон жауаптары бар етіп жасадық. Көлемі 128K–256K токен болатын кірістерде GPT‑5 89% жағдайда дұрыс жауап береді.
API-де GPT‑5‑тің барлық модельдері ең көбі 272,000 енгізу токенін қабылдай алады және ең көбі 128,000 ой қорыту және шығыс токенін шығара алады, яғни жалпы контекст ұзындығы 400,000 токен.
GPT‑5 бұрынғы модельдерімізге қарағанда сенімдірек. LongFact және FactScore бенчмарктеріндегі көмексөздер бойынша GPT‑5 o3‑пен салыстырғанда шамамен 80% аз фактілік қате жібереді. Бұл оны дұрыстық маңызды болатын агенттік қолдану жағдайларына — әсіресе кодта, деректерде және шешім қабылдауда — жақсырақ бейімдейді.
Жоғары ұпайлар — нашар нәтиже. LongFact(жаңа терезеде ашылады) және FActScore(жаңа терезеде ашылады) ашық түрдегі факт іздеуге бағытталған сұрақтардан тұрады. Біз осы бенчмарктердегі көмексөздер бойынша жауаптардың фактілерге сәйкестігін тексеру үшін шолуы бар LLM-негізді бағалаушыны қолданамыз және фактілік тұрғыдан қате тұжырымдардың үлесін өлшейміз. Іске асыру және бағалау егжей-тегжейлерін жүйе картасынан табуға болады. Ойлайтын модельдер жоғары ой қорыту күш-жігерін пайдаланды. Іздеу қосылған жоқ.
Жалпы алғанда, GPT‑5 өз шектеулерін жақсырақ сезінуге және күтпеген тосын жағдайларды жақсырақ өңдеуге үйретілген. Сондай-ақ біз GPT‑5‑ті денсаулыққа қатысты сұрақтарда әлдеқайда дәлірек болуға үйреттік (толығырақ біздің research blog-та) оқыңыз. Барлық тілдік модельдер сияқты, тәуекел жоғары болғанда GPT‑5 жұмысының нәтижесін тексеруді ұсынамыз.
Әзірлеушілер API-дегі reasoning_effort параметрі арқылы GPT‑5‑тің ойлау уақытын басқара алады. Бұрыннан бар low, medium (әдепкі) және high мәндеріне қосымша GPT‑5 minimal мәнін де қолдайды, ол GPT‑5‑тің ой қорытуын азайтып, жауапты тез қайтаруға мүмкіндік береді.
Жоғары reasoning_effort мәндері сапаны барынша арттырады, ал төмен мәндер жылдамдықты барынша арттырады. Қосымша ой қорыту барлық тапсырмаларға бірдей пайда әкелмейді, сондықтан сіз үшін маңызды қолдану жағдайларында қайсысы жақсы жұмыс істейтінін көру үшін тәжірибе жасап көруді ұсынамыз.
Мысалы, low-дан жоғары ой қорыту салыстырмалы түрде қарапайым ұзын контекстен іздеуге аз ғана пайда береді, бірақ көрнекі ой қорыту бенчмаркі CharXiv Reasoning(жаңа терезеде ашылады) үшін бірнеше пайыздық тармақ қосады.
GPT‑5‑тің ой қорыту күш-жігері әртүрлі тапсырмаларда әртүрлі пайда береді. CharXiv Reasoning үшін GPT‑5‑ке python құралына қолжетімділік берілді.
GPT‑5 жауаптарының әдепкі ұзындығын басқаруға көмектесу үшін біз жаңа API параметрі verbosity-ті енгіздік, ол low, medium (әдепкі) және high мәндерін қабылдайды. Егер нақты нұсқаулар толықтық параметрлерімен қайшылыққа түссе, нақты нұсқаулар басымдыққа ие болады. Мысалы, GPT‑5‑тен «5 абзацтан тұратын эссе жаз» деп сұрасаңыз, модель жауабы толықтық деңгейіне қарамастан әрқашан 5 абзац болады (алайда абзацтардың өзі ұзынырақ немесе қысқарақ болуы мүмкін).
Толықтық=төмен
Толықтық=орташа
Толықтық=жоғары
Нұсқау берілсе, GPT‑5 құрал шақыруларына дейін және олардың арасында пайдаланушыға көрінетін кіріспе хабарламаларды шығарады. Жасырын ой қорыту хабарламаларынан айырмашылығы, бұл көрінетін хабарламалар GPT‑5‑ке жоспарлар мен прогресті пайдаланушыға жеткізуге мүмкіндік береді, сол арқылы соңғы пайдаланушыларға оның тәсілін және құрал шақыруларының артындағы ниетін түсінуге көмектеседі.
Біз жаңа құрал түрін — custom tools — ұсынамыз, ол GPT‑5‑ке құралды JSON орнына жай мәтінмен шақыруға мүмкіндік береді. GPT‑5‑ті custom tool пішімдерін ұстануға шектеу үшін әзірлеушілер regex немесе тіпті анағұрлым толық сипатталған контекстсіз грамматиканы(жаңа терезеде ашылады) ұсына алады.
Бұрын әзірлеуші анықтайтын құралдарға арналған интерфейсіміз оларды JSON арқылы шақыруды талап ететін, бұл веб API-лер мен әзірлеушілер жиі қолданатын кең таралған пішім. Алайда жарамды JSON шығару үшін модель барлық тырнақшаларды, кері қиғаш сызықтарды, жаңа жолдарды және басқа басқару таңбаларын мінсіз экранирлеуі керек. Біздің модельдер JSON шығаруға жақсы үйретілгенімен, жүздеген жол код не 5 беттік есеп сияқты ұзын кірістерде қате ықтималдығы арта түседі. Custom tools арқылы GPT‑5 құрал кірістерін барлық экранирлеуді қажет ететін таңбаларды экранирлемей-ақ жай мәтін түрінде жаза алады.
JSON құралдарының орнына custom tools қолданылған SWE-bench Verified-та GPT‑5 шамамен сол деңгейде нәтиже көрсетеді.
GPT‑5 қауіпсіздік бойынша озық шепті алға жылжытады және анағұрлым орнықты, сенімді әрі пайдалы модель болып табылады. GPT‑5 бұрынғы модельдерімізге қарағанда галлюцинация жасау ықтималдығы әлдеқайда төмен, өз әрекеттері мен қабілеттерін пайдаланушыға анағұрлым адал жеткізеді және қауіпсіздік шектерінен шықпай, мүмкін болған жерде ең пайдалы жауапты ұсынады. Толығырақ біздің research blog-та оқи аласыз.
GPT‑5 қазір API платформасында үш өлшемде қолжетімді: gpt-5, gpt-5-mini және gpt-5-nano. Ол Responses API-де, Chat Completions API-де қолжетімді және Codex CLI-де әдепкі мән болып табылады. GPT‑5 бағасы — 1M енгізу токеніне $1.25 және 1M шығыс токеніне $10, GPT‑5 mini бағасы — 1M енгізу токеніне $0.25 және 1M шығыс токеніне $2, ал GPT‑5 nano бағасы — 1M енгізу токеніне $0.05 және 1M шығыс токеніне $0.40.
Бұл модельдер reasoning_effort және verbosity API параметрлерін, сондай-ақ custom tools-ты қолдайды. Олар сондай-ақ параллель құрал шақыруды, кірістірілген құралдарды (веб-іздеу, файл іздеу, суретті генерациялау және т.б.), негізгі API мүмкіндіктерін (ағындық беру, құрылымдалған нәтижелер және т.б.), сондай-ақ көмексөз кэштеу мен Batch API сияқты шығынды үнемдейтін мүмкіндіктерді қолдайды.
ChatGPT‑те қолданылатын GPT‑5‑тің ойламайтын нұсқасы API-де gpt-5-chat-latest ретінде қолжетімді, бағасы да 1M енгізу токеніне $1.25 және 1M шығыс токеніне $10.
GPT‑5 сондай-ақ Microsoft 365 Copilot, Copilot, GitHub Copilot және Azure AI Foundry сияқты Microsoft платформаларында да іске қосылып жатыр.
Бастау үшін GPT‑5 құжаттамасын(жаңа терезеде ашылады), баға туралы мәліметтерді(жаңа терезеде ашылады) және көмексөз нұсқаулығын(жаңа терезеде ашылады) қарап шығыңыз.
Интеллект
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Алдыңғы блог жазбамызда берілген сандармен шағын айырмашылық бар, өйткені олар HLE-дің бұрынғы нұсқасында іске қосылған.
Мультимодальды
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Кодтау
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 м. $ | 75 мың $ | 49 мың $ | 86 мың $ | 66 мың $ | 34 мың $ | 31 мың $ | 9 мың $ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Біз инфрақұрылымымызда іске қосу мүмкін болмаған 23/500 есепті алып тастадық. Алып тасталған 23 тапсырманың толық тізімі: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' және 'sphinx-doc__sphinx-9367'.
Нұсқауды орындау
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Ескерту: MultiChallenge-тағы әдепкі бағалаушы (GPT-4o) модель жауаптарын жиі қате бағалайды деп таптық. Біздіңше, бағалаушыны o3-mini сияқты ойлайтын модельге ауыстыру қарастырған үлгілерімізде бағалау дәлдігін едәуір жақсартады.
Функция шақыру
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Ұзын контекст
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Галлюцинациялар
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


