Негізгі мазмұнға өту
OpenAI

2025 ж. 7 тамыз

Өнім

Әзірлеушілерге арналған GPT‑5 таныстыруы

Кодтау мен агенттік тапсырмаларға арналған ең үздік модель.

Жүктелуде…

Кіріспе

Бүгін біз API платформамызда GPT‑5‑ті ұсынамыз — бұл кодтау және агенттік тапсырмалар үшін әзірге ең үздік моделіміз.

GPT‑5 негізгі кодтау бенчмарктері бойынша заманауи озық деңгейде (SOTA): SWE-bench Verified-та 74.9%, ал Aider polyglot-та 88% көрсетті. Біз GPT‑5‑ті код жазудағы шынайы серіктес болатындай етіп үйреттік. Ол жоғары сапалы код жасауда және қателерді түзету, кодты өңдеу, күрделі код базалары туралы сұрақтарға жауап беру сияқты тапсырмаларда озық. Модель басқаруға икемді және бірлесіп жұмыс істеуге ыңғайлы — ол өте егжей-тегжейлі нұсқауларды жоғары дәлдікпен орындай алады және құрал шақыруларына дейін де, олардың арасында да өз әрекеттерін алдын ала түсіндіріп бере алады.  Модель фронтенд кодтауда да өте мықты: ішкі тестілеуде OpenAI o3‑ті 70% жағдайда веб-фронтенд әзірлеуде басып озды.

Біз GPT‑5‑ті стартаптар мен ірі кәсіпорындардағы ерте тестілеушілермен бірге нақты әлемдегі кодтау тапсырмаларында үйреттік. Cursor GPT‑5‑ті «[олар] қолданған ең ақылды модель» және «айрықша зерек, басқаруға оңай, тіпті басқа модельдерден көрмеген өзіндік мінезі бар» дейді. Windsurf GPT‑5 олардың бағалауларында SOTA екенін және «басқа озық модельдерге қарағанда құрал шақыру қателік деңгейі екі есе төмен» екенін бөлісті. Vercel «бұл эстетикалық сезім де, код сапасы да бойынша ең жоғары нәтижеге жететін ең үздік фронтенд AI моделі, өз санатында дара» дейді.

GPT‑5 ұзаққа созылатын агенттік тапсырмаларда да озық — бар болғаны 2 ай бұрын шыққан құрал шақыру бенчмаркі τ2-bench telecom бойынша SOTA нәтижесіне (96.7%) жетті. GPT‑5‑тің жақсарған құрал интеллекті оған ондаған құрал шақыруын — тізбектей де, параллель де — бағдарынан жаңылмай сенімді түрде байланыстыруға мүмкіндік береді, сондықтан ол күрделі, нақты әлемдегі тапсырмаларды басынан аяғына дейін әлдеқайда жақсы орындайды. Сонымен қатар ол құрал нұсқауларын дәлірек орындайды, құрал қателерін жақсырақ өңдейді және ұзын контексттен мазмұн алуда озық. Manus GPT‑5 «[олардың] ішкі бенчмарктерінде бір модельден көрген ең үздік нәтижеге жетті» дейді. Notion «[модельдің] жылдам жауаптары, әсіресе төмен ой қорыту режимінде, GPT‑5‑ті күрделі тапсырмаларды бір мысалмен шешу керек кезде мінсіз модель етеді» дейді. Inditex «[GPT‑5]‑ті шын мәнінде ерекшелендіретіні — оның ой қорыту тереңдігі: тақырыпты шын түсінуді көрсететін нәзік, көпқабатты жауаптар» деп бөлісті.

Біз API-де әзірлеушілерге модель жауаптарын көбірек басқару мүмкіндігін беру үшін жаңа мүмкіндіктерді ұсынып отырмыз. GPT‑5 жаңа verbosity параметрін қолдайды (мәндері: low, medium, high), ол жауаптардың қысқа әрі нақты немесе ұзақ әрі жан-жақты болуын басқаруға көмектеседі. GPT‑5‑тің reasoning_effort параметрі енді минималды мәнді де қабылдай алады, осылайша ұзақ ой қорытуға бармай, жауаптарды жылдамырақ қайтаруға болады. Сондай-ақ біз жаңа құрал түрін — custom tools — қостық, ол GPT‑5‑ке құралдарды JSON орнына жай мәтінмен шақыруға мүмкіндік береді. Custom tools әзірлеуші ұсынған контекстсіз грамматикалар арқылы шектеуді қолдайды.

Біз API-де GPT‑5‑ті үш өлшемде ұсынамыз — gpt-5, gpt-5-mini және gpt-5-nano — осылайша әзірлеушілер өнімділік, құн және кідіріс арасындағы айырбасты икемдірек басқара алады. ChatGPT‑тегі GPT‑5 ойлайтын, ойламайтын және роутер модельдер жүйесі болса, API платформасындағы GPT‑5 — ChatGPT‑тегі ең жоғары өнімділікті қамтамасыз ететін ойлайтын модель. Айта кетерлігі, минималды ой қорытуы бар GPT‑5 — ChatGPT‑тегі ойламайтын модельден бөлек модель және ол әзірлеушілерге жақсырақ бейімделген. ChatGPT‑те қолданылатын ойламайтын модель gpt-5-chat-latest ретінде қолжетімді.

ChatGPT‑тегі GPT‑5 туралы оқу және ChatGPT‑тегі басқа жақсартулар жайлы көбірек білу үшін біздің research blog-ты қараңыз. Кәсіпорындардың GPT‑5‑ті қалай пайдалануға ынталы екені туралы көбірек білу үшін біздің enterprise blog-ты қараңыз.

Кодтау

GPT‑5 — біз шығарған ең мықты код жазу моделі. Ол кодтау бенчмарктері мен нақты қолдану жағдайларында o3‑тен озып шығады және Cursor, Windsurf, GitHub Copilot және Codex CLI сияқты агенттік кодтау өнімдерінде жарқырау үшін қосымша бапталған. GPT‑5 альфа-тестілеушілерімізді таңғалдырды және олардың көптеген жабық ішкі бағалауларында рекорд орнатты. 

Нақты кодтау тапсырмаларындағы GPT‑5 туралы ерте пікірлер

«GPT-5 — біз қолданған ең ақылды код жазу моделі. Біздің команда GPT-5-ті айрықша зерек, басқаруға оңай, тіпті басқа ешбір модельден көрмеген өзіндік мінезі бар деп тапты. Ол қиын, терең жасырын қателерді тауып қана қоймай, күрделі тапсырмаларды соңына дейін жеткізу үшін ұзақ, көп айналымды фондық агенттерді де іске қоса алады — бұрын басқа модельдер тығырыққа тірелетін мәселелердің дәл өзі. Ол PR-ларды ауқымдау мен жоспарлаудан бастап, толық ұшынан-ұшына құрастыруларды аяқтауға дейінгі күнделікті негізгі құралымызға айналды.»
Michael Truell, Cursor компаниясының тең құрылтайшысы және CEO-сы

Нақты әлемдегі бағдарламалық инженерия тапсырмаларына негізделген SWE-bench Verified бағалауында GPT‑5 74.9% көрсетеді, ал o3 — 69.1%. Айта кетерлігі, GPT‑5 бұл жоғары нәтижеге үлкен тиімділік пен жылдамдықпен жетеді: жоғары ой қорыту күш-жігеріндегі o3‑пен салыстырғанда GPT‑5 шығыс токендерін 22% аз және құрал шақыруларын 45% аз қолданады.

SWE-bench Verified бағалауында модельге код репозиторийі мен мәселе сипаттамасы беріледі және ол мәселені шешетін патч жасауы керек. Мәтін белгілері ой қорыту күш-жігерін көрсетеді. Біздің ұпайларымыз шешімдері инфрақұрылымымызда сенімді өтпеген 500 есептің 23-ін қамтымайды. GPT‑5‑ке шешімдерді мұқият тексеруді баса көрсететін қысқа көмексөз берілді; дәл сол көмексөз o3‑ке пайда әкелген жоқ.

Код өңдеуді бағалайтын Aider polyglot-та GPT‑5 88% көрсеткішімен жаңа рекорд орнатты, бұл o3‑пен салыстырғанда қателік деңгейін үштен біріне азайтады.

Aider polygot(жаңа терезеде ашылады) (diff) бағалауында модельге Exercism-тен бағдарламалау тапсырмасы беріледі және ол шешімін код diff түрінде жазуы керек. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.

Сондай-ақ GPT‑5 әртүрлі бөліктердің қалай жұмыс істейтінін не өзара әрекеттесетінін түсіндіру үшін код базаларына терең үңілуде өте мықты екенін байқадық. OpenAI-дің күшейтпелі оқыту стегі сияқты күрделі код базасында GPT‑5 біздің код туралы ой қорытып, сұрақтарға жауап беруге көмектесіп, күнделікті жұмысымызды жеделдетіп отыр. 

Фронтенд инженериясы

Веб-қолданбаларға арналған фронтенд кодын жасағанда, GPT‑5 эстетикаға көбірек мән береді, батылырақ және дәлірек. o3‑пен қатар қойылған салыстыруларда тестілеушілеріміз GPT‑5‑ті 70% жағдайда таңдады.

Міне, GPT‑5 бір ғана көмексөзбен не істей алатынының қызықты, іріктелген мысалдары:

Көмексөз: Өтінемін, кофе қуыру және мінсіз эспрессо жасау үшін жабдықты жалға беру мен коучинг ұсынатын, айына $200 тұратын қызметке арналған әдемі, шынайы landing page жасаңыз. Нысаналы аудитория — tech саласында жұмыс істеуі мүмкін, білімді, бос қаражаты бар және кофенің өнері мен ғылымына құмар Bay Area-дағы орта жастағы адам. 6 айлық жазылымға конверсияны оңтайландырыңыз.

GPT‑5 жасаған көбірек мысалдарды біздің галереядан осында(жаңа терезеде ашылады) көріңіз.

Кодтау ынтымақтастығы

GPT‑5 — әсіресе Cursor, Windsurf, GitHub Copilot және Codex CLI сияқты агенттік кодтау өнімдерінде — жақсырақ серіктес. Жұмыс барысында GPT‑5 құрал шақыруларының арасында жоспарларды, жаңартуларды және қорытындыларды шығара алады. Алдыңғы модельдерімізбен салыстырғанда GPT‑5 өршіл тапсырмаларды сіздің рұқсатыңызды күтпей немесе күрделіліктен тайсақтамай аяқтауда белсендірек.

Міне, GPT‑5 күрделі тапсырманы орындау кезінде қалай көрінетініне мысал (бұл жағдайда — мейрамханаға арналған веб-сайт жасау):

Пайдаланушы мейрамханасына арналған веб-сайт сұрағаннан кейін, GPT‑5 қысқа жоспар ұсынады, қосымшаның қаңқасын жасайды, тәуелділіктерді орнатады, сайт контентін құрады, компиляция қателерін тексеру үшін құрастыруды іске қосады, атқарған жұмысын қорытындылайды және ықтимал келесі қадамдарды ұсынады. Бұл видеода күту уақытын қысқарту үшін жылдамдық шамамен 3 есе арттырылған; сайтты толық жасау уақыты шамамен үш минут болды.

Агенттік тапсырмалар

Агенттік кодтаудан бөлек, GPT‑5 жалпы агенттік тапсырмаларда да жақсырақ. GPT‑5 нұсқауды орындау (Scale MultiChallenge-та 69.6%, o3‑mini арқылы бағаланған) және құрал шақыру (τ2-bench telecom-та 96.7%) бенчмарктерінде жаңа рекордтар орнатты. Жақсарған құрал интеллекті GPT‑5‑ке нақты әлемдегі тапсырмаларды орындау үшін әрекеттерді сенімдірек тізбектеуге мүмкіндік береді.

Агенттік тапсырмалардағы GPT‑5 туралы ерте пікірлер

«GPT-5 — үлкен қадам алға. Ол біздің ішкі бенчмарктерімізде бір модельден көрген ең үздік өнімділікке қол жеткізді. GPT-5 түрлі агенттік тапсырмаларда тіпті бір жол кодты өзгертпей немесе көмексөзді бейімдемей тұрып-ақ озық болды. Жаңа кіріспе хабарламалар мен құрал қолдануды дәлірек басқару агенттеріміздің тұрақтылығы мен басқарылуында елеулі секіріс жасауға мүмкіндік берді.»
Yichao ‘Peak’ Ji, Manus компаниясының тең құрылтайшысы және бас ғалымы

Нұсқауды орындау

GPT‑5 өзінен бұрынғы кез келген модельден гөрі нұсқауларды сенімдірек орындайды, COLLIE, Scale MultiChallenge және нұсқауды орындау жөніндегі ішкі бағалауымызда жоғары нәтиже көрсетті.

COLLIE(жаңа терезеде ашылады) бағалауында модельдер әртүрлі шектеулерге сай келетін мәтін жазуы керек. Scale MultiChallenge(жаңа терезеде ашылады) бағалауында модельдерге алдыңғы хабарламалардағы ақпараттың төрт түрін дұрыс қолдануды талап ететін көп айналымды әңгімелер ұсынылады. Біздің ұпайлар бағалаушы ретінде o3‑mini қолданудан алынған, ол GPT‑4o‑ға қарағанда дәлірек болды. OpenAI API үшін нұсқауды орындау жөніндегі ішкі бағалауымызда модельдер нақты әзірлеуші пікірлерінен алынған күрделі нұсқауларды орындауы керек. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.

Құрал шақыру

Біз құрал шақыруды әзірлеушілер үшін маңызды бағыттарда жақсарту үшін көп еңбек еттік. GPT‑5 құрал нұсқауларын жақсырақ орындайды, құрал қателерін жақсырақ өңдейді және көптеген құрал шақыруларын тізбектей де, параллель де белсендірек жасай алады. Нұсқау берілсе, GPT‑5 ұзақ агенттік тапсырмалар кезінде пайдаланушыларды прогресс туралы хабардар ету үшін құрал шақыруларына дейін және олардың арасында кіріспе хабарламаларды да шығара алады.

Екі ай бұрын Sierra.ai компаниясы τ2-bench telecom-ды пайдаланушылар әлем күйін өзгерте алатын ортада өзара әрекеттескенде тілдік модель өнімділігінің айтарлықтай төмендейтінін көрсететін күрделі құрал қолдану бенчмаркі ретінде жариялады. Олардың жарияланымында(жаңа терезеде ашылады) ешбір модель 49%-дан жоғары ұпай жинаған жоқ. GPT‑5 — 97%.

τ2-bench(жаңа терезеде ашылады) бағалауында модель клиенттерге қызмет көрсету тапсырмасын орындау үшін құралдарды қолдануы керек, мұнда сөйлесе алатын және әлем күйіне әрекет жасай алатын пайдаланушы болуы мүмкін. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.

GPT‑5 ұзын контекст өнімділігінде де айқын жақсаруды көрсетеді. Ұзын контекстен ақпарат алуды өлшейтін OpenAI-MRCR бағалауында GPT‑5 o3 пен GPT‑4.1‑ден озады, әрі бұл айырмашылық енгізу ұзындығы артқан сайын едәуір ұлғаяды.

OpenAI-MRCR(жаңа терезеде ашылады) (көп айналымды сілтемелік сәйкестікті шешу) бағалауында бірдей бірнеше «ине» пайдаланушы сұрауы ұқсас сұраулар мен жауаптардан тұратын ұзын «шөмелелерге» енгізіледі, содан кейін модельден i-ші инеге берілген жауапты қайта шығару сұралады. Орташа сәйкестік қатынасы модель жауабы мен дұрыс жауап арасындағы жолдық сәйкестіктің орташа қатынасын өлшейді. Ең көбі 256k енгізу токені бар нүктелер 128k–256k енгізу токендері бойынша орташа мәндерді білдіреді және сол сияқты жалғаса береді. Мұнда 256k дегеніміз 256 * 1,024 = 262,114 токен. Ойлайтын модельдер жоғары ой қорыту күш-жігерімен іске қосылды.

Сондай-ақ біз BrowseComp Long Context(жаңа терезеде ашылады) атты ұзын контекстегі сұрақ-жауапты бағалауға арналған жаңа бенчмаркті ашық кодпен ұсынып отырмыз. Бұл бенчмаркте модельге пайдаланушы сұрауы, соған қатысты іздеу нәтижелерінің ұзын тізімі беріледі және ол сол нәтижелерге сүйеніп сұраққа жауап беруі керек. Біз BrowseComp Long Context-ті шынайы, қиын және сенімді түрде дұрыс эталон жауаптары бар етіп жасадық. Көлемі 128K–256K токен болатын кірістерде GPT‑5 89% жағдайда дұрыс жауап береді.

API-де GPT‑5‑тің барлық модельдері ең көбі 272,000 енгізу токенін қабылдай алады және ең көбі 128,000 ой қорыту және шығыс токенін шығара алады, яғни жалпы контекст ұзындығы 400,000 токен.

Фактілік дәлдік

GPT‑5 бұрынғы модельдерімізге қарағанда сенімдірек. LongFact және FactScore бенчмарктеріндегі көмексөздер бойынша GPT‑5 o3‑пен салыстырғанда шамамен 80% аз фактілік қате жібереді. Бұл оны дұрыстық маңызды болатын агенттік қолдану жағдайларына — әсіресе кодта, деректерде және шешім қабылдауда — жақсырақ бейімдейді.

Жоғары ұпайлар — нашар нәтиже. LongFact(жаңа терезеде ашылады) және FActScore(жаңа терезеде ашылады) ашық түрдегі факт іздеуге бағытталған сұрақтардан тұрады. Біз осы бенчмарктердегі көмексөздер бойынша жауаптардың фактілерге сәйкестігін тексеру үшін шолуы бар LLM-негізді бағалаушыны қолданамыз және фактілік тұрғыдан қате тұжырымдардың үлесін өлшейміз. Іске асыру және бағалау егжей-тегжейлерін жүйе картасынан табуға болады. Ойлайтын модельдер жоғары ой қорыту күш-жігерін пайдаланды. Іздеу қосылған жоқ.

Жалпы алғанда, GPT‑5 өз шектеулерін жақсырақ сезінуге және күтпеген тосын жағдайларды жақсырақ өңдеуге үйретілген. Сондай-ақ біз GPT‑5‑ті денсаулыққа қатысты сұрақтарда әлдеқайда дәлірек болуға үйреттік (толығырақ біздің research blog-та) оқыңыз. Барлық тілдік модельдер сияқты, тәуекел жоғары болғанда GPT‑5 жұмысының нәтижесін тексеруді ұсынамыз.

Жаңа мүмкіндіктер

Минималды ой қорыту күш-жігері

Әзірлеушілер API-дегі reasoning_effort параметрі арқылы GPT‑5‑тің ойлау уақытын басқара алады. Бұрыннан бар low, medium (әдепкі) және high мәндеріне қосымша GPT‑5 minimal мәнін де қолдайды, ол GPT‑5‑тің ой қорытуын азайтып, жауапты тез қайтаруға мүмкіндік береді.

Жоғары reasoning_effort мәндері сапаны барынша арттырады, ал төмен мәндер жылдамдықты барынша арттырады. Қосымша ой қорыту барлық тапсырмаларға бірдей пайда әкелмейді, сондықтан сіз үшін маңызды қолдану жағдайларында қайсысы жақсы жұмыс істейтінін көру үшін тәжірибе жасап көруді ұсынамыз.

Мысалы, low-дан жоғары ой қорыту салыстырмалы түрде қарапайым ұзын контекстен іздеуге аз ғана пайда береді, бірақ көрнекі ой қорыту бенчмаркі CharXiv Reasoning(жаңа терезеде ашылады) үшін бірнеше пайыздық тармақ қосады.

GPT‑5‑тің ой қорыту күш-жігері әртүрлі тапсырмаларда әртүрлі пайда береді. CharXiv Reasoning үшін GPT‑5‑ке python құралына қолжетімділік берілді.

Толықтық

GPT‑5 жауаптарының әдепкі ұзындығын басқаруға көмектесу үшін біз жаңа API параметрі verbosity-ті енгіздік, ол low, medium (әдепкі) және high мәндерін қабылдайды. Егер нақты нұсқаулар толықтық параметрлерімен қайшылыққа түссе, нақты нұсқаулар басымдыққа ие болады. Мысалы, GPT‑5‑тен «5 абзацтан тұратын эссе жаз» деп сұрасаңыз, модель жауабы толықтық деңгейіне қарамастан әрқашан 5 абзац болады (алайда абзацтардың өзі ұзынырақ немесе қысқарақ болуы мүмкін).

Толықтық=төмен

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Толықтық=орташа

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Толықтық=жоғары

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Құрал шақыруларына дейінгі кіріспе хабарламалар

Нұсқау берілсе, GPT‑5 құрал шақыруларына дейін және олардың арасында пайдаланушыға көрінетін кіріспе хабарламаларды шығарады. Жасырын ой қорыту хабарламаларынан айырмашылығы, бұл көрінетін хабарламалар GPT‑5‑ке жоспарлар мен прогресті пайдаланушыға жеткізуге мүмкіндік береді, сол арқылы соңғы пайдаланушыларға оның тәсілін және құрал шақыруларының артындағы ниетін түсінуге көмектеседі.

Custom tools

Біз жаңа құрал түрін — custom tools — ұсынамыз, ол GPT‑5‑ке құралды JSON орнына жай мәтінмен шақыруға мүмкіндік береді. GPT‑5‑ті custom tool пішімдерін ұстануға шектеу үшін әзірлеушілер regex немесе тіпті анағұрлым толық сипатталған контекстсіз грамматиканы(жаңа терезеде ашылады) ұсына алады.

Бұрын әзірлеуші анықтайтын құралдарға арналған интерфейсіміз оларды JSON арқылы шақыруды талап ететін, бұл веб API-лер мен әзірлеушілер жиі қолданатын кең таралған пішім. Алайда жарамды JSON шығару үшін модель барлық тырнақшаларды, кері қиғаш сызықтарды, жаңа жолдарды және басқа басқару таңбаларын мінсіз экранирлеуі керек. Біздің модельдер JSON шығаруға жақсы үйретілгенімен, жүздеген жол код не 5 беттік есеп сияқты ұзын кірістерде қате ықтималдығы арта түседі. Custom tools арқылы GPT‑5 құрал кірістерін барлық экранирлеуді қажет ететін таңбаларды экранирлемей-ақ жай мәтін түрінде жаза алады.

JSON құралдарының орнына custom tools қолданылған SWE-bench Verified-та GPT‑5 шамамен сол деңгейде нәтиже көрсетеді.

Қауіпсіздік

GPT‑5 қауіпсіздік бойынша озық шепті алға жылжытады және анағұрлым орнықты, сенімді әрі пайдалы модель болып табылады. GPT‑5 бұрынғы модельдерімізге қарағанда галлюцинация жасау ықтималдығы әлдеқайда төмен, өз әрекеттері мен қабілеттерін пайдаланушыға анағұрлым адал жеткізеді және қауіпсіздік шектерінен шықпай, мүмкін болған жерде ең пайдалы жауапты ұсынады. Толығырақ біздің research blog-та оқи аласыз.

Қолжетімділік және баға

GPT‑5 қазір API платформасында үш өлшемде қолжетімді: gpt-5, gpt-5-mini және gpt-5-nano. Ол Responses API-де, Chat Completions API-де қолжетімді және Codex CLI-де әдепкі мән болып табылады. GPT‑5 бағасы — 1M енгізу токеніне $1.25 және 1M шығыс токеніне $10, GPT‑5 mini бағасы — 1M енгізу токеніне $0.25 және 1M шығыс токеніне $2, ал GPT‑5 nano бағасы — 1M енгізу токеніне $0.05 және 1M шығыс токеніне $0.40.

Бұл модельдер reasoning_effort және verbosity API параметрлерін, сондай-ақ custom tools-ты қолдайды. Олар сондай-ақ параллель құрал шақыруды, кірістірілген құралдарды (веб-іздеу, файл іздеу, суретті генерациялау және т.б.), негізгі API мүмкіндіктерін (ағындық беру, құрылымдалған нәтижелер және т.б.), сондай-ақ көмексөз кэштеу мен Batch API сияқты шығынды үнемдейтін мүмкіндіктерді қолдайды.

ChatGPT‑те қолданылатын GPT‑5‑тің ойламайтын нұсқасы API-де gpt-5-chat-latest ретінде қолжетімді, бағасы да 1M енгізу токеніне $1.25 және 1M шығыс токеніне $10.

GPT‑5 сондай-ақ Microsoft 365 Copilot, Copilot, GitHub Copilot және Azure AI Foundry сияқты Microsoft платформаларында да іске қосылып жатыр.

Егжей-тегжейлі бенчмарктер

Интеллект
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Алдыңғы блог жазбамызда берілген сандармен шағын айырмашылық бар, өйткені олар HLE-дің бұрынғы нұсқасында іске қосылған.

Мультимодальды
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Кодтау
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 м. $75 мың $49 мың $86 мың $66 мың $34 мың $31 мың $9 мың $
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Біз инфрақұрылымымызда іске қосу мүмкін болмаған 23/500 есепті алып тастадық. Алып тасталған 23 тапсырманың толық тізімі: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' және 'sphinx-doc__sphinx-9367'.

Нұсқауды орындау
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Ескерту: MultiChallenge-тағы әдепкі бағалаушы (GPT-4o) модель жауаптарын жиі қате бағалайды деп таптық. Біздіңше, бағалаушыны o3-mini сияқты ойлайтын модельге ауыстыру қарастырған үлгілерімізде бағалау дәлдігін едәуір жақсартады.

Функция шақыру
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Ұзын контекст
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Галлюцинациялар
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Автор

OpenAI