Негізгі мазмұнға өту
OpenAI

2026 ж. 5 наурыз

ӨнімШығарылым

GPT‑5.4 таныстыру

Кәсіби жұмысқа арналған

Жүктелуде…

Бүгін біз GPT‑5.4-ті ChatGPT‑те (GPT‑5.4 Thinking ретінде), API-де және Codex-те шығарып отырмыз. Бұл — кәсіби жұмысқа арналған біздің ең қуатты әрі ең тиімді озық моделіміз. Сондай-ақ күрделі тапсырмаларда барынша жоғары өнімділікті қалайтындар үшін ChatGPT пен API-де GPT‑5.4 Pro-ды да шығарып отырмыз.

GPT‑5.4 ой қорыту, кодтау және агенттік жұмыс ағындарындағы соңғы жетістіктеріміздің ең жақсы қырларын бір озық модельге біріктіреді. Ол GPT‑5.3‑Codex ұсынған саладағы жетекші кодтау мүмкіндіктерін қамти отырып, модельдің құралдар, бағдарламалық орта және электрондық кестелер, презентациялар мен құжаттармен байланысты кәсіби тапсырмалар аясында жұмыс істеуін жақсартады. Нәтижесінде, сіз сұрағанды артық кері байланыссыз дәл, тиімді және ұтымды орындайтын, күрделі нақты жұмысты тындыратын модель алынады.

ChatGPT‑те GPT‑5.4 Thinking енді өз ойлауына алдын ала жоспар ұсына алады, сондықтан ол жұмыс істеп жатқанда жауаптың ортасында бағытын түзете аласыз, әрі қосымша айналымдарсыз өзіңізге керегіне дәлірек сәйкес келетін соңғы нәтижеге жете аласыз. GPT‑5.4 Thinking сонымен қатар терең веб-зерттеуді, әсіресе өте нақты сұраулар үшін, жақсартады, сонымен бірге ұзағырақ ойлануды қажет ететін сұрақтарда контексті жақсырақ сақтайды. Бұл жақсартулардың жиынтығы тезірек келетін және қолдағы тапсырмаға өзектілігін жоғалтпайтын сапалырақ жауаптарды білдіреді.

Codex пен API-де GPT‑5.4 — біз шығарған кіріктірілген, үздік деңгейдегі компьютерді пайдалану мүмкіндіктері бар алғашқы жалпы мақсаттағы модель; ол агенттерге компьютерлерді басқарып, қолданбалар арасында күрделі жұмыс ағындарын орындауға мүмкіндік береді. Ол 1M токенге дейін контексті қолдайды, бұл агенттерге ұзақ көкжиек бойы тапсырмаларды жоспарлауға, орындауға және тексеруге мүмкіндік береді. GPT‑5.4 сондай-ақ құрал іздеу арқылы модельдердің үлкен құралдар мен коннекторлар экожүйесінде жұмыс істеуін жақсартады, агенттерге интеллектіні жоғалтпай дұрыс құралдарды тиімдірек табуға және пайдалануға көмектеседі. Соңында, GPT‑5.4 — әзірге біздің токенді ең тиімді пайдаланатын ойлайтын модель, ол GPT‑5.2‑мен салыстырғанда мәселелерді шешу үшін едәуір азырақ токен қолданады — бұл токен тұтынудың төмендеуіне және жылдамдықтың артуына әкеледі.

Жалпы ой қорыту, кодтау және кәсіби білім жұмысы салаларындағы жетістіктермен бірге GPT‑5.4 ChatGPT, API және Codex аясында сенімдірек агенттерді, әзірлеушілердің жылдамырақ жұмыс ағындарын және жоғарырақ сапалы нәтижелерді қамтамасыз етеді.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (wins or ties)

83.0%

70.9%

70.9%

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

OSWorld-Verified

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*Previously reported as 64.7%. GPT‑5.3‑Codex achieves 74.0% with a newly introduced API parameter that preserves the original image resolution.

Білім жұмысы

GPT‑5.2‑нің жалпы ой қорыту мүмкіндіктеріне сүйене отырып, GPT‑5.4 мамандар үшін маңызды нақты өмірлік тапсырмаларда одан да тұрақты әрі мұқият өңделген нәтижелер береді.

44 кәсіп бойынша жақсы анықталған білім жұмысын өндіру қабілетін тексеретін GDPval бағалауында GPT‑5.4 жаңа үздік нәтижеге жетіп, салыстырулардың 83.0%-ында сала мамандарына тең немесе жоғары нәтиже көрсетті; GPT‑5.2‑де бұл көрсеткіш 70.9% болған.

GDPval-да модельдер АҚШ ЖІӨ-сіне үлес қосатын ең ірі 9 саланың 44 кәсібін қамтитын нақты анықталған білім жұмысына талпынып көреді. Тапсырмалар сатылым презентациялары, бухгалтерлік кестелер, жедел жәрдем кестелері, өндірістік диаграммалар немесе қысқа видеолар сияқты нақты жұмыс өнімдерін сұрайды. GPT‑5.4 үшін ой қорыту деңгейі xhigh, ал GPT‑5.2 үшін heavy болып орнатылды (ChatGPT‑тегі сәл төмен деңгей).

«GPT-5.4 — біз қолданып көрген ең үздік модель. Ол қазір кәсіби қызметтер жұмысы үшін модель өнімділігін өлшейтін APEX-Agents бенчмаркімізде көш бастап тұр. Ол слайдтар топтамасы, қаржылық модельдер және заңдық талдау сияқты ұзақ көкжиекті нәтижелерді жасауда үздік, әрі бәсекелес озық модельдерге қарағанда жылдамырақ және арзанырақ жұмыс істеп, ең жоғары өнімділік береді.»
— Brendan Foody, Mercor компаниясының CEO-сы

Біз GPT‑5.4‑тің электрондық кестелерді, презентациялар мен құжаттарды жасау және өңдеу қабілетін жақсартуға ерекше назар аудардық. Жас инвестициялық банкинг талдаушысы орындай алатын электрондық кесте модельдеу тапсырмаларына арналған ішкі benchmark-та GPT‑5.4 орташа 87.3% ұпай жинады, ал GPT‑5.2‑де бұл 68.4% болды. Презентацияларды бағалауға арналған көмексөздер жиынтығында адам бағалаушылар GPT‑5.2‑ге қарағанда GPT‑5.4 жасаған презентацияларды уақыттың 68.0%-ында таңдады, бұған күштірек эстетика, визуал әртүрліліктің көп болуы және суретті генерациялауды тиімдірек пайдалану себеп болды.

GPT-5.2 мен GPT-5.4 электрондық кесте шығыстарының қатар қойылған мысалы

Құжаттарда ой қорыту деңгейі xhigh болып орнатылып жасалды

Бұл мүмкіндіктерді ChatGPT‑те GPT‑5.4 Thinking немесе Pro арқылы қолданып көре аласыз. Егер сіз Enterprise клиенті болсаңыз, бүгін де іске қосылған жаңа Excel үшін ChatGPT қосымшасын(жаңа терезеде ашылады) пайдалануды ұсынамыз. Сондай-ақ біз Codex пен API-де қолжетімді электрондық кесте(жаңа терезеде ашылады) және презентация(жаңа терезеде ашылады) дағдыларымызды жаңарттық.

GPT‑5.4‑ті нақты өмірдегі жұмысқа лайық ету үшін біз галлюцинациялар мен қателерді азайту бағытын жалғастырдық. GPT‑5.4 — әзірге ең фактіге адал моделіміз: пайдаланушылар фактілік қателерді белгілеген, дербестендірілмеген көмексөздер жиынтығында GPT‑5.4‑тің жеке тұжырымдарының жалған болу ықтималдығы GPT‑5.2‑ге қарағанда 33%-ға төмен, ал толық жауаптарының кез келген қатені қамту ықтималдығы 18%-ға төмен.

«GPT-5.4 құжатқа бай заң жұмысы үшін жаңа межені белгілейді. BigLaw Bench бағалауымызда ол 91% жинады. Басқа модельдермен салыстырғанда, GPT-5.4 қазір күрделі транзакциялық талдауды құрылымдауда, ұзақ келісімшарттар бойынша дәлдікті сақтауда және заң мамандарына қажет жоғары егжей-тегжей деңгейін жеткізуде жақсырақ.»
— Niko Grupen, Harvey компаниясының қолданбалы зерттеулер бөлімінің басшысы

Компьютерді пайдалану және көру

GPT‑5.4 — кіріктірілген компьютерді пайдалану мүмкіндіктері бар алғашқы жалпы мақсаттағы моделіміз және ол әзірлеушілер мен агенттер үшін маңызды ілгері қадамды білдіреді. Бұл — веб-сайттар мен бағдарламалық жүйелер аясында нақты тапсырмаларды орындайтын агенттерді жасайтын әзірлеушілер үшін қазіргі таңда қолжетімді ең үздік модель.

Біз GPT‑5.4‑ті компьютерді пайдалану жүктемелерінің кең ауқымында жоғары өнімді болатындай етіп жасадық. Ол Playwright сияқты кітапханалар арқылы компьютерді басқаруға арналған код жазуда, сондай-ақ скриншоттарға жауап ретінде тышқан мен пернетақта командаларын беруде өте мықты. Оның мінез-құлқын әзірлеуші хабарламалары арқылы бағыттауға болады, яғни әзірлеушілер нақты қолдану жағдайларына сай мінез-құлықты баптай алады. Тіпті әзірлеушілер арнайы растау саясаттарын көрсету арқылы модельдің қауіпсіздік мінез-құлқын тәуекелге төзімділіктің әртүрлі деңгейіне сай конфигурациялай алады.

Модельдің өнімділігі мен икемділігі компьютерді әртүрлі жағдайларда пайдалануды тексеретін benchmark-тарда көрінеді. OSWorld-Verified бағалауында, яғни скриншоттар мен пернетақта/тышқан әрекеттері арқылы жұмыс үстелі ортасында навигациялау қабілетін өлшейтін сынақта, GPT‑5.4 үздік деңгейдегі 75.0% сәттілікке жетеді, бұл GPT‑5.2‑дегі 47.3%-дан әлдеқайда жоғары және 72.4% деңгейіндегі адам өнімділігінен де озады.1

Браузерді пайдалануды тексеретін WebArena-Verified бағалауында GPT‑5.4 DOM-ға да, скриншотқа да негізделген өзара әрекеттесуді қолданғанда жетекші 67.3% сәттілікке жетеді; GPT‑5.2‑де бұл 65.4%. Браузер қолдануды тағы да тексеретін Online-Mind2Web бағалауында GPT‑5.4 тек скриншотқа негізделген бақылаулармен 92.8% сәттілікке жетеді, бұл 70.9% көрсеткішіне ие ChatGPT Atlas Agent Mode-тан жоғары.

Құрал қайтарымы — ассистент құрал жауабын күту үшін тоқтайтын сәт. Егер 3 құрал қатар шақырылып, содан кейін тағы 3 құрал қатар шақырылса, қайтарым саны 2 болады. Құрал қайтарымдары құрал шақыруларына қарағанда кідірістің жақсырақ көрсеткіші, өйткені олар параллельдеудің артықшылықтарын көрсетеді.

GPT‑5.4 браузер интерфейсінің скриншоттарын түсіндіріп, электрондық хаттар жіберу және күнтізбелік оқиға жоспарлау үшін координатаға негізделген шерту арқылы UI элементтерімен әрекеттеседі. Видео жылдамдатылмаған.

GPT‑5.4‑тің жақсарған компьютерді пайдалануы модельдің жалпы визуал қабылдау қабілеттерінің күшеюіне негізделген. Модельдің визуал түсінуі мен ой қорытуын тексеретін MMMU-Pro бағалауында GPT‑5.4 құрал қолданбай-ақ 81.2% сәттілікке жетеді, бұл GPT‑5.2‑дегі 79.5%-дан жоғары. Визуал қабылдаудың жақсаруы құжаттарды талдау қабілеттерінің де өсуіне әкеледі. OmniDocBench бағалауында GPT‑5.4 ой қорыту күшін қолданбай, орташа 0.109 қате көрсеткішіне (модель болжамы мен ground truth арасындағы қалыпқа келтірілген өңдеу қашықтығы бойынша) жетеді; GPT‑5.2‑де бұл 0.140 болған.

MMMUPro бағалауы ой қорыту деңгейі xhigh болып орнатылып жүргізілді. OmniDocBench бағалауы шығыны аз, кідірісі төмен өнімділікті көрсету үшін ой қорыту деңгейі none болып жүргізілді.

Сондай-ақ біз толық дәлдік маңызды болатын тығыз, жоғары ажыратымдылықтағы суреттер үшін визуал түсінуді жақсартып жатырмыз. GPT‑5.4‑тен бастап біз жалпы саны 10.24M пиксельге дейін немесе ең көбі 6000 пиксель өлшеміне дейін толық дәлдіктегі қабылдауды қолдайтын original сурет енгізу детальдылығы(жаңа терезеде ашылады) деңгейін енгізіп отырмыз — қайсысы төмен болса, сол қолданылады; ал high сурет енгізу детальдылығы енді жалпы 2.56M пиксельге дейін немесе ең көбі 2048 пиксель өлшемін қолдайды. API пайдаланушыларымен жасалған ерте тесттерде original немесе high детальдылықты қолданғанда локализациялау қабілетінде, суретті түсінуде және шерту дәлдігінде айқын өсім байқадық.

«~30K HOA және мүлік салығы порталдары бойынша компьютер пайдалану өнімділігін өлшейтін бағалауларымызда GPT-5.4 алғашқы әрекетте 95% сәттілікке, ал үш әрекет ішінде 100% нәтижеге жетті, бұл алдыңғы CUA модельдеріндегі ~73–79%-бен салыстырғанда әлдеқайда жоғары. Ол сондай-ақ сессияларды шамамен 3 есе жылдамырақ аяқтап, шамамен 70% аз токен пайдаланды, осылайша ауқымда сенімділік пен шығын тиімділігін едәуір жақсартты.»
— Dod Fraser, Mainstay компаниясының CEO-сы

API-де әзірлеушілер бұл мүмкіндіктерді жаңартылған computer құралы арқылы пайдалана алады. Ұсынылатын үздік тәжірибелер туралы біздің жаңартылған құжаттамамызды(жаңа терезеде ашылады) қараңыз.

Кодтау

GPT‑5.4 GPT‑5.3‑Codex‑тің кодтау күшті жақтарын жетекші білім жұмысы және компьютерді пайдалану мүмкіндіктерімен біріктіреді; бұлар әсіресе модель құралдарды пайдаланып, итерация жасап және жұмысты қолмен араласуды азайта отырып ілгерілете алатын ұзаққа созылатын тапсырмаларда маңызды. Ол SWE-Bench Pro-да GPT‑5.3‑Codex‑пен теңеседі немесе одан асып түседі, әрі ой қорыту деңгейлерінің барлығында кідірісі төменірек.

Біз кідірісті модельдеріміздің продакшндағы мінез-құлқын қарап және оны офлайн түрде модельдеу арқылы бағалаймыз. Кідіріс бағасына құрал шақыру ұзақтығы (код орындалу уақыты), таңдалған токендер және кіріс токендері кіреді. Нақты әлемдегі кідіріс едәуір өзгеруі мүмкін және симуляциямызда қамтылмаған көптеген факторларға тәуелді. Ой қорыту деңгейі none-нан xhigh-қа дейін тексерілді.

Қосылған кезде Codex-тегі /fast режимі GPT‑5.4 арқылы токен жылдамдығын 1.5 есеге дейін арттырады. Бұл — сол модель, сол интеллект, тек жылдамырақ. Демек пайдаланушылар кодтау тапсырмалары, итерация және debug жасау кезінде ағыннан шықпай жұмыс істей алады. Әзірлеушілер GPT‑5.4‑ке API арқылы да priority processing(жаңа терезеде ашылады) пайдаланып, сондай жылдамдықпен қол жеткізе алады.

Бағалау мен ішкі тестілеуде біз GPT‑5.4‑тің күрделі frontend тапсырмаларында өте мықты екенін анықтадық: нәтижелері біз бұрын шығарған кез келген модельге қарағанда айқын әдемірек әрі функционалырақ болды.

Модельдің жақсарған компьютерді пайдалану және кодтау мүмкіндіктерінің бірге жұмыс істеуін көрсету үшін біз «Playwright (Interactive)(жаңа терезеде ашылады)» деп аталатын эксперименттік Codex дағдысын да шығарып отырмыз. Бұл Codex-ке веб және Electron қолданбаларын визуал debug жасауға мүмкіндік береді; тіпті ол өзі құрып жатқан қолданбаны құрып жатқан сәтінде тестілеу үшін де қолданылуы мүмкін.

GPT‑5.4 көмегімен бір ғана аздап нақтыланған көмексөзден жасалған тақырыптық парк симуляторы ойыны; браузерде playtesting үшін Playwright Interactive және изометриялық ассеттер жиыны үшін суретті генерациялау қолданылды. Симуляцияда тайл негізіндегі жол төсеу, аттракцион мен декорация салу, қонақтардың жол табуы, кезекке тұруы және аттракцион циклдері бар; сонымен бірге ақша, қонақ саны, бақыт, тазалық және рейтинг сияқты парк метрикалары жоспардың қалай жұмыс істейтініне және қонақтардың оған қалай жауап беретініне қарай өсіп не төмендеп отырады. Playwright бірнеше ойын раунды бойы паркті салып кеңейту, жолдар мен аттракциондарды қою және алып тастау, камера навигациясын тексеру, қонақтар, кезектер, аттракцион күйлері мен UI метрикаларының дұрыс жаңарғанын растау арқылы браузердегі playtest-терді автоматтандыру үшін пайдаланылды.

Көмексөз: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism. 

When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.

«GPT-5.4 қазір ішкі бенчмарктерімізде көшбасшы. Инженерлеріміз оны алдыңғы модельдерге қарағанда табиғи әрі батылырақ деп санайды. Ол екіұшты мәселелерді өзіне қайта-қайта күмән келтірмей шешеді және істің жүруін тоқтатпау үшін жұмысты параллельдеуге белсенді кіріседі.»
— Lee Robinson, Cursor компаниясының Developer Education жөніндегі VP-сы

Құралдарды пайдалану

GPT‑5.4‑пен бірге біз модельдердің сыртқы құралдармен қалай жұмыс істейтінін айтарлықтай жақсарттық. Енді агенттер үлкенірек құрал экожүйелерінде жұмыс істей алады, дұрыс құралдарды сенімдірек таңдайды және көпқадамды жұмыс ағындарын төменірек шығынмен әрі кідірісі аз орындап шығады.

Құрал іздеу

API-де GPT‑5.4 құрал іздеуді(жаңа терезеде ашылады) енгізеді, бұл модельдерге көп құрал берілгенде тиімді жұмыс істеуге мүмкіндік береді.

Бұрын модельге құралдар берілгенде, барлық құрал анықтамалары бірден көмексөзге кіргізілетін. Құралы көп жүйелерде бұл әр сұрауға мыңдаған, тіпті ондаған мың токен қосып, шығынды арттырып, жауаптарды баяулатып, модель ешқашан қолданбауы мүмкін ақпаратпен контексті толтырып жіберетін.

Құрал іздеу кезінде GPT‑5.4 оның орнына қолжетімді құралдардың жеңіл тізімін және құрал іздеу мүмкіндігін алады. Модельге құрал қолдану қажет болған сәтте ол сол құралдың анықтамасын тауып, оны дәл сол сәтте әңгімеге қоса алады.

Бұл тәсіл құралға бай жұмыс ағындары үшін қажет токен санын күрт азайтып, кэшті сақтайды, нәтижесінде сұраулар жылдамырақ әрі арзанырақ болады. Сондай-ақ ол агенттерге әлдеқайда үлкен құрал экожүйелерімен сенімді жұмыс істеуге мүмкіндік береді. Құрал анықтамалары ондаған мың токеннен тұруы мүмкін MCP серверлері үшін тиімділік ұтысы едәуір болуы мүмкін.

Тиімділік ұтысын көрсету үшін біз Scale-дің MCP Atlas(жаңа терезеде ашылады) benchmark-ынан 250 тапсырманы барлық 36 MCP сервері екі режимде қосулы күйде бағаладық: (1) әрбір MCP функциясын модель контексіне тікелей шығару және (2) барлық MCP серверлерін құрал іздеудің артына орналастыру. Құрал іздеу конфигурациясы дәл сол дәлдікке қол жеткізе отырып, жалпы токен тұтынуын 47%-ға азайтты.

Токен саны мысалдары MCP-Atlas ашық деректер жиынындағы 250 тапсырманың орташа мәнінен алынған.

Агенттік құрал шақыру

GPT‑5.4 сонымен қатар құрал шақыруын жақсартады, әсіресе API-де, ой қорыту кезінде құралдарды қашан және қалай пайдалану керек екенін шешуде оны дәлірек әрі тиімдірек етеді. GPT‑5.2‑мен салыстырғанда ол Toolathlon benchmark-ында азырақ айналымда жоғарырақ дәлдікке жетеді; бұл benchmark AI агенттерінің нақты құралдар мен API-ларды көпқадамды тапсырмаларды орындау үшін қаншалықты жақсы қолдана алатынын тексереді. Мысалы, агентке электрондық хаттарды оқу, тапсырма тіркемелерін шығару, оларды жүктеу, бағалау және нәтижелерді электрондық кестеге енгізу қажет болады.

Құрал қайтарымы — ассистент құрал жауабын күту үшін тоқтайтын сәт. Егер 3 құрал қатар шақырылып, содан кейін тағы 3 құрал қатар шақырылса, қайтарым саны 2 болады. Құрал қайтарымдары құрал шақыруларына қарағанда кідірістің жақсырақ көрсеткіші, өйткені олар параллельдеудің артықшылықтарын көрсетеді.

Кідіріс сезімтал қолдану жағдайларында, мұнда None ой қорыту деңгейі қолайлы болса, GPT‑5.4 өзінен бұрынғы модельдерден де жақсы нәтиже көрсетеді.

τ2-bench⁠(жаңа терезеде ашылады) бағалауында модель клиентке қызмет көрсету тапсырмасын орындау үшін құралдарды қолдануы керек; мұнда әлем күйімен байланыса алатын және әрекет жасай алатын симуляцияланған пайдаланушы болуы мүмкін. Ой қорыту деңгейі None болып орнатылды.

Жақсартылған веб-іздеу

GPT‑5.4 агенттік веб-іздеуде мықтырақ. Желіде табуы қиын ақпаратты табу үшін AI агенттері қаншалықты табанды түрде шола алатынын өлшейтін BrowseComp бағалауында GPT‑5.4 GPT‑5.2‑ден 17%abs жоғары секіріс жасайды, ал GPT‑5.4 Pro 89.3% көрсеткішімен жаңа үздік нәтижені орнатады.

Тәжірибеде бұл GPT‑5.4 Thinking-тің вебтегі көптеген көздерден ақпарат жинауды қажет ететін сұрақтарға жауап беруде мықтырақ екенін білдіреді. Ол ең өзекті дереккөздерді анықтау үшін бірнеше раунд бойы табанды іздей алады, әсіресе «шөп арасындағы ине» тәрізді сұрақтарда, және оларды анық, жақсы негізделген жауапқа біріктіреді.

BrowseComp-та біз ластануды болдырмау және өнімділікті әділ өлшеуді қамтамасыз ету үшін бағалаудан benchmark жауаптары бар веб-сайттарды алып тастайтын search blocklist қолдандық. GPT‑5.4 GPT‑5.2‑ден кейінірек өлшенді, сондықтан ұпайлар модельдегі, іздеу жүйеміздегі және интернет күйіндегі өзгерістерді көрсетеді. GPT‑5.4 ұзағырақ, жаңартылған blocklist-пен сыналды. Модельдер ChatGPT іздеу құралын қолданады, оның API іздеуден аздаған айырмашылықтары болуы мүмкін.

«GPT-5.4 xhigh — көпқадамды құрал қолдануға арналған жаңа үздік деңгей. Zapier саладағы ең қатаң құрал қолдану бенчмарктерінің кейбірін жүргізеді, модельдерді жүздеген озық нақты жұмыс ағындары бойынша сынайды. GPT-5.4 алдыңғы модельдер бас тартқан жерден жұмысты аяқтады — бүгінге дейінгі ең табанды модель.»
— Wade, Zapier компаниясының CEO-сы

Басқарылғыштық

Codex жұмысқа кіріскенде өз тәсілін қалай сипаттаса, ChatGPT‑тегі GPT‑5.4 Thinking те енді ұзағырақ, күрделірек сұраулар үшін өз жұмысын кіріспе түсіндірмемен сипаттайды. Сондай-ақ жауап жүріп жатқан кезде нұсқаулар қосып немесе оның бағытын өзгерте аласыз. Бұл модельді қайта бастамай-ақ немесе бірнеше қосымша айналымсыз өзіңіз қалаған нақты нәтижеге бағыттауды жеңілдетеді. Бұл мүмкіндік қазір chatgpt.com(жаңа терезеде ашылады) және Android қолданбасында қолжетімді, жақында iOS қолданбасына да келеді.

Модель сонымен қатар әңгімедегі ертерек қадамдарды жақсырақ есте сақтай отырып, қиын тапсырмаларда ұзағырақ ойлана алады. Бұл оған жауаптардың бүкіл процесс бойы бірізді әрі өзекті болып қалуын сақтай отырып, ұзағырақ жұмыс ағындарын және күрделірек көмексөздерді өңдеуге мүмкіндік береді.

Бұл видео көрнекілік мақсатында жылдамдатылған.

Қауіпсіздік

Соңғы айларда біз GPT‑5.3‑Codex‑пен бірге енгізілген қорғаныс тетіктерін жақсартуды жалғастыра отырып, GPT‑5.4‑ті енгізуге дайындадық. GPT‑5.3‑Codex сияқты, біз GPT‑5.4‑ті Дайындық шеңбері аясында жоғары кибер мүмкіндігі бар модель ретінде қарастырамыз және оны жүйе картасында(жаңа терезеде ашылады) құжатталған тиісті қорғаныстармен іске қосып отырмыз. Оларға кеңейтілген киберқауіпсіздік стегі, соның ішінде мониторинг жүйелері, сенімді қолжетімділік бақылаулары және Zero Data Retention (ZDR) беттеріндегі клиенттердің жоғары тәуекелді сұраулары үшін асинхронды бұғаттау, сондай-ақ кеңірек қауіпсіздік экожүйесіне үздіксіз инвестиция салу кіреді.

Киберқауіпсіздік мүмкіндіктері табиғатынан екіжақты мақсатта қолданылатындықтан, біз саясаттарымыз бен классификаторларымызды баптауды жалғастыра отырып, енгізуде сақтық тәсілін ұстанамыз. ZDR беттеріндегі кейбір клиенттер үшін сұрау деңгейіндегі бұғаттау киберқауіпті азайту стегіміздің бір бөлігі болып қала береді; классификаторлар әлі де жетілдіріліп жатқандықтан, бұл қорғаныс тетіктерін әрі қарай жетілдіру барысында кейбір жалған оң нәтижелер болуы мүмкін. Бұл жаңартулар қорғаныстардың тәжірибеде қалай жұмыс істейтінін жақсартуға, соның ішінде қажетсіз бас тартулар мен шамадан тыс ескертпелі жауаптарды азайтуға, сонымен бірге теріс пайдалануға қарсы мықты қорғанысты сақтауға бағытталған.

Біз модельдердің қалай ой қорытуын жақсырақ түсіну және ықтимал теріс қылықтарды анықтауға көмектесу үшін Chain-of-Thought (CoT) бақыланымдылығы бойынша қауіпсіздік зерттеулерімізді жалғастырдық. Осы жұмыстың бір бөлігі ретінде біз жаңа ашық кодты бағалауды — CoT controllability — ұсынамыз; ол модельдердің мониторингтен жалтару үшін өз ой қорытуын әдейі бұрмалай алатынын өлшейді. Біз GPT‑5.4 Thinking-тің CoT-ты басқару қабілеті төмен екенін байқадық, бұл қауіпсіздік үшін оң қасиет: модель өз ой қорытуын жасыра алмайды және CoT мониторингі қауіпсіздіктің тиімді құралы болып қала береді дегенді білдіреді.

Қолжетімділік және баға

GPT‑5.4 бүгін ChatGPT пен Codex аясында біртіндеп іске қосылып жатыр. API-де GPT‑5.4 қазірдің өзінде gpt-5.4 ретінде қолжетімді. Ең күрделі тапсырмаларда барынша жоғары өнімділік қажет әзірлеушілер үшін GPT‑5.4 Pro да API-де gpt-5.4-pro ретінде қолжетімді.

ChatGPT‑те GPT‑5.4 Thinking бүгіннен бастап ChatGPT Plus, Team және Pro пайдаланушыларына қолжетімді болып, GPT‑5.2 Thinking-тің орнын басады. GPT‑5.2 Thinking Legacy Models бөліміндегі модель таңдағышта ақылы пайдаланушылар үшін үш ай бойы қолжетімді болып қалады, содан кейін 2026 жылғы 5 маусымда тоқтатылады. Enterprise және Edu жоспарларындағы пайдаланушылар ерте қолжетімділікті әкімші баптаулары арқылы қоса алады. GPT‑5.4 Pro Pro және Enterprise жоспарларына қолжетімді. ChatGPT‑тегі GPT‑5.4 Thinking үшін контекст терезелері(жаңа терезеде ашылады) GPT‑5.2 Thinking-тен өзгеріссіз қалды.

GPT‑5.4 — GPT‑5.3‑codex‑тің озық кодтау мүмкіндіктерін біріктіретін және ChatGPT, API мен Codex аясында таратылатын алғашқы негізгі ойлайтын моделіміз. Біз бұл секірісті көрсету және Codex қолданғанда модельдер арасындағы таңдауды жеңілдету үшін оны GPT‑5.4 деп атап отырмыз. Уақыт өте келе біздің Instant модельдеріміз бен Thinking модельдеріміз әртүрлі қарқынмен дамиды деп күтуге болады.

Codex-тегі GPT‑5.4 1M контекст терезесіне эксперименттік қолдауды қамтиды. Әзірлеушілер мұны model_context_window және model_auto_compact_token_limit баптау арқылы байқап көре алады. Стандартты 272K контекст терезесінен асатын сұраулар пайдалану лимиттеріне қалыпты мөлшерлемеден 2 есе жоғары есептеледі.

API-де GPT‑5.4 жетілдірілген мүмкіндіктерін көрсету үшін GPT‑5.2‑ге қарағанда токен үшін қымбатырақ бағаға ие, бірақ оның токенді тиімдірек пайдалануы көптеген тапсырма үшін қажет токендердің жалпы санын азайтуға көмектеседі. Batch және Flex бағалары стандартты API мөлшерлемесінің жартысымен қолжетімді, ал Priority processing стандартты API мөлшерлемесінің екі есесімен қолжетімді.

API моделі

Кіріс бағасы

Кэштелген кіріс бағасы

Шығыс бағасы

gpt-5.2

$1.75 / M tokens

$0.175 / M tokens

$14 / M tokens

gpt-5.4

$2.50 / M tokens

$0.25 / M tokens

$15 / M tokens

gpt-5.2-pro

$21 / M tokens

-

$168 / M tokens

gpt-5.4-pro

$30 / M tokens

-

$180 / M tokens

Бағалаулар

Кәсіби

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

Инвестициялық банк моделдеу тапсырмалары (ішкі)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

Кодтау

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57.7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

Компьютерді пайдалану және көру

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (құралсыз)

81.2%

79.5%

MMMU Pro (құралдармен)

82.1%

80.4%

Құралдарды пайдалану

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

Академиялық

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Frontier Science Research

33.0%

36.7%

25.2%

FrontierMath 1–3 деңгейі

47.6%

50.0%

40.7%

FrontierMath 4-деңгей

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92.4%

93.2%

Humanity's Last Exam (құралсыз)

39.8%

42.7%

34.5%

36.6%

Humanity's Last Exam (құралдармен)

52.1%

58.7%

45.5%

50.0%

Ұзын контекст

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks ата-аналар 0–128K (дәлдік)

89.8%

89.0%

Graphwalks ата-аналар 256K–1M (дәлдік)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

Дерексіз ой қорыту

Бағалау

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (Verified)

73.3%

83.3%

52.9%

54.2% (high)

Ой қорытусыз бағалаулар

Бағалау

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (қалыпқа келтірілген өңдеу қашықтығы)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

Егер басқаша көрсетілмесе, бағалауларда ой қорыту деңгейі xhigh болып орнатылды. Benchmark-тар зерттеу ортасында жүргізілді, сондықтан кей жағдайларда нәтижелер продакшндағы ChatGPT‑тен сәл өзгеше болуы мүмкін.

Автор

OpenAI

Ескертпелер