Marso 5, 2026

Ipinapakilala ang GPT‑5.4

Idinisenyo para sa propesyonal na trabaho

Naglo-load…

Ngayon, ilalabas namin ang GPT‑5.4 sa ChatGPT (bilang GPT‑5.4 Thinking), ang API, at Codex. Ito ang aming pinaka-may kakayahan at mahusay na frontier na modelo para sa propesyonal na trabaho. Ire-release din namin ang GPT‑5.4 Pro sa ChatGPT at sa API, para sa mga taong gusto ng maximum na performance sa mga kumplikadong gawain.

Pinagsasama ng GPT‑5.4 ang pinakamahusay sa aming mga kamakailang pagsulong sa pangangatwiran, pagko-code, at mga agentic na workflow sa iisang frontier na modelo. Isinasama nito ang mga nangunguna sa industriyang kakayahan sa pag-code ng GPT‑5.3‑Codex⁠ habang pinapabuti kung paano gumagana ang modelo sa mga tool, kapaligiran ng software, at mga propesyonal na gawain na may kinalaman sa mga spreadsheet, presentasyon, at mga dokumento. Ang resulta ay isang modelong kayang tapusin ang kumplikadong totoong gawain nang tumpak, epektibo, at episyente—naibibigay nito ang kailangan mo nang mas kaunti ang pabalik-balik na usapan.

Sa ChatGPT, ang GPT‑5.4 Thinking ay maaari nang magbigay ng paunang plano ng pag-iisip nito, para maayos mo ang kurso sa kalagitnaan ng tugon habang gumagana ito, at makarating sa pangwakas na output na mas malapit na naaayon sa iyong kailangan nang walang karagdagang mga pagliko. GPT‑5.4 Pinapahusay din ng Thinking ang malalim na pananaliksik sa web, lalo na para sa mga lubhang partikular na query, habang mas mahusay na pinananatili ang konteksto para sa mga tanong na nangangailangan ng mas mahabang pag-iisip. Kapag pinagsama-sama, ang mga pagpapahusay na ito ay nangangahulugan ng mas mataas na kalidad na mga sagot na mas mabilis na dumarating at nananatiling may kaugnayan sa kasalukuyang gawain.

Sa Codex at sa API, ang GPT‑5.4 ang unang modelo para sa pangkalahatang layunin na inilabas namin na may native, state-of-the-art mga kakayahan sa paggamit ng computer, na nagbibigay-daan sa mga agent na mag-operate ng mga computer at magsagawa ng mga kumplikadong workflow sa iba’t ibang application. Sinusuportahan nito ang hanggang 1M token ng konteksto, na nagbibigay-daan sa mga agent na magplano, magsagawa, at mag-verify ng mga gawain sa mahahabang panahon. Pinapahusay din ng GPT‑5.4 kung paano gumagana ang mga modelo sa malalaking ecosystem ng mga tool at connector gamit ang tool search, na tumutulong sa mga agent na mahanap at magamit ang mga tamang tool nang mas mahusay nang hindi isinasakripisyo ang katalinuhan. Panghuli, ang GPT‑5.4 ang aming pinaka-token efficient na nangangatwirang modelo sa ngayon, na gumagamit ng mas kaunting token para malutas ang mga problema kumpara sa GPT‑5.2—na nagreresulta sa mas mababang paggamit ng token at mas mabilis.

Kasabay ng mga pagsulong sa pangkalahatang pangangatwiran, pag-code, at propesyonal na gawaing pangkaalaman, nagbibigay-daan ang GPT‑5.4 sa mas maaasahang mga ahente, mas mabilis na daloy ng trabaho ng developer, at mas mataas na kalidad na mga output sa ChatGPT, sa API, at sa Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (panalo o tabla)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Na-verify	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*Nauna nang iniulat bilang 64.7%. Nakakamit ng GPT‑5.3‑Codex ang 74.0% gamit ang bagong ipinakilalang parameter ng API na nagpapanatili sa orihinal na resolusyon ng larawan.

Gawaing pangkaalaman

Ang GPT‑52 ay batay sa pangkalahatang kakayahan sa pangangatwiran, ang GPT‑5.4 ay naghahatid ng mas pare-pareho at mas mahusay na mga resulta sa mga totoong gawain na mahalaga sa mga propesyonal.

Sa GDPval⁠, na sumusubok sa kakayahan ng mga agent na makagawa ng mahusay na tinukoy na gawaing kaalaman sa 44 na trabaho, nakakamit ng GPT‑5.4 ang bagong estado ng sining, na tumutugma o lumalampas sa mga propesyonal sa industriya sa 83.0% ng mga paghahambing, kumpara sa 71.0% para sa GPT‑5.2.

Sa GDPval, sinusubukan ng mga modelo ang mga malinaw na tinukoy na gawaing pangkaalaman na sumasaklaw sa 44 na trabaho mula sa nangungunang 9 na industriya na nag-aambag sa GDP ng U.S. Humihiling ang mga gawain ng mga aktuwal na output sa trabaho, tulad ng mga sales presentation, accounting spreadsheet, iskedyul ng urgent care, mga diagram sa manufacturing, o maiikling video. Naka-set ang reasoning effort sa xhigh para sa GPT‑5.4 at heavy para sa GPT‑5.2 (isang bahagyang mas mababang antas sa ChatGPT).

“GPT-5.4 ang pinakamahusay na modelo na nasubukan namin kailanman. Nangunguna na ito ngayon sa leaderboard ng aming APEX-Agents benchmark, na sumusukat sa performance ng mga modelo para sa trabaho sa mga propesyonal na serbisyo. Mahusay ito sa paggawa ng mga long-horizon deliverable tulad ng mga slide deck, financial model, at legal analysis, at nagbibigay ng mataas na performance habang mas mabilis tumatakbo at mas mababa ang gastos kumpara sa mga kakompetensiyang frontier model.

— Brendan Foody, CEO ng Mercor

Nagtuon kami ng pansin sa pagpapabuti ng kakayahan ng GPT‑5.4 na lumikha at mag-edit ng mga spreadsheet, presentasyon, at dokumento. Sa isang panloob na benchmark ng mga gawain sa pagmomodelo ng spreadsheet na puwedeng gawin ng junior investment banking analyst, ang GPT‑5.4 ay nakakamit ng mean score na 87.5%, kumpara sa 68.4%para sa GPT‑5.2. Sa hanay ng mga prompt sa pagsusuri ng presentasyon, mas pinili ng mga human rater ang mga presentasyon mula sa GPT‑5.4 68.0% ng oras kaysa sa mga mula sa GPT‑5.2 dahil sa mas mahusay na estetika, mas malawak na biswal na pagkakaiba-iba, at mas epektibong paggamit ng pag-generate ng larawan.

Magkatabing halimbawa ng mga output ng spreadsheet mula sa GPT-5.2 vs GPT-5.4

Nabuo ang mga dokumento na may pagsisikap sa pangangatwiran na naka-set sa xhigh

Puwede mong subukan ang mga kakayahang ito sa ChatGPT gamit ang GPT‑5.4 Thinking o Pro. Kung isa kang customer ng Enterprise, inirerekomenda naming gamitin ang mga bagong inilabas naming plugin na ChatGPT para sa Excel at Google Sheets⁠(magbubukas sa bagong window), na inilunsad din ngayong araw. Na-update rin namin ang aming kasanayan sa spreadsheet⁠(magbubukas sa bagong window) at kasanayan sa presentasyon⁠(magbubukas sa bagong window) na available sa Codex at sa API.

Para mas mapabuti ang GPT‑5.4 sa totoong buhay, ipinagpatuloy namin ang aming pag-unlad sa pagsugpo sa mga halusinasyon at pagkakamali. Ang GPT‑5.4 ang aming pinaka-makatotohanang modelo sa ngayon: sa isang hanay ng mga de-identified prompt kung saan minarkahan ng mga user ang mga factual error, ang mga indibidwal na pahayag ng GPT‑5.4 ay 33% na mas malamang na hindi mali at ang mga buong tugon nito ay 18% na mas malamang na hindi maglaman ng anumang error, kumpara sa GPT‑5.2.

“Nagtatakda ang GPT-5.4 ng bagong pamantayan para sa gawaing legal na maraming dokumento ang sangkot. Sa aming BigLaw Bench na pagsusuri, nakakuha ito ng 91%. Kung ikukumpara sa ibang modelo, mas mahusay sa kasalukuyan ang GPT-5.4 sa pag-istruktura ng kumplikadong transactional analysis, pagpapanatili ng accuracy sa mahahabang kontrata, at paghahatid ng mataas na antas ng detalye na kailangan ng mga legal practitioner.”

— Niko Grupen, Head ng Applied Research sa Harvey

Paggamit ng computer at vision

Ang GPT‑5.4 ang aming unang modelo para sa pangkalahatang layunin na may mga likas na kakayahan sa paggamit ng computer at nagmamarka ng malaking hakbang pasulong para sa mga developer at agent. Ito ang pinakamahusay na modelo na kasalukuyang available para sa mga developer na gumagawa ng mga agent na kumukumpleto ng mga totoong gawain sa iba’t ibang website at software system.

Dinisenyo namin ang GPT‑5.4 para maging mahusay ang performance sa malawak na hanay ng mga workload sa paggamit ng computer. Mahusay ito sa pagsulat ng code para sa pagpapatakbo ng mga computer sa pamamagitan ng mga library tulad ng Playwright, pati na rin sa pag-isyu ng mga utos sa mouse at keyboard bilang tugon sa mga screenshot. Ang gawi nito ay puwedeng idirekta sa pamamagitan ng mga mensahe ng developer, ibig sabihin ay maaaring isaayos ng mga developer ang gawi para umangkop sa mga partikular na kaso ng paggamit. Puwede pang i-configure ng mga developer ang kagawian sa kaligtasan ng modelo para umayon sa iba't ibang antas ng pagtanggap sa panganib sa pamamagitan ng pagtukoy ng mga pasadyang patakaran sa pagkumpirma.

Makikita ang pagganap at kakayahang umangkop ng modelo sa mga benchmark na sumusubok sa paggamit ng computer sa iba't ibang setting. Sa OSWorld-Verified, na sumusukat sa kakayahan ng modelo na mag-navigate sa desktop environment gamit ang mga screenshot at mga aksyon sa keyboard/mouse, nakakamit ng GPT‑5.4 ang makabagong 75.0% na antas ng tagumpay, na higit na lumalampas sa GPT‑5.2 47.3%, at nalalampasan ang pagganap ng tao sa 72.4%.¹

Sa WebArena-Verified, na sumusubok sa paggamit ng browser, nakakamit ng GPT‑5.4 ang nangungunang 67.3% na rate ng tagumpay kapag ginagamit ang parehong DOM- at screenshot-driven na interaksyon, kumpara sa 65.4% ng GPT‑5.2. Sa Online-Mind2Web, na sumusubok din sa paggamit ng browser, nakakamit ng GPT‑5.4 ang 92.8% na rate ng tagumpay gamit lang ang mga obserbasyon batay sa screenshot, na mas mahusay kaysa sa Agent Mode ng ChatGPT Atlas, na nakakamit ng rate ng tagumpay na 70.9%.

Ang tool yield ay kapag ang assistant ay pumapayag na maghintay ng mga tugon ng tool. Kung 3 tool ang tinawag nang sabay-sabay, na sinundan pa ng 3 pang tool na tinawag din nang sabay-sabay, ang bilang ng yield ay magiging 2. Ang mga tool yield ay mas mahusay na sukatan ng latency kaysa mga tool call dahil ipinapakita nila ang mga benepisyo ng parallelization.

Ini-interpret ng GPT‑5.4 ang mga screenshot ng interface ng browser at nakikipag-ugnayan sa mga UI element sa pamamagitan ng pag-click na batay sa coordinate para magpadala ng mga email at mag-iskedyul ng event sa kalendaryo.

Nakabatay ang pinahusay na paggamit ng computer ng GPT‑5.4 sa pinahusay na pangkalahatang kakayahan ng modelo sa persepsyon ng paningin. Sa MMMU-Pro, pagsubok sa biswal na pag-unawa at pangangatwiran ng modelo, nakakamit ng GPT‑5.4 ang 81.2% na rate ng tagumpay nang walang paggamit ng kagamitan, pagpapabuti kumpara sa GPT‑5.2 79.5%. Nagreresulta rin ang pinahusay na visual perception sa mas mahusay na kakayahan sa pag-parse ng mga dokumento. Sa OmniDocBench, ang GPT‑5.4 nang walang pagsisikap sa pangangatwiran ay nakakamit ng average na error (sinusukat sa pamamagitan ng normalized edit distance sa pagitan ng prediksyon ng modelo at ground truth) na 0.109, pinabuti mula sa 0.140 ng GPT‑5.2.

Pinatakbo ang MMMUPro nang naka-set sa xhigh ang reasoning effort. Pinatakbo ang OmniDocBench na naka-set sa wala ang reasoning effort para maipakita ang low-cost at low-latency na performance.

Pinapabuti rin namin ang biswal na pag-unawa para sa mga siksik at mataas na resolusyon na mga image kung saan mahalaga ang ganap na katapatan. Simula sa GPT‑5.4, ipapakilala namin ang antas ng orihinal na image input detail⁠(magbubukas sa bagong window) na sumusuporta sa full-fidelity perception hanggang sa 10.24M kabuuang pixel o 6000-pixel maximum na dimensyon, alinman ang mas mababa; ang antas ng high na input detail ng image ay sumusuporta na ngayon ng hanggang 2.56M kabuuang pixel o 2048-pixel maximum na dimensyon. Sa mga unang pagsubok sa mga user ng API, naobserbahan namin ang malalaking pagbuti sa kakayahan sa lokalisasyon, pag-unawa sa image, at katumpakan ng pag-click kapag gumagamit ng original o high detail.

“Sa aming mga pagsusuri na sumusukat sa performance ng paggamit ng computer sa humigit-kumulang 30K HOA at mga portal ng buwis sa ari-arian, nakamit ng GPT-5.4 ang 95% na success rate sa unang pagtatangka at 100% sa loob ng tatlong pagtatangka, kumpara sa humigit-kumulang 73–79% lamang sa mga naunang CUA model. Natapos din nito ang mga session nang humigit-kumulang tatlong beses na mas mabilis habang gumagamit ng halos 70% na mas kaunting tokens, na makabuluhang nagpapabuti sa pagiging maaasahan at cost efficiency kapag ginagamit sa malaking saklaw."

— Dod Fraser, CEO at Mainstay

Sa API, puwedeng ma-access ng mga developer ang mga kakayahang ito gamit ang na-update na computer tool. Pakitingnan ang aming na-update na dokumentasyon⁠(magbubukas sa bagong window) para sa mga inirerekomendang pinakamahuhusay na kasanayan.

Pag-code

Pinagsasama ng GPT‑5.4 ang mga kalakasan sa coding ng GPT‑5.3‑Codex at ang nangungunang mga kakayahan sa gawaing kaalaman at paggamit ng computer, na pinakamahalaga sa mas mahahabang gawain kung saan puwedeng gumamit ng mga tool ang modelo, mag-iterate, at mas isulong ang trabaho nang may mas kaunting manu-manong interbensyon. Tumutugma ito o mas mahusay pa kaysa sa GPT‑5.3‑Codex sa SWE-Bench Pro habang mas mababa ang latency sa iba't ibang pagsisikap sa pangangatwiran.

Tinatantiya namin ang latency sa pamamagitan ng pagtingin sa gawi sa produksyon ng aming mga modelo, at pagsasagawa ng offline na simulation nito. Isinasaalang-alang ng pagtataya ng latency ang tagal ng tool call (oras ng pagpapatupad ng code), mga na-sample na token, at mga input token. Maaaring mag-iba nang malaki ang latency sa totoong buhay, at nakadepende ito sa maraming salik na hindi naka-capture sa aming simulation. Sinubukan ang iba’t ibang antas ng reasoning effort, mula none hanggang xhigh.

Kapag naka-on, ang /fast mode sa Codex ay naghahatid ng hanggang 1.5x na mas mabilis na token velocity gamit ang GPT‑5.4. Pareho pa rin ang modelo at ang katalinuhan, mas mabilis lang. Ibig sabihin, makakagalaw ang mga user sa mga gawain sa pag-code, pag-ulit, at pag-debug habang nananatiling nasa daloy. Puwedeng ma-access ng mga developer ang GPT‑5.4 sa parehong mabibilis na bilis sa pamamagitan ng API gamit ang priority processing⁠(magbubukas sa bagong window).

Sa pagsusuri at panloob na pagsubok, natuklasan namin na ang GPT‑5.4 ay mahusay sa mga kumplikadong gawain sa frontend, na may kapansin-pansing mas estetiko at mas praktikal na mga resulta kaysa sa anumang modelong inilunsad namin noon.

Bilang pagpapakita ng pinahusay na kakayahan ng modelo sa paggamit ng computer at pagko-code na sabay na gumagana, naglalabas din kami ng eksperimental na kasanayan sa Codex na tinatawag na “Playwright (Interactive)⁠(magbubukas sa bagong window)”. Nagbibigay-daan ito sa Codex na biswal na i-debug ang mga web at Electron app; puwede pa nga itong gamitin para subukan ang app na binubuo nito, habang binubuo nito ito.

Isang simulation game na may theme park na ginawa gamit ang GPT‑5.4 mula sa isang prompt na hindi gaanong tinukoy, gamit ang Playwright Interactive para sa browser playtesting at pag-generate ng larawan para sa isometric asset set. Kasama sa simulation ang paglalagay ng mga daanan na nakabatay sa tile, pagtatayo ng mga ride at dekorasyon, paghahanap ng ruta ng mga bisita, pagpila, at mga cycle ng ride, habang ang mga sukatan ng parke tulad ng pera, bilang ng bisita, kasiyahan, kalinisan, at rating ay tumataas o bumababa batay sa kung paano gumagana ang layout at kung paano tumutugon dito ang mga bisita. Ginamit ang Playwright para i-automate ang mga browser playtest sa pamamagitan ng pagbuo at pagpapalawak ng park, paglalagay at pag-aalis ng mga path at attraction, pag-check ng camera navigation, at pag-verify na ang mga guest, queue, estado ng ride, at mga UI metric ay nag-a-update nang tama sa ilang round ng paglalaro.

Prompt: Gamitin ang $playwright-interactive at $imagegen. Gumawa ng interactive na isometric theme park simulation game na puwede kong buuin at laruin sa browser. Gamitin ang imagegen para itakda ang kabuuang visual na direksiyon at mabuo ang mga asset ng laro, kabilang ang mga ride, daanan, terrain, puno, tubig, mga puwesto ng pagkain, dekorasyon, mga gusali, icon, at mga ilustrasyon ng UI. Dapat magmukhang magkakatugma, pulido, at mayaman sa detalye ang buong mundo, na may premium na art direction na angkop na angkop sa isometric na perspektibo. Hayaan mo akong maglagay at mag-alis ng mga daanan, magdagdag ng mga atraksyon, magposisyon ng mga tanawin at dekorasyon, at makagalaw nang maayos sa loob ng parke habang mino-monitor ang aktibidad ng mga bisita, kalagayan ng mga ride, at paglago ng parke. Isama ang kapani-paniwalang galaw ng mga bisita, mga simpleng sistema ng pamamahala ng parke tulad ng pera, kalinisan, pagpila, at kasiyahan, at gawin ang karanasan na masaya, malinaw, at kumpleto sa pakiramdam sa halip na magmukhang simpleng prototype lang. Unahin ang charm, readability, at malakas na game feel kaysa realism.

Kapag sinusubukan ang paglalaro, siguraduhing itayo at palawakin ang parke sa pamamagitan ng ilang round ng paglalaro, tiyakin na maayos ang paglalagay at nabigasyon, kumpirmahin na tumutugon ang mga bisita sa layout at mga atraksyon ng parke, at tiyaking ang mga visual, UI, at mga interaksyon ay magiging matatag at magkakaugnay.

“Natuklasan ng aming mga engineer ang GPT-5.4 mas natural at mas assertive kaysa sa mga naunang modelo . Nakakayanan nitong lutasin ang mga malabong problema nang hindi nagdadalawang-isip sa sarili nito, at proaktibo itong nagsasabay-sabay ng trabaho para manatiling tuloy-tuloy ang mga bagay.”

— Lee Robinson, VP ng Edukasyon para sa mga Developer sa Cursor

Paggamit ng mga tool

Gamit ang GPT‑5.4, lubos naming napabuti kung paano gumagana ang mga modelo gamit ang mga panlabas na tool. Maaari na ngayong gumana ang mga agent sa mas malalaking ecosystem ng tool, mas maaasahang pumili ng mga tamang tool, at kumpletuhin ang mga multi-step na workflow nang may mas mababang gastos at latency.

Maghanap ng tool

Sa API, ipinakikilala ng GPT‑5.4 ang tool search⁠(magbubukas sa bagong window), na nagbibigay-daan sa mga modelo na gumana nang mahusay kapag binigyan ng maraming tool.

Dati, kapag binibigyan ng mga tool ang isang modelo, lahat ng kahulugan ng tool ay kasama sa paunang prompt. Para sa mga system na may maraming tool, puwede itong magdagdag ng libu-libo—o kahit sampu-sampung libo—ng mga token sa bawat kahilingan, na magpapataas ng gastos, magpapabagal sa mga tugon, at magsisikip sa konteksto ng impormasyong maaaring hindi kailanman magamit ng modelo.

Gamit ang tool search, ang GPT‑5.4 ay tumatanggap ng magaan na listahan ng mga available na tool kasama ang kakayahan sa paghahanap ng tool. Kapag kailangang gumamit ng tool ang modelo, puwede nitong hanapin ang depinisyon ng tool na iyon at idagdag ito sa pag-uusap sa sandaling iyon.

Ang pamamaraang ito ay lubhang nagpapababa sa bilang ng token na kinakailangan para sa mga workflow na maraming ginagamit na tool at pinapanatili ang cache, kaya nagiging mas mabilis at mas mura ang mga request. Nagbibigay-daan din ito sa mga agent na maaasahang makapagtrabaho sa mas malalaking ecosystem ng mga tool. Para sa mga MCP server na puwedeng maglaman ng sampu-sampung libong token ng mga kahulugan ng tool, puwedeng malaki ang nadagdag na kahusayan.

Para ipakita ang mga pagtaas sa kahusayan, sinuri namin ang 250 gawain mula sa benchmark ng Scale’s MCP Atlas⁠(magbubukas sa bagong window) na naka-enable ang lahat ng 36 MCP server sa dalawang mode: (1) direktang inilalantad ang bawat MCP function sa konteksto ng modelo, at (2) inilalagay ang lahat ng MCP server sa likod ng tool search. Binawasan ng tool-search configuration ang kabuuang paggamit ng token ng 47% habang nakakamit ang parehong katumpakan.

Ang mga halimbawa ng bilang ng token ay mula sa average ng 250 gawain sa MCP-Atlas public dataset.

Agentic na tool calling

Pinapahusay din ng GPT‑5.4 ang tool calling, na ginagawa itong mas tumpak at mas episyente kapag nagpapasya kung kailan at paano gagamit ng mga tool sa panahon ng pangangatwiran, lalo na sa API. Kung ikukumpara sa GPT‑5.2, nakakamit nito ang mas mataas na katumpakan sa mas kaunting turn sa Toolathlon, ang benchmark na sumusubok kung gaano kahusay magagamit ng mga AI agent ang mga tool at API sa totoong mundo para makumpleto ang mga multi-step na gawain. Halimbawa, kailangang magbasa ng mga email ang agent, mag-extract ng mga attachment ng takdang-aralin, i-upload ang mga ito, i-grade ang mga ito, at irekord ang mga resulta sa spreadsheet.

Para sa mga kaso ng paggamit na sensitibo sa latency kung saan mas mabuti ang reasoning effort na Wala, mas pinagbubuti pa ng GPT‑5.4 ang mga nauna rito.

Sa τ2-bench⁠⁠(magbubukas sa bagong window), kinakailangan ng modelo na gumamit ng mga tool para maisagawa ang gawain sa customer service, kung saan puwedeng may simulated na user na nakakapag-ugnayan at nakakagawa ng mga aksyon na nakaaapekto sa kalagayan ng system. Naka-set sa Wala ang reasoning effort.

Pinahusay na paghahanap sa web

Mas mahusay ang GPT‑5.4 sa paghahanap sa web ng agent. Sa BrowseComp, isang sukatan kung gaano kahusay ang mga AI agent na patuloy na makakapag-browse sa web para makahanap ng impormasyong mahirap hanapin, ang GPT‑5.4 ay lumampas ng 17%_abs sa GPT‑5.2, at ang GPT‑5.4 Pro ay nagse-set ng bagong state-of-the-art na 89.3%.

Sa pagsasagawa, nangangahulugan ito ng GPT‑5.4 Mas mahusay ang Thinking sa pagsagot sa mga tanong na nangangailangan ng pagsasama-sama ng impormasyon mula sa maraming mapagkukunan sa web. Maaari itong mas tuloy-tuloy na maghanap sa maraming round upang matukoy ang mga pinaka-may-katuturang mapagkukunan, lalo na para sa mga tanong na “needle-in-a-haystack,” at i-synthesize ang mga ito upang maging isang malinaw at mahusay na napangangatwirang sagot.

Sa BrowseComp, gumamit kami ng search blocklist na nagbubukod ng mga website na naglalaman ng mga sagot sa benchmark mula sa pagsusuri para maiwasan ang kontaminasyon at matiyak ang patas na pagsukat ng pagganap. Sinukat ang GPT‑5.4 sa mas huling petsa kaysa sa GPT‑5.2, kaya ang mga iskor ay sumasalamin sa mga pagbabago sa modelo, sa aming search system, at sa estado ng internet. Sinubukan ang GPT‑5.4 gamit ang mas mahaba at na-update na blocklist. Gumagamit ang mga modelo ng tool sa paghahanap sa ChatGPT, na puwedeng may maliliit na pagkakaiba mula sa paghahanap sa API.

“Ang GPT-5.4 xhigh ang bagong pinakamataas na antas sa paggamit ng mga tool na nangangailangan ng maraming hakbang. Isinasagawa ng Zapier ang ilan sa pinakamahigpit na benchmark sa industriya para sa paggamit ng mga tool, at sinusuri nito ang mga modelo sa daan-daang advanced na workflow sa tunay na mga sitwasyon. Naipagpatuloy at natapos ng GPT-5.4 ang gawain na hindi natapos ng mga naunang modelo—ito ang pinaka-matatag na modelo sa ngayon.”SZAX

— Wade, ang CEO ng Zapier

Kakayahang magmaniobra

Katulad ng kung paano binabalangkas ng Codex ang pamamaraan nito kapag nagsimula itong gumana, ibabalangkas na ngayon ng GPT‑5.4 Thinking in Chat ang gawain nito na may paunang salita para sa mas mahaba at mas kumplikadong mga query. Puwede ka ring magdagdag ng mga tagubilin o i-adjust ang direksyon nito sa kalagitnaan ng tugon. Ginagawa nitong mas madali ang paggabay sa modelo patungo sa eksaktong resultang gusto mo nang hindi nagsisimulang muli o nangangailangan ng maraming karagdagang pagliko. Available na ngayon ang feature na ito sa chatgpt.com⁠(magbubukas sa bagong window) at sa Android app, at malapit nang magkaroon sa iOS app.

Maaari ring mag-isip nang mas matagal ang modelo sa mahihirap na gawain habang pinapanatili ang mas malalim na kamalayan sa mga naunang hakbang sa pag-uusap. Nagbibigay-daan ito para mapangasiwaan ang mas mahahabang daloy ng trabaho at mas kumplikadong mga prompt habang pinapanatiling magkakaugnay at may kaugnayan ang mga sagot sa kabuuan.

Pinabilis ang video na ito para sa layuning ilustratibo.

Kaligtasan

Sa mga nakalipas na buwan, patuloy naming pinagbubuti ang mga pananggalang na ipinakilala namin sa GPT‑5.3‑Codex habang inihahanda ang GPT‑5.4 para sa pag-deploy. Katulad ng GPT‑5.3‑Codex, tinatrato namin ang GPT‑5.4 bilang Mataas na kakayahan sa cyber sa ilalim ng aming Preparedness Framework, at inilalapat namin ito kasama ang mga kaukulang proteksyon na nakadokumento sa system⁠ card. Kabilang dito ang pinalawak na cyber safety stack, kabilang ang mga sistema ng pagsubaybay, pinagkakatiwalaang kontrol sa pag-access, at asynchronous blocking para sa mga kahilingang may mas mataas na panganib para sa mga customer sa mga Zero Data Retention (ZDR) surface, kasama ang patuloy na pamumuhunan sa mas malawak na ecosystem ng seguridad.

Dahil ang mga kakayahan sa cybersecurity ay likas na may dalawang gamit, pinapanatili namin ang maingat na pamamaraan sa pag-deploy habang patuloy na kina-calibrate ang aming mga patakaran at classifier. Para sa ilang customer na gumagamit ng ZDR surfaces, bahagi pa rin ng aming cyber risk mitigation stack ang request-level blocking; dahil patuloy pang pinapahusay ang mga classifier, maaaring magkaroon ng ilang false positive habang patuloy naming pinipino ang mga safeguard na ito. Layunin ng mga update na ito na mapabuti kung paano gumagana ang mga pananggalang sa pagsasagawa, kabilang ang pagbabawas ng mga hindi kinakailangang pagtanggi at mga tugon na labis na pinabubulaanan, habang pinapanatili ang matibay na proteksyon laban sa maling paggamit.

Ipinagpatuloy namin ang aming pananaliksik sa kaligtasan tungkol sa monitorability ng Chain-of-Thought (CoT) para mas maunawaan kung paano nagdadahilan ang mga modelo at makatulong na matukoy ang posibleng maling gawi. Bilang bahagi ng gawaing ito, ipinapakilala namin ang bagong open-source na pagsusuri, CoT controllability⁠, na sumusukat kung kayang sadyang pagtakpan ng mga modelo ang kanilang pangangatwiran para makaiwas sa pagsubaybay. Natuklasan namin na ang kakayahan ng GPT‑5.4 Thinking na kontrolin ang CoT nito ay mababa, na isang positibong katangian para sa kaligtasan, na nagmumungkahi na walang kakayahan ang modelo na itago ang pangangatwiran nito at nananatiling epektibong kasangkapan sa kaligtasan ang pagsubaybay sa CoT.

Availability at pagpepresyo

Unti-unting inilulunsad ngayon ang GPT‑5.4 sa ChatGPT at Codex. Sa API, available na ngayon ang GPT‑5.4 bilang gpt-5.4. GPT‑5.4 Available din ang Pro sa API bilang gpt-5.4-pro para sa mga developer na nangangailangan ng maximum na performance sa mga pinaka-kumplikadong gawain.

Sa ChatGPT, ang GPT‑5.4 Thinking ay available na simula ngayon para sa mga user ng ChatGPT Plus, Team, at Pro, na pinapalitan ang GPT‑5.2 Thinking. GPT‑5.2 Mananatiling available ang Thinking sa loob ng tatlong buwan para sa mga bayad na user sa tagapili ng modelo sa ilalim ng seksyong Mga Legacy Model, pagkatapos nito ay ititigil na ito sa Hunyo 5, 2026. Puwedeng paganahin ng mga nasa Enterprise at Edu plan ang maagang pag-access sa pamamagitan ng mga setting ng admin. GPT‑5.4 Available ang Pro sa mga plano ng Pro at Enterprise. Ang mga window ng konteksto⁠(magbubukas sa bagong window) sa ChatGPT para sa GPT‑5.4 Thinking ay mananatiling hindi nagbabago mula sa GPT‑5.2 Thinking.

Ang GPT‑5.4 ang aming unang pangunahing reasoning model na isinasama ang advanced na kakayahan sa coding ng GPT‑5.3‑Codex, at kasalukuyang inilalabas sa ChatGPT, sa API, at sa Codex. Tinatawag namin itong GPT‑5.4 para maipakita ang pagbabagong iyon, at para gawing simple ang pagpili sa pagitan ng mga modelo kapag ginagamit ang Codex. Sa paglipas ng panahon, maaasahan mong magbabago ang ating mga Instant model at Thinking model sa iba't ibang bilis.

Kasama sa GPT‑5.4 sa Codex ang eksperimental na suporta para sa 1M context window. Puwedeng subukan ito ng mga developer sa pamamagitan ng pag-configure ng model_context_window at model_auto_compact_token_limit. Ang mga kahilingang lumalampas sa karaniwang 272K window ng konteksto ay ibinibilang laban sa mga limitasyon ng paggamit sa 2x na normal na rate.

Sa API, ang GPT‑5.4 ay mas mataas ang presyo bawat token kaysa sa GPT‑5.2 para maipakita ang pinahusay nitong mga kakayahan, habang ang mas mataas na kahusayan ng token nito ay nakakatulong na mabawasan ang kabuuang bilang ng mga token na kinakailangan para sa maraming gawain. Ang presyo ng Batch at Flex ay makukuha sa kalahati ng karaniwang halaga ng API, habang ang Priority processing ay makukuha sa doble ng karaniwang halaga ng API.

Modelo ng API	Presyo ng input	Presyo ng naka-cache na input	Presyo ng output
gpt-5.2	$1.75 / M token	$0.175 / M token	$14 / M token
gpt-5.4	$2.50 / M token	$0.25 / M token	$15 / M token
gpt-5.2-pro	$21 / M token	-	$168 / M token
gpt-5.4-pro	$30 / M token	-	$180 / M token

Mga pagsusuri

Propesyonal

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
Mga Gawain sa Pagmomodelo sa Investment Banking (Panloob)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

Pag-code

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

Paggamit ng computer at vision

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Na-verify	75.0%	—	74.0%	47.3%	—
MMMU Pro (walang mga tool)	81.2%	—	—	79.5%	—
MMMU Pro (may mga tool)	82.1%	—	—	80.4%	—

Paggamit ng mga tool

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

Pang-akademiko

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Pananaliksik sa Agham ng Hangganan	33.0%	36.7%	—	25.2%	—
FrontierMath Tier 1–3	47.6%	—	—	40.7%	—
FrontierMath tier 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Huling Pagsusulit sa Humanity (walang mga tool)	39.8%	42.7%	—	34.5%	36.6%
Huling Pagsusulit sa Humanity (na may mga tool)	52.1%	58.7%	—	45.5%	50.0%

Mahabang konteksto

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Mga magulang ng Graphwalks 0–128K (katumpakan)	89.8%	—	—	89.0%	—
Mga magulang ng Graphwalks 256K–1M (katumpakan)	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-karayom 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-karayom 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36.6%	—	—	—	—

Abstract na pangangatwiran

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Na-verify)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (Na-verify)	73.3%	83.3%	—	52.9%	54.2% (mataas)

Evals nang walang pangangatwiran

Eval	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (normalized edit distance)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

Isinagawa ang mga eval na naka-set sa xhigh ang reasoning effort, maliban kung may ibang espesipikong nakasaad. Isinagawa ang mga benchmark sa research environment, kaya sa ilang pagkakataon maaaring bahagyang magkaiba ang output kumpara sa production na ChatGPT.