5 Maret 2026

Ngenalake GPT‑5.4

Dirancang kanggo pakaryan profesional

Lagi dimuat…

Dina iki, kami ngluncurake GPT‑5.4 ing ChatGPT (minangka GPT‑5.4 Thinking), API, lan Codex. Iki model tercanggih kami sing paling mumpuni lan efisien kanggo pakaryan profesional. Kami uga ngluncurake GPT‑5.4 Pro ing ChatGPT lan API, kanggo wong-wong sing pengin kinerja maksimal ing tugas sing kompleks.

GPT‑5.4 nggabungake sing paling apik saka kemajuan anyar kami ing nalar, coding, lan alur kerja agentic dadi siji model tercanggih. Model iki nggabungake kapabilitas coding GPT‑5.3‑Codex sing dadi pimpinan industri, nalika ningkatake cara model bisa kerja ing macem-macem alat, lingkungan piranti lunak, lan tugas profesional sing nyakup spreadsheet, presentasi, lan dokumen. Asile yaiku model sing bisa ngrampungake pakaryan nyata sing kompleks kanthi akurat, efektif, lan efisien—ngirim apa sing sampeyan jaluk kanthi luwih sithik bolak-balik.

Ing ChatGPT, GPT‑5.4 Thinking saiki bisa menehi rencana awal saka pikirane, supaya sampeyan bisa nyetel arah ing tengah respons nalika lagi kerja, lan tekan output pungkasan sing luwih cocog karo kabutuhan sampeyan tanpa giliran tambahan. GPT‑5.4 Thinking uga ningkatake riset web jero, utamane kanggo pitakon sing banget spesifik, nalika luwih apik njaga konteks kanggo pitakon sing mbutuhake mikir luwih suwe. Bareng-bareng, perbaikan iki ateges jawaban sing kualitasé luwih dhuwur, teka luwih cepet, lan tetep relevan karo tugas sing lagi digarap.

Ing Codex lan API, GPT‑5.4 dadi model tujuan umum pisanan sing kami luncurake kanthi kapabilitas panggunaan komputer native sing paling mutakhir, ngidini agen ngoperasikake komputer lan nindakake alur kerja kompleks ing antarane aplikasi. Model iki ndhukung nganti 1M token konteks, ngidini agen ngrancang, nglakokake, lan verifikasi tugas ing cakrawala wektu dawa. GPT‑5.4 uga ningkatake cara model bisa kerja ing ekosistem alat lan connector sing gedhe liwat tool search, mbantu agen nemokake lan nggunakake alat sing pas kanthi luwih efisien tanpa ngorbanake kapinteran. Pungkasan, GPT‑5.4 yaiku model nalar paling efisien token kami nganti saiki, nggunakake token sing luwih sithik banget kanggo ngrampungake masalah dibandhingake GPT‑5.2—sing artine panggunaan token luwih sithik lan kacepetan luwih dhuwur.

Bareng karo kemajuan ing nalar umum, coding, lan pakaryan pengetahuan profesional, GPT‑5.4 ndadekake agen luwih bisa diandelake, alur kerja pangembang luwih cepet, lan output kualitas luwih dhuwur ing ChatGPT, API, lan Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (wins or ties)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*Previously reported as 64.7%. GPT‑5.3‑Codex achieves 74.0% with a newly introduced API parameter that preserves the original image resolution.

Pakaryan pengetahuan

Kanthi nerusake kapabilitas nalar umum GPT‑5.2, GPT‑5.4 menehi asil sing luwih konsisten lan luwih mateng ing tugas donya nyata sing penting kanggo para profesional.

Ing GDPval⁠, sing nguji kemampuan agen kanggo ngasilake pakaryan pengetahuan sing wis ditemtokake kanthi cetha ing 44 profesi, GPT‑5.4 nggayuh state of the art anyar, nyamai utawa ngluwihi profesional industri ing 83.0% perbandingan, dibandhingake 70.9% kanggo GPT‑5.2.

Ing GDPval, model nyoba pakaryan pengetahuan sing wis ditemtokake kanthi cetha ing 44 profesi saka 9 industri paling gedhe sing nyumbang marang GDP AS. Tugas njaluk produk pakaryan nyata, kayata presentasi penjualan, spreadsheet akuntansi, jadwal urgent care, diagram manufaktur, utawa video cekak. Upaya nalar disetel menyang xhigh kanggo GPT‑5.4 lan heavy kanggo GPT‑5.2 (tingkat sing rada luwih rendah ing ChatGPT).

“GPT-5.4 iku model paling apik sing tau kami coba. Saiki model iki dadi sing paling ndhuwur ing leaderboard benchmark APEX-Agents kami, sing ngukur kinerja model kanggo pakaryan layanan profesional. Model iki unggul kanggo nggawe deliverable jangka dawa kayata slide deck, model finansial, lan analisis hukum, menehi kinerja paling dhuwur nalika mlaku luwih cepet lan kanthi biaya luwih murah tinimbang model tercanggih pesaing.”

— Brendan Foody, CEO ing Mercor

Kami menehi fokus khusus kanggo ningkatake kemampuan GPT‑5.4 nggawe lan nyunting spreadsheet, presentasi, lan dokumen. Ing benchmark internal kanggo tugas pemodelan spreadsheet sing bisa ditindakake analis junior investment banking, GPT‑5.4 nggayuh skor rata-rata 87.3%, dibandhingake 68.4% kanggo GPT‑5.2. Ing sakumpulan prompt evaluasi presentasi, penilai manungsa luwih milih presentasi saka GPT‑5.4 68.0% wektu tinimbang saka GPT‑5.2 amarga estetika luwih kuwat, variasi visual luwih gedhe, lan panggunaan generasi gambar sing luwih efektif.

Tuladha sisih-menyisih asil spreadsheet saka GPT-5.2 vs GPT-5.4

Dokumen digawe kanthi setelan upaya nalar xhigh

Sampeyan bisa nyoba kapabilitas iki ing ChatGPT nggunakake GPT‑5.4 Thinking utawa Pro. Yen sampeyan pelanggan Enterprise, kami nyaranake nggunakake add-in ChatGPT kanggo Excel⁠(mbukak ing jendhela anyar) sing lagi wae kami luncurake, sing uga diluncurake dina iki. Kami uga wis nganyari skill spreadsheet⁠(mbukak ing jendhela anyar) lan skill presentasi⁠(mbukak ing jendhela anyar) sing kasedhiya ing Codex lan API.

Kanggo nggawe GPT‑5.4 luwih apik ing pakaryan donya nyata, kami nerusake kemajuan kanggo nyuda halusinasi lan kesalahan. GPT‑5.4 yaiku model paling faktual kami nganti saiki: ing sakumpulan prompt anonim sing pangguna menehi tandha ana kesalahan faktual, klaim individu GPT‑5.4 33% luwih sithik kemungkinan salah lan respons lengkapé 18% luwih sithik kemungkinan ngemot kesalahan apa wae, relatif marang GPT‑5.2.

“GPT-5.4 netepake standar anyar kanggo pakaryan hukum sing abot dokumen. Ing eval BigLaw Bench kami, model iki entuk skor 91%. Dibandhingake model liyane, GPT-5.4 saiki luwih apik ing nyusun analisis transaksional sing kompleks, njaga akurasi ing kontrak dawa, lan menehi tingkat rincian dhuwur sing dibutuhake praktisi hukum.”

— Niko Grupen, Head of Applied Research ing Harvey

Panggunaan komputer lan visi

GPT‑5.4 yaiku model tujuan umum pisanan kami kanthi kapabilitas panggunaan komputer native lan dadi langkah maju gedhe kanggo pangembang lan agen. Iki model paling apik sing saiki kasedhiya kanggo pangembang sing mbangun agen sing ngrampungake tugas nyata ing situs web lan sistem piranti lunak.

Kami ngrancang GPT‑5.4 supaya performane apik ing macem-macem beban kerja panggunaan komputer. Model iki apik banget kanggo nulis kode guna ngoperasikake komputer liwat pustaka kaya Playwright, uga menehi perintah mouse lan keyboard minangka respons marang screenshot. Prilakune bisa diarahake liwat pesen pangembang, tegesé pangembang bisa nyetel prilaku supaya cocog karo kasus panggunaan tartamtu. Pangembang malah bisa ngatur prilaku safety model supaya cocog karo tingkat toleransi risiko sing beda kanthi nemtokake kabijakan konfirmasi kustom.

Kinerja lan fleksibilitas model iki katon ing benchmark sing nguji panggunaan komputer ing macem-macem setelan. Ing OSWorld-Verified, sing ngukur kemampuan model kanggo navigasi lingkungan desktop liwat screenshot lan aksi keyboard/mouse, GPT‑5.4 nggayuh tingkat sukses 75.0% sing paling mutakhir, adoh ngluwihi 47.3% GPT‑5.2, lan ngluwihi kinerja manungsa sing ana ing 72.4%.¹

Ing WebArena-Verified, sing nguji panggunaan browser, GPT‑5.4 nggayuh tingkat sukses unggul 67.3% nalika nggunakake interaksi sing didorong DOM lan screenshot, dibandhingake 65.4% kanggo GPT‑5.2. Ing Online-Mind2Web, sing uga nguji panggunaan browser, GPT‑5.4 nggayuh tingkat sukses 92.8% mung nganggo observasi basis screenshot, luwih apik tinimbang Mode Agen ChatGPT Atlas, sing nggayuh tingkat sukses 70.9%.

Tool yield yaiku nalika asisten mandheg sedhela kanggo ngenteni respons alat. Yen 3 alat dipanggil kanthi paralel, banjur disusul 3 alat maneh sing dipanggil paralel, jumlah yield dadi 2. Tool yield dadi proxy latensi sing luwih apik tinimbang panggilan alat amarga nggambarake keuntungan saka paralelisasi.

GPT‑5.4 napsirake screenshot antarmuka browser lan sesambungan karo elemen UI liwat klik berbasis koordinat kanggo ngirim email lan njadwalake acara kalender. Video ora dipercepat.

Peningkatan panggunaan komputer GPT‑5.4 dibangun ing ndhuwur perbaikan kapabilitas persepsi visual umum model. Ing MMMU-Pro, tes pangerten visual lan nalar model, GPT‑5.4 nggayuh tingkat sukses 81.2% tanpa panggunaan alat, luwih apik tinimbang 79.5% GPT‑5.2. Persepsi visual sing luwih apik uga diterjemahake dadi kapabilitas parsing dokumen sing luwih apik. Ing OmniDocBench, GPT‑5.4 tanpa upaya nalar nggayuh rata-rata error (diukur saka normalized edit distance antarane prediksi model lan ground truth) 0.109, luwih apik tinimbang 0.140 GPT‑5.2.

MMMUPro dijalanke kanthi upaya nalar xhigh. OmniDocBench dijalanke kanthi upaya nalar none, kanggo nggambarake kinerja biaya murah lan latensi rendah.

Kami uga ningkatake pangerten visual kanggo gambar padhet beresolusi dhuwur nalika fidelitas penuh penting. Wiwit GPT‑5.4, kami ngenalake level detail input⁠(mbukak ing jendhela anyar) gambar original sing ndhukung persepsi fidelitas penuh nganti 10.24M total piksel utawa dimensi maksimum 6000 piksel, endi wae sing luwih cilik; level detail input gambar high saiki ndhukung nganti 2.56M total piksel utawa dimensi maksimum 2048 piksel. Ing tes awal karo pangguna API, kami ndeleng peningkatan sing kuwat ing kemampuan lokalisasi, pangerten gambar, lan akurasi klik nalika nggunakake detail original utawa high.

“Ing eval kami sing ngukur kinerja panggunaan komputer ing ~30K portal HOA lan pajak properti, GPT-5.4 nggayuh tingkat sukses 95% ing upaya kapisan lan 100% sajrone telung upaya, dibandhingake karo ~73–79% ing model CUA sadurunge. Model iki uga ngrampungake sesi ~3x luwih cepet nalika nggunakake ~70% token luwih sithik, kanthi nyata ningkatake reliabilitas lan efisiensi biaya ing skala gedhe."

— Dod Fraser, CEO ing Mainstay

Ing API, pangembang bisa ngakses kapabilitas iki nggunakake alat computer sing wis dianyari. Mangga delengen dokumentasi sing wis dianyari⁠(mbukak ing jendhela anyar) kanggo praktik paling apik sing disaranake.

Coding

GPT‑5.4 nggabungake kekuwatan coding GPT‑5.3‑Codex karo kapabilitas unggul kanggo pakaryan pengetahuan lan panggunaan komputer, sing paling penting ing tugas sing mlaku luwih suwe nalika model bisa nggunakake alat, ngiterasi, lan ngedorong pakaryan luwih adoh kanthi campur tangan manual sing luwih sithik. Model iki nyamai utawa ngluwihi GPT‑5.3‑Codex ing SWE-Bench Pro nalika nduweni latensi luwih rendah ing macem-macem upaya nalar.

Kami ngira latensi kanthi ndeleng prilaku produksi model kami, lan nyimulasikake iki kanthi offline. Perkiraan latensi iki ngétung durasi panggilan alat (wektu eksekusi kode), token sing disampel, lan token input. Latensi ing donya nyata bisa beda banget, lan gumantung marang akeh faktor sing ora kacakup ing simulasi kami. Upaya nalar disapu saka none nganti xhigh.

Nalika diaktifake, mode /fast ing Codex menehi kecepatan token nganti 1.5x luwih cepet nganggo GPT‑5.4. Iki model lan kapinteran sing padha, mung luwih cepet. Tegese pangguna bisa maju ing tugas coding, iterasi, lan debugging nalika tetep ing alur. Pangembang bisa ngakses GPT‑5.4 kanthi kecepatan cepet sing padha liwat API kanthi nggunakake priority processing⁠(mbukak ing jendhela anyar).

Ing evaluasi lan tes internal, kami nemokake yen GPT‑5.4 unggul ing tugas frontend kompleks, kanthi asil sing luwih estetis lan luwih fungsional tinimbang model apa wae sing sadurunge wis kami luncurake.

Minangka demonstrasi yen kapabilitas panggunaan komputer lan coding model sing saya apik bisa kerja bebarengan, kami uga ngluncurake skill Codex eksperimental kanthi jeneng “Playwright (Interactive)⁠(mbukak ing jendhela anyar)”. Iki ngidini Codex nindakake debug visual aplikasi web lan Electron; malah bisa digunakake kanggo nguji aplikasi sing lagi dibangun nalika lagi mbangune.

Game simulasi taman hiburan digawe nganggo GPT‑5.4 saka siji prompt sing spesifikasine entheng, nggunakake Playwright Interactive kanggo playtesting browser lan generasi gambar kanggo set aset isometrik. Simulasi iki kalebu penempatan jalur berbasis ubin, pembangunan wahana lan pemandangan, pathfinding tamu, antrian, lan siklus wahana, dene metrik taman kayata dhuwit, jumlah tamu, rasa seneng, kebersihan, lan rating bakal munggah utawa mudhun adhedhasar kinerja tata letak lan respons tamu. Playwright digunakake kanggo ngotomatisasi playtest browser kanthi mbangun lan ngembangake taman, nempatake lan mbusak jalur lan atraksi, mriksa navigasi kamera, lan verifikasi manawa tamu, antrian, status wahana, lan metrik UI dianyari kanthi bener sajrone sawetara puteran dolanan.

Prompt: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.

When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.

“GPT-5.4 saiki dadi pimpinan ing benchmark internal kami. Para engineer kami nemokake yen model iki luwih alami lan luwih tegas tinimbang model sadurunge. Model iki nggarap masalah sing ambigu tanpa mangu-mangu, lan proaktif babagan memparalelake pakaryan supaya kabeh tetep maju.”

— Lee Robinson, VP of Developer Education ing Cursor

Panggunaan alat

Kanthi GPT‑5.4, kami ningkatake kanthi signifikan cara model bisa kerja karo alat eksternal. Agen saiki bisa beroperasi ing ekosistem alat sing luwih gedhe, milih alat sing pas kanthi luwih bisa diandelake, lan ngrampungake alur kerja multilangkah kanthi biaya lan latensi luwih murah.

Tool search

Ing API, GPT‑5.4 ngenalake tool search⁠(mbukak ing jendhela anyar), sing ngidini model kerja kanthi efisien nalika diwenehi akeh alat.

Sadurunge, nalika model diwenehi alat, kabeh definisi alat dilebokake ing prompt saka awal. Kanggo sistem sing nduweni akeh alat, iki bisa nambah ewonan—utawa malah puluhan ewu—token ing saben request, nambah biaya, nyepetake respons dadi luwih alon, lan ngemohi konteks karo informasi sing bisa wae ora tau digunakake model.

Kanthi tool search, GPT‑5.4 malah nampa dhaptar entheng alat sing kasedhiya bebarengan karo kapabilitas tool search. Nalika model perlu nggunakake alat, model bisa nggoleki definisi alat kasebut lan nambahake menyang obrolan ing wektu kuwi.

Pendekatan iki nyuda kanthi drastis jumlah token sing dibutuhake kanggo alur kerja sing abot alat lan njaga cache, nggawe request luwih cepet lan luwih murah. Iki uga ngidini agen bisa kerja kanthi bisa diandelake karo ekosistem alat sing luwih gedhe. Kanggo server MCP sing bisa ngemot puluhan ewu token definisi alat, keuntungan efisiensi bisa gedhe banget.

Kanggo nduduhake keuntungan efisiensi kasebut, kami ngevaluasi 250 tugas saka benchmark MCP Atlas⁠(mbukak ing jendhela anyar) duweke Scale kanthi kabeh 36 server MCP diaktifake ing rong mode: (1) mbukak saben fungsi MCP langsung ing konteks model, lan (2) nempatake kabeh server MCP ing mburi tool search. Konfigurasi tool-search nyuda total panggunaan token nganti 47% nalika nggayuh akurasi sing padha.

Conto jumlah token asalé saka rata-rata 250 tugas ing dataset publik MCP-Atlas.

Panggilan alat agentic

GPT‑5.4 uga ningkatake tool calling, nggawe luwih akurat lan efisien nalika mutusake kapan lan kepiye nggunakake alat sajrone nalar, utamane ing API. Dibandhingake karo GPT‑5.2, model iki nggayuh akurasi luwih dhuwur kanthi giliran luwih sithik ing Toolathlon, benchmark sing nguji sepira apik agen AI bisa nggunakake alat lan API donya nyata kanggo ngrampungake tugas multilangkah. Contone, agen kudu maca email, ngekstrak lampiran tugas, ngunggah, mènèhi nilai, lan nyathet asil ing spreadsheet.

Kanggo kasus panggunaan sing sensitif marang latensi nalika upaya nalar None luwih disenengi, GPT‑5.4 luwih ningkat maneh tinimbang para pendahulune.

Ing τ2-bench⁠⁠(mbukak ing jendhela anyar), model kudu nggunakake alat kanggo ngrampungake tugas layanan pelanggan, sing bisa kalebu pangguna simulasi sing bisa komunikasi lan njupuk aksi marang state donya. Upaya nalar disetel menyang None.

Telusur web sing luwih apik

GPT‑5.4 luwih apik ing telusur web agentic. Ing BrowseComp, ukuran sepira apik agen AI bisa kanthi tekun njelajah web kanggo nemokake informasi sing angel digoleki, GPT‑5.4 mlumpat 17%_abs ngluwihi GPT‑5.2, lan GPT‑5.4 Pro netepake state of the art anyar ing 89.3%.

Ing praktik, iki ateges GPT‑5.4 Thinking luwih kuwat kanggo njawab pitakon sing mbutuhake nggabungake informasi saka akeh sumber ing web. Model iki bisa luwih tekun nggoleki liwat pirang-pirang puteran kanggo ngenali sumber sing paling relevan, utamane kanggo pitakon “jarum ing tumpukan jerami”, lan nyintesis dadi jawaban sing cetha lan bernalar apik.

Ing BrowseComp, kami nggunakake blocklist telusur sing ora nyakup situs web sing ngemot jawaban benchmark saka evaluasi kanggo nyegah kontaminasi lan njamin ukuran kinerja sing adil. GPT‑5.4 diukur ing tanggal sing luwih pungkasan tinimbang GPT‑5.2, mula skor nggambarake owah-owahan ing model, sistem telusur kami, lan kahanan internet. GPT‑5.4 diuji nganggo blocklist sing luwih dawa lan dianyari. Model nggunakake alat telusur ChatGPT, sing bisa nduweni bedane cilik karo telusur API.

“GPT-5.4 xhigh yaiku state of the art anyar kanggo panggunaan alat multilangkah. Zapier nglakokake sawetara benchmark panggunaan alat paling ketat ing industri, nguji model ing atusan alur kerja nyata tingkat lanjut. GPT-5.4 ngrampungake tugas nalika model sadurunge nyerah - model paling tekun nganti saiki.”

— Wade, CEO ing Zapier

Keterarahan

Kaya Codex njlentrehake pendekatane nalika wiwit kerja, GPT‑5.4 Thinking ing ChatGPT saiki uga bakal njlentrehake pakaryane nganggo pambuka kanggo pitakon sing luwih dawa lan luwih kompleks. Sampeyan uga bisa nambah instruksi utawa nyetel arahe ing tengah respons. Iki nggawe luwih gampang nuntun model menyang asil persis sing sampeyan karepake tanpa kudu miwiti maneh utawa mbutuhake akeh giliran tambahan. Fitur iki saiki kasedhiya ing chatgpt.com⁠(mbukak ing jendhela anyar) lan aplikasi Android, lan bakal enggal teka ing aplikasi iOS.

Model iki uga bisa mikir luwih suwe ing tugas angel nalika tetep njaga kesadaran sing luwih kuwat marang langkah-langkah sadurunge ing obrolan. Iki ngidini model nangani alur kerja sing luwih dawa lan prompt sing luwih kompleks nalika njaga jawaban tetep koheren lan relevan sakabehe.

Video iki dipercepat kanggo tujuan ilustrasi.

Keamanan

Ing sawetara wulan kepungkur, kami terus ningkatake safeguard sing kami kenalake bareng GPT‑5.3‑Codex nalika nyiapake GPT‑5.4 kanggo deployment. Kaya GPT‑5.3‑Codex, kami nganggep GPT‑5.4 minangka kapabilitas cyber High miturut Kerangka Kesiapan kami, lan kami ngedeply model iki karo proteksi sing cocog kaya didokumentasikake ing kertu sistem⁠(mbukak ing jendhela anyar). Iki kalebu tumpukan keamanan cyber sing diperluas, kalebu sistem pemantauan, kontrol akses dipercaya, lan pemblokiran asinkron kanggo request berisiko luwih dhuwur kanggo pelanggan ing permukaan Zero Data Retention (ZDR), bebarengan karo investasi terus-terusan ing ekosistem keamanan sing luwih jembar.

Amarga kapabilitas keamanan siber sipate dual-use, kami njaga pendekatan pancegahan marang deployment nalika terus ngkalibrasi kabijakan lan classifier kami. Kanggo pelanggan tartamtu ing permukaan ZDR, pemblokiran tingkat request tetep dadi bagéan saka tumpukan mitigasi risiko cyber kami; amarga classifier isih terus ningkat, sawetara false positive bisa kedadeyan nalika kami terus nyempurnakake safeguard iki. Pembaruan iki tujuane ningkatake cara safeguard bisa mlaku ing praktik, kalebu nyuda penolakan sing ora perlu lan respons sing kakehan caveat, nalika tetep njaga proteksi sing kuwat marang penyalahgunaan.

Kami nerusake riset keamanan babagan monitorabilitas Chain-of-Thought (CoT) kanggo luwih ngerti cara model nalar lan mbantu ndeteksi potensi prilaku ala. Minangka bagéan saka pakaryan iki, kami ngenalake evaluasi open-source anyar, kontrolabilitas CoT⁠, sing ngukur apa model bisa kanthi sengaja nyamarke nalare kanggo ngindhari pemantauan. Kami nemokake yen kemampuan GPT‑5.4 Thinking kanggo ngontrol CoT-e rendah, lan iki minangka sifat positif kanggo keamanan, sing nuduhake yen model ora nduweni kemampuan kanggo ndhelikake nalare lan pemantauan CoT tetep dadi alat keamanan sing efektif.

Kasedhiyan lan rega

GPT‑5.4 diluncurake bertahap dina iki ing ChatGPT lan Codex. Ing API, GPT‑5.4 saiki wis kasedhiya minangka gpt-5.4. GPT‑5.4 Pro uga kasedhiya ing API minangka gpt-5.4-pro kanggo pangembang sing butuh kinerja maksimal kanggo tugas paling kompleks.

Ing ChatGPT, GPT‑5.4 Thinking kasedhiya wiwit dina iki kanggo pangguna ChatGPT Plus, Team, lan Pro, ngganti GPT‑5.2 Thinking. GPT‑5.2 Thinking bakal tetep kasedhiya telung wulan kanggo pangguna berbayar ing pemilih model ing bagean Legacy Models, sawise kuwi bakal dipensiunake tanggal 5 Juni 2026. Wong-wong sing ana ing paket Enterprise lan Edu bisa ngaktifake akses awal liwat setelan admin. GPT‑5.4 Pro kasedhiya kanggo paket Pro lan Enterprise. Jendhela konteks⁠(mbukak ing jendhela anyar) ing ChatGPT kanggo GPT‑5.4 Thinking tetep ora owah saka GPT‑5.2 Thinking.

GPT‑5.4 yaiku model nalar mainline pisanan kami sing nggabungake kapabilitas coding tercanggih saka GPT‑5.3‑codex lan diluncurake ing ChatGPT, API, lan Codex. Kami nyebut model iki GPT‑5.4 kanggo nggambarake lompatan kasebut, lan supaya pilihan antar model dadi luwih prasaja nalika nggunakake Codex. Suwe-suwe, sampeyan bisa ngarepake model Instant lan model Thinking kami bakal berkembang kanthi kecepatan sing beda.

GPT‑5.4 ing Codex kalebu dhukungan eksperimental kanggo jendhela konteks 1M. Pangembang bisa nyoba iki kanthi ngatur model_context_window lan model_auto_compact_token_limit. Request sing ngluwihi jendhela konteks standar 272K bakal dietung marang wates panggunaan kanthi tarif 2x saka tarif normal.

Ing API, rega per token GPT‑5.4 luwih dhuwur tinimbang GPT‑5.2 kanggo nggambarake kapabilitas sing luwih apik, dene efisiensi token sing luwih gedhe mbantu nyuda total token sing dibutuhake kanggo akeh tugas. Rega Batch lan Flex kasedhiya ing setengah tarif API standar, dene Priority processing kasedhiya ing pindho tarif API standar.

Model API	Harga input	Harga input cache	Harga output
gpt-5.2	$1.75 / M token	$0.175 / M token	$14 / M token
gpt-5.4	$2.50 / M token	$0.25 / M token	$15 / M token
gpt-5.2-pro	$21 / M token	-	$168 / M token
gpt-5.4-pro	$30 / M token	-	$180 / M token

Evaluasi

Profesional

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
Tugas Modeling Investment Banking (Internal)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

Coding

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Publik)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

Panggunaan komputer lan visi

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75.0%	—	74.0%	47.3%	—
MMMU Pro (tanpa alat)	81.2%	—	—	79.5%	—
MMMU Pro (kanthi alat)	82.1%	—	—	80.4%	—

Panggunaan alat

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

Akademik

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Riset Sains Tercanggih	33.0%	36.7%	—	25.2%	—
FrontierMath Tier 1–3	47.6%	50.0%	—	40.7%	—
FrontierMath Tier 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam (tanpa alat)	39.8%	42.7%	—	34.5%	36.6%
Humanity's Last Exam (kanthi alat)	52.1%	58.7%	—	45.5%	50.0%

Konteks dawa

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Graphwalks parents 0–128K (akurasi)	89.8%	—	—	89.0%	—
Graphwalks parents 256K–1M (akurasi)	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36.6%	—	—	—	—

Nalar abstrak

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (Verified)	73.3%	83.3%	—	52.9%	54.2% (high)

Eval tanpa nalar

Eval	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (jarak edit dinormalisasi)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

Evaluasi ditindakake kanthi upaya nalar disetel menyang xhigh, kajaba yen kasebut beda. Benchmark ditindakake ing lingkungan riset, sing ing sawetara kasus bisa menehi output rada beda saka produksi ChatGPT.