5 Maret 2026

Memperkenalkan GPT‑5.4

Dirancang untuk pekerjaan profesional

Memuat…

Hari ini, kami merilis GPT‑5.4 di ChatGPT (sebagai GPT‑5.4 Thinking), API, dan Codex. Ini adalah model terdepan kami yang paling canggih dan efisien untuk pekerjaan profesional. Kami juga merilis GPT‑5.4 Pro di ChatGPT dan API, untuk orang-orang yang menginginkan kinerja maksimum pada tugas-tugas kompleks.

GPT‑5.4 menggabungkan yang terbaik dari kemajuan terbaru kami dalam penalaran, pengodean, dan alur kerja agentik ke dalam satu model terdepan. Model ini menggabungkan kemampuan pengodean terdepan di industri dari GPT‑5.3‑Codex⁠ sekaligus meningkatkan cara model bekerja di berbagai alat, lingkungan perangkat lunak, dan tugas profesional yang melibatkan spreadsheet, presentasi, dan dokumen. Hasilnya adalah model yang menyelesaikan pekerjaan nyata yang kompleks secara akurat, efektif, dan efisien—memberikan apa yang Anda minta dengan lebih sedikit bolak-balik.

Di ChatGPT, GPT‑5.4 Thinking kini dapat memberikan rencana awal tentang proses berpikirnya, sehingga Anda dapat menyesuaikan arah di tengah respons saat sedang bekerja, dan mendapatkan output akhir yang lebih selaras dengan yang Anda butuhkan tanpa perlu giliran tambahan. GPT‑5.4 Thinking juga meningkatkan kualitas riset mendalam di web, khususnya untuk kueri yang sangat spesifik, sekaligus lebih baik dalam mempertahankan konteks untuk pertanyaan yang memerlukan pemikiran lebih lama. Secara keseluruhan, peningkatan-peningkatan ini berarti jawaban berkualitas lebih tinggi yang hadir lebih cepat dan tetap relevan dengan tugas yang sedang dikerjakan.

Di Codex dan API, GPT‑5.4 adalah model untuk tujuan umum pertama yang kami rilis dengan kemampuan penggunaan komputer native dan tercanggih, yang memungkinkan agen mengoperasikan komputer dan menjalankan alur kerja kompleks lintas aplikasi. Mendukung hingga 1 jt token konteks, yang memungkinkan agen untuk merencanakan, menjalankan, dan memverifikasi tugas di sepanjang rentang waktu yang panjang. GPT‑5.4 juga meningkatkan cara model bekerja di seluruh ekosistem besar alat dan konektor dengan pencarian alat, membantu agen menemukan dan menggunakan alat yang tepat dengan lebih efisien tanpa mengorbankan kecerdasan. Terakhir, GPT‑5.4 adalah model penalaran yang paling efisien dalam penggunaan token kami sejauh ini, menggunakan jauh lebih sedikit token untuk menyelesaikan masalah dibandingkan dengan GPT‑5.2—yang berarti penggunaan token yang lebih rendah dan kecepatan yang lebih tinggi.

Seiring dengan kemajuan dalam penalaran umum, pengodean, dan pekerjaan pengetahuan profesional, GPT‑5.4 memungkinkan agen yang lebih andal, alur kerja pengembang yang lebih cepat, dan output berkualitas lebih tinggi di seluruh ChatGPT, API, dan Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (menang atau seri)	83,0%	70,9%	70,9%
SWE-Bench Pro (Public)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74,0%*	47,3%
Toolathlon	54,6%	51,9%	46,3%
BrowseComp	82,7%	77,3%	65,8%

*Sebelumnya dilaporkan sebesar 64,7%. GPT‑5.3‑Codex mencapai 74,0% dengan parameter API yang baru diperkenalkan yang mempertahankan resolusi gambar asli.

Pekerjaan pengetahuan

Dibangun berdasarkan kemampuan penalaran umum GPT‑5.2, GPT‑5.4 menghadirkan hasil yang bahkan lebih konsisten dan lebih matang pada tugas dunia nyata yang penting bagi para pekerja profesional.

Pada GDPval⁠, sebuah evaluasi yang menguji kemampuan agen untuk menghasilkan pekerjaan berbasis pengetahuan yang terdefinisi dengan baik di 44 jenis pekerjaan, GPT‑5.4 mencapai state of the art baru, menyamai atau melampaui profesional industri dalam 83,0% perbandingan, dibandingkan dengan 71,0% untuk GPT‑5.2.

Dalam GDPval, model berusaha melakukan pekerjaan berbasis pengetahuan yang terdefinisi dengan baik, mencakup 44 pekerjaan dari 9 industri teratas yang berkontribusi terhadap PDB AS. Tugas meminta produk kerja sesungguhnya, seperti presentasi penjualan, spreadsheet akuntansi, jadwal perawatan darurat, diagram manufaktur, atau video pendek. Upaya penalaran diatur ke xhigh untuk GPT‑5.4 dan berat untuk GPT‑5.2 (pada level yang sedikit lebih rendah di ChatGPT).

“GPT-5.4 adalah model terbaik yang pernah kami coba. Kini model ini berada di puncak papan peringkat pada tolok ukur APEX-Agents kami, yang mengukur kinerja model untuk pekerjaan layanan profesional. Model ini unggul dalam membuat hasil kerja jangka panjang seperti dek slide, model keuangan, dan analisis hukum, memberikan kinerja terbaik sekaligus berjalan lebih cepat dan dengan biaya lebih rendah dibandingkan model terdepan kompetitif.”

— Brendan Foody, CEO dari Mercor

Kami menaruh perhatian khusus pada peningkatan kemampuan GPT‑5.4 untuk membuat dan mengedit spreadsheet, presentasi, dan dokumen. Pada tolok ukur internal untuk tugas pemodelan spreadsheet yang mungkin dilakukan oleh analis perbankan investasi junior, GPT‑5.4 mencapai skor rata-rata sebesar 87,5%, dibandingkan dengan GPT‑5.2 yang hanya mencapai 68,4% . Pada serangkaian prompt evaluasi presentasi, penilai manusia lebih memilih presentasi dari GPT‑5.4 sebesar 68,0% dibandingkan presentasi dari GPT‑5.2 karena estetika yang lebih kuat, variasi visual yang lebih besar, dan penggunaan pembuatan gambar yang lebih efektif.

Contoh perbandingan berdampingan output spreadsheet dari GPT-5.2 vs GPT-5.4

Dokumen dibuat dengan upaya penalaran yang disetel ke xhigh

Anda dapat mencoba kemampuan ini di ChatGPT menggunakan GPT‑5.4 Thinking atau Pro. Jika Anda adalah pelanggan Enterprise, kami merekomendasikan untuk menggunakan plugin ChatGPT untuk Excel dan Google Sheets yang baru kami rilis⁠(terbuka di jendela baru), yang juga diluncurkan hari ini. Kami juga telah memperbarui spreadsheet⁠(terbuka di jendela baru) dan kemampuan presentasi⁠(terbuka di jendela baru) yang tersedia di Codex dan API.

Untuk membuat GPT‑5.4 lebih baik dalam pekerjaan di dunia nyata, kami melanjutkan kemajuan kami dalam mengurangi halusinasi dan kesalahan. GPT‑5.4 adalah model kami yang paling faktual saat ini: pada serangkaian prompt yang dianonimkan ketika pengguna menandai kesalahan faktual, klaim individual GPT‑5.4 sebesar 33% lebih kecil kemungkinannya untuk salah dan respons penuhnya 18% lebih kecil kemungkinannya untuk mengandung kesalahan apa pun, dibandingkan dengan GPT‑5.2.

“GPT-5.4 menetapkan standar baru untuk pekerjaan hukum yang banyak melibatkan dokumen. Pada evaluasi BigLaw Bench kami, model ini mencetak skor 91%. Dibandingkan dengan model lain, GPT-5.4 saat ini lebih baik dalam menyusun analisis transaksional yang kompleks, mempertahankan akurasi di seluruh kontrak yang panjang, dan memberikan tingkat detail tinggi yang dibutuhkan oleh praktisi hukum.”

— Niko Grupen, Kepala Riset Terapan di Harvey

Penggunaan dan penglihatan komputer

GPT‑5.4 adalah model serbaguna pertama kami dengan kemampuan penggunaan komputer secara native dan menandai langkah besar ke depan bagi pengembang dan agen. Ini adalah model terbaik yang saat ini tersedia bagi pengembang yang membangun agen yang menyelesaikan tugas nyata di berbagai situs web dan sistem perangkat lunak.

Kami telah merancang GPT‑5.4 agar berkinerja baik di berbagai beban kerja penggunaan komputer. Model ini unggul dalam menulis kode untuk mengoperasikan komputer melalui pustaka seperti Playwright, serta mengeluarkan perintah mouse dan keyboard sebagai respons terhadap tangkapan layar. Perilakunya dapat diarahkan melalui pesan pengembang, yang berarti pengembang dapat menyesuaikan perilaku agar sesuai dengan kasus penggunaan tertentu. Pengembang bahkan dapat mengonfigurasi perilaku keamanan model agar sesuai dengan berbagai tingkat toleransi risiko dengan menentukan kebijakan konfirmasi kustom.

Kinerja dan fleksibilitas model tercermin dalam berbagai tolok ukur yang menguji penggunaan komputer di berbagai pengaturan. Pada OSWorld-Verified, yang mengukur kemampuan model untuk menavigasi lingkungan desktop melalui tangkapan layar dan tindakan keyboard/mouse, GPT‑5.4 mencapai tingkat keberhasilan 75,0% state of the art jauh melampaui GPT‑5.2 yang mencapai angka 47,3%, dan melampaui kinerja manusia sebesar 72,4%.¹

Pada WebArena-Verified, yang menguji penggunaan browser, GPT‑5.4 mencapai tingkat keberhasilan sebesar 67,3% saat menggunakan interaksi berbasis DOM dan tangkapan layar, dibandingkan dengan GPT‑5.2 sebesar 65,4%. Pada Online-Mind2Web, yang juga menguji penggunaan browser, GPT‑5.4 mencapai tingkat keberhasilan 92,8% hanya dengan menggunakan observasi berbasis tangkapan layar, meningkat dibandingkan dengan Mode Agen ChatGPT Atlas, yang mencapai tingkat keberhasilan 70,9%.

Istilah "tool yield" merujuk pada situasi di mana asisten memberi waktu untuk menunggu respons dari alat. Jika 3 alat dipanggil secara paralel, diikuti oleh 3 alat lagi yang dipanggil secara paralel, jumlah yield akan menjadi 2. Yield alat adalah proksi latensi yang lebih baik dibanding pemanggilan alat karena mencerminkan manfaat paralelisasi.

GPT‑5.4 menafsirkan tangkapan layar dari antarmuka browser dan berinteraksi dengan elemen antarmuka melalui klik berbasis koordinat untuk mengirim email dan menjadwalkan acara kalender.

Penggunaan komputer GPT‑5.4 yang meningkat dibangun berdasarkan kemampuan persepsi visual umum model yang lebih baik. Pada MMMU-Pro, sebuah pengujian pemahaman visual dan penalaran model, GPT‑5.4 mencapai tingkat keberhasilan 81,2% tanpa penggunaan alat, sebuah peningkatan dibandingkan dengan GPT‑5.2 yang mencapai 79,5%. Peningkatan persepsi visual juga berarti kemampuan penguraian dokumen yang lebih baik. Pada OmniDocBench, GPT‑5.4 tanpa upaya penalaran mencapai rata-rata kesalahan (diukur berdasarkan jarak edit ternormalisasi antara prediksi model dan ground truth) sebesar 0,109, meningkat dari 0,140 milik GPT‑5.2.

MMMUPro dijalankan dengan upaya penalaran disetel ke xhigh. OmniDocBench dijalankan dengan upaya penalaran yang disetel ke Tidak Ada, untuk mencerminkan kinerja berbiaya rendah dan berlatensi rendah.

Kami juga meningkatkan pemahaman visual untuk gambar yang padat dan beresolusi tinggi, ketika fidelitas penuh itu penting. Mulai dengan GPT‑5.4, Kami memperkenalkan tingkat detail input gambar original detail input⁠(terbuka di jendela baru) yang mendukung persepsi fidelitas penuh hingga total 10,24 jt piksel atau dimensi maksimum 6000 piksel, mana yang lebih rendah; tingkat detail input gambar high kini mendukung hingga total 2,56 jt piksel atau dimensi maksimum 2048 piksel. Dalam pengujian awal dengan pengguna API, kami mengamati peningkatan yang signifikan dalam kemampuan lokalisasi, pemahaman gambar, dan keakuratan klik saat menggunakan versi asli atau dengan detail tinggi.

“Dalam evaluasi kami yang mengukur kinerja penggunaan komputer di ~30K portal HOA dan pajak properti, GPT-5.4 mencapai tingkat keberhasilan 95% pada percobaan pertama dan 100% dalam tiga percobaan, dibandingkan dengan ~73–79% pada model CUA sebelumnya. Model ini juga menyelesaikan sesi ~3x lebih cepat sekaligus menggunakan ~70% lebih sedikit token, sehingga secara material meningkatkan keandalan dan efisiensi biaya dalam skala besar."

— Dod Fraser, CEO di Mainstay

Di API, pengembang dapat mengakses kemampuan ini menggunakan alat bantu komputer yang telah diperbarui. Harap lihat dokumentasi yang telah diperbarui⁠(terbuka di jendela baru) kami untuk mengetahui praktik terbaik yang direkomendasikan.

Pengodean

GPT‑5.4 menggabungkan kekuatan pengodean dari GPT‑5.3‑Codex dengan kemampuan unggulan dalam pekerjaan berbasis pengetahuan dan penggunaan komputer, sangat berguna terutama untuk tugas-tugas yang berjalan lebih lama, di mana model dapat menggunakan berbagai alat, melakukan iterasi, dan mendorong pekerjaan lebih jauh dengan intervensi manual yang lebih sedikit. Model ini menyamai atau melampaui GPT‑5.3‑Codex pada SWE-Bench Pro sambil memiliki latensi yang lebih rendah di seluruh upaya penalaran.

Kami memperkirakan latensi dengan melihat perilaku produksi model kami, dan mensimulasikannya secara offline. Perkiraan latensi memperhitungkan durasi pemanggilan alat (waktu eksekusi kode), token yang diambil sampelnya, dan token input. Latensi di dunia nyata dapat sangat bervariasi, dan bergantung pada banyak faktor yang tidak tercakup dalam simulasi kami. Upaya penalaran meningkat dari none ke xhigh.

Saat diaktifkan, fast mode di Codex memberikan kecepatan token hingga 1.5x lebih cepat dengan GPT‑5.4. Ini model yang sama dan kecerdasan yang sama, hanya lebih cepat. Itu berarti pengguna dapat berpindah melalui tugas pengodean, iterasi, dan debugging sambil tetap fokus dalam alur kerja. Pengembang dapat mengakses GPT‑5.4 dengan kecepatan tinggi yang sama melalui API dengan menggunakan pemrosesan prioritas⁠(terbuka di jendela baru).

Dalam evaluasi dan pengujian internal, kami menemukan bahwa GPT‑5.4 unggul dalam tugas frontend yang kompleks, dengan hasil yang secara nyata lebih estetis dan lebih fungsional daripada model apa pun yang pernah kami luncurkan sebelumnya.

Sebagai demonstrasi peningkatan kemampuan penggunaan komputer dan pengodean model yang bekerja secara bersamaan, kami juga merilis kemampuan Codex eksperimental bernama “Playwright (Interactive)⁠(terbuka di jendela baru)”. Ini memungkinkan Codex untuk merunut secara visual aplikasi web dan Electron; bahkan dapat digunakan untuk menguji aplikasi yang sedang dibuatnya, saat sedang membuatnya.

Permainan simulasi taman hiburan yang dibuat dengan GPT‑5.4 dari satu prompt yang detailnya sederhana, menggunakan Playwright Interactive untuk pengujian permainan di browser dan pembuatan gambar untuk set aset isometrik. Simulasi ini mencakup penempatan jalur berbasis ubin, konstruksi wahana dan pemandangan, pencarian jalur pengunjung, antrian, dan siklus wahana, sementara metrik taman seperti uang, jumlah pengunjung, kebahagiaan, kebersihan, dan peringkat naik atau turun berdasarkan kinerja tata letak dan bagaimana pengunjung meresponsnya. Playwright digunakan untuk mengotomatiskan pengujian permainan di browser dengan membangun dan memperluas taman, menempatkan dan menghapus jalur dan atraksi, memeriksa navigasi kamera, dan memverifikasi bahwa pengunjung, antrean, status wahana, dan metrik antarmuka pengguna diperbarui dengan benar selama beberapa putaran permainan.

Prompt: Gunakan $playwright-interactive dan $imagegen. Buatlah permainan simulasi taman hiburan isometrik interaktif yang dapat saya bangun dan navigasikan di browser. Gunakan imagegen untuk menetapkan visi visual keseluruhan dan menghasilkan aset permainan, termasuk wahana, jalan setapak, medan, pepohonan, air, kios makanan, dekorasi, bangunan, ikon, dan ilustrasi antarmuka pengguna. Dunianya harus terasa kohesif, rapi, dan kaya secara visual, dengan arahan seni premium yang berfungsi dengan baik dari perspektif isometrik. Izinkan saya menempatkan dan menghapus jalan setapak, menambahkan atraksi, memposisikan pemandangan, dan bergerak di sekitar taman dengan lancar sambil memantau aktivitas pengunjung, status wahana, dan pertumbuhan taman. Sertakan pergerakan pengunjung yang realistis, sistem manajemen taman yang sederhana seperti uang, kebersihan, antrian, dan kebahagiaan, dan buat pengalaman terasa menyenangkan, jelas, dan lengkap, bukan seperti prototipe kasar. Prioritaskan daya tarik, keterbacaan, dan nuansa permainan yang kuat daripada realisme.

Saat melakukan pengujian permainan, pastikan untuk membangun dan memperluas taman melalui beberapa putaran permainan, verifikasi bahwa penempatan dan navigasi berfungsi dengan lancar, konfirmasi bahwa pengunjung bereaksi terhadap tata letak taman dan atraksi, serta pastikan visual, antarmuka pengguna, dan interaksi terasa stabil dan kohesif.

“Insinyur kami mendapati bahwa GPT-5.4 lebih alami dan tegas daripada model sebelumnya . Model ini mengerjakan masalah yang ambigu tanpa meragukan dirinya sendiri, dan proaktif dalam memparalelkan pekerjaan agar semuanya tetap berjalan.”

— Lee Robinson, VP Pendidikan Pengembang di Cursor

Penggunaan alat

Dengan GPT‑5.4, kami telah secara signifikan meningkatkan cara model bekerja dengan alat eksternal. Agen kini dapat beroperasi di seluruh ekosistem alat yang lebih luas, memilih alat yang tepat dengan lebih andal, dan menyelesaikan alur kerja multi-langkah dengan biaya dan latensi yang lebih rendah.

Pencarian alat

Di API, GPT‑5.4 memperkenalkan pencarian alat⁠(terbuka di jendela baru), yang memungkinkan model bekerja secara efisien saat diberikan banyak alat.

Sebelumnya, ketika sebuah model diberi alat, semua definisi alat bantu disertakan dalam prompt di awal. Untuk sistem dengan banyak alat, hal ini dapat menambahkan ribuan—atau bahkan puluhan ribu—token ke setiap permintaan, meningkatkan biaya, memperlambat respons, dan memenuhi konteks dengan informasi yang mungkin tidak akan pernah digunakan oleh model.

Dengan pencarian alat, GPT‑5.4 sebagai gantinya menerima daftar ringan alat bantu yang tersedia beserta kemampuan pencarian alat bantu. Saat model perlu menggunakan alat, model dapat mencari definisi alat tersebut dan menambahkannya ke percakapan pada saat itu.

Pendekatan ini mengurangi jumlah token yang diperlukan untuk alur kerja yang banyak menggunakan alat bantu secara drastis dan mempertahankan cache, sehingga permintaan menjadi lebih cepat dan lebih murah. Ini juga memungkinkan agen untuk bekerja dengan andal dengan ekosistem alat yang jauh lebih besar. Untuk server MCP yang mungkin berisi puluhan ribu token definisi alat, peningkatan efisiensinya bisa sangat signifikan.

Untuk mendemonstrasikan peningkatan efisiensi, kami mengevaluasi 250 tugas dari tolok ukur MCP Atlas⁠(terbuka di jendela baru) milik Scale dengan semua 36 server MCP diaktifkan dalam dua mode: (1) mengekspos setiap fungsi MCP secara langsung dalam konteks model, dan (2) menempatkan semua server MCP di balik pencarian alat. Konfigurasi pencarian alat mengurangi penggunaan token total sebesar 47% sambil tetap mencapai akurasi yang sama.

Jumlah token contoh berasal dari rata-rata 250 tugas dalam dataset publik MCP-Atlas.

Pemanggilan alat agentik

GPT‑5.4 juga meningkatkan kemampuan pemanggilan alat, sehingga lebih akurat dan efisien saat memutuskan kapan dan bagaimana menggunakan alat selama penalaran, khususnya di API. Dibandingkan dengan GPT‑5.2, model ini mencapai akurasi yang lebih tinggi dalam lebih sedikit putaran pada Toolathlon, sebuah tolok ukur yang menguji seberapa baik agen AI dapat menggunakan alat dan API dunia nyata untuk menyelesaikan tugas multi-langkah. Sebagai contoh, seorang agen perlu membaca email, mengekstrak lampiran tugas, mengunggahnya, menilainya, dan mencatat hasilnya dalam spreadsheet.

Untuk kasus penggunaan yang sensitif terhadap latensi di mana upaya penalaran 'Tidak Ada' lebih disukai, GPT‑5.4 semakin meningkatkan kemampuannya dibandingkan pendahulunya.

Dalam τ2-bench⁠⁠(terbuka di jendela baru), sebuah model harus menggunakan alat untuk menyelesaikan tugas layanan pelanggan, di mana mungkin ada pengguna simulasi yang dapat berkomunikasi dan mengambil tindakan pada keadaan dunia nyata. Upaya penalaran diatur ke Tidak Ada.

Peningkatan pencarian web

GPT‑5.4 lebih unggul dalam pencarian web yang bersifat agentik. Di BrowseComp, sebuah pengukuran seberapa baik agen AI dapat secara persisten menjelajah web untuk menemukan informasi yang sulit ditemukan, GPT‑5.4 melonjak 17%_abs lebih tinggi dibandingkan GPT‑5.2, dan GPT‑5.4 Pro menetapkan state of the art baru sebesar 89,3%.

Dalam praktiknya, ini berarti GPT‑5.4 Thinking lebih kuat dalam menjawab pertanyaan yang memerlukan penyusunan informasi dari banyak sumber di web. Fitur ini dapat menelusuri berbagai pencarian secara lebih persisten di beberapa putaran untuk mengidentifikasi sumber yang paling relevan, khususnya untuk pertanyaan yang sangat sulit bagaikan “jarum dalam tumpukan jerami”, dan menyintesisnya menjadi jawaban yang jelas dan dengan penjelasan yang baik.

Di BrowseComp, kami menggunakan daftar blokir pencarian yang mengecualikan situs web yang berisi jawaban tolok ukur dari evaluasi untuk mencegah kontaminasi dan memastikan pengukuran kinerja yang adil. GPT‑5.4 diukur pada tanggal yang lebih baru dibandingkan GPT‑5.2, sehingga skor mencerminkan perubahan pada model, sistem pencarian kami, dan keadaan internet. GPT‑5.4 diuji dengan daftar blokir yang lebih panjang dan diperbarui. Model menggunakan alat pencarian ChatGPT, yang dapat sedikit berbeda dari pencarian API.

“GPT-5.4 xhigh adalah state of the art baru untuk penggunaan alat multi-langkah. Zapier menjalankan beberapa tolok ukur penggunaan alat yang paling ketat di industri, menguji model di ratusan alur kerja dunia nyata yang canggih. GPT-5.4 menyelesaikan pekerjaan ketika model sebelumnya menyerah - model paling gigih hingga saat ini.”

— Wade, CEO di Zapier

Kemampuan untuk diarahkan

Mirip dengan cara Codex menguraikan pendekatannya saat mulai bekerja, GPT‑5.4 Thinking di ChatGPT kini akan menguraikan pekerjaannya dengan pengantar untuk kueri yang lebih panjang dan lebih kompleks. Anda juga dapat menambahkan instruksi atau menyesuaikan arahnya di tengah respons. Hal ini memudahkan Anda untuk mengarahkan model menuju hasil yang tepat seperti yang Anda inginkan tanpa harus memulai dari awal atau memerlukan beberapa putaran tambahan. Fitur ini kini tersedia di chatgpt.com⁠(terbuka di jendela baru) dan aplikasi Android, segera hadir di aplikasi iOS.

Model ini juga dapat berpikir lebih lama pada tugas yang sulit sambil mempertahankan kesadaran yang lebih kuat terhadap langkah-langkah sebelumnya dalam percakapan. Ini memungkinkannya untuk menangani alur kerja yang lebih panjang dan prompt yang lebih kompleks sambil menjaga jawaban tetap koheren dan relevan sepanjang waktu.

Video ini dipercepat untuk tujuan ilustrasi.

Keselamatan

Selama beberapa bulan terakhir, kami terus meningkatkan perlindungan yang kami perkenalkan dengan GPT‑5.3‑Codex sambil mempersiapkan GPT‑5.4 untuk peluncuran. Mirip dengan GPT‑5.3‑Codex, kami memperlakukan GPT‑5.4 sebagai kapabilitas siber Tinggi di bawah Kerangka Kerja Kesiapan kami, dan kami menerapkannya dengan perlindungan yang sesuai sebagaimana didokumentasikan dalam kartu sistem⁠. Ini mencakup perluasan lapisan keamanan siber, termasuk sistem pemantauan, kontrol akses terpercaya, dan pemblokiran asinkron untuk permintaan berisiko lebih tinggi bagi pelanggan pada permukaan Retensi Data Nol (ZDR), bersama dengan investasi berkelanjutan dalam ekosistem keamanan yang lebih luas.

Karena kemampuan keamanan siber pada dasarnya memiliki fungsi ganda, kami menerapkan pendekatan kehati-hatian dalam penerapannya sambil terus menyesuaikan kebijakan dan pengklasifikasi kami. Untuk pelanggan tertentu di permukaan ZDR, pemblokiran tingkat permintaan tetap menjadi bagian dari lapisan mitigasi risiko siber kami; karena pengklasifikasi masih terus ditingkatkan, beberapa positif palsu dapat terjadi saat kami terus menyempurnakan perlindungan ini. Pembaruan ini bertujuan untuk meningkatkan cara kerja pengamanan dalam praktiknya, termasuk mengurangi penolakan yang tidak perlu dan respons yang terlalu bertele-tele, sambil tetap mempertahankan perlindungan yang kuat terhadap penyalahgunaan.

Kami telah melanjutkan riset keamanan kami tentang keterpantauan Chain-of-Thought (CoT) untuk lebih memahami bagaimana model bernalar dan membantu mendeteksi potensi perilaku yang tidak semestinya. Sebagai bagian dari pekerjaan ini, kami memperkenalkan evaluasi open-source baru, keterkendalian CoT⁠, yang mengukur apakah model dapat dengan sengaja mengaburkan penalaran mereka untuk menghindari pemantauan. Kami menemukan bahwa kemampuan GPT‑5.4 Thinking untuk mengendalikan CoT-nya rendah, yang merupakan sifat positif untuk keamanan, yang menunjukkan bahwa model ini tidak memiliki kemampuan untuk menyembunyikan penalarannya dan bahwa pemantauan CoT tetap menjadi alat keamanan yang efektif.

Ketersediaan dan harga

GPT‑5.4 mulai diluncurkan secara bertahap hari ini di ChatGPT dan Codex. Di API, GPT‑5.4 kini tersedia sebagai gpt-5.4. GPT‑5.4 Pro juga tersedia di API sebagai gpt-5.4-pro untuk pengembang yang membutuhkan kinerja maksimal pada tugas-tugas yang paling kompleks.

Di ChatGPT, GPT‑5.4 Thinking tersedia bagi pengguna ChatGPT Plus, Team, dan Pro mulai hari ini, menggantikan GPT‑5.2 Thinking. GPT‑5.2 Thinking akan tetap tersedia selama tiga bulan untuk pengguna berbayar dalam pemilih model di bawah bagian Model Legacy, setelah itu akan dihentikan pada 5 Juni, 2026. Pengguna paket Enterprise dan Edu dapat mengaktifkan akses awal melalui pengaturan admin. GPT‑5.4 Pro tersedia untuk paket Pro dan Enterprise. Jendela konteks⁠(terbuka di jendela baru) di ChatGPT untuk GPT‑5.4 Thinking tetap tidak berubah dari GPT‑5.2 Thinking.

GPT‑5.4 adalah model penalaran mainline pertama kami yang menggabungkan kemampuan pengodean terdepan dari GPT‑5.3‑codex dan model ini sedang diluncurkan di seluruh ChatGPT, API dan Codex. Kami menyebutnya GPT‑5.4 untuk mencerminkan peningkatan besar tersebut, dan untuk menyederhanakan pilihan antara model saat menggunakan Codex. Seiring waktu, Anda dapat mengharapkan model Instant dan model Thinking kami berkembang dengan kecepatan yang berbeda.

GPT‑5.4 di Codex menyertakan dukungan eksperimental untuk jendela konteks 1 jt. Pengembang dapat mencobanya dengan mengonfigurasi model_context_window dan model_auto_compact_token_limit. Permintaan yang melebihi jendela konteks standar 272K akan dihitung terhadap batas penggunaan dengan laju 2x dari laju normal.

Dalam API, GPT‑5.4 dikenakan harga lebih tinggi per token dibandingkan GPT‑5.2 untuk mencerminkan kapabilitasnya yang lebih baik, sementara efisiensi tokennya yang lebih tinggi membantu mengurangi total jumlah token yang diperlukan untuk banyak tugas. Harga Batch dan Flex tersedia dengan setengah tarif API standar, sementara pemrosesan Prioritas tersedia dengan dua kali tarif API standar.

Model API	Harga input	Harga input yang di-cache	Harga output
gpt-5.2	$1,75 / jt token	$0,175 / jt token	$14 / jt token
gpt-5.4	$2,50 / jt token	$0.25 / jt token	$15 / jt token
gpt-5.2-pro	$21 / jt token	-	$168 / jt token
gpt-5.4-pro	$30 / jt token	-	$180 / jt token

Evaluasi

Profesional

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	—
Tugas Pemodelan Perbankan Investasi (Internal)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	—	65,1%	63,1%	—

Pengodean

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7%	—	56,8%	55,6%	—
Terminal-Bench 2.0	75,1%	—	77,3%	62,2%	—

Penggunaan dan penglihatan komputer

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	—	74,0%	47,3%	—
MMMU Pro (tanpa alat)	81,2%	—	—	79,5%	—
MMMU Pro (dengan alat)	82,1%	—	—	80,4%	—

Penggunaan alat

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3%	77,3%	65,8%	77,9%
MCP Atlas	67,2%	—	—	60,6%	—
Toolathlon	54,6%	—	51,9%	45,7%	—
Tau2-bench Telecom	98,9%	—	—	98,7%	—

Akademik

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Riset Sains Terdepan	33,0%	36,7%	—	25,2%	—
FrontierMath Jenjang 1–3	47,6%	—	—	40,7%	—
FrontierMath Jenjang 4	27,1%	38,0%	—	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Humanity's Last Exam (tanpa alat)	39,8%	42,7%	—	34,5%	36,6%
Humanity's Last Exam (dengan alat)	52,1%	58,7%	—	45,5%	50,0%

Konteks panjang

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0%	—	—	94,0%	—
Graphwalks BFS 256K–1jt	21,4%	—	—	—	—
Graphwalks induk 0–128K (akurasi)	89,8%	—	—	89,0%	—
Induk Graphwalks 256K–1jt (akurasi)	32,4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97,3%	—	—	98,2%	—
OpenAI MRCR v2 8-needle 8K–16K	91,4%	—	—	89,3%	—
OpenAI MRCR v2 8-needle 16K–32K	97,2%	—	—	95,3%	—
OpenAI MRCR v2 8-needle 32K–64K	90,5%	—	—	92,0%	—
OpenAI MRCR v2 8-needle 64K–128K	86,0%	—	—	85,6%	—
OpenAI MRCR v2 8-needle 128K–256K	79,3%	—	—	77,0%	—
OpenAI MRCR v2 8-needle 256K–512K	57,5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1jt	36,6%	—	—	—	—

Penalaran abstrak

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93,7%	94,5%	—	86,2%	90,5%
ARC-AGI-2 (Verified)	73,3%	83,3%	—	52,9%	54,2% (tinggi)

Evals tanpa penalaran

Eval	GPT‑5.4 (tidak ada)	GPT‑5.2 (tidak ada)	GPT‑4.1
OmniDocBench (jarak edit ternormalisasi)	0,109	0,140	—
Tau2-bench Telecom	64,3%	57,2%	43,6%

Evaluasi dijalankan dengan upaya penalaran yang disetel ke xhigh, kecuali jika ditentukan sebaliknya. Tolok ukur dilakukan dalam lingkungan riset, yang mungkin memberikan output yang sedikit berbeda dari ChatGPT produksi dalam beberapa kasus.