Memperkenalkan GPT‑5.4 mini dan nano
Model yang cepat dan efisien yang dioptimalkan untuk pengodean dan subagen
Hari ini, kami meluncurkan GPT‑5.4 mini dan nano, model kecil kami yang paling mumpuni hingga saat ini. Model kecil ini menghadirkan banyak keunggulan GPT‑5.4 ke model yang lebih cepat dan lebih efisien, yang dirancang untuk beban kerja bervolume tinggi.
GPT‑5.4 mini secara signifikan lebih baik dibandingkan GPT‑5 mini dalam pengodean, penalaran, pemahaman multimodal, dan penggunaan alat, sekaligus berjalan lebih dari 2x lebih cepat. Model ini juga mendekati performa model GPT‑5.4 yang lebih besar pada beberapa evaluasi, termasuk SWE-Bench Pro dan OSWorld-Verified.
GPT‑5.4 nano adalah versi GPT‑5.4 yang paling kecil dan paling murah untuk tugas-tugas yang mengutamakan kecepatan dan biaya. Model ini juga merupakan peningkatan yang signifikan dibandingkan GPT‑5 nano. Kami merekomendasikannya untuk klasifikasi, ekstraksi data, pemeringkatan, dan subagen pengodean yang menangani tugas pendukung yang lebih sederhana.
Model-model ini dibangun untuk jenis beban kerja di mana latensi secara langsung membentuk pengalaman produk: asisten pengodean yang perlu terasa responsif, subagen yang dengan cepat menyelesaikan tugas pendukung, sistem yang menggunakan komputer yang menangkap dan menafsirkan tangkapan layar, serta aplikasi multimodal yang dapat melakukan penalaran atas gambar secara real time. Dalam pengaturan ini, model terbaik sering kali bukan yang terbesar—melainkan yang dapat merespons dengan cepat, menggunakan alat dengan andal, dan tetap berkinerja baik pada tugas profesional yang kompleks.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 reasoning_effort tertinggi yang tersedia untuk GPT‑5 mini adalah 'tinggi'.
Berikut pendapat pelanggan kami setelah menguji GPT‑5.4 mini dan nano dalam alur kerja mereka:
"GPT-5.4 mini memberikan kinerja menyeluruh yang kuat untuk sebuah model di kelas ini. Dalam evaluasi kami, model ini menyamai atau melampaui model pesaing pada beberapa tugas output dan kemampuan mengingat sumber, dengan biaya yang jauh lebih rendah. Model ini juga mencapai tingkat kelulusan end-to-end yang lebih tinggi dan atribusi sumber yang lebih kuat daripada model GPT-5.4 yang lebih besar."
GPT‑5.4 mini dan nano sangat efektif terutama dalam alur kerja pengodean yang diuntungkan dari iterasi yang cepat. Model ini menangani pengeditan terarah, navigasi basis kode, pembuatan front-end, dan siklus debug dengan latensi rendah, sehingga sangat cocok untuk tugas pemrograman yang perlu diselesaikan dengan lebih cepat dan biaya lebih rendah.
Dalam tolok ukur, GPT‑5.4 mini secara konsisten mengungguli GPT‑5‑mini pada latensi yang serupa, serta mendekati tingkat keberhasilan setara GPT‑5.4 namun berjalan jauh lebih cepat, menghadirkan salah satu rasio performa per latensi terbaik bagi alur kerja pengodean.
Kami memperkirakan latensi dengan melihat perilaku produksi model kami, dan mensimulasikannya secara offline. Perkiraan latensi memperhitungkan durasi pemanggilan alat (waktu eksekusi kode), token yang diambil sampelnya, dan token input. Latensi di dunia nyata dapat sangat bervariasi, dan bergantung pada banyak faktor yang tidak tercakup dalam simulasi kami. Demikian pula, biaya diperkirakan berdasarkan harga API model-model ini pada saat penulisan. Biaya dapat berubah di masa mendatang. Upaya penalaran meningkat dari rendah ke xhigh.
GPT‑5.4 mini juga sangat cocok untuk sistem yang menggabungkan model dengan ukuran yang berbeda. Di Codex, misalnya, model yang lebih besar seperti GPT‑5.4 dapat menangani perencanaan, koordinasi, dan penilaian akhir, sambil mendelegasikan ke subagen mini GPT‑5.4 yang menangani subtugas yang lebih sempit secara paralel—seperti menelusuri basis kode, meninjau file besar, atau modelemproses dokumen pendukung. Pelajari cara kerja subagen di Codex di dokumentasi(terbuka di jendela baru).
Pola ini menjadi semakin berguna seiring model yang lebih kecil menjadi lebih cepat dan lebih cakap. Alih-alih menggunakan satu model untuk semuanya, pengembang dapat menyusun sistem tempat model yang lebih besar memutuskan apa yang harus dilakukan dan model yang lebih kecil mengeksekusi dengan cepat dalam skala besar. GPT‑5.4 mini adalah model mini terkuat kami saat ini untuk gaya alur kerja tersebut.
GPT‑5.4 mini juga memiliki kinerja yang kuat pada tugas multimodal, khususnya yang terkait dengan penggunaan komputer. Model ini dapat dengan cepat menafsirkan tangkapan layar antarmuka pengguna yang kompleks untuk menyelesaikan tugas penggunaan komputer dengan cepat. Pada OSWorld-Verified, GPT‑5.4 mini mendekati performa GPT‑5.4 sekaligus secara substansial mengungguli GPT‑5 mini.
GPT‑5.4 mini tersedia mulai hari ini di API, Codex, dan ChatGPT.
Di API, GPT‑5.4 mini mendukung masukan teks dan gambar, penggunaan alat, pemanggilan fungsi, pencarian web, pencarian file, penggunaan komputer, dan keterampilan. Model ini memiliki jendela konteks 400k dan biayanya $0,75 per 1 juta token input dan $4,50 per 1 juta token output.
Di Codex, GPT‑5.4 mini tersedia di seluruh aplikasi Codex, CLI, ekstensi IDE, dan web. Model ini hanya menggunakan 30% dari kuota GPT‑5.4, memungkinkan pengembang dengan cepat menangani tugas pengodean yang lebih sederhana di Codex, dengan biaya sekitar sepertiganya. Codex juga dapat mendelegasikan tugas kepada sub-agen GPT‑5.4 mini, sehingga pekerjaan yang tidak terlalu menuntut penalaran intensif dapat dijalankan pada model yang lebih murah.
Di ChatGPT, GPT‑5.4 mini tersedia untuk pengguna Free dan Go melalui fitur “Thinking” di menu +. Bagi semua pengguna lainnya, GPT‑5.4 mini tersedia sebagai opsi cadangan saat batas penggunaan tercapai untuk GPT‑5.4 Thinking.
GPT‑5.4 nano hanya tersedia di API dan biayanya $0,20 per 1 juta token input dan $1,25 per 1 juta token output.
Untuk informasi lebih lanjut tentang perlindungan model, silakan lihat adendum Kartu Sistem di Pusat Keamanan Penerapan(terbuka di jendela baru) kami.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 reasoning_effort tertinggi yang tersedia untuk GPT‑5 mini adalah 'tinggi'.
2 Jarak Edit Keseluruhan. OmniDocBench dijalankan dengan reasoning_effort disetel ke 'tidak ada' untuk mencerminkan kinerja berbiaya rendah dan berlatensi rendah.


