Langsung ke konten utama
OpenAI

7 Agustus 2025

Produk

Memperkenalkan GPT‑5 untuk pengembang

Model terbaik untuk tugas pemrograman dan tugas agen.

Memuat…

Pengantar

Hari ini, kami meluncurkan GPT‑5 di platform API kami—model terbaik kami hingga saat ini untuk tugas pemrograman dan tugas agen.

GPT‑5 mencapai SOTA di seluruh tolok ukur pemrograman utama, dengan skor 74,9% pada SWE-bench Verified dan 88% pada Aider polyglot. Kami melatih GPT‑5 agar dapat menjadi kolaborator pemrograman sejati. GPT‑5 unggul dalam menghasilkan kode berkualitas tinggi dan menangani tugas seperti memperbaiki bug, mengedit kode, dan menjawab pertanyaan tentang basis kode yang rumit. Model ini mudah dikendalikan dan bersifat kolaboratif—dapat mengikuti instruksi yang sangat detail dengan akurasi tinggi dan dapat memberikan penjelasan awal tentang tindakan yang akan dilakukannya sebelum dan antara panggilan alat.  Model ini juga unggul dalam pemrograman frontend, mengalahkan OpenAI o3 dalam pengembangan web frontend sebesar 70% dari kesempatan yang ada pada pengujian internal.

Kami melatih GPT‑5 pada tugas-tugas pemrograman dunia nyata bekerja sama dengan penguji awal dari berbagai startup dan perusahaan. Cursor mengatakan GPT‑5 adalah “model paling pintar yang [pernah mereka] gunakan” dan “sangat cerdas, mudah dikendalikan, dan bahkan memiliki kepribadian yang belum pernah [mereka] lihat pada model lain”. Windsurf membagikan GPT‑5 yang mencapai SOTA dalam evaluasi mereka dan “memiliki tingkat kesalahan panggilan alat setengah dari model terdepan lainnya.” Vercel mengatakan, “GPT‑5 adalah model AI frontend terbaik, mencapai kinerja terbaik baik dari segi estetika maupun kualitas kode, sehingga menempatkannya dalam kategori tersendiri.”

GPT‑5 juga unggul dalam tugas-tugas agen jangka panjang—mencapai hasil SOTA di τ2-bench telecom (96,7%), tolok ukur pemanggilan alat yang baru dirilis 2 bulan lalu. Kemampuan kecerdasan alat yang ditingkatkan pada GPT‑5 memungkinkan sistem ini secara andal menggabungkan puluhan panggilan alat—baik secara berurutan maupun paralel—tanpa kehilangan arah, sehingga jauh lebih unggul dalam menjalankan tugas-tugas kompleks di dunia nyata dari awal hingga akhir. Model ini juga mengikuti instruksi alat dengan lebih akurat, lebih baik dalam menangani kesalahan alat, dan unggul dalam pengambilan konten dengan konteks yang panjang. Manus mengatakan GPT‑5 “mencatat kinerja terbaik yang pernah [kami] lihat dari sebuah model tunggal pada uji tolok ukur internal [mereka].” Notion mengatakan “respons cepat dari [model], terutama dalam mode penalaran rendah, menjadikan GPT‑5 model yang ideal saat Anda membutuhkan tugas kompleks diselesaikan dalam satu kali eksekusi.” Inditex membagikan, “Yang benar-benar membedakan [GPT‑5] adalah kedalaman penalarannya: jawaban yang bernuansa dan berlapis-lapis yang mencerminkan pemahaman yang mendalam tentang materi yang dibahas.”

Kami memperkenalkan fitur-fitur baru dalam API kami untuk memberikan pengembang lebih banyak kendali atas respons model. GPT‑5 mendukung parameter verbositas baru (nilai: rendah, sedang, tinggi) untuk membantu mengontrol agar jawaban singkat dan padat atau panjang dan komprehensif. Parameter reasoning_effort pada GPT‑5 kini dapat diatur ke nilai minimal untuk mendapatkan jawaban dengan cepat, tanpa perlu melakukan penalaran yang mendalam terlebih dahulu. Kami juga telah menambahkan jenis alat baru—alat kustom—sehingga memungkinkan GPT‑5 memanggil alat dengan teks biasa alih-alih JSON. Alat kustom mendukung pembatasan melalui tata bahasa bebas konteks yang disediakan oleh pengembang.

Kami meluncurkan GPT‑5 dalam tiga ukuran dalam API—gpt-5, gpt-5-mini, dan gpt-5-nano—untuk memberikan pengembang lebih banyak fleksibilitas dalam menyeimbangkan kinerja, biaya, dan latensi. Sementara GPT‑5 dalam ChatGPT merupakan sistem yang terdiri dari model penalaran, non-penalaran, dan router, GPT‑5 dalam platform API adalah model penalaran yang menggerakkan kinerja maksimum dalam ChatGPT. Secara signifikan, GPT‑5 dengan penalaran minimal merupakan model yang berbeda dari model non-penalaran di ChatGPT, dan lebih disesuaikan secara khusus untuk unggul bagi pengembang. Model non-penalaran yang digunakan dalam ChatGPT telah tersedia sebagai gpt-5-chat-latest.

Untuk membaca tentang GPT‑5 di ChatGPT dan mengetahui lebih lanjut tentang pembaruan ChatGPT lainnya, lihat blog riset kami. Untuk informasi lebih lanjut tentang antusiasme perusahaan-perusahaan dalam menggunakan GPT‑5, silakan baca blog perusahaan kami.

Pemrograman

GPT‑5 adalah model pemrograman terkuat yang pernah kami rilis. GPT‑5 mengalahkan o3 dalam berbagai tolok ukur pemrograman dan kasus penggunaan dunia nyata, dan telah disesuaikan secara khusus untuk unggul dalam produk pemrograman berbasis agen seperti Cursor, Windsurf, GitHub Copilot, dan Codex CLI. GPT‑5 berhasil memukau para penguji alpha kami, mencetak rekor di banyak evaluasi internal privat mereka. 

Masukan awal tentang GPT‑5 untuk tugas pemrograman dunia nyata

“GPT-5 merupakan model pemrograman paling pintar yang pernah kami gunakan. Tim kami menemukan bahwa GPT-5 sangat cerdas, mudah dikendalikan, dan bahkan memiliki kepribadian yang belum pernah kami lihat pada model lainnya. GPT-5 tidak hanya menangkap bug yang rumit dan tersembunyi, tetapi juga dapat menjalankan agen latar belakang yang panjang dan berulang kali untuk melihat tugas-tugas yang rumit hingga selesai—jenis masalah yang biasanya membuat model lain macet. Ini telah menjadi alat utama kami untuk segala hal, mulai dari merencanakan dan mengelola kampanye humas hingga menyelesaikan produk secara menyeluruh.
Michael Truell, Co-Founder & CEO di Cursor

Pada SWE-bench Verified, sebuah evaluasi berdasarkan tugas-tugas rekayasa perangkat lunak di dunia nyata, GPT‑5 meraih skor 74,9%, meningkat dari skor o3 sebelumnya sebesar 69,1%. Secara signifikan, GPT‑5 mencapai skor tinggi dengan efisiensi dan kecepatan yang lebih tinggi: dibandingkan dengan o3 pada tingkat upaya penalaran yang tinggi, GPT‑5 menggunakan 22% lebih sedikit token keluaran dan 45% lebih sedikit panggilan alat.

Dalam SWE-bench Verified, sebuah model diberikan repositori kode dan deskripsi masalah, dan harus menghasilkan patch untuk menyelesaikan masalah tersebut. Label teks menunjukkan tingkat usaha penalaran. Skor kami tidak termasuk 23 dari 500 soal yang solusinya tidak dapat diandalkan untuk dijalankan di infrastruktur kami. GPT‑5 diberikan prompt singkat sehingga menekankan verifikasi solusi secara menyeluruh; prompt yang sama tidak menguntungkan o3.

Pada Aider polyglot, sebuah evaluasi terhadap pengeditan kode, GPT‑5 mencatatkan rekor baru sebesar 88%, yang merupakan penurunan tingkat kesalahan sebesar satu pertiga dibandingkan dengan o3.

Dalam aider polygot(terbuka di jendela baru) (diff), sebuah model diberikan latihan pemrograman dari Exercism dan harus menulis solusinya sebagai perubahan kode (diff). Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.

Kami juga menemukan bahwa GPT‑5 sangat unggul dalam menganalisis kode sumber secara mendalam untuk menjawab pertanyaan tentang cara kerja berbagai komponen atau interaksi antar-komponen. Dalam basis kode dengan kerumitan seperti tumpukan pembelajaran penguatan OpenAI, kami menemukan bahwa GPT‑5 dapat membantu kami untuk menalar dan menjawab pertanyaan tentang kode kami, sehingga mempercepat pekerjaan kami sehari-hari. 

Rekayasa frontend

Saat menghasilkan kode frontend untuk aplikasi web, GPT‑5 lebih mengutamakan estetika, ambisius, dan akurat. Dalam perbandingan berdampingan dengan o3, GPT‑5 lebih disukai oleh penguji kami sebesar 70% dari waktu.

Berikut ini beberapa contoh menarik dan terpilih yang menunjukkan apa yang dapat dilakukan GPT‑5 dengan satu prompt:

Prompt: Harap buat halaman arahan yang indah dan realistis atas layanan yang menyediakan langganan $200/bulan kepada pecinta kopi sejati yang menyediakan penyewaan peralatan dan pelatihan memanggang kopi dan membuat espresso terbaik. Target pembacanya adalah seorang paruh baya di wilayah teluk yang mungkin bekerja di bidang teknologi dan terdidik, memiliki penghasilan tetap, serta bersemangat tentang seni dan ilmu kopi. Optimalkan konversi untuk pendaftaran 6 bulan.

Lihat contoh selengkapnya tentang GPT‑5 di galeri kami di sini(terbuka di jendela baru).

Kolaborasi pemrograman

GPT‑5 adalah kolaborator yang lebih baik, terutama dalam produk pemrograman berbasis agen seperti Cursor, Windsurf, GitHub Copilot, dan Codex CLI. Selama beroperasi, GPT‑5 dapat menghasilkan rencana, pembaruan, dan ringkasan di antara panggilan alat. Dibandingkan dengan model-model sebelumnya, GPT‑5 lebih proaktif dalam menyelesaikan tugas-tugas ambisius tanpa perlu menunggu persetujuan Anda atau terhenti karena kompleksitas yang tinggi.

Berikut adalah contoh bagaimana GPT‑5 dapat bekerja saat menangani tugas yang kompleks (dalam hal ini, membuat situs web untuk restoran):

Setelah pengguna meminta situs web untuk restoran mereka, GPT‑5 membagikan paket cepat, membangun aplikasi, memasang dependensi, membuat konten situs, menjalankan proses membangun untuk memeriksa kesalahan kompilasi, merangkum pekerjaan, dan menyarankan langkah selanjutnya yang dapat dilakukan. Video ini telah dipercepat ~3 kali lipat untuk menghemat waktu Anda; durasi penuh untuk membuat situs web ini sekitar tiga menit.

Tugas Agen

Selain pemrograman agen, GPT‑5 lebih unggul dalam tugas-tugas agen secara umum. GPT‑5 mencetak rekor baru dalam uji benchmark pemrosesan instruksi (69,6% pada Scale MultiChallenge, sesuai penilaian o3‑mini) dan pemanggilan alat (96,7% pada τ2-bench telecom). Peningkatan kecerdasan alat memungkinkan GPT‑5 untuk menggabungkan tindakan secara lebih andal guna menyelesaikan tugas-tugas dunia nyata.

Masukan awal tentang GPT‑5 untuk tugas agen

“GPT-5 merupakan lompatan besar. Model ini mencatat kinerja terbaik yang pernah kami lihat dari sebuah model tunggal pada uji tolok ukur internal kami. GPT-5 menunjukkan kinerja yang luar biasa dalam berbagai tugas agen—bahkan sebelum kami mengubah satu baris kode pun atau mengubah prompt. Pesan pembuka baru dan kontrol yang lebih presisi atas penggunaan alat memungkinkan lompatan signifikan dalam stabilitas dan kemudahan pengendalian agen-agen kami.”
Yichao ‘Peak’ Ji, Co-Founder & Kepala Ilmuwan di Manus

Mengikuti instruksi

GPT‑5 mengikuti instruksi secara lebih andal dari pendahulunya, mendapatkan skor tinggi pada COLLIE, Scale MultiChallenge, dan instruksi internal kami setelah evaluasi.

Dalam COLLIE(terbuka di jendela baru), model-model harus menulis teks yang memenuhi berbagai batasan. Dalam Scale MultiChallenge(terbuka di jendela baru), model-model ditantang pada percakapan multi-giliran agar dapat menggunakan empat jenis informasi dari pesan sebelumnya secara tepat. Skor kami berasal dari penggunaan o3‑mini sebagai perangkat penilaian, yang lebih akurat dari GPT‑4o. Dalam instruksi API OpenAI internal kami setelah evaluasi, model-model harus mengikuti instruksi sulit yang berasal dari masukan pengembang yang sebenarnya. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.

Pemanggilan alat

Kami bekerja keras untuk meningkatkan pemanggilan alat dalam hal-hal yang penting bagi para pengembang. GPT‑5 lebih unggul dalam mengikuti instruksi alat, lebih baik dalam menangani kesalahan alat, dan lebih baik dalam secara proaktif melakukan banyak panggilan alat secara berurutan atau paralel. Saat diinstruksikan, GPT‑5 juga dapat menghasilkan pesan pembuka sebelum dan di antara panggilan alat untuk memberi tahu pengguna tentang kemajuan tugas agen yang lebih panjang.

Dua bulan lalu, τ2-bench telecom diterbitkan oleh Sierra.ai sebagai tolok ukur penggunaan alat yang menantang yang menyoroti bagaimana kinerja model bahasa menurun secara signifikan saat berinteraksi dengan keadaan lingkungan yang dapat diubah oleh pengguna. Dalam publikasi(terbuka di jendela baru) mereka, tidak ada model yang memperoleh skor di atas 49%. GPT‑5 mendapatkan skor 97%.

Dalam τ2-bench(terbuka di jendela baru), sebuah model harus menggunakan alat untuk menyelesaikan tugas layanan pelanggan, di mana mungkin ada pengguna yang dapat berkomunikasi dan mengambil tindakan seperti pada keadaan nyata. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.

GPT‑5 juga menunjukkan peningkatan yang kuat pada kinerja konteks yang panjang. Pada OpenAI-MRCR, sebuah ukuran untuk pengambilan informasi dengan konteks panjang, GPT‑5 mengungguli o3 dan GPT‑4.1, dengan selisih yang makin besar pada masukan yang lebih panjang.

Dalam OpenAI-MRCR(terbuka di jendela baru) (multi-round co-reference resolution), beberapa permintaan pengguna serupa yang disebut “jarum” dimasukkan ke dalam kumpulan teks percakapan yang panjang (“tumpukan jerami”) yang terdiri atas permintaan dan respons serupa, serta model diminta untuk mengulang potongan jarum ke-i. Rata-rata rasio kecocokan mengukur rata-rata rasio kecocokan string antara respons model dan jawaban yang benar. Titik pada token masukan maksimal 256k menyatakan rata-rata lebih dari 128k–256k token masukan, dan seterusnya. Di sini, 256k menyatakan 256 * 1.024 = 262.114 token. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.

Kami juga membuka sumber BrowseComp Long Context(terbuka di jendela baru), tolok ukur yang baru untuk mengevaluasi Tanya Jawab konteks yang panjang. Dalam tolok ukur ini, model ini diberikan pertanyaan pengguna, daftar panjang hasil pencarian yang relevan, serta harus menjawab pertanyaan didasarkan pada hasil pencarian tersebut. Kami merancang BrowseComp Long Context agar dapat realistis, sulit, serta memiliki jawaban yang akurat dan dapat diandalkan. Pada masukan dalam bentuk token 128K–256K, GPT‑5 memberikan jawaban yang benar sebesar 89% dari kesempatan yang ada.

Dalam API, semua model GPT‑5 dapat menerima maksimum 272.000 token input dan menghasilkan maksimum 128.000 token penalaran & keluaran, dengan total panjang konteks sebesar 400.000 token.

Faktualitas

GPT‑5 lebih dapat diandalkan daripada model-model kami sebelumnya. Berdasarkan prompt dari tolok ukur LongFact dan FactScore, GPT‑5 membuat sekitar 80% lebih sedikit kesalahan faktual dibandingkan o3. Hal ini membuatnya lebih cocok untuk kasus penggunaan agen di mana keakuratan sangat penting—terutama dalam kode, data, dan pengambilan keputusan.

Skor yang lebih tinggi berarti lebih buruk. LongFact(terbuka di jendela baru) dan FActScore(terbuka di jendela baru) terdiri atas pertanyaan-pertanyaan pencarian fakta terbuka. Kami menggunakan perangkat penilaian berdasarkan LLM dengan cara menjelajah untuk memeriksa fakta respons pada prompt dari tolok ukur ini dan mengukur bagian klaim yang salah secara faktual. Detail penerapan dan penilaian dapat ditemukan pada kartu sistem. Model penalaran menggunakan tingkat upaya penalaran yang tinggi. Pencarian belum diaktifkan.

Secara umum, GPT‑5 telah dilatih untuk lebih sadar akan keterbatasannya sendiri dan lebih mampu menangani situasi tak terduga. Kami juga melatih GPT‑5 agar jauh lebih akurat dalam menjawab pertanyaan kesehatan; (baca selengkapnya di blog riset) kami. Seperti halnya semua model bahasa, sebaiknya Anda memverifikasi hasil kerja GPT‑5 saat konsekuensinya tinggi.

Fitur-fitur baru

Upaya penalaran minimal

Pengembang dapat mengendalikan waktu berpikir GPT‑5 melalui parameter reasoning_effort dalam API. Selain nilai-nilai sebelumnya—rendah, sedang (default), dan tinggi—GPT‑5 juga mendukung minimal, yang meminimalkan penalaran GPT‑5 untuk memberikan jawaban cepat.

Nilai reasoning_effort yang lebih tinggi memaksimalkan kualitas dan nilai yang lebih rendah memaksimalkan kecepatan. Tidak semua tugas mendapatkan manfaat yang sama dari penalaran tambahan, jadi sebaiknya lakukan eksperimen untuk melihat mana yang paling efektif untuk kasus penggunaan yang Anda kehendaki.

Sebagai contoh, penalaran di atas rendah menambah sedikit pada pengambilan informasi dalam konteks panjang yang relatif sederhana, tetapi menambah beberapa persentase poin pada CharXiv Reasoning(terbuka di jendela baru), sebuah tolok ukur penalaran visual.

Tingkat upaya penalaran GPT‑5 menghasilkan manfaat yang berbeda pada tugas yang berbeda. Untuk CharXiv Reasoning, GPT‑5 diberikan akses ke alat python.

Verbositas

Untuk membantu mengatur panjang default jawaban GPT‑5, kami telah memperkenalkan parameter API baru bernama verbositas, yang memiliki nilai rendah, menengah (default), dan tinggi. Jika instruksi eksplisit bertentangan dengan parameter verbositas, instruksi eksplisit yang diutamakan. Misalnya, jika Anda meminta GPT‑5 untuk “tulis esai dengan 5 paragraf”, respons model harus selalu berupa 5 paragraf, terlepas dari tingkat kerincian (namun, paragraf-paragraf tersebut sendiri dapat lebih panjang atau lebih pendek).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Pesan pembuka sebelum panggilan alat

Jika diperintahkan, GPT‑5 akan menampilkan pesan pembuka yang dapat dilihat pengguna sebelum dan di antara panggilan alat. Berbeda dengan pesan-pesan penalaran tersembunyi, pesan-pesan yang dapat dilihat ini memungkinkan GPT‑5 untuk menyampaikan paket dan kemajuan kepada pengguna, sehingga membantu pengguna akhir memahami pendekatan dan maksud di balik panggilan alat.

Alat kustom

Kami memperkenalkan jenis alat baru—alat kustom—yang memungkinkan GPT‑5 memanggil alat dengan teks biasa alih-alih JSON. Untuk membatasi GPT‑5 agar mengikuti format alat kustom, pengembang dapat menyediakan regex, atau bahkan tata bahasa bebas konteks(terbuka di jendela baru) yang ditentukan dan lebih lengkap.

Sebelumnya, antarmuka kami untuk alat yang didefinisikan oleh pengembang memerlukan panggilan menggunakan JSON, format yang umum digunakan oleh API web dan pengembang secara umum. Namun, menghasilkan JSON yang valid memerlukan model untuk mengenkode semua tanda kutip, tanda garis miring terbalik, baris baru, dan karakter kontrol lainnya dengan sempurna. Meskipun model kami telah dilatih dengan baik untuk menghasilkan JSON, pada masukan yang panjang seperti ratusan baris kode atau laporan 5 halaman, kemungkinan terjadinya kesalahan meningkat. Dengan alat kustom, GPT‑5 dapat menulis masukan alat sebagai teks biasa, tanpa perlu melakukan escaping pada semua karakter yang memerlukan escaping.

Pada SWE-bench Verified menggunakan alat kustom alih-alih alat JSON, skor GPT‑5 kurang lebih sama.

Keselamatan

GPT‑5 mengedepankan keselamatan dan merupakan model yang lebih tangguh, andal, dan bermanfaat. GPT‑5 secara signifikan lebih kecil kemungkinannya berhalusinasi dari model-model kami sebelumnya, menyampaikan tindakan dan kemampuannya secara lebih jujur kepada pengguna, dan memberikan jawaban yang paling membantu apabila memungkinkan, sekaligus tetap menjaga batasan keselamatan. Anda dapat membaca selengkapnya di blog riset kami.

Ketersediaan & harga

Kini, GPT‑5 tersedia di platform API dalam tiga ukuran: gpt-5, gpt-5-mini, dan gpt-5-nano. GPT‑5 tersedia pada API Respons, API Penyelesaian Obrolan, dan merupakan default pada Codex CLI. GPT‑5 dihargai sebesar $1,25/1 juta token masukan dan $10/1 juta token keluaran, GPT‑5 mini dihargai sebesar $0,25/1 juta token masukan dan $2/1 juta token keluaran, serta GPT‑5 nano dihargai sebesar $0,05/1 juta token masukan dan $0,40/1 juta token keluaran.

Model-model ini mendukung parameter API reasoning_effort dan verbositas , serta alat kustom. Model-model tersebut juga mendukung pemanggilan alat paralel, alat bawaan (pencarian web, pencarian file, pembuatan gambar, dan lainnya), fitur-fitur API inti (streaming, Keluaran Terstruktur, dan lainnya), serta fitur-fitur penghematan biaya seperti penyimpanan prompt melalui cache dan API Batch.

Versi non-penalaran dari GPT‑5 yang digunakan dalam ChatGPT tersedia di API sebagai gpt-5-chat-latest, yang juga dihargai sebesar $1,25/1 juta token masukan dan $10/1 juta token keluaran.

Selain itu, GPT‑5 diluncurkan di seluruh platform Microsoft, termasuk Microsoft 365 Copilot, Copilot, GitHub Copilot, dan Azure AI Foundry.

Tolok ukur yang sangat detail

Kecerdasan
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Terdapat sedikit perbedaan dengan angka-angka yang dilaporkan pada postingan blog kami sebelumnya, karena angka-angka tersebut dijalankan pada versi HLE sebelumnya.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Pemrograman
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$112 rbUS$75 rbUS$49 rbUS$86 rbUS$66 rbUS$34 rbUS$31 rbUS$9 rb
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Kami menghilangkan 23/500 masalah yang tidak dapat dijalankan pada infrastruktur kami. Daftar lengkap 23 tugas yang dihilangkan adalah 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', dan 'sphinx-doc__sphinx-9367'.

Mengikuti Instruksi
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Catatan: kami menemukan bahwa perangkat penilaian default di MultiChallenge (GPT-4o) sering kali salah menilai respons model. Kami menemukan bahwa mengganti pemeringkat ke model penalaran, seperti o3-mini, secara signifikan meningkatkan akurasi penilaian berdasarkan sampel yang telah kami periksa.

Pemanggilan Fungsi
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Konteks Panjang
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Halusinasi
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Penulis

OpenAI