Hari ini, kami meluncurkan GPT‑5 di platform API kami—model terbaik kami hingga saat ini untuk tugas pemrograman dan tugas agen.
GPT‑5 mencapai SOTA di seluruh tolok ukur pemrograman utama, dengan skor 74,9% pada SWE-bench Verified dan 88% pada Aider polyglot. Kami melatih GPT‑5 agar dapat menjadi kolaborator pemrograman sejati. GPT‑5 unggul dalam menghasilkan kode berkualitas tinggi dan menangani tugas seperti memperbaiki bug, mengedit kode, dan menjawab pertanyaan tentang basis kode yang rumit. Model ini mudah dikendalikan dan bersifat kolaboratif—dapat mengikuti instruksi yang sangat detail dengan akurasi tinggi dan dapat memberikan penjelasan awal tentang tindakan yang akan dilakukannya sebelum dan antara panggilan alat. Model ini juga unggul dalam pemrograman frontend, mengalahkan OpenAI o3 dalam pengembangan web frontend sebesar 70% dari kesempatan yang ada pada pengujian internal.
Kami melatih GPT‑5 pada tugas-tugas pemrograman dunia nyata bekerja sama dengan penguji awal dari berbagai startup dan perusahaan. Cursor mengatakan GPT‑5 adalah “model paling pintar yang [pernah mereka] gunakan” dan “sangat cerdas, mudah dikendalikan, dan bahkan memiliki kepribadian yang belum pernah [mereka] lihat pada model lain”. Windsurf membagikan GPT‑5 yang mencapai SOTA dalam evaluasi mereka dan “memiliki tingkat kesalahan panggilan alat setengah dari model terdepan lainnya.” Vercel mengatakan, “GPT‑5 adalah model AI frontend terbaik, mencapai kinerja terbaik baik dari segi estetika maupun kualitas kode, sehingga menempatkannya dalam kategori tersendiri.”
GPT‑5 juga unggul dalam tugas-tugas agen jangka panjang—mencapai hasil SOTA di τ2-bench telecom (96,7%), tolok ukur pemanggilan alat yang baru dirilis 2 bulan lalu. Kemampuan kecerdasan alat yang ditingkatkan pada GPT‑5 memungkinkan sistem ini secara andal menggabungkan puluhan panggilan alat—baik secara berurutan maupun paralel—tanpa kehilangan arah, sehingga jauh lebih unggul dalam menjalankan tugas-tugas kompleks di dunia nyata dari awal hingga akhir. Model ini juga mengikuti instruksi alat dengan lebih akurat, lebih baik dalam menangani kesalahan alat, dan unggul dalam pengambilan konten dengan konteks yang panjang. Manus mengatakan GPT‑5 “mencatat kinerja terbaik yang pernah [kami] lihat dari sebuah model tunggal pada uji tolok ukur internal [mereka].” Notion mengatakan “respons cepat dari [model], terutama dalam mode penalaran rendah, menjadikan GPT‑5 model yang ideal saat Anda membutuhkan tugas kompleks diselesaikan dalam satu kali eksekusi.” Inditex membagikan, “Yang benar-benar membedakan [GPT‑5] adalah kedalaman penalarannya: jawaban yang bernuansa dan berlapis-lapis yang mencerminkan pemahaman yang mendalam tentang materi yang dibahas.”
Kami memperkenalkan fitur-fitur baru dalam API kami untuk memberikan pengembang lebih banyak kendali atas respons model. GPT‑5 mendukung parameter verbositas baru (nilai: rendah, sedang, tinggi) untuk membantu mengontrol agar jawaban singkat dan padat atau panjang dan komprehensif. Parameter reasoning_effort pada GPT‑5 kini dapat diatur ke nilai minimal untuk mendapatkan jawaban dengan cepat, tanpa perlu melakukan penalaran yang mendalam terlebih dahulu. Kami juga telah menambahkan jenis alat baru—alat kustom—sehingga memungkinkan GPT‑5 memanggil alat dengan teks biasa alih-alih JSON. Alat kustom mendukung pembatasan melalui tata bahasa bebas konteks yang disediakan oleh pengembang.
Kami meluncurkan GPT‑5 dalam tiga ukuran dalam API—gpt-5, gpt-5-mini, dan gpt-5-nano—untuk memberikan pengembang lebih banyak fleksibilitas dalam menyeimbangkan kinerja, biaya, dan latensi. Sementara GPT‑5 dalam ChatGPT merupakan sistem yang terdiri dari model penalaran, non-penalaran, dan router, GPT‑5 dalam platform API adalah model penalaran yang menggerakkan kinerja maksimum dalam ChatGPT. Secara signifikan, GPT‑5 dengan penalaran minimal merupakan model yang berbeda dari model non-penalaran di ChatGPT, dan lebih disesuaikan secara khusus untuk unggul bagi pengembang. Model non-penalaran yang digunakan dalam ChatGPT telah tersedia sebagai gpt-5-chat-latest.
Untuk membaca tentang GPT‑5 di ChatGPT dan mengetahui lebih lanjut tentang pembaruan ChatGPT lainnya, lihat blog riset kami. Untuk informasi lebih lanjut tentang antusiasme perusahaan-perusahaan dalam menggunakan GPT‑5, silakan baca blog perusahaan kami.
GPT‑5 adalah model pemrograman terkuat yang pernah kami rilis. GPT‑5 mengalahkan o3 dalam berbagai tolok ukur pemrograman dan kasus penggunaan dunia nyata, dan telah disesuaikan secara khusus untuk unggul dalam produk pemrograman berbasis agen seperti Cursor, Windsurf, GitHub Copilot, dan Codex CLI. GPT‑5 berhasil memukau para penguji alpha kami, mencetak rekor di banyak evaluasi internal privat mereka.
Masukan awal tentang GPT‑5 untuk tugas pemrograman dunia nyata
“GPT-5 merupakan model pemrograman paling pintar yang pernah kami gunakan. Tim kami menemukan bahwa GPT-5 sangat cerdas, mudah dikendalikan, dan bahkan memiliki kepribadian yang belum pernah kami lihat pada model lainnya. GPT-5 tidak hanya menangkap bug yang rumit dan tersembunyi, tetapi juga dapat menjalankan agen latar belakang yang panjang dan berulang kali untuk melihat tugas-tugas yang rumit hingga selesai—jenis masalah yang biasanya membuat model lain macet. Ini telah menjadi alat utama kami untuk segala hal, mulai dari merencanakan dan mengelola kampanye humas hingga menyelesaikan produk secara menyeluruh.
Pada SWE-bench Verified, sebuah evaluasi berdasarkan tugas-tugas rekayasa perangkat lunak di dunia nyata, GPT‑5 meraih skor 74,9%, meningkat dari skor o3 sebelumnya sebesar 69,1%. Secara signifikan, GPT‑5 mencapai skor tinggi dengan efisiensi dan kecepatan yang lebih tinggi: dibandingkan dengan o3 pada tingkat upaya penalaran yang tinggi, GPT‑5 menggunakan 22% lebih sedikit token keluaran dan 45% lebih sedikit panggilan alat.
Dalam SWE-bench Verified, sebuah model diberikan repositori kode dan deskripsi masalah, dan harus menghasilkan patch untuk menyelesaikan masalah tersebut. Label teks menunjukkan tingkat usaha penalaran. Skor kami tidak termasuk 23 dari 500 soal yang solusinya tidak dapat diandalkan untuk dijalankan di infrastruktur kami. GPT‑5 diberikan prompt singkat sehingga menekankan verifikasi solusi secara menyeluruh; prompt yang sama tidak menguntungkan o3.
Pada Aider polyglot, sebuah evaluasi terhadap pengeditan kode, GPT‑5 mencatatkan rekor baru sebesar 88%, yang merupakan penurunan tingkat kesalahan sebesar satu pertiga dibandingkan dengan o3.
Dalam aider polygot(terbuka di jendela baru) (diff), sebuah model diberikan latihan pemrograman dari Exercism dan harus menulis solusinya sebagai perubahan kode (diff). Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.
Kami juga menemukan bahwa GPT‑5 sangat unggul dalam menganalisis kode sumber secara mendalam untuk menjawab pertanyaan tentang cara kerja berbagai komponen atau interaksi antar-komponen. Dalam basis kode dengan kerumitan seperti tumpukan pembelajaran penguatan OpenAI, kami menemukan bahwa GPT‑5 dapat membantu kami untuk menalar dan menjawab pertanyaan tentang kode kami, sehingga mempercepat pekerjaan kami sehari-hari.
Saat menghasilkan kode frontend untuk aplikasi web, GPT‑5 lebih mengutamakan estetika, ambisius, dan akurat. Dalam perbandingan berdampingan dengan o3, GPT‑5 lebih disukai oleh penguji kami sebesar 70% dari waktu.
Berikut ini beberapa contoh menarik dan terpilih yang menunjukkan apa yang dapat dilakukan GPT‑5 dengan satu prompt:
Prompt: Harap buat halaman arahan yang indah dan realistis atas layanan yang menyediakan langganan $200/bulan kepada pecinta kopi sejati yang menyediakan penyewaan peralatan dan pelatihan memanggang kopi dan membuat espresso terbaik. Target pembacanya adalah seorang paruh baya di wilayah teluk yang mungkin bekerja di bidang teknologi dan terdidik, memiliki penghasilan tetap, serta bersemangat tentang seni dan ilmu kopi. Optimalkan konversi untuk pendaftaran 6 bulan.
Lihat contoh selengkapnya tentang GPT‑5 di galeri kami di sini(terbuka di jendela baru).
GPT‑5 adalah kolaborator yang lebih baik, terutama dalam produk pemrograman berbasis agen seperti Cursor, Windsurf, GitHub Copilot, dan Codex CLI. Selama beroperasi, GPT‑5 dapat menghasilkan rencana, pembaruan, dan ringkasan di antara panggilan alat. Dibandingkan dengan model-model sebelumnya, GPT‑5 lebih proaktif dalam menyelesaikan tugas-tugas ambisius tanpa perlu menunggu persetujuan Anda atau terhenti karena kompleksitas yang tinggi.
Berikut adalah contoh bagaimana GPT‑5 dapat bekerja saat menangani tugas yang kompleks (dalam hal ini, membuat situs web untuk restoran):
Setelah pengguna meminta situs web untuk restoran mereka, GPT‑5 membagikan paket cepat, membangun aplikasi, memasang dependensi, membuat konten situs, menjalankan proses membangun untuk memeriksa kesalahan kompilasi, merangkum pekerjaan, dan menyarankan langkah selanjutnya yang dapat dilakukan. Video ini telah dipercepat ~3 kali lipat untuk menghemat waktu Anda; durasi penuh untuk membuat situs web ini sekitar tiga menit.
Selain pemrograman agen, GPT‑5 lebih unggul dalam tugas-tugas agen secara umum. GPT‑5 mencetak rekor baru dalam uji benchmark pemrosesan instruksi (69,6% pada Scale MultiChallenge, sesuai penilaian o3‑mini) dan pemanggilan alat (96,7% pada τ2-bench telecom). Peningkatan kecerdasan alat memungkinkan GPT‑5 untuk menggabungkan tindakan secara lebih andal guna menyelesaikan tugas-tugas dunia nyata.
Masukan awal tentang GPT‑5 untuk tugas agen
“GPT-5 merupakan lompatan besar. Model ini mencatat kinerja terbaik yang pernah kami lihat dari sebuah model tunggal pada uji tolok ukur internal kami. GPT-5 menunjukkan kinerja yang luar biasa dalam berbagai tugas agen—bahkan sebelum kami mengubah satu baris kode pun atau mengubah prompt. Pesan pembuka baru dan kontrol yang lebih presisi atas penggunaan alat memungkinkan lompatan signifikan dalam stabilitas dan kemudahan pengendalian agen-agen kami.”
GPT‑5 mengikuti instruksi secara lebih andal dari pendahulunya, mendapatkan skor tinggi pada COLLIE, Scale MultiChallenge, dan instruksi internal kami setelah evaluasi.
Dalam COLLIE(terbuka di jendela baru), model-model harus menulis teks yang memenuhi berbagai batasan. Dalam Scale MultiChallenge(terbuka di jendela baru), model-model ditantang pada percakapan multi-giliran agar dapat menggunakan empat jenis informasi dari pesan sebelumnya secara tepat. Skor kami berasal dari penggunaan o3‑mini sebagai perangkat penilaian, yang lebih akurat dari GPT‑4o. Dalam instruksi API OpenAI internal kami setelah evaluasi, model-model harus mengikuti instruksi sulit yang berasal dari masukan pengembang yang sebenarnya. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.
Kami bekerja keras untuk meningkatkan pemanggilan alat dalam hal-hal yang penting bagi para pengembang. GPT‑5 lebih unggul dalam mengikuti instruksi alat, lebih baik dalam menangani kesalahan alat, dan lebih baik dalam secara proaktif melakukan banyak panggilan alat secara berurutan atau paralel. Saat diinstruksikan, GPT‑5 juga dapat menghasilkan pesan pembuka sebelum dan di antara panggilan alat untuk memberi tahu pengguna tentang kemajuan tugas agen yang lebih panjang.
Dua bulan lalu, τ2-bench telecom diterbitkan oleh Sierra.ai sebagai tolok ukur penggunaan alat yang menantang yang menyoroti bagaimana kinerja model bahasa menurun secara signifikan saat berinteraksi dengan keadaan lingkungan yang dapat diubah oleh pengguna. Dalam publikasi(terbuka di jendela baru) mereka, tidak ada model yang memperoleh skor di atas 49%. GPT‑5 mendapatkan skor 97%.
Dalam τ2-bench(terbuka di jendela baru), sebuah model harus menggunakan alat untuk menyelesaikan tugas layanan pelanggan, di mana mungkin ada pengguna yang dapat berkomunikasi dan mengambil tindakan seperti pada keadaan nyata. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.
GPT‑5 juga menunjukkan peningkatan yang kuat pada kinerja konteks yang panjang. Pada OpenAI-MRCR, sebuah ukuran untuk pengambilan informasi dengan konteks panjang, GPT‑5 mengungguli o3 dan GPT‑4.1, dengan selisih yang makin besar pada masukan yang lebih panjang.
Dalam OpenAI-MRCR(terbuka di jendela baru) (multi-round co-reference resolution), beberapa permintaan pengguna serupa yang disebut “jarum” dimasukkan ke dalam kumpulan teks percakapan yang panjang (“tumpukan jerami”) yang terdiri atas permintaan dan respons serupa, serta model diminta untuk mengulang potongan jarum ke-i. Rata-rata rasio kecocokan mengukur rata-rata rasio kecocokan string antara respons model dan jawaban yang benar. Titik pada token masukan maksimal 256k menyatakan rata-rata lebih dari 128k–256k token masukan, dan seterusnya. Di sini, 256k menyatakan 256 * 1.024 = 262.114 token. Model penalaran dijalankan dengan tingkat upaya penalaran yang tinggi.
Kami juga membuka sumber BrowseComp Long Context(terbuka di jendela baru), tolok ukur yang baru untuk mengevaluasi Tanya Jawab konteks yang panjang. Dalam tolok ukur ini, model ini diberikan pertanyaan pengguna, daftar panjang hasil pencarian yang relevan, serta harus menjawab pertanyaan didasarkan pada hasil pencarian tersebut. Kami merancang BrowseComp Long Context agar dapat realistis, sulit, serta memiliki jawaban yang akurat dan dapat diandalkan. Pada masukan dalam bentuk token 128K–256K, GPT‑5 memberikan jawaban yang benar sebesar 89% dari kesempatan yang ada.
Dalam API, semua model GPT‑5 dapat menerima maksimum 272.000 token input dan menghasilkan maksimum 128.000 token penalaran & keluaran, dengan total panjang konteks sebesar 400.000 token.
GPT‑5 lebih dapat diandalkan daripada model-model kami sebelumnya. Berdasarkan prompt dari tolok ukur LongFact dan FactScore, GPT‑5 membuat sekitar 80% lebih sedikit kesalahan faktual dibandingkan o3. Hal ini membuatnya lebih cocok untuk kasus penggunaan agen di mana keakuratan sangat penting—terutama dalam kode, data, dan pengambilan keputusan.
Skor yang lebih tinggi berarti lebih buruk. LongFact(terbuka di jendela baru) dan FActScore(terbuka di jendela baru) terdiri atas pertanyaan-pertanyaan pencarian fakta terbuka. Kami menggunakan perangkat penilaian berdasarkan LLM dengan cara menjelajah untuk memeriksa fakta respons pada prompt dari tolok ukur ini dan mengukur bagian klaim yang salah secara faktual. Detail penerapan dan penilaian dapat ditemukan pada kartu sistem. Model penalaran menggunakan tingkat upaya penalaran yang tinggi. Pencarian belum diaktifkan.
Secara umum, GPT‑5 telah dilatih untuk lebih sadar akan keterbatasannya sendiri dan lebih mampu menangani situasi tak terduga. Kami juga melatih GPT‑5 agar jauh lebih akurat dalam menjawab pertanyaan kesehatan; (baca selengkapnya di blog riset) kami. Seperti halnya semua model bahasa, sebaiknya Anda memverifikasi hasil kerja GPT‑5 saat konsekuensinya tinggi.
Pengembang dapat mengendalikan waktu berpikir GPT‑5 melalui parameter reasoning_effort dalam API. Selain nilai-nilai sebelumnya—rendah, sedang (default), dan tinggi—GPT‑5 juga mendukung minimal, yang meminimalkan penalaran GPT‑5 untuk memberikan jawaban cepat.
Nilai reasoning_effort yang lebih tinggi memaksimalkan kualitas dan nilai yang lebih rendah memaksimalkan kecepatan. Tidak semua tugas mendapatkan manfaat yang sama dari penalaran tambahan, jadi sebaiknya lakukan eksperimen untuk melihat mana yang paling efektif untuk kasus penggunaan yang Anda kehendaki.
Sebagai contoh, penalaran di atas rendah menambah sedikit pada pengambilan informasi dalam konteks panjang yang relatif sederhana, tetapi menambah beberapa persentase poin pada CharXiv Reasoning(terbuka di jendela baru), sebuah tolok ukur penalaran visual.
Tingkat upaya penalaran GPT‑5 menghasilkan manfaat yang berbeda pada tugas yang berbeda. Untuk CharXiv Reasoning, GPT‑5 diberikan akses ke alat python.
Untuk membantu mengatur panjang default jawaban GPT‑5, kami telah memperkenalkan parameter API baru bernama verbositas, yang memiliki nilai rendah, menengah (default), dan tinggi. Jika instruksi eksplisit bertentangan dengan parameter verbositas, instruksi eksplisit yang diutamakan. Misalnya, jika Anda meminta GPT‑5 untuk “tulis esai dengan 5 paragraf”, respons model harus selalu berupa 5 paragraf, terlepas dari tingkat kerincian (namun, paragraf-paragraf tersebut sendiri dapat lebih panjang atau lebih pendek).
Verbosity=low
Verbosity=medium
Verbosity=high
Jika diperintahkan, GPT‑5 akan menampilkan pesan pembuka yang dapat dilihat pengguna sebelum dan di antara panggilan alat. Berbeda dengan pesan-pesan penalaran tersembunyi, pesan-pesan yang dapat dilihat ini memungkinkan GPT‑5 untuk menyampaikan paket dan kemajuan kepada pengguna, sehingga membantu pengguna akhir memahami pendekatan dan maksud di balik panggilan alat.
Kami memperkenalkan jenis alat baru—alat kustom—yang memungkinkan GPT‑5 memanggil alat dengan teks biasa alih-alih JSON. Untuk membatasi GPT‑5 agar mengikuti format alat kustom, pengembang dapat menyediakan regex, atau bahkan tata bahasa bebas konteks(terbuka di jendela baru) yang ditentukan dan lebih lengkap.
Sebelumnya, antarmuka kami untuk alat yang didefinisikan oleh pengembang memerlukan panggilan menggunakan JSON, format yang umum digunakan oleh API web dan pengembang secara umum. Namun, menghasilkan JSON yang valid memerlukan model untuk mengenkode semua tanda kutip, tanda garis miring terbalik, baris baru, dan karakter kontrol lainnya dengan sempurna. Meskipun model kami telah dilatih dengan baik untuk menghasilkan JSON, pada masukan yang panjang seperti ratusan baris kode atau laporan 5 halaman, kemungkinan terjadinya kesalahan meningkat. Dengan alat kustom, GPT‑5 dapat menulis masukan alat sebagai teks biasa, tanpa perlu melakukan escaping pada semua karakter yang memerlukan escaping.
Pada SWE-bench Verified menggunakan alat kustom alih-alih alat JSON, skor GPT‑5 kurang lebih sama.
GPT‑5 mengedepankan keselamatan dan merupakan model yang lebih tangguh, andal, dan bermanfaat. GPT‑5 secara signifikan lebih kecil kemungkinannya berhalusinasi dari model-model kami sebelumnya, menyampaikan tindakan dan kemampuannya secara lebih jujur kepada pengguna, dan memberikan jawaban yang paling membantu apabila memungkinkan, sekaligus tetap menjaga batasan keselamatan. Anda dapat membaca selengkapnya di blog riset kami.
Kini, GPT‑5 tersedia di platform API dalam tiga ukuran: gpt-5, gpt-5-mini, dan gpt-5-nano. GPT‑5 tersedia pada API Respons, API Penyelesaian Obrolan, dan merupakan default pada Codex CLI. GPT‑5 dihargai sebesar $1,25/1 juta token masukan dan $10/1 juta token keluaran, GPT‑5 mini dihargai sebesar $0,25/1 juta token masukan dan $2/1 juta token keluaran, serta GPT‑5 nano dihargai sebesar $0,05/1 juta token masukan dan $0,40/1 juta token keluaran.
Model-model ini mendukung parameter API reasoning_effort dan verbositas , serta alat kustom. Model-model tersebut juga mendukung pemanggilan alat paralel, alat bawaan (pencarian web, pencarian file, pembuatan gambar, dan lainnya), fitur-fitur API inti (streaming, Keluaran Terstruktur, dan lainnya), serta fitur-fitur penghematan biaya seperti penyimpanan prompt melalui cache dan API Batch.
Versi non-penalaran dari GPT‑5 yang digunakan dalam ChatGPT tersedia di API sebagai gpt-5-chat-latest, yang juga dihargai sebesar $1,25/1 juta token masukan dan $10/1 juta token keluaran.
Selain itu, GPT‑5 diluncurkan di seluruh platform Microsoft, termasuk Microsoft 365 Copilot, Copilot, GitHub Copilot, dan Azure AI Foundry.
Lihat dokumen(terbuka di jendela baru) GPT‑5, detail harga(terbuka di jendela baru), dan panduan pembuatan prompt(terbuka di jendela baru) untuk memulai.
Kecerdasan
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Terdapat sedikit perbedaan dengan angka-angka yang dilaporkan pada postingan blog kami sebelumnya, karena angka-angka tersebut dijalankan pada versi HLE sebelumnya.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Pemrograman
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$112 rb | US$75 rb | US$49 rb | US$86 rb | US$66 rb | US$34 rb | US$31 rb | US$9 rb |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Kami menghilangkan 23/500 masalah yang tidak dapat dijalankan pada infrastruktur kami. Daftar lengkap 23 tugas yang dihilangkan adalah 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', dan 'sphinx-doc__sphinx-9367'.
Mengikuti Instruksi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Catatan: kami menemukan bahwa perangkat penilaian default di MultiChallenge (GPT-4o) sering kali salah menilai respons model. Kami menemukan bahwa mengganti pemeringkat ke model penalaran, seperti o3-mini, secara signifikan meningkatkan akurasi penilaian berdasarkan sampel yang telah kami periksa.
Pemanggilan Fungsi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Konteks Panjang
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Halusinasi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


