Dina iki, kami ngluncurake GPT‑5 ing platform API kami—model paling apik nganti saiki kanggo coding lan tugas agentic.
GPT‑5 iku state-of-the-art (SOTA) ing benchmark coding utama, kanthi skor 74.9% ing SWE-bench Verified lan 88% ing Aider polyglot. Kami nglatih GPT‑5 supaya dadi kolaborator coding sejati. Model iki unggul kanggo ngasilake kode bermutu dhuwur lan nangani tugas kaya ndandani bug, nyunting kode, lan njawab pitakon babagan codebase rumit. Model iki gampang diarahkan lan kolaboratif—bisa ngetutaké instruksi sing rinci banget kanthi akurasi dhuwur lan bisa menehi penjelasan dhisik babagan tindakane sadurunge lan ing antarane tool call. Model iki uga unggul ing coding front-end, ngalahake OpenAI o3 ing pangembangan web frontend 70% saka wektu ing pengujian internal.
Kami nglatih GPT‑5 ing tugas coding dunia nyata kanthi kolaborasi karo para penguji awal saka startup lan perusahaan. Cursor ujar GPT‑5 iku “model paling pinter sing [dheweke] gunakake” lan “pancen cerdas, gampang diarahkan, lan malah nduweni kepribadian sing [dheweke] durung tau deleng ing model liyane.” Windsurf nuduhake yen GPT‑5 iku SOTA ing eval dheweke lan “nduweni tingkat kesalahan nelpon alat setengah saka model tercanggih liyane.” Vercel ujar “iki model AI frontend paling apik, nggayuh kinerja puncak saka sisi rasa estetika lan kualitas kode, nganti nggawe kategorine dhewe.”
GPT‑5 uga unggul ing tugas agentic jangka dawa—nggayuh asil SOTA ing τ2-bench telecom (96.7%), benchmark tool-calling sing dirilis mung 2 sasi kepungkur. Kecerdasan alat GPT‑5 sing luwih apik ndadekake bisa nyambungake puluhan tool call kanthi andal—kanthi urut utawa paralel—tanpa kesasar, dadi luwih apik banget kanggo ngeksekusi tugas dunia nyata sing rumit saka wiwitan nganti akhir. Model iki uga luwih presisi ngetutaké instruksi alat, luwih apik nangani kesalahan alat, lan unggul ing pengambilan konten konteks dawa. Manus ujar GPT‑5 “nggayuh kinerja paling apik sing [dheweke] tau deleng saka siji model ing benchmark internal [dheweke].” Notion ujar “respons [model iki] sing cepet, utamane ing mode nalar rendah, nggawe GPT‑5 dadi model ideal nalika sampeyan butuh tugas rumit dirampungake ing sekali jalan.” Inditex nuduhake “sing tenan mbedakake [GPT‑5] yaiku kedalaman nalare: jawaban bernuansa lan multilapis sing nuduhake pemahaman nyata marang materi.”
Kami ngenalake fitur anyar ing API kami supaya developer nduweni luwih akeh kontrol marang respons model. GPT‑5 ndhukung parameter verbosity anyar (nilai: low, medium, high) kanggo mbantu ngontrol apa jawaban kudu cekak lan langsung utawa dawa lan komprehensif. Parameter reasoning_effort GPT‑5 saiki uga bisa njupuk nilai minimal supaya jawaban bali luwih cepet, tanpa nalar ekstensif luwih dhisik. Kami uga nambah jinis alat anyar—custom tools—supaya GPT‑5 bisa nelpon alat nganggo plaintext tinimbang JSON. Custom tools ndhukung pembatasan kanthi grammar bebas konteks sing diwenehake developer.
Kami ngluncurake GPT‑5 ing telung ukuran ing API—gpt-5, gpt-5-mini, lan gpt-5-nano—supaya developer luwih fleksibel kanggo nimbang kinerja, biaya, lan latensi. Nalika GPT‑5 ing ChatGPT iku sistem saka model nalar, non-nalar, lan router, GPT‑5 ing platform API iku model nalar sing nyedhiyakake kinerja maksimum ing ChatGPT. Sing penting, GPT‑5 kanthi nalar minimal iku model beda saka model non-nalar ing ChatGPT, lan luwih di-tuning kanggo developer. Model non-nalar sing digunakake ing ChatGPT kasedhiya minangka gpt-5-chat-latest.
Kanggo maca babagan GPT‑5 ing ChatGPT, lan sinau luwih akeh babagan peningkatan ChatGPT liyane, delengen blog riset kami. Kanggo info luwih akeh babagan carane perusahaan semangat nggunakake GPT‑5, delengen blog enterprise kami.
GPT‑5 iku model coding paling kuat sing tau kami rilis. Model iki ngluwihi o3 ing benchmark coding lan kasus panggunaan dunia nyata, lan wis di-fine-tune supaya bersinar ing produk coding agentic kaya Cursor, Windsurf, GitHub Copilot, lan Codex CLI. GPT‑5 ngesanké para alpha tester kami, kanthi nyetel rekor ing akeh eval internal privat dheweke.
Umpan balik awal babagan GPT‑5 kanggo tugas coding dunia nyata
“GPT-5 iku model coding paling pinter sing tau kami gunakake. Tim kami nemokake GPT-5 pancen cerdas, gampang diarahkan, lan malah nduweni kepribadian sing durung tau kami deleng ing model liyane. Model iki ora mung bisa nemokake bug angel sing jero ndhelik, nanging uga bisa mbukak agen latar mburi dawa lan multi-turn kanggo ngrampungake tugas rumit nganti tuntas—jinis masalah sing biyen nggawe model liya macet. Saiki dadi andalan harian kami kanggo kabeh perkara, saka nyusun ruang lingkup lan ngrancang PR nganti ngrampungake build end-to-end.”
Ing SWE-bench Verified, evaluasi adhedhasar tugas rekayasa perangkat lunak dunia nyata, GPT‑5 entuk skor 74.9%, munggah saka 69.1% kanggo o3. Sing penting, GPT‑5 nggayuh skor dhuwur iki kanthi efisiensi lan kecepatan luwih apik: dibandhingake o3 ing upaya nalar dhuwur, GPT‑5 nggunakake 22% token output luwih sithik lan 45% tool call luwih sithik.
Ing SWE-bench Verified, sawijining model diwenehi gudang kode lan deskripsi issue, banjur kudu ngasilake patch kanggo ngrampungake issue kasebut. Label teks nuduhake upaya nalar. Skor kami ngilangi 23 saka 500 masalah sing solusine ora bisa lolos kanthi andal ing infrastruktur kami. GPT‑5 diwenehi prompt cekak sing nekanake verifikasi solusi kanthi tuntas; prompt sing padha ora nguntungake o3.
Ing Aider polyglot, evaluasi nyunting kode, GPT‑5 nyetel rekor anyar 88%, yaiku pengurangan sepertiga tingkat kesalahan dibandhing o3.
Ing Aider polygot(mbukak ing jendhela anyar) (diff), sawijining model diwenehi latihan coding saka Exercism lan kudu nulis solusine minangka code diff. Model nalar dijalanke kanthi upaya nalar dhuwur.
Kami uga nemokake GPT‑5 apik banget kanggo nyilem jero menyang codebase supaya bisa njawab pitakon babagan cara macem-macem bagean bisa kerja utawa saling interoperasi. Ing codebase sing rumit kaya stack sinau penguatan OpenAI, kami nemokake GPT‑5 bisa mbantu kami nalar lan njawab pitakon babagan kode kami, nyepetake kerja saben dina kami.
Nalika ngasilake kode frontend kanggo web app, GPT‑5 luwih nduweni rasa estetika, luwih ambisius, lan luwih akurat. Ing perbandingan side-by-side karo o3, GPT‑5 luwih dipilih para tester kami 70% saka wektu.
Ing ngisor iki sawetara conto nyenengake sing dipilih khusus babagan apa sing bisa ditindakake GPT‑5 mung nganggo siji prompt:
Prompt: Gawe landing page sing endah lan realistis kanggo layanan sing menehi penggemar kopi utama langganan $200/wulan sing nyedhiyakake sewa peralatan lan pelatihan kanggo roasting kopi lan nggawe espresso paling apik. Target pamirsa yaiku wong umur tengah ing wilayah bay area sing bisa uga kerja ing teknologi lan nduweni pendidikan, penghasilan luwih, lan semangat marang seni lan sains kopi. Optimalkna kanggo konversi pendaftaran 6 wulan.
Delengen conto liyane saka GPT‑5 ing galeri kami ing kene(mbukak ing jendhela anyar).
GPT‑5 iku kolaborator sing luwih apik, utamane ing produk coding agentic kaya Cursor, Windsurf, GitHub Copilot, lan Codex CLI. Nalika lagi kerja, GPT‑5 bisa ngasilake rencana, update, lan ringkesan ing antarane tool call. Dibandhing model kami sadurunge, GPT‑5 luwih proaktif ngrampungake tugas ambisius tanpa mandheg njaluk persetujuan sampeyan utawa mundur amarga kompleksitas dhuwur.
Iki conto tampilan GPT‑5 nalika nangani tugas rumit (ing kasus iki, nggawe situs web kanggo restoran):
Sawisé pangguna njaluk situs web kanggo restorane, GPT‑5 nuduhake rencana cepet, nggawe kerangka app, masang dependensi, nggawe konten situs, mbukak build kanggo mriksa kesalahan kompilasi, ngringkes gaweyane, lan nyaranake langkah sabanjure. Video iki wis dicepetake ~3x supaya sampeyan ora kelamaan ngenteni; durasi lengkap kanggo nggawe situs web iki kira-kira telung menit.
Saliyane coding agentic, GPT‑5 uga luwih apik kanggo tugas agentic umume. GPT‑5 nyetel rekor anyar ing benchmark ngetutaké instruksi (69.6% ing Scale MultiChallenge, dinilai dening o3‑mini) lan tool calling (96.7% ing τ2-bench telecom). Kecerdasan alat sing luwih apik ngidini GPT‑5 nyambungake aksi kanthi luwih andal kanggo ngrampungake tugas dunia nyata.
Umpan balik awal babagan GPT‑5 kanggo tugas agentic
“GPT-5 iku lompatan gedhe. Model iki nggayuh kinerja paling apik sing tau kami deleng saka siji model ing benchmark internal kami. GPT-5 unggul ing macem-macem tugas agentic—malah sadurunge kami ngowahi siji baris kode utawa nyesuaikake prompt. Preamble anyar lan kontrol sing luwih presisi kanggo panggunaan alat ndadekake lompatan penting ing stabilitas lan keterarahan agen kami.”
GPT‑5 ngetutaké instruksi luwih andal tinimbang kabeh pendahulune, kanthi skor dhuwur ing COLLIE, Scale MultiChallenge, lan eval internal kami kanggo ngetutaké instruksi.
Ing COLLIE(mbukak ing jendhela anyar), model kudu nulis teks sing nyukupi macem-macem kendala. Ing Scale MultiChallenge(mbukak ing jendhela anyar), model diuji nganggo percakapan multi-turn supaya bisa nganggo patang jinis informasi saka pesen sadurunge kanthi bener. Skor kami asalé saka nggunakake o3‑mini minangka grader, sing luwih akurat tinimbang GPT‑4o. Ing eval internal OpenAI API kanggo ngetutaké instruksi, model kudu ngetutaké instruksi angel sing dijupuk saka umpan balik pangembang nyata. Model nalar dijalanke kanthi upaya nalar dhuwur.
Kami kerja keras kanggo ningkatake nelpon alat ing cara sing penting kanggo developer. GPT‑5 luwih apik ngetutaké instruksi alat, luwih apik nangani kesalahan alat, lan luwih apik kanthi proaktif nggawe akeh tool call kanthi urut utawa paralel. Nalika diinstruksikake, GPT‑5 uga bisa ngasilake pesen preamble sadurunge lan ing antarane tool call kanggo ngabarake pangguna babagan progres sajrone tugas agentic sing luwih dawa.
Rong sasi kepungkur, τ2-bench telecom diterbitake dening Sierra.ai minangka benchmark panggunaan alat sing menantang sing nuduhake kepiye kinerja model basa mudhun kanthi signifikan nalika sesambungan karo status lingkungan sing bisa diowahi pangguna. Ing publikasi(mbukak ing jendhela anyar) dheweke, ora ana model sing entuk skor luwih saka 49%. GPT‑5 entuk 97%.
Ing τ2-bench(mbukak ing jendhela anyar), sawijining model kudu nggunakake alat kanggo ngrampungake tugas layanan pelanggan, ing ngendi bisa ana pangguna sing bisa komunikasi lan njupuk tindakan marang status dunia. Model nalar dijalanke kanthi upaya nalar dhuwur.
GPT‑5 uga nuduhake peningkatan kuat ing kinerja konteks dawa. Ing OpenAI-MRCR, ukuran pengambilan informasi konteks dawa, GPT‑5 ngluwihi o3 lan GPT‑4.1, kanthi selisih sing tambah gedhe ing dawa input sing luwih panjang.
Ing OpenAI-MRCR(mbukak ing jendhela anyar) (multi-round co-reference resolution), akeh panjalukan pangguna “needle” sing padha dilebokake menyang “haystack” dawa sing isi panjalukan lan respons padha-padha, banjur model dijaluk ngulang respons kanggo needle kaping-i. Mean match ratio ngukur rata-rata rasio kecocokan string antarane respons model lan jawaban sing bener. Titik ing 256k maksimal token input makili rata-rata saka 128k–256k token input, lan sakteruse. Ing kene, 256k makili 256 * 1,024 = 262,114 token. Model nalar dijalanke kanthi upaya nalar dhuwur.
Kami uga nggawe open source BrowseComp Long Context(mbukak ing jendhela anyar), benchmark anyar kanggo ngevaluasi tanya-jawab konteks dawa. Ing benchmark iki, model diwenehi kueri pangguna, daftar dawa asil telusur sing relevan, lan kudu njawab pitakon adhedhasar asil telusur kasebut. Kami ngrancang BrowseComp Long Context supaya realistis, angel, lan nduweni jawaban ground truth sing andal lan bener. Ing input 128K–256K token, GPT‑5 menehi jawaban bener 89% saka wektu.
Ing API, kabeh model GPT‑5 bisa nampa maksimal 272.000 token input lan ngasilake maksimal 128.000 token nalar & output, kanthi total dawa konteks 400.000 token.
GPT‑5 luwih bisa dipercaya tinimbang model kami sadurunge. Ing prompt saka benchmark LongFact lan FactScore, GPT‑5 nggawe ~80% kesalahan faktual luwih sithik tinimbang o3. Iki nggawe luwih cocog kanggo kasus panggunaan agentic sing mbutuhake kebenaran—utamane ing kode, data, lan pengambilan keputusan.
Skor sing luwih dhuwur luwih elek. LongFact(mbukak ing jendhela anyar) lan FActScore(mbukak ing jendhela anyar) kasusun saka pitakon terbuka sing nggoleki fakta. Kami nggunakake grader berbasis LLM kanthi browsing kanggo mriksa fakta respons saka prompt ing benchmark iki lan ngukur fraksi klaim sing salah sacara faktual. Detail implementasi lan grading bisa ditemokake ing kertu sistem. Model nalar nggunakake upaya nalar dhuwur. Search ora diaktifake.
Umumé, GPT‑5 wis dilatih supaya luwih sadar marang watesane dhewe lan luwih bisa nangani kejutan sing ora dikira. Kami uga nglatih GPT‑5 supaya luwih akurat kanggo pitakon kesehatan (waca luwih lengkap ing blog riset) kami. Kaya kabeh model basa, kami nyaranake sampeyan mriksa karya GPT‑5 nalika taruhane dhuwur.
Developer bisa ngontrol wektu mikir GPT‑5 liwat parameter reasoning_effort ing API. Saliyane nilai sadurunge—low, medium (default), lan high—GPT‑5 uga ndhukung minimal, sing nyilikake nalar GPT‑5 supaya bisa mbalekake jawaban kanthi cepet.
Nilai reasoning_effort sing luwih dhuwur ngoptimalake kualitas lan nilai sing luwih rendah ngoptimalake kecepatan. Ora kabeh tugas entuk manfaat sing padha saka nalar tambahan, mula kami nyaranake eksperimen kanggo ndeleng endi sing paling cocok kanggo kasus panggunaan sing sampeyan pedulikan.
Contone, nalar ing ndhuwur low mung nambah sethithik kanggo pengambilan konteks dawa sing relatif sederhana, nanging nambah cukup akeh poin persentase kanggo CharXiv Reasoning(mbukak ing jendhela anyar), benchmark nalar visual.
Upaya nalar GPT‑5 menehi manfaat beda-beda kanggo tugas sing beda. Kanggo CharXiv Reasoning, GPT‑5 diwenehi akses menyang alat python.
Kanggo mbantu ngarahake dawa default jawaban GPT‑5, kami ngenalake parameter API anyar verbosity, sing nduweni nilai low, medium (default), lan high. Yen instruksi eksplisit bentrok karo parameter verbosity, instruksi eksplisit sing dadi prioritas. Contone, yen sampeyan njaluk GPT‑5 kanggo “nulis esai 5 paragraf”, respons model kudu tetep 5 paragraf apa wae level verbosity-ne (nanging, paragraf-paragrafe dhewe bisa luwih dawa utawa luwih cekak).
Verbosity=low
Verbosity=medium
Verbosity=high
Yen diinstruksikake, GPT‑5 bakal ngasilake pesen preamble sing katon kanggo pangguna sadurunge lan ing antarane tool call. Ora kaya pesen nalar sing didhelikake, pesen sing katon iki ngidini GPT‑5 ngandharake rencana lan progres marang pangguna, mbantu pangguna pungkasan ngerti pendekatane lan maksud ing balik tool call kasebut.
Kami ngenalake jinis alat anyar—custom tools—sing ngidini GPT‑5 nelpon alat nganggo plaintext tinimbang JSON. Kanggo mbatesi GPT‑5 supaya ngetutaké format custom tool, developer bisa nyedhiyakake regex, utawa malah grammar bebas konteks(mbukak ing jendhela anyar) sing luwih rinci.
Sadurunge, antarmuka kami kanggo alat sing ditetepake developer mbutuhake alat kasebut dipanggil nganggo JSON, format umum sing digunakake API web lan developer umume. Nanging, ngasilake JSON sing valid mbutuhake model supaya bisa ngeskap kabeh tanda petik, backslash, newline, lan karakter kontrol liyane kanthi sampurna. Sanajan model kami wis dilatih apik kanggo ngasilake JSON, ing input dawa kaya atusan baris kode utawa laporan 5 kaca, kemungkinan kesalahan saya munggah. Kanthi custom tools, GPT‑5 bisa nulis input alat minangka plaintext, tanpa perlu ngeskap kabeh karakter sing mbutuhake escape.
Ing SWE-bench Verified nganggo custom tools tinimbang JSON tools, skor GPT‑5 kurang luwih padha.
GPT‑5 maju ing pucuk keamanan lan dadi model sing luwih tangguh, andal, lan migunani. GPT‑5 jauh luwih cilik kemungkinane kanggo berhalusinasi tinimbang model kami sadurunge, luwih jujur ngandharake tindakan lan kemampuane marang pangguna, lan menehi jawaban sing paling migunani yen bisa nalika tetep ana ing wates keamanan. Sampeyan bisa maca luwih lengkap ing blog riset kami.
GPT‑5 wis kasedhiya saiki ing platform API ing telung ukuran: gpt-5, gpt-5-mini, lan gpt-5-nano. Model iki kasedhiya ing Responses API, Chat Completions API, lan dadi default ing Codex CLI. Rega GPT‑5 yaiku $1.25/1M token input lan $10/1M token output, GPT‑5 mini $0.25/1M token input lan $2/1M token output, lan GPT‑5 nano $0.05/1M token input lan $0.40/1M token output.
Model-model iki ndhukung parameter API reasoning_effort lan verbosity, uga custom tools. Model iki uga ndhukung nelpon alat paralel, alat bawaan (web search, file search, generasi gambar, lan liya-liyane), fitur inti API (streaming, keluaran terstruktur, lan liya-liyane), lan fitur penghemat biaya kaya prompt caching lan Batch API.
Versi non-nalar GPT‑5 sing digunakake ing ChatGPT kasedhiya ing API minangka gpt-5-chat-latest, uga diregani $1.25/1M token input lan $10/1M token output.
GPT‑5 uga lagi diluncurake ing macem-macem platform Microsoft, kalebu Microsoft 365 Copilot, Copilot, GitHub Copilot, lan Azure AI Foundry.
Delengen dokumentasi(mbukak ing jendhela anyar) GPT‑5, rincian rega(mbukak ing jendhela anyar), lan pandhuan prompting(mbukak ing jendhela anyar) kanggo miwiti.
Kecerdasan
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Ana selisih cilik karo angka sing dilaporake ing tulisan blog sadurunge, amarga angka kasebut dijalanke ing versi HLE sing lawas.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Coding
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$ 112È | US$ 75È | US$ 49È | US$ 86È | US$ 66È | US$ 34È | US$ 31È | US$ 9È |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Kami ngilangi 23/500 masalah sing ora bisa mlaku ing infrastruktur kami. Daftar lengkap 23 tugas sing diilangi yaiku 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', lan 'sphinx-doc__sphinx-9367'.
Ngetutaké Instruksi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Cathetan: kami nemokake yen grader default ing MultiChallenge (GPT-4o) kerep salah menehi skor respons model. Kami nemokake yen ngganti grader dadi model nalar, kaya o3-mini, ningkatake akurasi penilaian kanthi signifikan ing sampel sing wis kami priksa.
Nelpon Fungsi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Konteks Dawa
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Halusinasi
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


