Ipinapakilala ang GPT‑5 para sa mga developer
Ang pinakamahusay na modelo para sa pag-code at mga gawain ng agent.
Ngayong araw, ire-release namin ang GPT‑5 sa aming API platform—ang aming pinakamahusay na modelo para sa pag-code at mga gawain ng agent.
Ang GPT‑5 ay state-of-the-art (SOTA) sa mga pangunahing benchmark sa pag-code, at nagkamit ito ng markang 74.9% sa SWE-bench Verified at 88% sa Aider polyglot. Sinanay namin ang GPT‑5 upang maging tunay na katuwang sa pag-code. Mahusay ito sa pagbubuo ng de-kalidad na code at pangangasiwa ng mga gawain gaya ng pag-aayos ng mga bug, pag-edit ng code, at pagsagot ng mga tanong tungkol sa mga kumplikadong codebase. Ang modelo ay steerable at collaborative—kaya nitong sumunod sa mga napakadetalyadong tagubilin nang may mataas na katumpakan at magbigay ng maiikling paliwanag ng mga aksyon nito bago at sa pagitan ng mga tool call. Mahusay din ang modelo sa front-end na pag-code, at tinalo nito ang OpenAI o3 sa frontend na pag-develop ng web sa internal na pag-test sa 70% ng mga pagkakataon.
Sinanay namin ang GPT‑5 sa mga gawain sa pag-code sa totoong buhay sa tulong ng mga naunang tester sa iba't ibang startup at enterprise. Ayon sa Cursor, ang GPT‑5 ay “ang pinakamatalinong modelong nagamit [nila]” at “talagang matalino, madaling i-steer, at may personalidad na hindi pa [nila] nakikita sa iba pang modelo.” Ibinahagi ng Windsurf na ang GPT‑5 ay SOTA sa kanilang mga pagsusuri at “mayroon ito ng kalahati ng rate ng error sa pag-call ng tool kumpara sa iba pang nangungunang modelo.” Ayon sa Vercel , “ito ang pinakamahusay na frontend na modelo ng AI, na may pinakamahusay na performance pagdating sa aesthetic sense at kalidad ng code, kaya nasa katangi-tanging kategorya ito.”
Mahusay rin ang GPT‑5 sa mga pangmatagalang gawain ng agent—nakakamit ito ng mga resultang SOTA sa τ2-bench telecom (96.7%), na isang benchmark sa pag-call ng tool na inilabas 2 buwan lang ang nakalipas. Dahil sa pinahusay na talino ng GPT‑5 sa tool, kaya nitong mag-chain ng dose-dosenang tool call sa maaasahang paraan—nang sunod-sunod at nang sabay-sabay—nang hindi nalilito, kaya naman talagang mas mahusay ito sa pag-execute ng mga kumplikadong gawain sa totoong buhay mula sa simula hanggang sa dulo. Nasusunod rin nito ang mga tagubilin sa tool sa mas tumpak na paraan, mas mahusay ito sa pagtugon sa mga error ng tool, at mahusay ito sa pagkuha ng content na mula sa mahabang konteksto. Ayon sa Manus, “nakamit ng GPT‑5 ang pinakamahusay na performance na nakita [nila] mula sa iisang modelo sa [kanilang] mga internal na benchmark.” Ayon sa Notion, “dahil sa mabibilis na sagot [ng modelo], lalo na sa low reasoning mode, nagiging ideyal na modelo ang GPT‑5 kapag kailangan mong lumutas ng mga kumplikadong gawain sa isang subok lang.” Ibinahagi ng Inditex na “ang talagang katangi-tangi sa [GPT‑5] ay ang lalim ng pagdadahilan nito: may nuance at maraming layer ang mga sagot na sumasalamin sa tunay na pag-unawa sa paksa.”
Magdaragdag kami ng mga bagong feature sa aming API upang bigyan ang mga developer ng higit pang kontrol sa mga sagot ng modelo. Sinusuportahan ng GPT‑5 ang bagong parameter sa verbosity (mga value: mababa, katamtaman, mataas) upang makatulong na kontrolin kung ang mga sagot ay maikli at direkta o mahaba at komprehensibo. Puwede na ngayong magkaroon ng minimal na value ang parameter na reasoning_effort ng GPT‑5 upang makakuha ng mga sagot nang mas mabilis, nang hindi muna gumagamit ng malalimang pagdadahilan. Nagdagdag din kami ng bagong uri ng tool—mga custom na tool—upang bigyang-daan ang GPT‑5 na tumawag ng mga tool gamit ang plaintext sa halip na JSON. Sinusuportahan ng mga custom na tool ang paghihigpit gamit ang mga walang kontekstong grammar na mula sa developer.
Ire-release namin ang GPT‑5 sa tatlong laki sa API—gpt-5, gpt-5-mini, at gpt-5-nano—upang bigyan ang mga developer ng mas maraming flexibility na balansehin ang performance, gastos, at latency. Habang ang GPT‑5 sa ChatGPT ay isang system ng mga nagdadahilan, hindi nagdadahilan, at router na modelo, ang GPT‑5 sa API platform ay ang nagdadahilang modelo na nagbibigay-kakayahan sa maximum na performance sa ChatGPT. Kapansin-pansin na ang GPT‑5 na may minimal na pagdadahilan ay ibang modelo kumpara sa hindi nagdadahilang modelo sa ChatGPT, at mas akma ito para sa mga developer. Magagamit bilang gpt-5-chat-latest ang hindi nagdadahilang modelo na ginagamit sa ChatGPT.
Upang magbasa tungkol sa GPT‑5 sa ChatGPT, at matuto pa tungkol sa iba pang pagpapahusay ng ChatGPT, tingnan ang aming blog sa pananaliksik. Para sa higit pang impormasyon tungkol sa kung paanong nasasabik ang mga enterprise na gamitin ang GPT‑5, tingnan ang aming blog sa enterprise.
GPT‑5 ang pinakamakapangyarihang modelo sa pag-code na inilabas namin. Nadadaig nito sa performance ang o3 sa mga benchmark sa pag-code at mga sitwasyon ng paggamit sa totoong buhay, at na-fine tune ito upang mangibabaw sa mga produkto ng pag-code ng agent tulad ng Cursor, Windsurf, GitHub Copilot at Codex CLI. Napahanga ng GPT‑5 ang aming mga alpha tester, at nagkamit ito ng mga rekord sa marami sa kanilang mga pribadong internal na pagsusuri.
Early feedback on GPT‑5 for real-world coding tasks
“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
Sa SWE-bench Verified, na isang pagsusuring nakabatay sa mga gawain sa software engineering sa totoong buhay, 74.9% ang marka ng GPT‑5, na tumaas mula sa 69.1% ng o3. Kapansin-pansing nakakamit ng GPT‑5 ang mataas na marka nito nang may higit na husay at bilis: kumpara sa o3 sa mataas na antas ng pagsisikap sa pagdadahilan, ang GPT‑5 ay gumagamit ng 22% mas kaunting output token at 45% mas kaunting tool call.
Sa SWE-bench Verified, binibigyan ang modelo ng repository ng code at paglalarawan ng isyu, at kailangan nitong bumuo ng patch upang malutas ang isyu. Isinasaad ng mga label na text ang pagsisikap sa pagdadahilan. Inalis sa aming mga marka ang 23 sa 500 problema na hindi pumasa sa aming imprastraktura sa maaasahang paraan. Binigyan ang GPT‑5 ng maikling prompt na binigyang-diin ang masusing pagberipika ng mga solusyon; hindi ginamit sa o3 ang parehong prompt.
Sa Aider polyglot, na isang pagsusuri sa pag-edit ng code, nagkamit ang GPT‑5 ng bagong rekord na 88%, na may isang-katlong pagbaba sa rate ng error kumpara sa o3.
Sa Aider polygot(magbubukas sa bagong window) (diff), binibigyan ang modelo ng isang pagsasanay sa pag-code mula sa Exercism at kailangan nitong isulat ang solusyon nito bilang code diff. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.
Natuklasan din namin na mahusay ang GPT‑5 sa masusing pagsusuri ng mga codebase upang sumagot ng mga tanong tungkol sa kung paano gumagana o nagkakaugnay ang iba't ibang bahagi nito. Sa isang codebase na kasing kumplikado ng stack sa pagpapatibay ng pag-aaral ng OpenAI, napagtatanto naming nakakatulong sa amin ang GPT‑5 na magdahilan at sumagot ng mga tanong tungkol sa aming code, na nagpapabilis sa aming pang-araw-araw na trabaho.
Kapag bumubuo ng frontend code para sa mga web app, mas may malay sa aesthetics, mas ambisyoso, at mas tumpak ang GPT‑5. Sa side-by-side na paghahambing sa o3, mas gusto ng aming mga tester ang GPT‑5 sa 70% ng mga pagkakataon.
Narito ang ilang nakakatuwang piling halimbawa ng mga magagawa ng GPT‑5 sa iisang prompt:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Tumingin pa ng mga halimbawang gawa ng GPT‑5 sa aming gallery dito(magbubukas sa bagong window).
Ang GPT‑5 ay mas mahusay na katuwang, lalo na sa mga produkto ng pag-code ng agent tulad ng Cursor, Windsurf, GitHub Copilot at Codex CLI. Habang gumagana ito, nagagawa ng GPT‑5 na mag-output ng mga plan, update at recap sa pagitan ng mga tool call. Kumpara sa aming mga naunang modelo, mas maagap ang GPT‑5 sa pagkumpleto ng mga ambisyosong gawain nang hindi humihinto para sa iyong senyas o nag-aalangan kapag lubos na kumplikado.
Narito ang isang halimbawa ng hitsura ng GPT‑5 habang tumutugon ito sa isang kumplikadong gawain (sa sitwasyong ito, paggawa ng website para sa isang restaurant):
After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.
Higit pa sa pag-code ng agent, mas mahusay ang GPT‑5 sa mga gawain ng agent sa pangkalahatan. Nagkakamit ang GPT‑5 ng mga bagong rekord sa mga benchmark sa pagsunod sa tagubilin (69.6% sa Scale MultiChallenge, ayon sa pag-grade ng o3‑mini) at pag-call ng tool (96.7% sa τ2-bench telecom). Dahil sa pinahusay na talino sa tool, nagagawa ng GPT‑5 na mag-chain ng mga aksyon sa mas maaasahang paraan upang kumumpleto ng mga gawain sa totoong buhay.
Naunang feedback sa GPT‑5 para sa mga gawain ng agent
“Isang malaking pag-unlad ang GPT-5. Nakamit nito ang pinakamahusay na performance na nakita namin mula sa iisang modelo sa aming mga internal na benchmark. Nagtagumpay ang GPT-5 sa iba't ibang mga gawain ng agent—kahit bago pa namin baguhin ang isang linya ng code o iangkop ang isang prompt. Dahil sa mga bagong preamble at mas tumpak na kontrol sa paggamit ng tool, nagkaroon ng makabuluhang pag-unlad sa stability at steerability ng aming mga agent.”
Sumusunod ang GPT‑5 sa mga tagubilin sa mas maaasahang paraan kumpara sa alinman sa mga nauna rito, at nakakuha ito ng mataas na marka sa COLLIE, Scale MultiChallenge, at sa aming internal na pagsusuri sa pagsunod sa tagubilin.
Sa COLLIE(magbubukas sa bagong window), kailangang magsulat ng mga modelo ng text na umaayon sa iba't ibang paghihigpit. Sa Scale MultiChallenge(magbubukas sa bagong window), hinahamon ang mga modelo sa mga multi-turn na pag-uusap upang gamitin nang wasto ang apat na uri ng impormasyon mula sa mga naunang mensahe. Nakamit ang aming mga marka gamit ang o3‑mini bilang grader, na mas tumpak sa GPT‑4o. Sa aming internal na pagsusuri sa pagsunod sa tagubilin ng OpenAI API, dapat sumunod ang mga modelo sa mahihirap na tagubilin na hango sa tunay na feedback ng developer. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.
Nagsumikap kami upang mapahusay ang pag-call ng tool sa mga paraang mahalaga sa mga developer. Mas mahusay ang GPT‑5 sa pagsunod sa mga tagubilin ng tool, pagtugon sa mga error ng tool, at aktibong paggawa ng maraming tool call nang sunod-sunod o sabay-sabay. Kapag inutusan ito, nagagawa rin ng GPT‑5 na mag-output ng mga paunang mensahe bago at sa pagitan ng mga tool call upang i-update ang mga user sa pag-usad nito sa mas mahahabang gawain ng agent.
Dalawang buwan na ang nakalipas, inilathala ng Sierra.ai ang τ2-bench telecom bilang isang mapanghamong benchmark sa paggamit ng tool na nagbigay-diin sa kung paanong bumababa nang husto ang performance ng modelo ng wika kapag nakikipag-ugnayan sa isang estado ng environment na puwedeng baguhin ng mga user. Sa kanilang publikasyon(magbubukas sa bagong window), walang modelong nagkamit ng markang mas mataas sa 49%. Nagkamit ng 97% ang GPT‑5.
Sa τ2-bench(magbubukas sa bagong window), dapat gumamit ng mga tool ang modelo upang makumpleto ang isang gawain ng serbisyo sa customer, kung saan maaaring may user na puwedeng makipag-usap at puwedeng gumawa ng mga aksyon sa estado ng world. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.
Nagpakita rin ng malalaking pag-unlad ang GPT‑5 sa performance sa mahabang konteksto. Sa OpenAI-MRCR, na isang sukatan ng pagkuha ng impormasyong mula sa mahabang konteksto, mas mahusay ang GPT‑5 kaysa sa o3 at GPT‑4.1, nang may margin na lumalaki nang lumalaki sa mas mahahabang input.
Sa OpenAI-MRCR(magbubukas sa bagong window) (multi-round co-reference resolution), maraming magkakaparehong “needle” na kahilingan ng user ang ipinapasok sa mahahabang “haystack” ng magkakatulad na kahilingan at tugon, at hinihiling sa modelo na i-reproduce ang sagot sa i-th needle. Sinusukat ng mean match ratio ang average na string match ratio sa pagitan ng sagot ng modelo at ng tamang sagot. Ang mga punto sa 256k max na input token ay kumakatawan sa mga average sa pagitan ng 128k–256k input token, at iba pa. Dito, ang 256k ay kumakatawan sa 256 * 1,024 = 262,144 token. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.
Ginagawa rin naming open source ang BrowseComp Long Context(magbubukas sa bagong window), na isang bagong benchmark para sa pagsusuri ng mahabang kontekstong Q&A. Sa benchmark na ito, binibigyan ang modelo ng query ng user, na isang mahabang listahan ng mga nauugnay na resulta ng paghahanap, at dapat nitong sagutin ang tanong batay sa mga resulta ng paghahanap. Idinisenyo namin ang BrowseComp Long Context upang maging makatotohanan, mahirap, at magkaroon ng mga maaasahang tamang sagot na nakabatay sa katotohanan. Sa mga input na 128K–256K na token, ibinibigay ng GPT‑5 ang tamang sagot sa 89% ng mga pagkakataon.
Sa API, lahat ng modelo ng GPT‑5 ay puwedeng tumanggap ng hanggang 272,000 input token at maglabas ng hanggang 128,000 dahilan at output token, para sa kabuuang haba ng konteksto na 400,000 token.
Mas mapagkakatiwalaan ang GPT‑5 kaysa sa mga nauna naming modelo. Sa mga prompt mula sa mga benchmark ng LongFact at FactScore, mas kaunti nang ~80% ang mga nagagawang factual error ng GPT‑5 kaysa sa o3. Dahil dito, mas akma ito para sa mga use case ng agent kung saan mahalaga ang pagiging tama—lalo na sa code, data, at pagdedesisyon.
Mas malala ang mas matataas na marka. Binubuo ang LongFact(magbubukas sa bagong window) at FActScore(magbubukas sa bagong window) ng mga open-ended na tanong na nakabatay sa katotohanan. Gumagamit kami ng grader na nakabatay sa LLM na may kakayahang mag-browse upang i-fact check ang mga sagot sa mga prompt mula sa mga benchmark na ito at sukatin ang fraction ng mga hindi tumpak na pahayag. Makikita ang mga detalye ng pagpapatupad at pag-grade sa system card. Gumamit ang mga nagdadahilang modelo ng mataas na antas ng pagsisikap sa pagdadahilan. Hindi na-enable ang paghahanap.
Sa pangkalahatan, sinanay ang GPT‑5 upang maging mas malay sa mga sarili nitong limitasyon at mas mahusay na makatugon sa mga hindi inaasahang hadlang. Sinanay rin namin ang GPT‑5 upang maging mas tumpak sa mga tanong sa kalusugan (magbasa pa sa aming blog sa pananaliksik). Tulad ng lahat ng modelo ng wika, inirerekomenda naming beripikahin mo ang gawa ng GPT‑5 kapag mahahalagang bagay ang pinag-uusapan.
Puwedeng kontrolin ng mga developer ang tagal ng pag-iisip ng GPT‑5 sa pamamagitan ng parameter na reasoning_effort sa API. Dagdag pa sa mga naunang value—mababa, katamtaman (default), at mataas—sinusuportahan din ng GPT‑5 ang minimal, na binabawasan ang pagdadahilan ng GPT‑5 upang mabilis na makapagbigay ng sagot.
Sa mas matataas na value ng reasoning_effort, nama-maximize ang kalidad habang sa mas mabababang value, nama-maximize ang bilis. Hindi lahat ng gawain ay pantay na nakikinabang mula sa karagdagang pagdadahilan, kaya inirerekomenda naming mag-eksperimento upang makita kung alin ang pinakamainam na gumagana para sa mga use case na mahalaga sa iyo.
Halimbawa, kaunti lang ang naidaragdag ng pagdadahilang mas mataas sa mababa sa medyo simpleng pagkuha mula sa mahabang konteksto, ngunit nagdaragdag ito ng ilang porsyento sa CharXiv Reasoning(magbubukas sa bagong window), na isang benchmark sa visual na pagdadahilan.
Nagreresulta ang pagsisikap sa pagdadahilan ng GPT‑5 sa iba't ibang benepisyo sa iba't ibang gawain. Para sa CharXiv Reasoning, binigyan ang GPT‑5 ng access sa tool ng python.
Upang makatulong na i-steer ang default na haba ng mga sagot ng GPT‑5, naglunsad kami ng bagong parameter ng API na verbosity, na may mga value ng mababa, katamtaman (default) at mataas. Kung sumasalungat ang malilinaw na tagubilin sa mga parameter sa verbosity, masusunod ang malilinaw na tagubilin. Halimbawa, kung hihilingin mo sa GPT‑5 na “sumulat ng sanaysay na may 5 talata”, ang sagot ng modelo ay dapat palaging 5 talata anuman ang antas ng verbosity (gayunpaman, maaaring mas mahaba o mas maikli ang mga mismong talata).
Verbosity=low
Verbosity=medium
Verbosity=high
Kung uutusan, mag-a-output ang GPT‑5 ng mga paunang mensaheng makikita ng user bago at sa pagitan ng mga tool call. Hindi tulad ng mga nakatagong mensahe ng pagdadahilan, nagbibigay-daan ang mga nakikitang mensahe na ito sa GPT‑5 na iparating sa user ang mga plan at pag-usad, na tumutulong sa mga end user na maunawaan ang diskarte at layunin nito sa likod ng mga tool call.
Nagpapakilala kami ng bagong uri ng tool—mga custom na tool—na nagbibigay-daan sa GPT‑5 na mag-call ng tool gamit ang plaintext sa halip na JSON. Upang paghigpitan ang GPT‑5 na sumunod sa mga format ng custom na tool, puwedeng magbigay ang mga developer ng regex, o kahit isang mas detalyadong walang kontekstong grammar(magbubukas sa bagong window).
Noon, kinailangan sa aming interface para sa mga tool na tinukoy ng developer na mag-call ng mga tool gamit ang JSON, na isang karaniwang format na ginagamit ng mga web API at developer sa pangkalahatan. Gayunpaman, kinakailangan sa pag-output ng wastong JSON na ganap na i-escape ng modelo ang lahat ng panipi, backslash, newline, at iba pang control character. Kahit na mahusay na sinanay ang aming mga modelo upang mag-output ng JSON, sa mahahabang input tulad ng daan-daang linya ng code o isang ulat na may 5 pahina, lumalaki ang posibilidad ng pagkakaroon ng error. Gamit ang mga custom na tool, puwedeng magsulat ang GPT‑5 ng mga input ng tool bilang plaintext, nang hindi kinakailangang i-escape ang lahat ng character na kailangang i-escape.
Sa SWE-bench Verified na gumagamit ng mga custom na tool sa halip na mga tool ng JSON, halos pareho ang nakakamit na marka ng GPT‑5.
Isinusulong ng GPT‑5 ang hangganan ng kaligtasan at isa itong mas matatag, mas maaasahan, at mas kapaki-pakinabang na modelo. Lubos na mas maliit ang posibilidad na mag-hallucinate ang GPT‑5 kumpara sa aming mga naunang modelo, mas matapat nitong naipaparating ang mga aksyon at kakayahan nito sa user, at ibinibigay nito ang pinakakapaki-pakinabang na sagot hangga't maaari habang nananatili pa ring umaayon sa mga hangganan ng kaligtasan. Puwede kang magbasa pa sa aming blog sa pananaliksik.
Magagamit na ang GPT‑5 sa API platform sa tatlong laki: gpt-5, gpt-5-mini at gpt-5-nano. Magagamit ito sa Responses API, Chat Completions API, at ito ang default sa Codex CLI. Ang GPT‑5 ay may presyong $1.25/1M input token at $10/1M output token, ang GPT‑5 mini ay may presyong $0.25/1M input token at $2/1M output token, at ang GPT‑5 nano ay may presyong $0.05/1M input token at $0.40/1M output token.
Sinusuportahan ng mga modelong ito ang mga parameter ng API na reasoning_effort at verbosity, pati na ang mga custom na tool. Sinusuportahan din ng mga ito ang magkakasabay na pag-call ng tool, mga built-in na tool (paghahanap sa web, paghahanap ng file, generation ng larawan, at iba pa), mga pangunahing feature ng API (streaming, mga Structured Output, at iba pa), at mga feature na nakakatipid sa gastos gaya ng prompt caching at Batch API.
Ang bersyon ng GPT‑5 na hindi nagdadahilan at ginagamit sa ChatGPT ay magagamit sa API bilang gpt-5-chat-latest, na may presyo ring $1.25/1M input token at $10/1M output token.
Ilulunsad din ang GPT‑5 sa mga platform ng Microsoft, kasama ang Microsoft 365 Copilot, Copilot, GitHub Copilot, at Azure AI Foundry.
Tingnan ang dokumentasyon(magbubukas sa bagong window), mga detalye ng pagpepresyo(magbubukas sa bagong window) at gabay sa pag-prompt(magbubukas sa bagong window) ng GPT‑5 upang makapagsimula.
Talino
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] Mayroong maliit na pagkakaiba sa mga numerong iniulat sa aming nakaraang post sa blog, dahil ang mga ito ay mula sa isang dating bersyon ng HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
Pag-code
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $112K | $75K | $49K | $86K | $66K | $34K | $31K | $9K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] Inalis namin ang 23/500 problema na hindi kayang patakbuhin sa aming imprastraktura. Ang kumpletong listahan ng 23 gawain na inalis ay 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', at 'sphinx-doc__sphinx-9367'.
Pagsunod sa Tagubilin
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] Tandaan: Natuklasan namin na ang default na grader sa MultiChallenge (GPT-4o) ay madalas na nagkakamali sa pagmamarka ng mga sagot ng modelo. Nalaman namin na ang pagpapalit ng grader sa isang nagdadahilang modelo, tulad ng o3-mini, ay lubos na nagpapabuti sa katumpakan ng pag-grade sa mga sample na nasuri namin.
Pag-call ng Function
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
Mahabang Konteksto
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
Mga hulisinasyon
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


