Lumaktaw sa pangunahing content
OpenAI

Agosto 7, 2025

Produkto

Ipinapakilala ang GPT‑5 para sa mga developer

Ang pinakamahusay na modelo para sa pag-code at mga gawain ng agent.

Naglo-load…

Panimula

Ngayong araw, ire-release namin ang GPT‑5 sa aming API platform—ang aming pinakamahusay na modelo para sa pag-code at mga gawain ng agent.

Ang GPT‑5 ay state-of-the-art (SOTA) sa mga pangunahing benchmark sa pag-code, at nagkamit ito ng markang 74.9% sa SWE-bench Verified at 88% sa Aider polyglot. Sinanay namin ang GPT‑5 upang maging tunay na katuwang sa pag-code. Mahusay ito sa pagbubuo ng de-kalidad na code at pangangasiwa ng mga gawain gaya ng pag-aayos ng mga bug, pag-edit ng code, at pagsagot ng mga tanong tungkol sa mga kumplikadong codebase. Ang modelo ay steerable at collaborative—kaya nitong sumunod sa mga napakadetalyadong tagubilin nang may mataas na katumpakan at magbigay ng maiikling paliwanag ng mga aksyon nito bago at sa pagitan ng mga tool call.  Mahusay din ang modelo sa front-end na pag-code, at tinalo nito ang OpenAI o3 sa frontend na pag-develop ng web sa internal na pag-test sa 70% ng mga pagkakataon.

Sinanay namin ang GPT‑5 sa mga gawain sa pag-code sa totoong buhay sa tulong ng mga naunang tester sa iba't ibang startup at enterprise. Ayon sa Cursor, ang GPT‑5 ay “ang pinakamatalinong modelong nagamit [nila]” at “talagang matalino, madaling i-steer, at may personalidad na hindi pa [nila] nakikita sa iba pang modelo.” Ibinahagi ng Windsurf na ang GPT‑5 ay SOTA sa kanilang mga pagsusuri at “mayroon ito ng kalahati ng rate ng error sa pag-call ng tool kumpara sa iba pang nangungunang modelo.” Ayon sa Vercel , “ito ang pinakamahusay na frontend na modelo ng AI, na may pinakamahusay na performance pagdating sa aesthetic sense at kalidad ng code, kaya nasa katangi-tanging kategorya ito.”

Mahusay rin ang GPT‑5 sa mga pangmatagalang gawain ng agent—nakakamit ito ng mga resultang SOTA sa τ2-bench telecom (96.7%), na isang benchmark sa pag-call ng tool na inilabas 2 buwan lang ang nakalipas. Dahil sa pinahusay na talino ng GPT‑5 sa tool, kaya nitong mag-chain ng dose-dosenang tool call sa maaasahang paraan—nang sunod-sunod at nang sabay-sabay—nang hindi nalilito, kaya naman talagang mas mahusay ito sa pag-execute ng mga kumplikadong gawain sa totoong buhay mula sa simula hanggang sa dulo. Nasusunod rin nito ang mga tagubilin sa tool sa mas tumpak na paraan, mas mahusay ito sa pagtugon sa mga error ng tool, at mahusay ito sa pagkuha ng content na mula sa mahabang konteksto. Ayon sa Manus, “nakamit ng GPT‑5 ang pinakamahusay na performance na nakita [nila] mula sa iisang modelo sa [kanilang] mga internal na benchmark.” Ayon sa Notion, “dahil sa mabibilis na sagot [ng modelo], lalo na sa low reasoning mode, nagiging ideyal na modelo ang GPT‑5 kapag kailangan mong lumutas ng mga kumplikadong gawain sa isang subok lang.” Ibinahagi ng Inditex na “ang talagang katangi-tangi sa [GPT‑5] ay ang lalim ng pagdadahilan nito: may nuance at maraming layer ang mga sagot na sumasalamin sa tunay na pag-unawa sa paksa.”

Magdaragdag kami ng mga bagong feature sa aming API upang bigyan ang mga developer ng higit pang kontrol sa mga sagot ng modelo. Sinusuportahan ng GPT‑5 ang bagong parameter sa verbosity (mga value: mababa, katamtaman, mataas) upang makatulong na kontrolin kung ang mga sagot ay maikli at direkta o mahaba at komprehensibo. Puwede na ngayong magkaroon ng minimal na value ang parameter na reasoning_effort ng GPT‑5 upang makakuha ng mga sagot nang mas mabilis, nang hindi muna gumagamit ng malalimang pagdadahilan. Nagdagdag din kami ng bagong uri ng tool—mga custom na tool—upang bigyang-daan ang GPT‑5 na tumawag ng mga tool gamit ang plaintext sa halip na JSON. Sinusuportahan ng mga custom na tool ang paghihigpit gamit ang mga walang kontekstong grammar na mula sa developer.

Ire-release namin ang GPT‑5 sa tatlong laki sa API—gpt-5, gpt-5-mini, at gpt-5-nano—upang bigyan ang mga developer ng mas maraming flexibility na balansehin ang performance, gastos, at latency. Habang ang GPT‑5 sa ChatGPT ay isang system ng mga nagdadahilan, hindi nagdadahilan, at router na modelo, ang GPT‑5 sa API platform ay ang nagdadahilang modelo na nagbibigay-kakayahan sa maximum na performance sa ChatGPT. Kapansin-pansin na ang GPT‑5 na may minimal na pagdadahilan ay ibang modelo kumpara sa hindi nagdadahilang modelo sa ChatGPT, at mas akma ito para sa mga developer. Magagamit bilang gpt-5-chat-latest ang hindi nagdadahilang modelo na ginagamit sa ChatGPT.

Upang magbasa tungkol sa GPT‑5 sa ChatGPT, at matuto pa tungkol sa iba pang pagpapahusay ng ChatGPT, tingnan ang aming blog sa pananaliksik. Para sa higit pang impormasyon tungkol sa kung paanong nasasabik ang mga enterprise na gamitin ang GPT‑5, tingnan ang aming blog sa enterprise.

Pag-code

GPT‑5 ang pinakamakapangyarihang modelo sa pag-code na inilabas namin. Nadadaig nito sa performance ang o3 sa mga benchmark sa pag-code at mga sitwasyon ng paggamit sa totoong buhay, at na-fine tune ito upang mangibabaw sa mga produkto ng pag-code ng agent tulad ng Cursor, Windsurf, GitHub Copilot at Codex CLI. Napahanga ng GPT‑5 ang aming mga alpha tester, at nagkamit ito ng mga rekord sa marami sa kanilang mga pribadong internal na pagsusuri. 

Early feedback on GPT‑5 for real-world coding tasks

“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
Michael Truell, Co-Founder & CEO at Cursor

Sa SWE-bench Verified, na isang pagsusuring nakabatay sa mga gawain sa software engineering sa totoong buhay, 74.9% ang marka ng GPT‑5, na tumaas mula sa 69.1% ng o3. Kapansin-pansing nakakamit ng GPT‑5 ang mataas na marka nito nang may higit na husay at bilis: kumpara sa o3 sa mataas na antas ng pagsisikap sa pagdadahilan, ang GPT‑5 ay gumagamit ng 22% mas kaunting output token at 45% mas kaunting tool call.

Sa SWE-bench Verified, binibigyan ang modelo ng repository ng code at paglalarawan ng isyu, at kailangan nitong bumuo ng patch upang malutas ang isyu. Isinasaad ng mga label na text ang pagsisikap sa pagdadahilan. Inalis sa aming mga marka ang 23 sa 500 problema na hindi pumasa sa aming imprastraktura sa maaasahang paraan. Binigyan ang GPT‑5 ng maikling prompt na binigyang-diin ang masusing pagberipika ng mga solusyon; hindi ginamit sa o3 ang parehong prompt.

Sa Aider polyglot, na isang pagsusuri sa pag-edit ng code, nagkamit ang GPT‑5 ng bagong rekord na 88%, na may isang-katlong pagbaba sa rate ng error kumpara sa o3.

Sa Aider polygot(magbubukas sa bagong window) (diff), binibigyan ang modelo ng isang pagsasanay sa pag-code mula sa Exercism at kailangan nitong isulat ang solusyon nito bilang code diff. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.

Natuklasan din namin na mahusay ang GPT‑5 sa masusing pagsusuri ng mga codebase upang sumagot ng mga tanong tungkol sa kung paano gumagana o nagkakaugnay ang iba't ibang bahagi nito. Sa isang codebase na kasing kumplikado ng stack sa pagpapatibay ng pag-aaral ng OpenAI, napagtatanto naming nakakatulong sa amin ang GPT‑5 na magdahilan at sumagot ng mga tanong tungkol sa aming code, na nagpapabilis sa aming pang-araw-araw na trabaho. 

Frontend engineering

Kapag bumubuo ng frontend code para sa mga web app, mas may malay sa aesthetics, mas ambisyoso, at mas tumpak ang GPT‑5. Sa side-by-side na paghahambing sa o3, mas gusto ng aming mga tester ang GPT‑5 sa 70% ng mga pagkakataon.

Narito ang ilang nakakatuwang piling halimbawa ng mga magagawa ng GPT‑5 sa iisang prompt:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Tumingin pa ng mga halimbawang gawa ng GPT‑5 sa aming gallery dito(magbubukas sa bagong window).

Pakikipagtulungan sa pag-code

Ang GPT‑5 ay mas mahusay na katuwang, lalo na sa mga produkto ng pag-code ng agent tulad ng Cursor, Windsurf, GitHub Copilot at Codex CLI. Habang gumagana ito, nagagawa ng GPT‑5 na mag-output ng mga plan, update at recap sa pagitan ng mga tool call. Kumpara sa aming mga naunang modelo, mas maagap ang GPT‑5 sa pagkumpleto ng mga ambisyosong gawain nang hindi humihinto para sa iyong senyas o nag-aalangan kapag lubos na kumplikado.

Narito ang isang halimbawa ng hitsura ng GPT‑5 habang tumutugon ito sa isang kumplikadong gawain (sa sitwasyong ito, paggawa ng website para sa isang restaurant):

After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.

Mga gawain ng agent

Higit pa sa pag-code ng agent, mas mahusay ang GPT‑5 sa mga gawain ng agent sa pangkalahatan. Nagkakamit ang GPT‑5 ng mga bagong rekord sa mga benchmark sa pagsunod sa tagubilin (69.6% sa Scale MultiChallenge, ayon sa pag-grade ng o3‑mini) at pag-call ng tool (96.7% sa τ2-bench telecom). Dahil sa pinahusay na talino sa tool, nagagawa ng GPT‑5 na mag-chain ng mga aksyon sa mas maaasahang paraan upang kumumpleto ng mga gawain sa totoong buhay.

Naunang feedback sa GPT‑5 para sa mga gawain ng agent

“Isang malaking pag-unlad ang GPT-5. Nakamit nito ang pinakamahusay na performance na nakita namin mula sa iisang modelo sa aming mga internal na benchmark. Nagtagumpay ang GPT-5 sa iba't ibang mga gawain ng agent—kahit bago pa namin baguhin ang isang linya ng code o iangkop ang isang prompt. Dahil sa mga bagong preamble at mas tumpak na kontrol sa paggamit ng tool, nagkaroon ng makabuluhang pag-unlad sa stability at steerability ng aming mga agent.”
Yichao ‘Peak’ Ji, Co-Founder at Chief Scientist sa Manus

Pagsunod sa mga tagubilin

Sumusunod ang GPT‑5 sa mga tagubilin sa mas maaasahang paraan kumpara sa alinman sa mga nauna rito, at nakakuha ito ng mataas na marka sa COLLIE, Scale MultiChallenge, at sa aming internal na pagsusuri sa pagsunod sa tagubilin.

Sa COLLIE(magbubukas sa bagong window), kailangang magsulat ng mga modelo ng text na umaayon sa iba't ibang paghihigpit. Sa Scale MultiChallenge(magbubukas sa bagong window), hinahamon ang mga modelo sa mga multi-turn na pag-uusap upang gamitin nang wasto ang apat na uri ng impormasyon mula sa mga naunang mensahe. Nakamit ang aming mga marka gamit ang o3‑mini bilang grader, na mas tumpak sa GPT‑4o. Sa aming internal na pagsusuri sa pagsunod sa tagubilin ng OpenAI API, dapat sumunod ang mga modelo sa mahihirap na tagubilin na hango sa tunay na feedback ng developer. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.

Pag-call ng tool

Nagsumikap kami upang mapahusay ang pag-call ng tool sa mga paraang mahalaga sa mga developer. Mas mahusay ang GPT‑5 sa pagsunod sa mga tagubilin ng tool, pagtugon sa mga error ng tool, at aktibong paggawa ng maraming tool call nang sunod-sunod o sabay-sabay. Kapag inutusan ito, nagagawa rin ng GPT‑5 na mag-output ng mga paunang mensahe bago at sa pagitan ng mga tool call upang i-update ang mga user sa pag-usad nito sa mas mahahabang gawain ng agent.

Dalawang buwan na ang nakalipas, inilathala ng Sierra.ai ang τ2-bench telecom bilang isang mapanghamong benchmark sa paggamit ng tool na nagbigay-diin sa kung paanong bumababa nang husto ang performance ng modelo ng wika kapag nakikipag-ugnayan sa isang estado ng environment na puwedeng baguhin ng mga user. Sa kanilang publikasyon(magbubukas sa bagong window), walang modelong nagkamit ng markang mas mataas sa 49%. Nagkamit ng 97% ang GPT‑5.

Sa τ2-bench(magbubukas sa bagong window), dapat gumamit ng mga tool ang modelo upang makumpleto ang isang gawain ng serbisyo sa customer, kung saan maaaring may user na puwedeng makipag-usap at puwedeng gumawa ng mga aksyon sa estado ng world. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.

Nagpakita rin ng malalaking pag-unlad ang GPT‑5 sa performance sa mahabang konteksto. Sa OpenAI-MRCR, na isang sukatan ng pagkuha ng impormasyong mula sa mahabang konteksto, mas mahusay ang GPT‑5 kaysa sa o3 at GPT‑4.1, nang may margin na lumalaki nang lumalaki sa mas mahahabang input.

Sa OpenAI-MRCR(magbubukas sa bagong window) (multi-round co-reference resolution), maraming magkakaparehong “needle” na kahilingan ng user ang ipinapasok sa mahahabang “haystack” ng magkakatulad na kahilingan at tugon, at hinihiling sa modelo na i-reproduce ang sagot sa i-th needle. Sinusukat ng mean match ratio ang average na string match ratio sa pagitan ng sagot ng modelo at ng tamang sagot. Ang mga punto sa 256k max na input token ay kumakatawan sa mga average sa pagitan ng 128k–256k input token, at iba pa. Dito, ang 256k ay kumakatawan sa 256 * 1,024 = 262,144 token. Pinatakbo ang mga nagdadahilang modelo sa mataas na antas ng pagsisikap sa pagdadahilan.

Ginagawa rin naming open source ang BrowseComp Long Context(magbubukas sa bagong window), na isang bagong benchmark para sa pagsusuri ng mahabang kontekstong Q&A. Sa benchmark na ito, binibigyan ang modelo ng query ng user, na isang mahabang listahan ng mga nauugnay na resulta ng paghahanap, at dapat nitong sagutin ang tanong batay sa mga resulta ng paghahanap. Idinisenyo namin ang BrowseComp Long Context upang maging makatotohanan, mahirap, at magkaroon ng mga maaasahang tamang sagot na nakabatay sa katotohanan. Sa mga input na 128K–256K na token, ibinibigay ng GPT‑5 ang tamang sagot sa 89% ng mga pagkakataon.

Sa API, lahat ng modelo ng GPT‑5 ay puwedeng tumanggap ng hanggang 272,000 input token at maglabas ng hanggang 128,000 dahilan at output token, para sa kabuuang haba ng konteksto na 400,000 token.

Pagiging makatotohanan

Mas mapagkakatiwalaan ang GPT‑5 kaysa sa mga nauna naming modelo. Sa mga prompt mula sa mga benchmark ng LongFact at FactScore, mas kaunti nang ~80% ang mga nagagawang factual error ng GPT‑5 kaysa sa o3. Dahil dito, mas akma ito para sa mga use case ng agent kung saan mahalaga ang pagiging tama—lalo na sa code, data, at pagdedesisyon.

Mas malala ang mas matataas na marka. Binubuo ang LongFact(magbubukas sa bagong window) at FActScore(magbubukas sa bagong window) ng mga open-ended na tanong na nakabatay sa katotohanan. Gumagamit kami ng grader na nakabatay sa LLM na may kakayahang mag-browse upang i-fact check ang mga sagot sa mga prompt mula sa mga benchmark na ito at sukatin ang fraction ng mga hindi tumpak na pahayag. Makikita ang mga detalye ng pagpapatupad at pag-grade sa system card. Gumamit ang mga nagdadahilang modelo ng mataas na antas ng pagsisikap sa pagdadahilan. Hindi na-enable ang paghahanap.

Sa pangkalahatan, sinanay ang GPT‑5 upang maging mas malay sa mga sarili nitong limitasyon at mas mahusay na makatugon sa mga hindi inaasahang hadlang. Sinanay rin namin ang GPT‑5 upang maging mas tumpak sa mga tanong sa kalusugan (magbasa pa sa aming blog sa pananaliksik). Tulad ng lahat ng modelo ng wika, inirerekomenda naming beripikahin mo ang gawa ng GPT‑5 kapag mahahalagang bagay ang pinag-uusapan.

Mga bagong feature

Minimal na pagsisikap sa pagdadahilan

Puwedeng kontrolin ng mga developer ang tagal ng pag-iisip ng GPT‑5 sa pamamagitan ng parameter na reasoning_effort sa API. Dagdag pa sa mga naunang value—mababa, katamtaman (default), at mataas—sinusuportahan din ng GPT‑5 ang minimal, na binabawasan ang pagdadahilan ng GPT‑5 upang mabilis na makapagbigay ng sagot.

Sa mas matataas na value ng reasoning_effort, nama-maximize ang kalidad habang sa mas mabababang value, nama-maximize ang bilis. Hindi lahat ng gawain ay pantay na nakikinabang mula sa karagdagang pagdadahilan, kaya inirerekomenda naming mag-eksperimento upang makita kung alin ang pinakamainam na gumagana para sa mga use case na mahalaga sa iyo.

Halimbawa, kaunti lang ang naidaragdag ng pagdadahilang mas mataas sa mababa sa medyo simpleng pagkuha mula sa mahabang konteksto, ngunit nagdaragdag ito ng ilang porsyento sa CharXiv Reasoning(magbubukas sa bagong window), na isang benchmark sa visual na pagdadahilan.

Nagreresulta ang pagsisikap sa pagdadahilan ng GPT‑5 sa iba't ibang benepisyo sa iba't ibang gawain. Para sa CharXiv Reasoning, binigyan ang GPT‑5 ng access sa tool ng python.

Verbosity

Upang makatulong na i-steer ang default na haba ng mga sagot ng GPT‑5, naglunsad kami ng bagong parameter ng API na verbosity, na may mga value ng mababa, katamtaman (default) at mataas. Kung sumasalungat ang malilinaw na tagubilin sa mga parameter sa verbosity, masusunod ang malilinaw na tagubilin. Halimbawa, kung hihilingin mo sa GPT‑5 na “sumulat ng sanaysay na may 5 talata”, ang sagot ng modelo ay dapat palaging 5 talata anuman ang antas ng verbosity (gayunpaman, maaaring mas mahaba o mas maikli ang mga mismong talata).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Mga paunang mensahe bago ang mga tool call

Kung uutusan, mag-a-output ang GPT‑5 ng mga paunang mensaheng makikita ng user bago at sa pagitan ng mga tool call. Hindi tulad ng mga nakatagong mensahe ng pagdadahilan, nagbibigay-daan ang mga nakikitang mensahe na ito sa GPT‑5 na iparating sa user ang mga plan at pag-usad, na tumutulong sa mga end user na maunawaan ang diskarte at layunin nito sa likod ng mga tool call.

Mga custom na tool

Nagpapakilala kami ng bagong uri ng tool—mga custom na tool—na nagbibigay-daan sa GPT‑5 na mag-call ng tool gamit ang plaintext sa halip na JSON. Upang paghigpitan ang GPT‑5 na sumunod sa mga format ng custom na tool, puwedeng magbigay ang mga developer ng regex, o kahit isang mas detalyadong walang kontekstong grammar(magbubukas sa bagong window).

Noon, kinailangan sa aming interface para sa mga tool na tinukoy ng developer na mag-call ng mga tool gamit ang JSON, na isang karaniwang format na ginagamit ng mga web API at developer sa pangkalahatan. Gayunpaman, kinakailangan sa pag-output ng wastong JSON na ganap na i-escape ng modelo ang lahat ng panipi, backslash, newline, at iba pang control character. Kahit na mahusay na sinanay ang aming mga modelo upang mag-output ng JSON, sa mahahabang input tulad ng daan-daang linya ng code o isang ulat na may 5 pahina, lumalaki ang posibilidad ng pagkakaroon ng error. Gamit ang mga custom na tool, puwedeng magsulat ang GPT‑5 ng mga input ng tool bilang plaintext, nang hindi kinakailangang i-escape ang lahat ng character na kailangang i-escape.

Sa SWE-bench Verified na gumagamit ng mga custom na tool sa halip na mga tool ng JSON, halos pareho ang nakakamit na marka ng GPT‑5.

Kaligtasan

Isinusulong ng GPT‑5 ang hangganan ng kaligtasan at isa itong mas matatag, mas maaasahan, at mas kapaki-pakinabang na modelo. Lubos na mas maliit ang posibilidad na mag-hallucinate ang GPT‑5 kumpara sa aming mga naunang modelo, mas matapat nitong naipaparating ang mga aksyon at kakayahan nito sa user, at ibinibigay nito ang pinakakapaki-pakinabang na sagot hangga't maaari habang nananatili pa ring umaayon sa mga hangganan ng kaligtasan. Puwede kang magbasa pa sa aming blog sa pananaliksik.

Availability at pagpepresyo

Magagamit na ang GPT‑5 sa API platform sa tatlong laki: gpt-5, gpt-5-mini at gpt-5-nano. Magagamit ito sa Responses API, Chat Completions API, at ito ang default sa Codex CLI. Ang GPT‑5 ay may presyong $1.25/1M input token at $10/1M output token, ang GPT‑5 mini ay may presyong $0.25/1M input token at $2/1M output token, at ang GPT‑5 nano ay may presyong $0.05/1M input token at $0.40/1M output token.

Sinusuportahan ng mga modelong ito ang mga parameter ng API na reasoning_effort at verbosity, pati na ang mga custom na tool. Sinusuportahan din ng mga ito ang magkakasabay na pag-call ng tool, mga built-in na tool (paghahanap sa web, paghahanap ng file, generation ng larawan, at iba pa), mga pangunahing feature ng API (streaming, mga Structured Output, at iba pa), at mga feature na nakakatipid sa gastos gaya ng prompt caching at Batch API.

Ang bersyon ng GPT‑5 na hindi nagdadahilan at ginagamit sa ChatGPT ay magagamit sa API bilang gpt-5-chat-latest, na may presyo ring $1.25/1M input token at $10/1M output token.

Ilulunsad din ang GPT‑5 sa mga platform ng Microsoft, kasama ang Microsoft 365 Copilot, Copilot, GitHub Copilot, at Azure AI Foundry.

Mga detalyadong benchmark

Talino
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] Mayroong maliit na pagkakaiba sa mga numerong iniulat sa aming nakaraang post sa blog, dahil ang mga ito ay mula sa isang dating bersyon ng HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
Pag-code
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$112K$75K$49K$86K$66K$34K$31K$9K
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] Inalis namin ang 23/500 problema na hindi kayang patakbuhin sa aming imprastraktura. Ang kumpletong listahan ng 23 gawain na inalis ay 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', at 'sphinx-doc__sphinx-9367'.

Pagsunod sa Tagubilin
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] Tandaan: Natuklasan namin na ang default na grader sa MultiChallenge (GPT-4o) ay madalas na nagkakamali sa pagmamarka ng mga sagot ng modelo. Nalaman namin na ang pagpapalit ng grader sa isang nagdadahilang modelo, tulad ng o3-mini, ay lubos na nagpapabuti sa katumpakan ng pag-grade sa mga sample na nasuri namin.

Pag-call ng Function
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
Mahabang Konteksto
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
Mga hulisinasyon
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

May-akda

OpenAI