Illum, qed noħorġu GPT‑5 fil-pjattaforma API tagħna—l-aqwa mudell tagħna s’issa għall-kodifikazzjoni u kompiti aġentiċi.
GPT‑5 huwa state-of-the-art (SOTA) fuq benchmarks ewlenin tal-kodifikazzjoni, b’punteġġ ta’ 74.9% fuq SWE-bench Verified u 88% fuq Aider polyglot. Ħarriġna lil GPT‑5 biex ikun kollaboratur veru tal-kodifikazzjoni. Jeċċella fil-produzzjoni ta’ kodiċi ta’ kwalità għolja u fl-immaniġġjar ta’ kompiti bħat-tiswija ta’ bugs, l-editjar tal-kodiċi, u t-tweġiba għal mistoqsijiet dwar codebases kumplessi. Il-mudell huwa steerable u kollaborattiv—jista’ jsegwi istruzzjonijiet dettaljati ħafna bi preċiżjoni għolja u jista’ jipprovdi spjegazzjonijiet bil-quddiem tal-azzjonijiet tiegħu qabel u bejn sejħiet ta’ għodod. Il-mudell jeċċella wkoll fil-kodifikazzjoni tal-front-end, u fl-ittestjar intern għeleb lil OpenAI o3 fl-iżvilupp web tal-frontend 70% tal-ħin.
Ħarriġna lil GPT‑5 fuq kompiti ta’ kodifikazzjoni fid-dinja reali b’kollaborazzjoni ma’ testers bikrin minn startups u intrapriżi. Cursor tgħid li GPT‑5 huwa “l-aktar mudell intelliġenti [li] użajna” u “notevolment intelliġenti, faċli biex jiġi ggwidat, u saħansitra għandu personalità [li] ma rajniex f’mudelli oħra.” Windsurf qasmet li GPT‑5 huwa SOTA fl-evals tagħhom u “għandu nofs ir-rata ta’ żbalji fis-sejħa tal-għodod fuq mudelli oħra fruntiera.” Vercel tgħid “huwa l-aqwa mudell ta’ IA għall-frontend, li jilħaq l-aqwa prestazzjoni kemm fis-sens estetiku kif ukoll fil-kwalità tal-kodiċi, u jqiegħdu f’kategorija għalih waħdu.”
GPT‑5 jeċċella wkoll f’kompiti aġentiċi fit-tul—jikseb riżultati SOTA fuq τ2-bench telecom (96.7%), benchmark tas-sejħa tal-għodod li ġie rilaxxat biss xahrejn ilu. L-intelliġenza mtejba ta’ GPT‑5 dwar l-għodod tippermettilu jgħaqqad b’mod affidabbli għexieren ta’ sejħiet ta’ għodod—kemm f’sekwenza kif ukoll b’mod parallel—mingħajr ma jitlef it-triq, u dan jagħmlu ħafna aħjar fl-eżekuzzjoni ta’ kompiti kumplessi fid-dinja reali minn tarf sa tarf. Isegwi wkoll l-istruzzjonijiet tal-għodod b’aktar preċiżjoni, huwa aħjar fl-immaniġġjar ta’ żbalji tal-għodod, u jeċċella fl-irkupru ta’ kontenut b’kuntest twil. Manus tgħid li GPT‑5 “kiseb l-aqwa prestazzjoni [li] qatt rajna minn mudell wieħed fuq il-benchmarks interni [tagħna].” Notion tgħid “ir-risposti rapidi [tal-mudell], speċjalment fil-modalità ta’ raġunament baxx, jagħmlu lil GPT‑5 mudell ideali meta jkollok bżonn kompiti kumplessi solvuti one-shot.” Inditex qasmet li “dak li verament jiddistingwi [lil GPT‑5] huwa l-fond tar-raġunament tiegħu: tweġibiet sfumati u f’ħafna saffi li jirriflettu fehim reali tas-suġġett.”
Qed nintroduċu karatteristiċi ġodda fl-API tagħna biex nagħtu lill-iżviluppaturi aktar kontroll fuq ir-risposti tal-mudell. GPT‑5 jappoġġa parametru ġdid verbosity (valuri: low, medium, high) biex jgħin jikkontrolla jekk it-tweġibiet humiex qosra u dritti lejn il-punt jew twal u komprensivi. Il-parametru reasoning_effort ta’ GPT‑5 issa jista’ wkoll jieħu valur minimal biex iġib it-tweġibiet lura aktar malajr, mingħajr raġunament estensiv l-ewwel. Żidna wkoll tip ġdid ta’ għodda—custom tools—biex nippermettu lil GPT‑5 isejjaħ għodod b’test sempliċi minflok JSON. Custom tools jappoġġaw il-konfinar permezz ta’ grammars mingħajr kuntest ipprovduti mill-iżviluppatur.
Qed noħorġu GPT‑5 fi tliet daqsijiet fl-API—gpt-5, gpt-5-mini, u gpt-5-nano—biex nagħtu lill-iżviluppaturi aktar flessibbiltà biex jagħmlu tradeoff bejn prestazzjoni, spiża u latency. Filwaqt li GPT‑5 f’ChatGPT huwa sistema ta’ mudelli ta’ raġunament, mhux ta’ raġunament, u router, GPT‑5 fil-pjattaforma API huwa l-mudell tar-raġunament li jħaddem il-prestazzjoni massima f’ChatGPT. B’mod notevoli, GPT‑5 b’raġunament minimal huwa mudell differenti mill-mudell mhux ta’ raġunament f’ChatGPT, u huwa aħjar irfinat għall-iżviluppaturi. Il-mudell mhux ta’ raġunament użat f’ChatGPT huwa disponibbli bħala gpt-5-chat-latest.
Biex taqra dwar GPT‑5 f’ChatGPT, u titgħallem aktar dwar titjib ieħor ta’ ChatGPT, ara l-blog tar-riċerka tagħna. Għal aktar dwar kif l-intrapriżi huma eċċitati jużaw GPT‑5, ara l-blog għall-intrapriżi tagħna.
GPT‑5 huwa l-aktar mudell b’saħħtu għall-kodifikazzjoni li qatt ħriġna. Jegħleb lil o3 fuq benchmarks tal-kodifikazzjoni u każijiet ta’ użu fid-dinja reali, u ġie fine-tuned biex jispikka fi prodotti ta’ kodifikazzjoni aġentika bħal Cursor, Windsurf, GitHub Copilot, u Codex CLI. GPT‑5 impressjona lit-testers alfa tagħna, u stabbilixxa rekords fuq ħafna mill-evals interni privati tagħhom.
Feedback bikri dwar GPT‑5 għal kompiti ta’ kodifikazzjoni fid-dinja reali
“GPT-5 huwa l-aktar mudell intelliġenti għall-kodifikazzjoni li użajna. It-tim tagħna sab li GPT-5 huwa notevolment intelliġenti, faċli biex jiġi ggwidat, u saħansitra għandu personalità li ma rajniex f’ebda mudell ieħor. Mhux biss jaqbad bugs diffiċli u moħbija sew, iżda jista’ wkoll iħaddem aġenti twal fl-isfond b’ħafna dawriet biex iwassal kompiti kumplessi sat-tmiem—tip ta’ problemi li kienu jħallu mudelli oħra mwaħħlin. Sar l-għażla tagħna ta’ kuljum għal kollox, mill-iskopjar u l-ippjanar ta’ PRs sat-tlestija ta’ builds end-to-end.”
Fuq SWE-bench Verified, evalwazzjoni bbażata fuq kompiti ta’ inġinerija tas-software fid-dinja reali, GPT‑5 jikseb 74.9%, minn 69.1% ta’ o3. B’mod notevoli, GPT‑5 jikseb il-punteġġ għoli tiegħu b’effiċjenza u veloċità akbar: relattivament għal o3 b’effort għoli ta’ raġunament, GPT‑5 juża 22% inqas output tokens u 45% inqas sejħiet ta’ għodod.
F’SWE-bench Verified, mudell jingħata repożitorju tal-kodiċi u deskrizzjoni tal-issue, u jrid jiġġenera patch biex isolvi l-issue. It-tikketti tat-test jindikaw l-effort tar-raġunament. Il-punteġġi tagħna jeskludu 23 minn 500 problema li s-soluzzjonijiet tagħhom ma għaddewx b’mod affidabbli fuq l-infrastruttura tagħna. GPT‑5 ingħata prompt qasir li enfasizza l-verifika bir-reqqa tas-soluzzjonijiet; l-istess prompt ma kienx ta’ benefiċċju għal o3.
Fuq Aider polyglot, evalwazzjoni tal-editjar tal-kodiċi, GPT‑5 jistabbilixxi rekord ġdid ta’ 88%, tnaqqis ta’ terz fir-rata ta’ żbalji meta mqabbel ma’ o3.
F’Aider polygot(jinfetaħ f’tieqa ġdida) (diff), mudell jingħata eżerċizzju ta’ kodifikazzjoni minn Exercism u għandu jikteb is-soluzzjoni tiegħu bħala code diff. Mudelli tar-raġunament tħaddmu b’effort għoli ta’ raġunament.
Sibna wkoll li GPT‑5 huwa eċċellenti biex jinżel fil-fond fil-codebases biex iwieġeb mistoqsijiet dwar kif jaħdmu jew jinteroperaw diversi partijiet. F’codebase kumpless daqs l-istack ta’ apprendiment ta' tisħiħ ta’ OpenAI, qed insibu li GPT‑5 jista’ jgħinna nirraġunaw dwar u nwieġbu mistoqsijiet fuq il-kodiċi tagħna, u jaċċellera x-xogħol ta’ kuljum tagħna stess.
Meta jipproduċi kodiċi frontend għal web apps, GPT‑5 huwa aktar orjentat lejn l-estetika, aktar ambizzjuż, u aktar preċiż. F’paraguni side-by-side ma’ o3, GPT‑5 kien preferut mit-testers tagħna 70% tal-ħin.
Hawn xi eżempji divertenti, magħżula apposta, ta’ x’jista’ jagħmel GPT‑5 bi prompt wieħed:
Prompt: Jekk jogħġbok iġġenera landing page sabiħa u realistika għal servizz li joffri lill-akbar dilettant tal-kafè abbonament ta’ $200/xahar li jipprovdi kiri ta’ tagħmir u coaching għall-inkaljar tal-kafè u l-ħolqien tal-aqwa espresso. L-udjenza fil-mira hija persuna ta’ età medja fiż-żona tal-bajja li tista’ taħdem fit-tech u hija edukata, għandha dħul disponibbli, u hija passjonata dwar l-arti u x-xjenza tal-kafè. Ottimizza għall-konverżjoni għal reġistrazzjoni ta’ 6 xhur.
Ara aktar eżempji minn GPT‑5 fil-gallerija tagħna hawn(jinfetaħ f’tieqa ġdida).
GPT‑5 huwa kollaboratur aħjar, partikolarment fi prodotti ta’ kodifikazzjoni aġentika bħal Cursor, Windsurf, GitHub Copilot, u Codex CLI. Waqt li jaħdem, GPT‑5 jista’ joħroġ pjanijiet, aġġornamenti, u rikapitulazzjonijiet bejn sejħiet ta’ għodod. Meta mqabbel mal-mudelli preċedenti tagħna, GPT‑5 huwa aktar proattiv biex itemm kompiti ambizzjużi mingħajr ma jieqaf għall-approvazzjoni tiegħek jew ma jitfixkilx bil-kumplessità għolja.
Hawn eżempju ta’ kif jista’ jidher GPT‑5 waqt li jindirizza kompitu kumpless (f’dan il-każ, il-ħolqien ta’ websajt għal restorant):
Wara li l-utent jitlob websajt għar-restorant tiegħu, GPT‑5 jaqsam pjan malajr, joħloq l-istruttura tal-app, jinstalla d-dipendenzi, joħloq il-kontenut tas-sit, iħaddem build biex jiċċekkja għal żbalji ta’ kompilazzjoni, jiġbor fil-qosor xogħlu, u jissuġġerixxi passi possibbli li jmiss. Dan il-vidjo tħaffef b’madwar 3x biex tiffranka l-istennija; it-tul sħiħ biex tinħoloq il-websajt kien ta’ madwar tliet minuti.
Barra l-kodifikazzjoni aġentika, GPT‑5 huwa aħjar f’kompiti aġentiċi b’mod ġenerali. GPT‑5 jistabbilixxi rekords ġodda fuq benchmarks tas-segwitu tal-istruzzjonijiet (69.6% fuq Scale MultiChallenge, kif ivvalutat minn o3‑mini) u s-sejħa tal-għodod (96.7% fuq τ2-bench telecom). Intelliġenza mtejba tal-għodod tippermetti lil GPT‑5 jgħaqqad b’mod aktar affidabbli azzjonijiet flimkien biex iwettaq kompiti fid-dinja reali.
Feedback bikri dwar GPT‑5 għal kompiti aġentiċi
“GPT-5 huwa pass kbir ’il quddiem. Kiseb l-aqwa prestazzjoni li qatt rajna minn mudell wieħed fuq il-benchmarks interni tagħna. GPT-5 eċċella fuq diversi kompiti aġentiċi—saħansitra qabel ma biddilna linja waħda ta’ kodiċi jew addattajna prompt. Il-preambles ġodda u kontroll aktar preċiż fuq l-użu tal-għodod ippermettew qabża sinifikanti fl-istabbiltà u l-gwidad tal-aġenti tagħna.”
GPT‑5 isegwi l-istruzzjonijiet b’mod aktar affidabbli minn kwalunkwe wieħed mill-predeċessuri tiegħu, u jikseb punteġġ għoli fuq COLLIE, Scale MultiChallenge, u l-eval interna tagħna dwar is-segwitu tal-istruzzjonijiet.
F’COLLIE(jinfetaħ f’tieqa ġdida), il-mudelli jridu jiktbu test li jilħaq diversi restrizzjonijiet. F’Scale MultiChallenge(jinfetaħ f’tieqa ġdida), il-mudelli jiġu sfidati f’konversazzjonijiet b’ħafna dawriet biex jużaw kif suppost erba’ tipi ta’ informazzjoni minn messaġġi preċedenti. Il-punteġġi tagħna ġejjin mill-użu ta’ o3‑mini bħala grader, li kien aktar preċiż minn GPT‑4o. Fl-eval interna tagħna tal-OpenAI API dwar is-segwitu tal-istruzzjonijiet, il-mudelli jridu jsegwu istruzzjonijiet diffiċli derivati minn feedback reali ta’ żviluppaturi. Mudelli tar-raġunament tħaddmu b’effort għoli ta’ raġunament.
Ħdimna ħafna biex intejbu s-sejħa tal-għodod fil-modi li jimpurtaw lill-iżviluppaturi. GPT‑5 huwa aħjar biex isegwi l-istruzzjonijiet tal-għodod, aħjar biex jittratta żbalji tal-għodod, u aħjar biex b’mod proattiv jagħmel ħafna sejħiet ta’ għodod f’sekwenza jew b’mod parallel. Meta jingħata istruzzjoni, GPT‑5 jista’ wkoll joħroġ messaġġi preamble qabel u bejn sejħiet ta’ għodod biex jaġġorna lill-utenti dwar il-progress matul kompiti aġentiċi itwal.
Xahrejn ilu, τ2-bench telecom ġie ppubblikat minn Sierra.ai bħala benchmark ta’ użu tal-għodod ta’ sfida li enfasizza kif il-prestazzjoni tal-mudelli tal-lingwa tonqos b’mod sinifikanti meta jinteraġixxu ma’ stat ta’ ambjent li jista’ jinbidel mill-utenti. Fil-pubblikazzjoni(jinfetaħ f’tieqa ġdida) tagħhom, ebda mudell ma kiseb aktar minn 49%. GPT‑5 jikseb 97%.
F’τ2-bench(jinfetaħ f’tieqa ġdida), mudell irid juża għodod biex iwettaq kompitu tas-servizz tal-konsumatur, fejn jista’ jkun hemm utent li jista’ jikkomunika u jista’ jieħu azzjonijiet fuq l-istat tad-dinja. Mudelli tar-raġunament tħaddmu b’effort għoli ta’ raġunament.
GPT‑5 juri wkoll titjib qawwi fil-prestazzjoni tal-kuntest twil. Fuq OpenAI-MRCR, miżura tal-irkupru ta’ informazzjoni b’kuntest twil, GPT‑5 jegħleb lil o3 u GPT‑4.1, b’marġni li jikber sostanzjalment meta t-tulijiet tal-input isiru itwal.
F’OpenAI-MRCR(jinfetaħ f’tieqa ġdida) (multi-round co-reference resolution), diversi talbiet identiċi tal-utent bħala “needle” jiddaħħlu f’“haystacks” twal ta’ talbiet u tweġibiet simili, u l-mudell jintalab jirriproduċi t-tweġiba għall-i-th needle. Mean match ratio jkejjel ir-rata medja ta’ tqabbil ta’ strings bejn it-tweġiba tal-mudell u t-tweġiba korretta. Il-punti f’256k max input tokens jirrappreżentaw medji fuq 128k–256k input tokens, u l-bqija bl-istess mod. Hawnhekk, 256k jirrappreżenta 256 * 1,024 = 262,114 tokens. Mudelli tar-raġunament tħaddmu b’effort għoli ta’ raġunament.
Qegħdin ukoll nagħmlu open source BrowseComp Long Context(jinfetaħ f’tieqa ġdida), benchmark ġdid għall-evalwazzjoni ta’ mistoqsijiet u tweġibiet b’kuntest twil. F’dan il-benchmark, il-mudell jingħata mistoqsija tal-utent, lista twila ta’ riżultati ta’ tfittxija rilevanti, u jrid iwieġeb il-mistoqsija abbażi tar-riżultati tat-tfittxija. Iddisinjajna BrowseComp Long Context biex ikun realistiku, diffiċli, u jkollu tweġibiet korretti ta’ ground truth b’mod affidabbli. Fuq inputs li huma 128K–256K tokens, GPT‑5 jagħti t-tweġiba korretta 89% tal-ħin.
Fl-API, il-mudelli GPT‑5 kollha jistgħu jaċċettaw massimu ta’ 272,000 input tokens u joħorġu massimu ta’ 128,000 reasoning & output tokens, għal tul ta’ kuntest totali ta’ 400,000 tokens.
GPT‑5 huwa aktar affidabbli mill-mudelli preċedenti tagħna. Fuq prompts mill-benchmarks LongFact u FactScore, GPT‑5 jagħmel madwar 80% inqas żbalji fattwali minn o3. Dan jagħmlu aktar adattat għal każijiet ta’ użu aġentiċi fejn il-korrettezza hija importanti—speċjalment fil-kodiċi, id-data, u t-teħid tad-deċiżjonijiet.
Punteġġi ogħla huma agħar. LongFact(jinfetaħ f’tieqa ġdida) u FActScore(jinfetaħ f’tieqa ġdida) jikkonsistu f’mistoqsijiet miftuħa li jfittxu fatti. Nużaw grader ibbażat fuq LLM bil-browsing biex nivverifikaw il-fatti tar-risposti fuq prompts minn dawn il-benchmarks u nkejlu l-frazzjoni ta’ stqarrijiet fattwalment żbaljati. Dettalji tal-implimentazzjoni u tal-grading jistgħu jinstabu fil-kard tas-sistema. Mudelli tar-raġunament użaw effort għoli ta’ raġunament. It-tfittxija ma kinitx attivata.
B’mod ġenerali, GPT‑5 ġie mħarreġ biex ikun aktar konxju mil-limitazzjonijiet tiegħu stess u kapaċi aħjar jimmaniġġja sorpriżi mhux mistennija. Ħarriġna wkoll lil GPT‑5 biex ikun ħafna aktar preċiż fuq mistoqsijiet dwar is-saħħa (aqra aktar fil-blog tar-riċerka) tagħna. Bħal fil-każ tal-mudelli kollha tal-lingwa, nirrakkomandaw li tivverifika x-xogħol ta’ GPT‑5 meta l-livell ta’ riskju jkun għoli.
L-iżviluppaturi jistgħu jikkontrollaw il-ħin tal-ħsieb ta’ GPT‑5 permezz tal-parametru reasoning_effort fl-API. Minbarra l-valuri preċedenti—low, medium (default), u high—GPT‑5 jappoġġa wkoll minimal, li jimminimizza r-raġunament ta’ GPT‑5 biex jirritorna tweġiba malajr.
Valuri ogħla ta’ reasoning_effort jimmassimizzaw il-kwalità u valuri aktar baxxi jimmassimizzaw il-veloċità. Mhux il-kompiti kollha jibbenefikaw bl-istess mod minn raġunament addizzjonali, għalhekk nirrakkomandaw li tesperimenta biex tara x’jaħdem l-aħjar għall-każijiet ta’ użu li jinteressawk.
Pereżempju, raġunament ’il fuq minn low iżid ftit li xejn ma’ retrieval ta’ kuntest twil relattivament sempliċi, iżda jżid pjuttost ftit punti perċentwali ma’ CharXiv Reasoning(jinfetaħ f’tieqa ġdida), benchmark ta’ raġunament viżiv.
L-effort tar-raġunament ta’ GPT‑5 jagħti benefiċċji differenti fuq kompiti differenti. Għal CharXiv Reasoning, GPT‑5 ingħata aċċess għal għodda python.
Biex ngħinu niggwidaw it-tul default tat-tweġibiet ta’ GPT‑5, introduċejna parametru ġdid tal-API verbosity, li jieħu valuri ta’ low, medium (default), u high. Jekk istruzzjonijiet espliċiti jkunu f’kunflitt mal-parametri ta’ verbosity, l-istruzzjonijiet espliċiti jieħdu preċedenza. Pereżempju, jekk titlob lil GPT‑5 “ikteb esej ta’ 5 paragrafi”, ir-risposta tal-mudell għandha dejjem tkun 5 paragrafi irrispettivament mil-livell ta’ verbosity (għalkemm il-paragrafi nfushom jistgħu jkunu itwal jew iqsar).
Verbosity=baxx
Verbosity=medju
Verbosity=għoli
Jekk jingħata istruzzjoni, GPT‑5 joħroġ messaġġi preamble viżibbli għall-utent qabel u bejn sejħiet ta’ għodod. Differenti minn messaġġi moħbija ta’ raġunament, dawn il-messaġġi viżibbli jippermettu lil GPT‑5 jikkomunika pjanijiet u progress lill-utent, u jgħinu lill-utenti finali jifhmu l-approċċ u l-intenzjoni tiegħu wara s-sejħiet tal-għodod.
Qed nintroduċu tip ġdid ta’ għodda—custom tools—li jippermetti lil GPT‑5 isejjaħ għodda b’test sempliċi minflok JSON. Biex jillimitaw lil GPT‑5 biex isegwi formati ta’ custom tools, l-iżviluppaturi jistgħu jipprovdu regex, jew saħansitra grammar mingħajr kuntest(jinfetaħ f’tieqa ġdida) aktar speċifikata b’mod sħiħ.
Preċedentement, l-interface tagħna għal għodod definiti mill-iżviluppatur kienet teħtieġ li jissejħu b’JSON, format komuni użat minn web APIs u l-iżviluppaturi b’mod ġenerali. Madankollu, l-output ta’ JSON validu jeħtieġ li l-mudell jaħrab perfettament il-virgoletti kollha, il-backslashes, il-linji ġodda, u karattri oħra ta’ kontroll. Għalkemm il-mudelli tagħna huma mħarrġa sew biex joħorġu JSON, fuq inputs twal bħal mijiet ta’ linji ta’ kodiċi jew rapport ta’ 5 paġni, il-probabbiltà ta’ żball tiżdied. Bi custom tools, GPT‑5 jista’ jikteb inputs tal-għodda bħala test sempliċi, mingħajr ma jkollu jaħrab il-karattri kollha li jeħtieġu escaping.
Fuq SWE-bench Verified billi juża custom tools minflok JSON tools, GPT‑5 jikseb bejn wieħed u ieħor l-istess punteġġ.
GPT‑5 javvanza l-fruntiera fis-sikurezza u huwa mudell aktar robust, affidabbli, u ta’ għajnuna. GPT‑5 huwa ferm anqas probabbli li jagħmel alluċinazzjonijiet mill-mudelli preċedenti tagħna, jikkomunika b’mod aktar onest l-azzjonijiet u l-kapaċitajiet tiegħu lill-utent u jipprovdi l-aktar tweġiba ta’ għajnuna fejn possibbli filwaqt li xorta jibqa’ fi ħdan il-limiti tas-sikurezza. Tista’ taqra aktar fil-blog tar-riċerka tagħna.
GPT‑5 huwa disponibbli issa fil-pjattaforma API fi tliet daqsijiet: gpt-5, gpt-5-mini, u gpt-5-nano. Huwa disponibbli fuq ir-Responses API, API tat-tlestija taċ-chats, u huwa d-default f’Codex CLI. GPT‑5 għandu prezz ta’ $1.25/1M input tokens u $10/1M output tokens, GPT‑5 mini għandu prezz ta’ $0.25/1M input tokens u $2/1M output tokens, u GPT‑5 nano għandu prezz ta’ $0.05/1M input tokens u $0.40/1M output tokens.
Dawn il-mudelli jappoġġaw il-parametri tal-API reasoning_effort u verbosity, kif ukoll custom tools. Jappoġġaw ukoll parallel tool calling, built-in tools (web search, file search, ġenerazzjoni tal-immaġnijiet, u aktar), karatteristiċi ewlenin tal-API (streaming, outputs strutturati, u aktar), u karatteristiċi li jnaqqsu l-ispejjeż bħall-prompt caching u Batch API.
Il-verżjoni mhux ta’ raġunament ta’ GPT‑5 użata f’ChatGPT hija disponibbli fl-API bħala gpt-5-chat-latest, ukoll bi prezz ta’ $1.25/1M input tokens u $10/1M output tokens.
GPT‑5 qed jitnieda wkoll fuq pjattaformi Microsoft, inklużi Microsoft 365 Copilot, Copilot, GitHub Copilot, u Azure AI Foundry.
Agħti ħarsa lejn id-dokumentazzjoni(jinfetaħ f’tieqa ġdida) ta’ GPT‑5, id-dettalji tal-prezzijiet(jinfetaħ f’tieqa ġdida), u l-gwida tal-prompting(jinfetaħ f’tieqa ġdida) biex tibda.
Intelliġenza
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] Hemm diskrepanza żgħira man-numri rrappurtati fil-blog post preċedenti tagħna, peress li dawk tħaddmu fuq verżjoni preċedenti ta’ HLE.
Multimodali
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
Kodifikazzjoni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$ 112K | US$ 75K | US$ 49K | US$ 86K | US$ 66K | US$ 34K | US$ 31K | US$ 9K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] Inħallu barra 23/500 problema li ma setgħux jitħaddmu fuq l-infrastruttura tagħna. Il-lista sħiħa tat-23 kompitu esklużi hija 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', u 'sphinx-doc__sphinx-9367'.
Segwitu tal-Istruzzjonijiet
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] Nota: sibna li l-grader default f’MultiChallenge (GPT-4o) spiss jagħti punteġġ ħażin lir-risposti tal-mudell. Sibna li meta nibdlu l-grader għal mudell tar-raġunament, bħal o3-mini, il-preċiżjoni tal-grading titjieb b’mod sinifikanti fuq kampjuni li spezzjonajna.
Sejħa għall-Funzjoni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
Kuntest Twil
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
Alluċinazzjonijiet
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


