Fara beint í aðalefni
OpenAI

7. ágúst 2025

Vara

Kynning á GPT‑5 fyrir forritara

Besta líkanið fyrir kóðun og sjálfráð verk.

Hleður inn...

Inngangur

Í dag erum við að gefa út GPT‑5 á API-verkvangi okkar – besta líkanið okkar hingað til fyrir kóðun og sjálfráð verk.

GPT‑5 er besta tækni sem býðst (SOTA) fyrir helstu kóðunarviðmið, með 74,9% á SWE-bench Verified og 88% á Aider polyglot. Við þjálfuðum GPT‑5 til að vera sannur samstarfsaðili í kóðun. Það skarar fram úr í að framleiða hágæðakóða og takast á við verkefni eins og að laga villur, breyta kóða og svara spurningum um flókna kóðagrunna. Líkanið er stýranlegt og samvinnuþýtt — það getur fylgt mjög ítarlegum leiðbeiningum með mikilli nákvæmni og getur veitt skýringar á aðgerðum sínum fyrir og á milli verkfærakalla.  Líkanið skarar einnig fram úr í framendakóðun, og slær OpenAI o3 við í framendavefþróun 70% af tímanum í innri prófunum.

Við þjálfuðum GPT‑5 á raunverulegum kóðunarverkefnum í samstarfi við fyrstu prófunaraðila í sprotafyrirtækjum og stórfyrirtækjum. Cursor segir að GPT‑5 sé „snjallasta líkanið sem þau hafa notað“ og „ótrúlega gáfað, auðvelt að stýra og hafi jafnvel persónuleika sem þau hafa ekki séð í öðrum líkönum.“ Windsurf sagðist telja GPT‑5 vera bestu tækni sem býðst (SOTA) og „hafa helmingi lægri villutíðni í verkfæraköllum samanborið við önnur fremstu líkön.“ Vercel segir að „þetta sé besta framendaforritunarlíkanið, sem skilar hámarksafköstum bæði hvað varðar fagurfræði og kóðagæði, sem skipar því í sérflokk.“

GPT‑5 skarar einnig fram úr í langvinnum sjálfráðum verkum — það nær SOTA-niðurstöðum á τ2-bench Telecom (96,7%), viðmiðun fyrir verkfæraköll sem gefin var út fyrir aðeins tveimur mánuðum. Bætt verkfæragreind GPT‑5 gerir því kleift að tengja saman tugi verkfærakalla á áreiðanlegan hátt — bæði í röð og samhliða — án þess að villast, sem gerir það mun betra í að framkvæma flókin, raunveruleg verkefni frá upphafi til enda. Það fylgir einnig verkfæraleiðbeiningum nákvæmar, er betra í að meðhöndla villur í verkfærum og er framúrskarandi í að sækja efni úr löngu samhengi. Manus segir að GPT‑5 hafi „náð bestu frammistöðu sem [þeir] hafa nokkurn tíma séð frá einu líkani samkvæmt innri viðmiðum [þeirra].“ Notion segir að „hröð viðbrögð líkansins, sérstaklega í stillingu með lítilli rökhugsun, geri GPT‑5 að kjörnu líkani þegar þarf að leysa flókin verkefni í einu skrefi.“ Inditex deildi því að „það sem raunverulega aðgreinir [GPT‑5] er dýpt röksemdafærslu þess: flókin, marglaga svör sem endurspegla raunverulegan skilning á efninu.“

Við erum að kynna nýja eiginleika í API okkar til að veita forriturum meiri stjórn á svörum líkansins. GPT‑5 styður við nýja verbosity breytu (gildi: lágt, meðal, mikið) til að hjálpa til við að stjórna hvort svörin eru stutt og hnitmiðuð eða löng og ítarleg. Nú getur reasoning_effort breytan í GPT‑5 tekið lágmarksgildi til að fá svör hraðar, án þess að fara í gegnum mikla röksemdafærslu fyrst. Við höfum einnig bætt við nýrri gerð verkfæra—sérsniðnum verkfærum—til að leyfa GPT‑5 að kalla á verkfæri með látlausum texta í stað JSON. Sérsniðin verkfæri veita aðstoð við að takmarka með samhengislausum málfræðireglum sem forritarar hafa útvegað.

Við erum að gefa út GPT‑5 í þremur stærðum í API-inu—gpt-5, gpt-5-mini og gpt-5-nano—til að veita forriturum meiri sveigjanleika til að jafna afköst, kostnað og biðtíma. Þó að GPT‑5 í ChatGPT sé kerfi með rökhugsun, án röksemdafærslu og leiðarlíkönum, þá er GPT‑5 í API vettvanginum röksemdalíkanið sem knýr hámarksafköst í ChatGPT. Athygli vekur að GPT‑5 með lágmarks rökhugsun er annað líkan en líkanið án rökhugsunar í ChatGPT og er betur stillt fyrir forritara. Líkanið sem ekki byggir á röksemdafærslu og er notað í ChatGPT er fáanlegt sem gpt-5-chat-latest.

Til að lesa um GPT‑5 í ChatGPT og læra meira um aðrar úrbætur á ChatGPT er hægt að skoða rannsóknarbloggið okkar. Fyrir frekari upplýsingar um hversu spennt fyrirtæki eru fyrir að nota GPT‑5 er hægt að skoða fyrirtækjabloggið okkar.

Kóðun

GPT‑5 er öflugasta kóðunarlíkanið sem við höfum nokkurn tíma gefið út. Það skarar fram úr o3 í kóðunarviðmiðum og raunverulegum notkunartilvikum og hefur verið fínstillt til að fara á kostum í sjálfvirkum kóðunarvörum eins og Cursor, Windsurf, GitHub Copilot og Codex CLI. GPT‑5 vakti mikla hrifningu hjá innanhússprófurum okkar og setti met í mörgum innri viðmiðum þeirra. 

Fyrstu ábendingar um GPT‑5 fyrir raunveruleg kóðunarverkefni

„GPT-5 er snjallasta líkanið sem við höfum notað Teymið okkar hefur komist að því að GPT-5 er ótrúlega snjallt, auðvelt að stjórna og jafnvel með persónuleika sem við höfum ekki séð í neinu öðru líkani. Það greinir ekki aðeins flóknar, djúpt faldar villur heldur getur það einnig keyrt langa, margra umferða bakgrunnsfulltrúa til að klára flókin verkefni – þau vandamál sem áður urðu til þess að önnur líkön festust. Það er orðið daglegur drifkraftur okkar fyrir allt frá umfangsmati og skipulagningu rökfærslukerfa til að ljúka smíði frá upphafi til enda.“
Michael Truell, meðstofnandi og forstjóri Cursor

Á SWE-Bench Verified, sem er mat byggt á raunverulegum hugbúnaðarverkefnum, skorar GPT‑5 74,9%, sem er hækkun frá 69,1% hjá o3. Athygli vekur að GPT‑5 nær háum stigum með meiri skilvirkni og hraða: miðað við o3 við mikla rökhugsun þar sem GPT‑5 notar 22% færri úttaksmerki og 45% færri verkfæraköll.

Í SWE-bench Verified fær líkanið kóðageymslu og lýsingu á vandamáli og þarf að búa til bót til að leysa vandamálið. Textamerkingar gefa til kynna rökhugsunaráreynslu. Einkunnir okkar sleppa 23 af 500 vandamálum þar sem lausnirnar stóðust ekki áreiðanlega á innviðum okkar. GPT‑5 var gefið stutt kvaðning sem lagði áherslu á að staðfesta lausnir rækilega; sama kvaðningin gagnaðist ekki o3.

Á Aider polyglot, í mati á kóðavinnslu, setur GPT‑5 nýtt met með 88%, sem er þriðjungslækkun villutíðni samanborið við o3.

Í Aider polygot(opnast í nýjum glugga) (diff) fær líkan kóðunaræfingu frá Exercism og þarf að skrifa lausnina sína sem kóðadiff. Rökhugsunarlíkön voru keyrð með mikilli rökhugsunaráreynslu.

Við höfum einnig komist að því að GPT‑5 er frábært til að kafa djúpt í kóðagrunna til að svara spurningum um hvernig ýmsir hlutar virka eða vinna saman. Í eins flóknum kóðagrunni og styrkingarnámi stafla OpenAI, erum við að komast að því að GPT‑5 getur hjálpað okkur að rökstyðja og svara spurningum um kóðann okkar, sem flýtir fyrir okkar eigin daglega starfi. 

Framendaþróun

Þegar búa á til framendakóða fyrir vefforrit er GPT‑5 fagurfræðilega sinnaðra, metnaðarfyllra og nákvæmara. Í samanburði við o3 var GPT‑5 valið af prófunaraðilum okkar í 70% tilvika.

Hér eru nokkur skemmtileg, vandlega valin dæmi um hvað GPT‑5 getur gert með einni kvaðningu:

Kvaðning: Búðu búðu til fallega, raunhæfa upphafssíðu fyrir þjónustu sem gefur kaffiáhugamönnum 200 bandaríkjadala áskrfit á mánuði með leigu á búnaði og kennslu í því að rista kaffibaunir og laga fullkominn espresso-bolla. Markhópurinn er miðaldra fólk sem býr við San Francisco-flóa, starfar kannski í tækniiðnaði, er menntað, vel launað og hefur ástríðufullan áhuga á kaffi. Stilltu fyrir kaup á 6 mánaða áskrift..

Sjáðu fleiri dæmi frá GPT‑5 í myndasafninu okkar hér(opnast í nýjum glugga).

Samstarf í kóðun

GPT‑5 er betri samstarfsaðili, sérstaklega í sjálfráða forritunarvörum eins og Cursor, Windsurf, GitHub Copilot og Codex CLI. Þó að það virki getur GPT‑5 gefið frá sér áætlanir, uppfærslur og samantektir á milli verkfærakalla. Í samanburði við fyrri líkön okkar er GPT‑5 virkara í að klára metnaðarfull verkefni án þess að bíða eftir samþykki þínu eða hika við mikið flækjustig.

Hér er dæmi um hvernig GPT‑5 getur litið út þegar það tekst á við flókið verkefni (í þessu tilfelli að búa til vefsíðu fyrir veitingastað):

Þegar notandi biður um vefsíðu fyrir veitingastaðinn sinn deilir GPT‑5 fljótlegri áætlun, byggir upp forritið, setur inn viðbætur, býr til efni síðunnar, keyrir smíði til að athuga villur í samsetningu, dregur saman vinnu sína og leggur til möguleg næstu skref. Þetta myndband hefur verið hraðað þrefalt til að spara þér biðina; heildartíminn sem það tók að búa til vefsíðuna var um þrjár mínútur.

Sjálfráð verk

Fyrir utan sjálfráða kóðun er GPT‑5 betra í sjálfráðum verkum almennt. GPT‑5 setur ný met í viðmiðum um leiðbeiningafylgni (69,6% á Scale MultiChallenge, samkvæmt o3‑mini) og verkfæraköllun (96,7% á τ2-bench telecom). Bætt verkfæragreind gerir GPT‑5 kleift að tengja saman aðgerðir á áreiðanlegri hátt til að framkvæma raunveruleg verkefni.

Snemmbúin ábending um GPT‑5 fyrir sjálfráð verk

„GPT-5 er stórt skref upp á við.“ Það náði bestu frammistöðu sem við höfum nokkurn tíma séð frá einu líkani á innri viðmiðum okkar. GPT-5 skaraði fram úr í ýmsum sjálfráðum verkum – jafnvel áður en við breyttum einni línu af kóða eða aðlöguðum kvaðningu. Nýju inngangarnir og nákvæmari stjórn á notkun verkfæra gaf kost á verulegum framförum í stöðugleika og stjórnhæfni fulltrúa okkar.“
Yichao ‘Peak’ Ji, meðstofnandi og aðalvísindamaður hjá Manus

Fylgja fyrirmælum

GPT‑5 fylgir leiðbeiningum áreiðanlegar en nokkur forveri þess, og fær háa einkunn í COLLIE, Scale MultiChallenge og innra mati okkar á leiðbeiningafylgni.

Í COLLIE(opnast í nýjum glugga) þurfa líkön að skrifa texta sem uppfyllir ýmsar takmarkanir. Í Scale MultiChallenge(opnast í nýjum glugga) er skorað á líkön í fjölumferðasamtölum til að nota fjórar tegundir upplýsinga úr fyrri skilaboðum með réttum hætti. Einkunnir okkar koma frá því að nota o3‑mini sem flokkun, sem var nákvæmara en GPT‑4o. Í innri OpenAI API-fyrirmælum okkar í kjölfar mats verða líkön að fylgja erfiðum leiðbeiningum sem eru fengnar úr raunverulegum ábendingum frá forriturum. Rökhugsunarlíkön voru keyrð með mikilli rökhugsunaráreynslu.

Verkfæraköllun

Við lögðum hart að okkur til að bæta verkfæraköllun á þann hátt sem skiptir máli fyrir forritara. GPT‑5 er betra í að fylgja leiðbeiningum um verkfæri, betra í að takast á við villur í verkfærum og betra í að framkvæma mörg verkfæraköll á fyrirbyggjandi hátt, hvort sem það er í röð eða samsíða. Þegar leiðbeiningar eru gefnar getur GPT‑5 einnig sent frá sér frálagsskilaboð fyrir og á milli verkfærakalla til að greina notendum frá framvindu í lengri sjálfráðum verkum.

Fyrir tveimur mánuðum var τ2-bench telecom gefið út af Sierra.ai sem krefjandi viðmiðunarpróf fyrir notkun verkfæra sem sýndi fram á hvernig afköst tungumálalíkans minnka verulega þegar það hefur samskipti við umhverfisástand sem notendur geta breytt. Í útgáfu(opnast í nýjum glugga) þeirra náði ekkert líkan yfir 49%. GPT‑5 skorar 97%.

Í τ2-bench(opnast í nýjum glugga) þarf líkan að nota verkfæri til að leysa verkefni í þjónustu við viðskiptavini, þar sem notandi getur átt samskipti og gripið til aðgerða í stöðu heimsins. Rökhugsunarlíkön voru keyrð með mikilli rökhugsunaráreynslu.

GPT‑5 sýnir einnig miklar framfarir í frammistöðu fyrir langt samhengi. Á OpenAI-MRCR, mælikvarða á upplýsingaleit í löngu samhengi, skarar GPT‑5 fram úr o3 og GPT‑4.1, með mun sem eykst verulega við meiri inntakslengd.

Í OpenAI-MRCR(opnast í nýjum glugga) (fjölumferðasamvísunarlausn) eru margar eins „nálar“-beiðnir notenda settar inn í stórar „heysátur“ af svipuðum beiðnum og svörum, og líkanið er beðið um að endurgera svarið við nálinni. Meðaltal samsvörunarhlutfalls mælir meðalstrengjasamsvörun milli svars líkansins og rétta svarsins. Punktarnir við 256k hámarksinntaksmerki tákna meðaltal yfir 128k–256k inntaksmerki, og svo framvegis. Hér táknar 256k 256 * 1,024 = 262,114 tákn. Rökhugsunarlíkön voru keyrð með mikilli rökhugsunaráreynslu.

Við erum líka að opna BrowseComp Long Context(opnast í nýjum glugga), nýtt viðmið fyrir mat á spurningum og svörum með löngu samhengi. Í þessu viðmiði fær líkanið fyrirspurn frá notanda, langan lista af viðeigandi leitarniðurstöðum og þarf að svara spurningunni út frá þessum leitarniðurstöðum. Við hönnuðum BrowseComp Long Context til að vera raunhæft, erfitt og hafa áreiðanlega rétt svör við grunnspurningum. Á inntökum sem eru 128K–256K tákn gefur GPT‑5 rétt svar í 89% tilvika.

Í API-inu geta öll GPT‑5 líkön tekið við að hámarki 272.000 inntaksmerkjum og gefið út að hámarki 128.000 rök- og úttaksmerki, sem gerir samtals 400.000 tákna heildarsamhengislengd.

Staðreyndir

GPT‑5 er áreiðanlegra en fyrri líkönin okkar. Með kvaðningum úr LongFact og FactScore viðmiðunum gerir GPT‑5 um 80% færri staðreyndavillur en o3. Þetta gerir það betur fallið fyrir sjálfráða notkunartilvik þar sem nákvæmni skiptir máli — sérstaklega í kóða, gögnum og ákvarðanatöku.

Hærri stig eru verri. LongFact(opnast í nýjum glugga) og FActScore(opnast í nýjum glugga) samanstanda af opnum spurningum sem leita eftir staðreyndum. Við notum flokkun byggða á LLM með vafra til að sannreynda svör við kvaðningum frá þessum viðmiðunum og mæla hlutfall staðreyndavillna. Upplýsingar um framkvæmd og einkunnagjöf má finna á kerfiskortinu. Rökhugsunarlíkön notuðu mikið rökhugsunarátak. Leit var ekki virkjuð.

Almennt hefur GPT‑5 verið þjálfað til að vera meðvitaðra um eigin takmarkanir og betur í stakk búið til að takast á við óvæntar áskoranir. Við þjálfuðum líka GPT‑5 til að vera mun nákvæmara í heilsufarsspurningum (frekari upplýsingar eru í rannsóknarblogginu okkar). Eins og með öll tungumálalíkön mælum við með að þú staðfestir vinnu GPT‑5 þegar mikið er í húfi.

Nýir eiginleikar

Lágmarksröksemdarfærsla

Forritarar geta stjórnað hugsunartíma GPT‑5 með reasoning_effort breytunni í API. Auk fyrri gilda—low, medium (sjálfgefið) og high—styður GPT‑5 einnig minimal, sem lágmarkar röksemdafærslu GPT‑5 til að skila svari hratt.

Hærri reasoning_effort gildi hámarka gæði og lægri gildi hámarka hraða. Ekki öll verkefni njóta jafn góðs af viðbótarrökstuðningi, svo við mælum með að þú prófir til að sjá hvað virkar best fyrir þau notkunartilvik sem þér þykja skipta máli.

Til dæmis bætir röksemdafærsla fyrir ofan low litlu við tiltölulega einfalda langa samhengisleit, en bætir töluvert mörgum prósentustigum við CharXiv Reasoning(opnast í nýjum glugga), sjónræna röksemdafærslu.

Röksemdafærsla GPT‑5 veitir mismunandi ávinning eftir verkefnum. Fyrir CharXiv-röksemdafærslu fékk GPT‑5 aðgang að Python-verkfæri.

Mælgi

Til að hjálpa til við að stýra sjálfgefinni lengd svara GPT‑5 höfum við kynnt nýja API-breytu verbosity, sem tekur gildin low, medium (sjálfgefið) og high. Ef skýrar leiðbeiningar stangast á við mælgibreyturnar hafa skýrar leiðbeiningar forgang. Ef þú þú biður GPT‑5 til dæmis um að „skrifa ritgerð í 5 málsgreinum“, ætti svar líkansins alltaf að vera 5 málsgreinar óháð mælgistigi (en málsgreinarnar sjálfar geta verið lengri eða styttri).

Mælgi=lítil

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Mælgi=í meðallagi

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Mælgi=mikil

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Frálagsskilaboð fyrir verkfæraköll

Ef beðið er um það birtir GPT‑5 sýnileg frálagsskilaboð fyrir notanda fyrir og á milli verkfærakalla. Ólíkt földum rökstuðningsskilaboðum gera þessi sýnilegu skilaboð GPT‑5 kleift að miðla áætlunum og framvindu til notandans, sem hjálpar endanotendum að skilja nálgun þess og tilgang með verkfæraköllum.

Sérsniðin verkfæri

Við erum að kynna nýja tegund verkfæra—sérsniðin verkfæri—sem gerir GPT‑5 kleift að kalla á verkfæri með látlausum texta í stað JSON. Til að takmarka GPT‑5 við að fylgja sérsniðnum verkfærasniðum geta forritarar veitt regex eða jafnvel fullkomnari samhengislausar málfræðireglur(opnast í nýjum glugga).

Áður þurfti viðmótið okkar fyrir verkfæri sem forritarar skilgreindu að kalla á þau með JSON, sem er algengt snið sem vef-API og forritarar nota yfirleitt. Hins vegar krefst frálag með gildu JSON að líkanið sleppi algjörlega öllum gæsalöppum, bakstrikum, línuskilum og öðrum stýristöfum. Þrátt fyrir að líkönin okkar séu vel þjálfuð til að skila JSON-frálagi aukast líkurnar á villum þegar unnið er með löng inntök eins og hundruð lína af kóða eða 5 blaðsíðna skýrslu. Með sérsniðnum verkfærum getur GPT‑5 skrifað verkfærainntak sem venjulegan texta án þess að þurfa að sleppa öllum stöfum sem krefjast þess.

Í SWE-bench Verified með sérsniðnum verkfærum í stað JSON-verkfæra fær GPT‑5 svipaða einkunn.

Öryggi

GPT‑5 setur ný öryggisviðmið og er öflugra, áreiðanlegra og hjálplegra líkan. GPT‑5 er mun ólíklegri til að fá ofskynjanir en fyrri líkön okkar, miðlar heiðarlega aðgerðum sínum og getu til notandans og veitir gagnlegasta svarið sem mögulegt er, en samt innan öryggismarka. Þú getur lesið meira á rannsóknarbloggi okkar.

Aðgengi og verð

GPT‑5 er nú fáanlegt á API-verkvanginum í þremur stærðum: gpt-5, gpt-5-mini og gpt-5-nano. Það er aðgengilegt á Responses API, Spjall Completions API, og er sjálfgefið í Codex CLI. GPT‑5 kostar $1,25/1M inntaksmerki og $10/1M úttaksmerki, GPT‑5 mini kostar $0,25/1M inntaksmerki og $2/1M úttaksmerki, og GPT‑5 nano kostar $0,05/1M inntaksmerki og $0,40/1M úttaksmerki.

Þessi líkön veita aðstoð við reasoning_effort og verbosity API breytur, sem og sérsniðin verkfæri. Þau styðja einnig samhliða verkfæraköll, innbyggð verkfæri (vefleit, skráarleit, myndagerð og fleira), grunn-API-eiginleika (streymi, skipulögð frálög og fleira) og kostnaðarsparandi eiginleika eins og kvaðningarsöfnun og Batch API.

Útgáfan af GPT‑5 án röksemdafærslu sem notuð er í ChatGPT er fáanleg í API-inu sem gpt-5-chat-latest, einnig verðlögð á $1,25/1M inntaksmerki og $10/1M úttaksmerki.

GPT‑5 er einnig að koma út á verkvöngum Microsoft, þar á meðal Microsoft 365 Copilot, Copilot, GitHub Copilot og Azure AI Foundry.

Ítarleg viðmið

Greind
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Það er lítið misræmi við tölur sem greint var frá í fyrri bloggfærslu okkar, þar sem þær voru keyrðar á fyrri útgáfu af HLE.

Fjölþætt
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Kóðun
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 þ. USD75 þ. USD49 þ. USD86 þ. USD66 þ. USD34 þ. USD31 þ. USD9 þ. USD
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Við sleppum 23/500 vandamálum sem ekki gátu keyrt á innviðum okkar. Fullur listi yfir 23 verk sem var sleppt er 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' og 'sphinx-doc__sphinx-9367'.

Farið að fyrirmælum
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Athugið: Við komumst að því að sjálfgefni einkunnagjafinn í MultiChallenge (GPT-4o) gefur oft ranga einkunn fyrir svör líkansins. Við komumst að því að það að skipta út einkunnaragjafa fyrir rökstuðningslíkan, eins og o3-mini, bætir nákvæmni í einkunnagjöf verulega á sýnum sem við höfum skoðað.

Aðgerðaköll
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Langt samhengi
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Ofskynjanir
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Höfundur

OpenAI