Pereiti prie pagrindinio turinio
OpenAI

2025 m. rugpjūčio 7 d.

Produktas

Pristatome GPT‑5 programuotojams

Geriausias modelis programavimo ir agentinėms užduotims.

Įkeliama...

Įvadas

Šiandien mūsų API platformoje išleidžiame GPT‑5 – geriausią iki šiol sukurtą programavimo ir agentinėms užduotims.

GPT‑5 yra pažangiausias (SOTA) modelis pagrindiniuose programavimo lyginamuosiuose testuose: „SWE-bench Verified“ surinko 74,9 proc., o „Alder polyglot“ – 88 proc. Mokėme GPT‑5 būti tikru programavimo bendradarbiu. Jis puikiai kuria aukštos kokybės kodą ir atlieka tokias užduotis kaip riktų taisymas, kodo redagavimas bei atsakymas į klausimus apie sudėtingas kodų bazes. Modelis yra valdomas ir linkęs bendradarbiauti – jis gali labai tiksliai laikytis išsamių instrukcijų ir pateikti išankstinius savo veiksmų paaiškinimus prieš įrankių iškvietimus ir tarp jų.  Modelis taip pat puikiai programuoja naudotojo sąsajas – vidaus bandymuose 70 proc. atvejų lenkė „OpenAI o3“ kuriant saityno naudotojo sąsajas.

Mokėme GPT‑5 atlikdami realias programavimo užduotis ir bendradarbiaudami su ankstyvaisiais bandytojais startuoliuose bei įmonėse. Cursor „Cursor“ teigia, kad GPT‑5 yra „išmaniausias modelis, kokį [jie] naudojo“ ir „nepaprastai sumanus, lengvai valdomas bei pasižymintis asmenybe, kurios [jie] nematė kituose modeliuose“. „Windsurf“ pasidalijo, kad GPT‑5 yra pažangiausias (SOTA) jų vertinimuose ir „daro perpus mažiau įrankių iškvietimo klaidų nei kiti pažangūs modeliai“. Vercel teigia: „Tai geriausias naudotojo sąsajos DI modelis, pasiekiantis aukščiausią našumą tiek estetikos, tiek kodo kokybės srityse, todėl išsiskiria savo kategorijoje.“

GPT‑5 taip pat puikiai atlieka ilgai trunkančias agentines užduotis – pasiekė SOTA rezultatus „τ2-bench telecom“ (96,7 proc.) – įrankių iškvietimo lyginamajame teste, išleistame vos prieš du mėnesius. Patobulintas GPT‑5 įrankių intelektas leidžia patikimai sujungti dešimtis įrankių iškvietimų – tiek nuosekliai, tiek lygiagrečiai – nenukrypstant nuo tikslo, todėl jis daug geriau atlieka sudėtingas, realias užduotis nuo pradžios iki galo. Jis taip pat tiksliau laikosi įrankių instrukcijų, geriau tvarkosi su įrankių klaidomis ir puikiai atrenka turinį iš ilgo konteksto. Manus teigia, kad GPT‑5 „pasiekė geriausią našumą, kokį [jie] kada nors matė viename modelyje [savo] vidaus palyginimuose“.Notion teigia, kad „greiti [modelio] atsakymai, ypač mažo samprotavimo režimu, paverčia GPT‑5 idealiu modeliu, kai reikia vienu ypu išspręsti sudėtingas užduotis“. Inditex pasidalijo: „Tai, kas iš tikrųjų išskiria [GPT‑5], yra samprotavimo gylis: niuansuoti, daugiasluoksniai atsakymai, atspindintys tikrą dalyko supratimą.“

Pristatome naujas API funkcijas, suteiksiančias programuotojams daugiau modelio atsakymų kontrolės. GPT‑5 palaiko naują parametrą verbosity parametro palaikymą (reikšmės: low, medium, high), padedantį valdyti, ar atsakymai bus trumpi ir konkretūs, ar ilgi ir išsamūs. GPT‑5 parametras reasoning_effort dabar gali priimti reikšmę „minimal“, kad atsakymai būtų gaunami greičiau, be išsamaus išankstinio samprotavimo. Taip pat pridėjome naują įrankių tipą – pasirinktinius įrankius. Dabar GPT‑5 gali iškviesti įrankius naudodamas paprastąjį tekstą, o ne JSON. Pasirinktinius įrankius galima apriboti naudojant programuotojo pateiktas bekontekstes gramatikas.

API išleidžiame trijų dydžių GPT‑5 –gpt-5, gpt-5-mini ir gpt-5-nano–, kad suteiktume programuotojams daugiau lankstumo derinant našumą, kainą ir delsos laiką. Nors „ChatGPT“ veikiantis GPT‑5 yra samprotavimo, nesamprotavimo ir maršruto parinkimo modelių sistema, API platformoje GPT‑5 yra samprotavimo modelis, užtikrinantis maksimalų našumą „ChatGPT“. Pažymėtina, kad GPT‑5 su minimaliu samprotavimu yra kitoks modelis nei nesamprotaujantis modelis „ChatGPT“ ir yra geriau pritaikytas programuotojams. Nesamprotaujantis modelis, naudojamas „ChatGPT“, pasiekiamas kaip gpt-5-chat-latest.

Norėdami paskaityti apie GPT‑5 „ChatGPT“ ir sužinoti daugiau apie kitus „ChatGPT“ patobulinimus, žr. mūsų tyrimų tinklaraštį. Daugiau apie tai, kaip įmonės džiaugiasi naudodamos GPT‑5, rasite mūsų įmonių tinklaraštyje.

Programavimas

GPT‑5 yra stipriausias mūsų kada nors išleistas programavimo modelis. Jis lenkia „o3“ programavimo lyginamuosiuose testuose bei realiose naudojimo situacijose ir buvo koreguotas taip, kad puikiai veiktų agentiniuose programavimo produktuose, tokiuose kaip „Cursor“, „Windsurf“, „GitHub Copilot“ ir „Codex“ CLI. GPT‑5 padarė įspūdį mūsų alfa bandytojams ir sumušė rekordus daugelyje jų privačių vidaus vertinimų. 

Early feedback on GPT‑5 for real-world coding tasks

“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
Michael Truell, Co-Founder & CEO at Cursor

„SWE-bench Verified“ – vertinime, pagrįstame realiomis programų inžinerijos užduotimis, – GPT‑5 surinko 74,9 proc. („o3“ rezultatas – 69,1 proc.). Pažymėtina, kad aukštą įvertinimą GPT‑5 pasiekia efektyviau ir greičiau: palyginti su „o3“, kuris deda dideles samprotavimo pastangas, GPT‑5 sunaudoja 22 proc. mažiau išvesties prieigos raktų ir 45 proc. mažiau įrankių iškvietimų.

„SWE-bench Verified“ teste modeliui pateikiama kodo saugykla bei problemos aprašymas, ir jis turi sugeneruoti pataisą problemai išspręsti. Teksto etiketės nurodo samprotavimo pastangas. Mūsų balai neįtraukia 23 iš 500 problemų, kurių sprendimai mūsų infrastruktūroje nebuvo patikimai patvirtinti. GPT‑5 buvo pateiktas trumpas raginimas, pabrėžiant kruopštų sprendimų tikrinimą; toks pat raginimas „o3“ naudos nedavė.

„Alder polyglot“ kodo redagavimo vertinime GPT‑5 pasiekė naują 88 proc. rekordą – klaidų lygis sumažėjo trečdaliu, palyginti su „o3“.

„Aider polygot“(atsidaro naujame lange) (skirtumų) teste modeliui pateikiamas programavimo pratimas iš „Exercism“ ir jis turi parašyti sprendimą kaip kodo skirtumą (diff). Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.

Taip pat pastebėjome, kad GPT‑5 puikiai geba giliai nagrinėti kodų bazes, kad atsakytų į klausimus apie tai, kaip veikia ar sąveikauja įvairios dalys. Net tokioje sudėtingoje kodų bazėje kaip „OpenAI“ pastiprinimo mokymosi infrastruktūra pastebime, kad GPT‑5 gali padėti mums samprotauti ir atsakyti į klausimus apie kodą, taip pagreitindamas mūsų kasdienį darbą. 

Naudotojo sąsajos inžinerija

Kuriant saityno programų naudotojo sąsajos kodą, GPT‑5 labiau atsižvelgia į estetiką, yra ambicingesnis ir tikslesnis. Tiesioginiuose palyginimuose su „o3“ mūsų bandytojai 70 proc. atvejų pirmenybę teikė GPT‑5.

Štai keletas smagių, atrinktų pavyzdžių, ką GPT‑5 gali atlikti gavęs vieną raginimą:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Daugiau GPT‑5 pavyzdžių rasite mūsų galerijoje čia(atsidaro naujame lange).

Bendradarbiavimas programuojant

GPT‑5 yra geresnis bendradarbis, ypač naudojant agentinius programavimo produktus, tokius kaip „Cursor“, „Windsurf“, „GitHub Copilot“ ir „Codex“ CLI. Dirbdamas GPT‑5 gali pateikti planus, atnaujinimus ir santraukas tarp įrankių iškvietimų. Palyginti su ankstesniais mūsų modeliais, GPT‑5 yra iniciatyvesnis atlikdamas ambicingas užduotis – nestabteli laukdamas jūsų pritarimo ir nestringa dėl didelio sudėtingumo.

Štai pavyzdys, kaip GPT‑5 gali atrodyti sprendžiant sudėtingą užduotį (šiuo atveju – kuriant restorano interneto svetainę):

After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.

Agentinės užduotys

GPT‑5 yra geresnis ne tik agentiniame programavime, bet ir bendrai atliekant agentines užduotis. GPT‑5 sumušė naujus rekordus instrukcijų sekimo (69,6 proc. „Scale Multichallenge“, vertinant „o3‑mini“) ir įrankių iškvietimo (96,7 proc. „t2-bench telecom“) lyginamuosiuose testuose. Patobulintas įrankių intelektas leidžia GPT‑5 patikimiau sujungti veiksmus atliekant realias užduotis.

Ankstyvieji atsiliepimai apie GPT‑5 agentinėms užduotims

„GPT-5 yra didelis žingsnis į priekį. Jis pasiekė didžiausią našumą, kokį esame matę iš vieno modelio vidaus vertinimuose. GPT-5 puikiai pasirodė įvairiose agentinėse užduotyse – net prieš mums pakoreguojant bent vieną kodo eilutę ar pritaikant raginimą. Naujos įžangos ir tikslesnis įrankių naudojimo valdymas leido pasiekti reikšmingą šuolį mūsų agentų stabilumo ir valdymo srityse.
Yichao „Peak“ Ji, bendrakūrėjis ir vyriausiasis mokslininkas, „Manus“

Instrukcijų laikymasis

GPT‑5 instrukcijų laikosi patikimiau nei bet kuris jo pirmtakas ir surenka daug taškų COLLIE, „Scale Multichallenge“ bei mūsų vidaus instrukcijų sekimo vertinime.

COLLIE(atsidaro naujame lange) teste modeliai turi parašyti tekstą, atitinkantį įvairius apribojimus. „Scale MultiChallenge“(atsidaro naujame lange) teste modeliai tikrinami kelių žingsnių pokalbiuose, ar tinkamai naudoja keturių tipų informaciją iš ankstesnių žinučių. Mūsų balai gauti naudojant „o3‑mini“ kaip vertintoją, kuris buvo tikslesnis už „GPT‑4o“. Mūsų vidaus „OpenAI“ API instrukcijų sekimo vertinime modeliai turi laikytis sudėtingų instrukcijų, sudarytų remiantis realiais programuotojų atsiliepimais. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.

Įrankių iškvietimas

Labai stengėmės patobulinti įrankių iškvietimą programuotojams svarbiais aspektais. GPT‑5 geriau laikosi įrankių instrukcijų, geriau tvarkosi su įrankių klaidomis ir geriau iniciatyviai atlieka daug įrankių iškvietimų iš eilės arba lygiagrečiai. Gavęs nurodymą, GPT‑5 taip pat gali pateikti įžanginius pranešimus prieš įrankių iškvietimus ir tarp jų, kad informuotų naudotojus apie eigą atliekant ilgesnes agentines užduotis.

Prieš du mėnesius „Sierra.ai“ pristatė „t2-bench telecom“ – sudėtingą įrankių naudojimo lyginamąjį testą, kuris išryškino, kaip kalbos modelio našumas smarkiai krinta sąveikaujant su naudotojų keičiama aplinkos būsena. Jų publikacijoje(atsidaro naujame lange) nė vienas modelis nesurinko daugiau nei 49 proc. GPT‑5 surenka 97 proc.

τ2-bench(atsidaro naujame lange) teste modelis privalo naudoti įrankius, kad atliktų kliento aptarnavimo užduotį, kurioje gali dalyvauti naudotojas, galintis bendrauti ir atlikti veiksmus, keičiančius pasaulio būseną. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.

GPT‑5 taip pat demonstruoja didelius ilgo konteksto našumo patobulinimus. „OpenAI-MRCR“, ilgo konteksto informacijos gavimo matavime, GPT‑5 lenkia „o3“ ir GPT‑4.1 persvara, kuri, esant didesniam įvesties ilgiui, ženkliai išauga.

„OpenAI-MRCR“(atsidaro naujame lange) (kelių raundų bendrojo nuorodų nustatymo) teste kelios identiškos „adatos“ (naudotojo užklausos) įterpiamos į ilgas panašių užklausų ir atsakymų „šieno kupetas“, o modelio prašoma atkurti atsakymą į i-ąją adatą. Vidutinis atitikties santykis matuoja vidutinį eilučių atitikties santykį tarp modelio atsakymo ir teisingo atsakymo. Taškai ties 256 tūkst. maks. įvesties prieigos raktų reiškia vidurkius virš 128–256 tūkst. įvesties prieigos raktų ir t. t. Čia 256 tūkst. reiškia 256 * 1 024 = 262 114 prieigos raktų. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.

Taip pat atviruoju kodu skelbiame „BrowseComp Long Context“(atsidaro naujame lange) – naują lyginamąjį testą ilgo konteksto klausimams ir atsakymams vertinti. Šiame teste modeliui pateikiama naudotojo užklausa bei ilgas atitinkamų paieškos rezultatų sąrašas, ir jis privalo atsakyti į klausimą remdamasis paieškos rezultatais. Sukūrėme „BrowseComp Long Context“ taip, kad jis būtų realistiškas, sudėtingas ir turėtų patikimai teisingus pagrindinės tiesos atsakymus. Su 128–256 tūkst. prieigos raktų įvestimis GPT‑5 teisingą atsakymą pateikia 89 proc. atvejų.

API visi GPT‑5 modeliai gali priimti daugiausia 272 tūkst. įvesties prieigos raktų ir išduoti daugiausia 128 tūkst. samprotavimo bei išvesties prieigos raktų, o bendras konteksto ilgis sudaro 400 tūkst. prieigos raktų.

Faktinis tikslumas

GPT‑5 yra patikimesnis už ankstesnius mūsų modelius. Pagal „LongFact“ ir „FactScore“ lyginamųjų testų raginimus GPT‑5 daro 80 proc. mažiau faktinių klaidų nei „o3“. Todėl jis geriau tinka agentiniams naudojimo atvejams, kai svarbus teisingumas – ypač kodo, duomenų ir sprendimų priėmimo srityse.

Aukštesni balai reiškia prastesnį rezultatą. LongFact(atsidaro naujame lange) ir FActScore(atsidaro naujame lange) sudaro atvirojo tipo faktų paieškos klausimai. Naudojame LLM pagrįstą vertinimo programą su naršymo funkcija, kad patikrintume atsakymų į šių lyginamųjų testų raginimus faktus ir išmatuotume faktiškai neteisingų teiginių dalį. Įgyvendinimo ir vertinimo informaciją rasite sistemos kortelėje. Samprotavimo modeliai naudojo daug samprotavimo pastangų. Paieška nebuvo įjungta.

Apskritai GPT‑5 buvo mokomas geriau suvokti savo apribojimus ir geriau tvarkytis su netikėtumais. Taip pat mokėme GPT‑5 būti daug tikslesnį atsakant į sveikatos klausimus (skaitykite daugiau mūsų tyrimų tinklaraštyje). Kaip ir visų kalbos modelių atveju, kai rizika didelė, rekomenduojame patikrinti GPT‑5 darbą.

Naujos funkcijos

Minimalios samprotavimo pastangos

Programuotojai gali valdyti GPT‑5 galvojimo laiką naudodami API parametrą reasoning_effort. Be ankstesnių reikšmių – low, medium (numatytoji) ir high – GPT‑5 taip pat palaiko minimal, kuri minimizuoja GPT‑5 samprotavimą, kad atsakymas būtų pateiktas greitai.

Didesnės reasoning_effort reikšmės maksimizuoja kokybę, o mažesnės – greitį. Ne visoms užduotims papildomas samprotavimas vienodai naudingas, todėl rekomenduojame eksperimentuoti, kad pamatytumėte, kas geriausiai tinka jums aktualiems naudojimo atvejams.

Pavyzdžiui, samprotavimas, viršijantis reikšmę low, mažai prisideda prie palyginti paprasto ilgo konteksto informacijos gavimo, tačiau prideda nemažai procentinių punktų CharXiv Reasoning(atsidaro naujame lange) – vaizdinio samprotavimo lyginamajame teste.

GPT‑5 samprotavimo pastangos teikia skirtingą naudą atliekant skirtingas užduotis. „CharXiv Reasoning“ atveju GPT‑5 buvo suteikta prieiga prie „Python“ įrankio.

Išsamumas

Kad padėtume valdyti numatytąjį GPT‑5 atsakymų ilgį, pristatėme naują API parametrą verbosity, priimantį reikšmes low, medium (numatytoji) ir high. Jei aiškios instrukcijos prieštarauja „verbosity“ parametrams, pirmenybė teikiama aiškioms instrukcijoms. Pavyzdžiui, jei paprašysite GPT‑5: „parašyk 5 pastraipų rašinį“, modelio atsakymas visada turėtų būti 5 pastraipos, nepaisant parametro „verbosity“ lygio (tačiau pačios pastraipos gali būti ilgesnės arba trumpesnės).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Įžanginiai pranešimai prieš įrankių iškvietimus

Gavęs nurodymą, GPT‑5 pateiks naudotojui matomus įžanginius pranešimus prieš įrankių iškvietimus ir tarp jų. Skirtingai nei paslėpti samprotavimo pranešimai, šie matomi pranešimai leidžia GPT‑5 perduoti planus bei eigą naudotojui, padėdami galutiniams naudotojams suprasti jo metodą ir ketinimus atliekant įrankių iškvietimus.

Pasirinktiniai įrankiai

Pristatome naują įrankių tipą – pasirinktinius įrankius, leidžiančius GPT‑5 iškviesti įrankį naudojant paprastąjį tekstą, o ne JSON. Norėdami apriboti GPT‑5, kad šis laikytųsi pasirinktinių įrankių formatų, programuotojai gali pateikti reguliariąją išraišką („regex“) arba dar tiksliau apibrėžtą bekontekstę gramatiką(atsidaro naujame lange).

Anksčiau mūsų sąsajoje, skirtoje programuotojų apibrėžtiems įrankiams, būdavo būtina, kad įrankiai būtų iškviečiami naudojant JSON – įprastą formatą, kurį naudojo saityno API ir programuotojai. Tačiau norint išduoti tinkamą JSON, modelis privalo tinkamai užmaskuoti visas kabutes, kairinius brūkšnius, naujas eilutes ir kitus valdymo simbolius. Nors mūsų modeliai gerai išmokyti išduoti JSON, esant ilgoms įvestims, pavyzdžiui, šimtams kodo eilučių ar 5 puslapių ataskaitai, klaidos tikimybė išauga. Naudodamas pasirinktinius įrankius, GPT‑5 gali rašyti įrankių įvestis paprastuoju tekstu, neprivalėdamas užmaskuoti visų simbolių, kuriems to reikia.

„SWE-bench Verified“ teste naudojant pasirinktinius įrankius vietoje JSON įrankių, GPT‑5 surenka maždaug tiek pat taškų.

Sauga

GPT‑5 plečia saugos ribas ir yra patvaresnis, patikimesnis bei naudingesnis modelis. Tikimybė, kad GPT‑5 prasimanys faktus, yra žymiai mažesnė nei ankstesnių mūsų modelių; jis sąžiningiau informuoja naudotoją apie savo veiksmus bei galimybes ir pateikia naudingiausią įmanomą atsakymą, vis tiek neperžengdamas saugos ribų. Daugiau galite paskaityti mūsų tyrimų tinklaraštyje.

Prieinamumas ir kainos

GPT‑5 jau dabar prieinamas API platformoje trijų dydžių: gpt-5, gpt-5-mini ir gpt-5-nano. Jis prieinamas „Responses API“, „Chat Completions API“ ir yra numatytasis modelis „Codex“ CLI programoje. GPT‑5 kaina yra 1,25 USD už 1 mln. įvesties prieigos raktų ir 10 USD už 1 mln. išvesties prieigos raktų, „GPT‑5 mini“ kaina – 0,25 USD už 1 mln. įvesties prieigos raktų ir 2 USD už 1 mln. išvesties prieigos raktų, o „GPT‑5 nano“ – 0,05 USD už 1 mln. įvesties prieigos raktų ir 0,40 USD už 1 mln. išvesties prieigos raktų.

Šie modeliai palaiko reasoning_effort ir verbosity API parametrus bei pasirinktinius įrankius. Jie taip pat palaiko lygiagretų įrankių iškvietimą, integruotus įrankius (paiešką internete, failų paiešką, vaizdų generavimą ir kt.), pagrindines API funkcijas (srautinį siuntimą, susistemintas išvestis ir kt.) bei sąnaudas taupančias funkcijas, tokias kaip raginimų talpykla ir „Batch API“.

Nesamprotaujanti GPT‑5 versija, naudojama „ChatGPT“, API pasiekiama kaip gpt-5-chat-latest; jos kaina taip pat yra 1,25 USD už 1 mln. įvesties prieigos raktų ir 10 USD už 1 mln. išvesties prieigos raktų.

GPT‑5 taip pat pradedamas naudoti „Microsoft“ platformose, įskaitant „Microsoft 365 Copilot“, „Copilot“, „GitHub Copilot“ ir „Azure AI Foundry“.

Išsamūs lyginamieji testai

Intelektas
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Skaičiai šiek tiek skiriasi nuo anksčiau publikuotų mūsų tinklaraštyje, nes jie buvo gauti naudojant ankstesnę HLE versiją.

Multimodalinis
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programavimas
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tūkst. USD75 tūkst. USD49 tūkst. USD86 tūkst. USD66 tūkst. USD34 tūkst. USD31 tūkst. USD9 tūkst. USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Neįtraukiame 23/500 problemų, kurios negalėjo būti vykdomos mūsų infrastruktūroje. Visas sąrašas iš 23 neįtrauktų užduočių: „astropy_astropy-7606“, „astropy_astropy-8707“, „astropy_astropy-8872“, „django_django-10097“, „django_django-7530“, „matplotlib_matplotlib-20488“, „matplotlib_matplotlib-20676“, „matplotlib_matplotlib-20826“, „matplotlib_matplotlib-23299“, „matplotlib_matplotlib-24970“, „matplotlib_matplotlib-25479“, „matplotlib_matplotlib-26342“, „psf_requests-6028“, „pylint-dev_pylint-6528“, „pylint-dev_pylint-7080“, „pylint-dev_pylint-7277“, „pytest-dev_pytest-5262“, „pytest-dev_pytest-7521“, „scikit-learn_scikit-learn-12973“, „sphinx-doc_sphinx-10466“, „sphinx-doc_sphinx-7462“, „sphinx-doc_sphinx-8265“ ir „sphinx-doc_sphinx-9367“.

Instrukcijų laikymasis
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Pastaba: nustatėme, kad numatytasis vertintojas „MultiChaltenge“ (GPT-4o) dažnai neteisingai įvertina modelio atsakymus. Pastebėjome, kad pakeitus vertintoją samprotavimo modeliu, pavyzdžiui, pavyzdžiui, „o3-mini“, žymiai pagerėja vertinimo tikslumas mūsų tikrintuose pavyzdžiuose.

Funkcijų iškvietimas
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Ilgas kontekstas
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Haliucinacijos
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autorius

OpenAI