Šiandien mūsų API platformoje išleidžiame GPT‑5 – geriausią iki šiol sukurtą programavimo ir agentinėms užduotims.
GPT‑5 yra pažangiausias (SOTA) modelis pagrindiniuose programavimo lyginamuosiuose testuose: „SWE-bench Verified“ surinko 74,9 proc., o „Alder polyglot“ – 88 proc. Mokėme GPT‑5 būti tikru programavimo bendradarbiu. Jis puikiai kuria aukštos kokybės kodą ir atlieka tokias užduotis kaip riktų taisymas, kodo redagavimas bei atsakymas į klausimus apie sudėtingas kodų bazes. Modelis yra valdomas ir linkęs bendradarbiauti – jis gali labai tiksliai laikytis išsamių instrukcijų ir pateikti išankstinius savo veiksmų paaiškinimus prieš įrankių iškvietimus ir tarp jų. Modelis taip pat puikiai programuoja naudotojo sąsajas – vidaus bandymuose 70 proc. atvejų lenkė „OpenAI o3“ kuriant saityno naudotojo sąsajas.
Mokėme GPT‑5 atlikdami realias programavimo užduotis ir bendradarbiaudami su ankstyvaisiais bandytojais startuoliuose bei įmonėse. Cursor „Cursor“ teigia, kad GPT‑5 yra „išmaniausias modelis, kokį [jie] naudojo“ ir „nepaprastai sumanus, lengvai valdomas bei pasižymintis asmenybe, kurios [jie] nematė kituose modeliuose“. „Windsurf“ pasidalijo, kad GPT‑5 yra pažangiausias (SOTA) jų vertinimuose ir „daro perpus mažiau įrankių iškvietimo klaidų nei kiti pažangūs modeliai“. Vercel teigia: „Tai geriausias naudotojo sąsajos DI modelis, pasiekiantis aukščiausią našumą tiek estetikos, tiek kodo kokybės srityse, todėl išsiskiria savo kategorijoje.“
GPT‑5 taip pat puikiai atlieka ilgai trunkančias agentines užduotis – pasiekė SOTA rezultatus „τ2-bench telecom“ (96,7 proc.) – įrankių iškvietimo lyginamajame teste, išleistame vos prieš du mėnesius. Patobulintas GPT‑5 įrankių intelektas leidžia patikimai sujungti dešimtis įrankių iškvietimų – tiek nuosekliai, tiek lygiagrečiai – nenukrypstant nuo tikslo, todėl jis daug geriau atlieka sudėtingas, realias užduotis nuo pradžios iki galo. Jis taip pat tiksliau laikosi įrankių instrukcijų, geriau tvarkosi su įrankių klaidomis ir puikiai atrenka turinį iš ilgo konteksto. Manus teigia, kad GPT‑5 „pasiekė geriausią našumą, kokį [jie] kada nors matė viename modelyje [savo] vidaus palyginimuose“.Notion teigia, kad „greiti [modelio] atsakymai, ypač mažo samprotavimo režimu, paverčia GPT‑5 idealiu modeliu, kai reikia vienu ypu išspręsti sudėtingas užduotis“. Inditex pasidalijo: „Tai, kas iš tikrųjų išskiria [GPT‑5], yra samprotavimo gylis: niuansuoti, daugiasluoksniai atsakymai, atspindintys tikrą dalyko supratimą.“
Pristatome naujas API funkcijas, suteiksiančias programuotojams daugiau modelio atsakymų kontrolės. GPT‑5 palaiko naują parametrą verbosity parametro palaikymą (reikšmės: low, medium, high), padedantį valdyti, ar atsakymai bus trumpi ir konkretūs, ar ilgi ir išsamūs. GPT‑5 parametras reasoning_effort dabar gali priimti reikšmę „minimal“, kad atsakymai būtų gaunami greičiau, be išsamaus išankstinio samprotavimo. Taip pat pridėjome naują įrankių tipą – pasirinktinius įrankius. Dabar GPT‑5 gali iškviesti įrankius naudodamas paprastąjį tekstą, o ne JSON. Pasirinktinius įrankius galima apriboti naudojant programuotojo pateiktas bekontekstes gramatikas.
API išleidžiame trijų dydžių GPT‑5 –gpt-5, gpt-5-mini ir gpt-5-nano–, kad suteiktume programuotojams daugiau lankstumo derinant našumą, kainą ir delsos laiką. Nors „ChatGPT“ veikiantis GPT‑5 yra samprotavimo, nesamprotavimo ir maršruto parinkimo modelių sistema, API platformoje GPT‑5 yra samprotavimo modelis, užtikrinantis maksimalų našumą „ChatGPT“. Pažymėtina, kad GPT‑5 su minimaliu samprotavimu yra kitoks modelis nei nesamprotaujantis modelis „ChatGPT“ ir yra geriau pritaikytas programuotojams. Nesamprotaujantis modelis, naudojamas „ChatGPT“, pasiekiamas kaip gpt-5-chat-latest.
Norėdami paskaityti apie GPT‑5 „ChatGPT“ ir sužinoti daugiau apie kitus „ChatGPT“ patobulinimus, žr. mūsų tyrimų tinklaraštį. Daugiau apie tai, kaip įmonės džiaugiasi naudodamos GPT‑5, rasite mūsų įmonių tinklaraštyje.
GPT‑5 yra stipriausias mūsų kada nors išleistas programavimo modelis. Jis lenkia „o3“ programavimo lyginamuosiuose testuose bei realiose naudojimo situacijose ir buvo koreguotas taip, kad puikiai veiktų agentiniuose programavimo produktuose, tokiuose kaip „Cursor“, „Windsurf“, „GitHub Copilot“ ir „Codex“ CLI. GPT‑5 padarė įspūdį mūsų alfa bandytojams ir sumušė rekordus daugelyje jų privačių vidaus vertinimų.
Early feedback on GPT‑5 for real-world coding tasks
“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
„SWE-bench Verified“ – vertinime, pagrįstame realiomis programų inžinerijos užduotimis, – GPT‑5 surinko 74,9 proc. („o3“ rezultatas – 69,1 proc.). Pažymėtina, kad aukštą įvertinimą GPT‑5 pasiekia efektyviau ir greičiau: palyginti su „o3“, kuris deda dideles samprotavimo pastangas, GPT‑5 sunaudoja 22 proc. mažiau išvesties prieigos raktų ir 45 proc. mažiau įrankių iškvietimų.
„SWE-bench Verified“ teste modeliui pateikiama kodo saugykla bei problemos aprašymas, ir jis turi sugeneruoti pataisą problemai išspręsti. Teksto etiketės nurodo samprotavimo pastangas. Mūsų balai neįtraukia 23 iš 500 problemų, kurių sprendimai mūsų infrastruktūroje nebuvo patikimai patvirtinti. GPT‑5 buvo pateiktas trumpas raginimas, pabrėžiant kruopštų sprendimų tikrinimą; toks pat raginimas „o3“ naudos nedavė.
„Alder polyglot“ kodo redagavimo vertinime GPT‑5 pasiekė naują 88 proc. rekordą – klaidų lygis sumažėjo trečdaliu, palyginti su „o3“.
„Aider polygot“(atsidaro naujame lange) (skirtumų) teste modeliui pateikiamas programavimo pratimas iš „Exercism“ ir jis turi parašyti sprendimą kaip kodo skirtumą (diff). Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.
Taip pat pastebėjome, kad GPT‑5 puikiai geba giliai nagrinėti kodų bazes, kad atsakytų į klausimus apie tai, kaip veikia ar sąveikauja įvairios dalys. Net tokioje sudėtingoje kodų bazėje kaip „OpenAI“ pastiprinimo mokymosi infrastruktūra pastebime, kad GPT‑5 gali padėti mums samprotauti ir atsakyti į klausimus apie kodą, taip pagreitindamas mūsų kasdienį darbą.
Kuriant saityno programų naudotojo sąsajos kodą, GPT‑5 labiau atsižvelgia į estetiką, yra ambicingesnis ir tikslesnis. Tiesioginiuose palyginimuose su „o3“ mūsų bandytojai 70 proc. atvejų pirmenybę teikė GPT‑5.
Štai keletas smagių, atrinktų pavyzdžių, ką GPT‑5 gali atlikti gavęs vieną raginimą:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Daugiau GPT‑5 pavyzdžių rasite mūsų galerijoje čia(atsidaro naujame lange).
GPT‑5 yra geresnis bendradarbis, ypač naudojant agentinius programavimo produktus, tokius kaip „Cursor“, „Windsurf“, „GitHub Copilot“ ir „Codex“ CLI. Dirbdamas GPT‑5 gali pateikti planus, atnaujinimus ir santraukas tarp įrankių iškvietimų. Palyginti su ankstesniais mūsų modeliais, GPT‑5 yra iniciatyvesnis atlikdamas ambicingas užduotis – nestabteli laukdamas jūsų pritarimo ir nestringa dėl didelio sudėtingumo.
Štai pavyzdys, kaip GPT‑5 gali atrodyti sprendžiant sudėtingą užduotį (šiuo atveju – kuriant restorano interneto svetainę):
After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.
GPT‑5 yra geresnis ne tik agentiniame programavime, bet ir bendrai atliekant agentines užduotis. GPT‑5 sumušė naujus rekordus instrukcijų sekimo (69,6 proc. „Scale Multichallenge“, vertinant „o3‑mini“) ir įrankių iškvietimo (96,7 proc. „t2-bench telecom“) lyginamuosiuose testuose. Patobulintas įrankių intelektas leidžia GPT‑5 patikimiau sujungti veiksmus atliekant realias užduotis.
Ankstyvieji atsiliepimai apie GPT‑5 agentinėms užduotims
„GPT-5 yra didelis žingsnis į priekį. Jis pasiekė didžiausią našumą, kokį esame matę iš vieno modelio vidaus vertinimuose. GPT-5 puikiai pasirodė įvairiose agentinėse užduotyse – net prieš mums pakoreguojant bent vieną kodo eilutę ar pritaikant raginimą. Naujos įžangos ir tikslesnis įrankių naudojimo valdymas leido pasiekti reikšmingą šuolį mūsų agentų stabilumo ir valdymo srityse.
GPT‑5 instrukcijų laikosi patikimiau nei bet kuris jo pirmtakas ir surenka daug taškų COLLIE, „Scale Multichallenge“ bei mūsų vidaus instrukcijų sekimo vertinime.
COLLIE(atsidaro naujame lange) teste modeliai turi parašyti tekstą, atitinkantį įvairius apribojimus. „Scale MultiChallenge“(atsidaro naujame lange) teste modeliai tikrinami kelių žingsnių pokalbiuose, ar tinkamai naudoja keturių tipų informaciją iš ankstesnių žinučių. Mūsų balai gauti naudojant „o3‑mini“ kaip vertintoją, kuris buvo tikslesnis už „GPT‑4o“. Mūsų vidaus „OpenAI“ API instrukcijų sekimo vertinime modeliai turi laikytis sudėtingų instrukcijų, sudarytų remiantis realiais programuotojų atsiliepimais. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.
Labai stengėmės patobulinti įrankių iškvietimą programuotojams svarbiais aspektais. GPT‑5 geriau laikosi įrankių instrukcijų, geriau tvarkosi su įrankių klaidomis ir geriau iniciatyviai atlieka daug įrankių iškvietimų iš eilės arba lygiagrečiai. Gavęs nurodymą, GPT‑5 taip pat gali pateikti įžanginius pranešimus prieš įrankių iškvietimus ir tarp jų, kad informuotų naudotojus apie eigą atliekant ilgesnes agentines užduotis.
Prieš du mėnesius „Sierra.ai“ pristatė „t2-bench telecom“ – sudėtingą įrankių naudojimo lyginamąjį testą, kuris išryškino, kaip kalbos modelio našumas smarkiai krinta sąveikaujant su naudotojų keičiama aplinkos būsena. Jų publikacijoje(atsidaro naujame lange) nė vienas modelis nesurinko daugiau nei 49 proc. GPT‑5 surenka 97 proc.
τ2-bench(atsidaro naujame lange) teste modelis privalo naudoti įrankius, kad atliktų kliento aptarnavimo užduotį, kurioje gali dalyvauti naudotojas, galintis bendrauti ir atlikti veiksmus, keičiančius pasaulio būseną. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.
GPT‑5 taip pat demonstruoja didelius ilgo konteksto našumo patobulinimus. „OpenAI-MRCR“, ilgo konteksto informacijos gavimo matavime, GPT‑5 lenkia „o3“ ir GPT‑4.1 persvara, kuri, esant didesniam įvesties ilgiui, ženkliai išauga.
„OpenAI-MRCR“(atsidaro naujame lange) (kelių raundų bendrojo nuorodų nustatymo) teste kelios identiškos „adatos“ (naudotojo užklausos) įterpiamos į ilgas panašių užklausų ir atsakymų „šieno kupetas“, o modelio prašoma atkurti atsakymą į i-ąją adatą. Vidutinis atitikties santykis matuoja vidutinį eilučių atitikties santykį tarp modelio atsakymo ir teisingo atsakymo. Taškai ties 256 tūkst. maks. įvesties prieigos raktų reiškia vidurkius virš 128–256 tūkst. įvesties prieigos raktų ir t. t. Čia 256 tūkst. reiškia 256 * 1 024 = 262 114 prieigos raktų. Samprotavimo modeliai veikė naudodami daug samprotavimo pastangų.
Taip pat atviruoju kodu skelbiame „BrowseComp Long Context“(atsidaro naujame lange) – naują lyginamąjį testą ilgo konteksto klausimams ir atsakymams vertinti. Šiame teste modeliui pateikiama naudotojo užklausa bei ilgas atitinkamų paieškos rezultatų sąrašas, ir jis privalo atsakyti į klausimą remdamasis paieškos rezultatais. Sukūrėme „BrowseComp Long Context“ taip, kad jis būtų realistiškas, sudėtingas ir turėtų patikimai teisingus pagrindinės tiesos atsakymus. Su 128–256 tūkst. prieigos raktų įvestimis GPT‑5 teisingą atsakymą pateikia 89 proc. atvejų.
API visi GPT‑5 modeliai gali priimti daugiausia 272 tūkst. įvesties prieigos raktų ir išduoti daugiausia 128 tūkst. samprotavimo bei išvesties prieigos raktų, o bendras konteksto ilgis sudaro 400 tūkst. prieigos raktų.
GPT‑5 yra patikimesnis už ankstesnius mūsų modelius. Pagal „LongFact“ ir „FactScore“ lyginamųjų testų raginimus GPT‑5 daro 80 proc. mažiau faktinių klaidų nei „o3“. Todėl jis geriau tinka agentiniams naudojimo atvejams, kai svarbus teisingumas – ypač kodo, duomenų ir sprendimų priėmimo srityse.
Aukštesni balai reiškia prastesnį rezultatą. LongFact(atsidaro naujame lange) ir FActScore(atsidaro naujame lange) sudaro atvirojo tipo faktų paieškos klausimai. Naudojame LLM pagrįstą vertinimo programą su naršymo funkcija, kad patikrintume atsakymų į šių lyginamųjų testų raginimus faktus ir išmatuotume faktiškai neteisingų teiginių dalį. Įgyvendinimo ir vertinimo informaciją rasite sistemos kortelėje. Samprotavimo modeliai naudojo daug samprotavimo pastangų. Paieška nebuvo įjungta.
Apskritai GPT‑5 buvo mokomas geriau suvokti savo apribojimus ir geriau tvarkytis su netikėtumais. Taip pat mokėme GPT‑5 būti daug tikslesnį atsakant į sveikatos klausimus (skaitykite daugiau mūsų tyrimų tinklaraštyje). Kaip ir visų kalbos modelių atveju, kai rizika didelė, rekomenduojame patikrinti GPT‑5 darbą.
Programuotojai gali valdyti GPT‑5 galvojimo laiką naudodami API parametrą reasoning_effort. Be ankstesnių reikšmių – low, medium (numatytoji) ir high – GPT‑5 taip pat palaiko minimal, kuri minimizuoja GPT‑5 samprotavimą, kad atsakymas būtų pateiktas greitai.
Didesnės reasoning_effort reikšmės maksimizuoja kokybę, o mažesnės – greitį. Ne visoms užduotims papildomas samprotavimas vienodai naudingas, todėl rekomenduojame eksperimentuoti, kad pamatytumėte, kas geriausiai tinka jums aktualiems naudojimo atvejams.
Pavyzdžiui, samprotavimas, viršijantis reikšmę low, mažai prisideda prie palyginti paprasto ilgo konteksto informacijos gavimo, tačiau prideda nemažai procentinių punktų CharXiv Reasoning(atsidaro naujame lange) – vaizdinio samprotavimo lyginamajame teste.
GPT‑5 samprotavimo pastangos teikia skirtingą naudą atliekant skirtingas užduotis. „CharXiv Reasoning“ atveju GPT‑5 buvo suteikta prieiga prie „Python“ įrankio.
Kad padėtume valdyti numatytąjį GPT‑5 atsakymų ilgį, pristatėme naują API parametrą verbosity, priimantį reikšmes low, medium (numatytoji) ir high. Jei aiškios instrukcijos prieštarauja „verbosity“ parametrams, pirmenybė teikiama aiškioms instrukcijoms. Pavyzdžiui, jei paprašysite GPT‑5: „parašyk 5 pastraipų rašinį“, modelio atsakymas visada turėtų būti 5 pastraipos, nepaisant parametro „verbosity“ lygio (tačiau pačios pastraipos gali būti ilgesnės arba trumpesnės).
Verbosity=low
Verbosity=medium
Verbosity=high
Gavęs nurodymą, GPT‑5 pateiks naudotojui matomus įžanginius pranešimus prieš įrankių iškvietimus ir tarp jų. Skirtingai nei paslėpti samprotavimo pranešimai, šie matomi pranešimai leidžia GPT‑5 perduoti planus bei eigą naudotojui, padėdami galutiniams naudotojams suprasti jo metodą ir ketinimus atliekant įrankių iškvietimus.
Pristatome naują įrankių tipą – pasirinktinius įrankius, leidžiančius GPT‑5 iškviesti įrankį naudojant paprastąjį tekstą, o ne JSON. Norėdami apriboti GPT‑5, kad šis laikytųsi pasirinktinių įrankių formatų, programuotojai gali pateikti reguliariąją išraišką („regex“) arba dar tiksliau apibrėžtą bekontekstę gramatiką(atsidaro naujame lange).
Anksčiau mūsų sąsajoje, skirtoje programuotojų apibrėžtiems įrankiams, būdavo būtina, kad įrankiai būtų iškviečiami naudojant JSON – įprastą formatą, kurį naudojo saityno API ir programuotojai. Tačiau norint išduoti tinkamą JSON, modelis privalo tinkamai užmaskuoti visas kabutes, kairinius brūkšnius, naujas eilutes ir kitus valdymo simbolius. Nors mūsų modeliai gerai išmokyti išduoti JSON, esant ilgoms įvestims, pavyzdžiui, šimtams kodo eilučių ar 5 puslapių ataskaitai, klaidos tikimybė išauga. Naudodamas pasirinktinius įrankius, GPT‑5 gali rašyti įrankių įvestis paprastuoju tekstu, neprivalėdamas užmaskuoti visų simbolių, kuriems to reikia.
„SWE-bench Verified“ teste naudojant pasirinktinius įrankius vietoje JSON įrankių, GPT‑5 surenka maždaug tiek pat taškų.
GPT‑5 plečia saugos ribas ir yra patvaresnis, patikimesnis bei naudingesnis modelis. Tikimybė, kad GPT‑5 prasimanys faktus, yra žymiai mažesnė nei ankstesnių mūsų modelių; jis sąžiningiau informuoja naudotoją apie savo veiksmus bei galimybes ir pateikia naudingiausią įmanomą atsakymą, vis tiek neperžengdamas saugos ribų. Daugiau galite paskaityti mūsų tyrimų tinklaraštyje.
GPT‑5 jau dabar prieinamas API platformoje trijų dydžių: gpt-5, gpt-5-mini ir gpt-5-nano. Jis prieinamas „Responses API“, „Chat Completions API“ ir yra numatytasis modelis „Codex“ CLI programoje. GPT‑5 kaina yra 1,25 USD už 1 mln. įvesties prieigos raktų ir 10 USD už 1 mln. išvesties prieigos raktų, „GPT‑5 mini“ kaina – 0,25 USD už 1 mln. įvesties prieigos raktų ir 2 USD už 1 mln. išvesties prieigos raktų, o „GPT‑5 nano“ – 0,05 USD už 1 mln. įvesties prieigos raktų ir 0,40 USD už 1 mln. išvesties prieigos raktų.
Šie modeliai palaiko reasoning_effort ir verbosity API parametrus bei pasirinktinius įrankius. Jie taip pat palaiko lygiagretų įrankių iškvietimą, integruotus įrankius (paiešką internete, failų paiešką, vaizdų generavimą ir kt.), pagrindines API funkcijas (srautinį siuntimą, susistemintas išvestis ir kt.) bei sąnaudas taupančias funkcijas, tokias kaip raginimų talpykla ir „Batch API“.
Nesamprotaujanti GPT‑5 versija, naudojama „ChatGPT“, API pasiekiama kaip gpt-5-chat-latest; jos kaina taip pat yra 1,25 USD už 1 mln. įvesties prieigos raktų ir 10 USD už 1 mln. išvesties prieigos raktų.
GPT‑5 taip pat pradedamas naudoti „Microsoft“ platformose, įskaitant „Microsoft 365 Copilot“, „Copilot“, „GitHub Copilot“ ir „Azure AI Foundry“.
Norėdami pradėti, peržiūrėkite GPT‑5 dokumentaciją(atsidaro naujame lange), informaciją apie kainas(atsidaro naujame lange) ir raginimų vadovą(atsidaro naujame lange).
Intelektas
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Skaičiai šiek tiek skiriasi nuo anksčiau publikuotų mūsų tinklaraštyje, nes jie buvo gauti naudojant ankstesnę HLE versiją.
Multimodalinis
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Programavimas
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tūkst. USD | 75 tūkst. USD | 49 tūkst. USD | 86 tūkst. USD | 66 tūkst. USD | 34 tūkst. USD | 31 tūkst. USD | 9 tūkst. USD |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Neįtraukiame 23/500 problemų, kurios negalėjo būti vykdomos mūsų infrastruktūroje. Visas sąrašas iš 23 neįtrauktų užduočių: „astropy_astropy-7606“, „astropy_astropy-8707“, „astropy_astropy-8872“, „django_django-10097“, „django_django-7530“, „matplotlib_matplotlib-20488“, „matplotlib_matplotlib-20676“, „matplotlib_matplotlib-20826“, „matplotlib_matplotlib-23299“, „matplotlib_matplotlib-24970“, „matplotlib_matplotlib-25479“, „matplotlib_matplotlib-26342“, „psf_requests-6028“, „pylint-dev_pylint-6528“, „pylint-dev_pylint-7080“, „pylint-dev_pylint-7277“, „pytest-dev_pytest-5262“, „pytest-dev_pytest-7521“, „scikit-learn_scikit-learn-12973“, „sphinx-doc_sphinx-10466“, „sphinx-doc_sphinx-7462“, „sphinx-doc_sphinx-8265“ ir „sphinx-doc_sphinx-9367“.
Instrukcijų laikymasis
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Pastaba: nustatėme, kad numatytasis vertintojas „MultiChaltenge“ (GPT-4o) dažnai neteisingai įvertina modelio atsakymus. Pastebėjome, kad pakeitus vertintoją samprotavimo modeliu, pavyzdžiui, pavyzdžiui, „o3-mini“, žymiai pagerėja vertinimo tikslumas mūsų tikrintuose pavyzdžiuose.
Funkcijų iškvietimas
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Ilgas kontekstas
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Haliucinacijos
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


