Danas objavljujemo GPT‑5 na našoj API platformi – naš dosad najbolji model za kodiranje i agentske zadatke.
GPT‑5 je najsuvremeniji (SOTA) na ključnim referentnim testovima kodiranja, s rezultatom od 74,9 % na evaluaciji SWE-bench Verified i 88 % na evaluaciji Aider polyglot. Obučili smo GPT‑5 da bude pravi suradnik u kodiranju. Izvrsno se ističe u izradi visokokvalitetnog koda i rješavanju zadataka kao što su ispravljanje pogrešaka, uređivanje koda i odgovaranje na pitanja o složenim kodnim bazama. Model je upravljiv i suradnički – može slijediti vrlo detaljne upute s visokom točnošću i može unaprijed dati objašnjenja svojih radnji prije i između poziva alata. Model se također ističe u kodiranju korisničkog sučelja, pobjeđujući OpenAI o3 u razvoju korisničkog sučelja u 70 % slučajeva u internom testiranju.
Obučili smo GPT‑5 na stvarnim zadacima kodiranja u suradnji s ranim testerima iz startupova i poduzeća. Cursor kaže da je GPT‑5 „najpametniji model koji su koristili“ i „izvanredno inteligentan, jednostavan za upravljanje, pa čak ima i osobnost kakvu nisu vidjeli kod ostalih modela“. Windsurf je objavio da je GPT‑5 SOTA na njihovim evaluacijama i „ima upola manju stopu pogrešaka u pozivanju alata u usporedbi s ostalim naprednim modelima“. Vercel kaže „to je najbolji frontend model umjetne inteligencije, koji postiže vrhunske performanse u estetskom smislu i kvaliteti koda, svrstavajući ga u vlastitu kategoriju“.
GPT‑5 se također ističe u dugotrajnim agentskim zadacima – postižući SOTA rezultate na τ2-bench telecom (96,7%), referentnom testu za pozivanje alata objavljenom prije samo 2 mjeseca. Poboljšana inteligencija alata na modelu GPT‑5 omogućuje mu pouzdano povezivanje desetaka poziva alata – bilo u nizu ili paralelno – bez gubitka smjera, čineći ga daleko boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja. Također, preciznije slijedi upute alata, bolje rukuje pogreškama alata i ističe se u pretraživanju sadržaja u dugom kontekstu. Manus kaže da je GPT‑5 „postigao najbolje performanse koje su ikada vidjeli od jednog modela na njihovim internim referentnim testovima“. Notion kaže: „[brzi] odgovori modela, osobito u načinu niskog prosuđivanja, čine GPT‑5 idealnim modelom kada trebate riješiti složene zadatke u jednom pokušaju". Inditex je podijelio „ono što [GPT‑5] zaista izdvaja jest dubina njegovog prosuđivanja: nijansirani, višeslojni odgovori koji odražavaju stvarno razumijevanje teme“.
Uvodimo nove značajke u naš API kako bismo razvojnim inženjerima omogućili veću kontrolu nad odgovorima modela. GPT‑5 podržava novi parametar rječitosti (vrijednosti: nisko, srednje, visoko) kako bi vam pomogao kontrolirati jesu li odgovori kratki i sažeti ili dugi i sveobuhvatni. Parametar reasoning_effort za GPT‑5 sada može imati minimalnu vrijednost kako bi se odgovori natrag dobili brže, bez prethodnog opsežnog prosuđivanja. Također smo dodali novu vrstu alata – prilagođene alate – kako bismo omogućili modelu GPT‑5 da poziva alate u datoteci plaintext umjesto u datoteci JSON. Prilagođeni alati podržavaju ograničavanje pomoću gramatika bez konteksta koje pružaju razvojni inženjeri.
Objavljujemo GPT‑5 u tri veličine u API-ju – gpt-5, gpt-5-mini i gpt-5-nano – kako bismo razvojnim inženjerima omogućili veću fleksibilnost u balansiranju između performansi, troškova i kašnjenja. Dok je GPT‑5 u ChatGPT‑ju sustav modela prosuđivanja, neprosuđivanja i usmjerivanja, GPT‑5 na API platformi je model prosuđivanja koji omogućuje maksimalne performanse u ChatGPT‑ju. Značajno je da je GPT‑5 s minimalnim prosuđivanjem drugačiji model od modela bez prosuđivanja u ChatGPT‑ju i bolje je prilagođen razvojnim inženjerima. Model bez prosuđivanja korišten u ChatGPT‑ju dostupan je kao gpt-5-chat-latest.
Kako biste pročitali o modelu GPT‑5 na aplikaciji ChatGPT i saznali više o ostalim poboljšanjima ChatGPT‑ja, pogledajte naš istraživački blog. Za više informacija o tome kakvo je raspoloženje u poduzećima zbog GPT‑5‑ja, pogledajte naš poduzetnički blog.
GPT‑5 je najjači model za kodiranje koji smo ikada objavili. Nadmašuje model o3 u svim testovima kodiranja i stvarnim slučajevima upotrebe te je fino ugođen da zablista u proizvodima za kodiranje agentskih zadataka kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. GPT‑5 je impresionirao naše alfa testere, postavljajući rekorde na mnogim njihovim privatnim internim evaluacijama.
Rane povratne informacije o modelu GPT‑5 za stvarne zadatke kodiranja
„GPT-5 je najpametniji model za kodiranje koji smo koristili. Naš tim je otkrio da je GPT-5 iznimno inteligentan, lako ga je usmjeravati i čak ima osobnost kakvu nismo vidjeli ni u jednom drugom modelu. Ne samo da otkriva lukave, duboko skrivene pogreške, već može i pokretati duge, višestruke pozadinske agente kako bi dovršio složene zadatke, vrste problema koji su prije ostavljali druge modele zaglavljenima. Postao je naš svakodnevni alat za sve, od određivanja opsega i planiranja PR-ova do dovršetka nadogradnji s kraja na kraj.“
Na SWE-bench Verified, evaluaciji temeljenoj na stvarnim zadacima softverskog inženjerstva, GPT‑5 postiže 74,9 %, što je porast u odnosu na 69,1 % kod modela o3. Značajno je da GPT‑5 postiže svoj visoki rezultat s većom učinkovitošću i brzinom: u usporedbi s modelom o3 pri velikom naporu u prosuđivanju, GPT‑5 upotrebljava 22 % manje izlaznih tokena i 45% manje poziva alata.
U evaluaciji SWE-bench Verified modelu se dodjeljuje repozitorij koda i opis problema te mora generirati zakrpu za rješavanje problema. Tekstualne oznake označavaju napor u prosuđivanju. Naši rezultati izostavljaju 23 od 500 problema čija rješenja nisu pouzdano prošla na našoj infrastrukturi. GPT‑5 je dobio kratki odzivnik koji je naglašavao temeljito provjeriti valjanost rješenja; isti odzivnik nije bio od koristi na modelu o3.
Na Aider polyglot, evaluaciji uređivanja koda, GPT‑5 postavlja novi rekord od 88 %, što predstavlja smanjenje stope pogrešaka za trećinu u usporedbi s modelom o3.
U testu Aider polygot(otvara se u novom prozoru) (diff) modelu se daje vježba kodiranja iz Exercisma i mora napisati svoje rješenje kao razliku koda. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.
Također smo otkrili da je GPT‑5 izvrstan u dubinskom istraživanju kodnih baza kako bi odgovorio na pitanja o tome kako različiti dijelovi funkcioniraju ili međusobno djeluju. U kodnoj bazi složenoj poput OpenAI-jevog niza za učenje putem povratnih informacija, otkrivamo da nam GPT‑5 može pomoći prosuditi i odgovarati na pitanja o našem kodu, ubrzavajući naš svakodnevni rad.
Prilikom izrade frontend koda za mrežne aplikacije, GPT‑5 je estetski osvješteniji, ambiciozniji i precizniji. U usporedbama jedan na jedan s modelom o3, naši su testeri preferirali GPT‑5 u 70 % slučajeva.
Evo nekoliko zabavnih, pažljivo odabranih primjera što GPT‑5 može učiniti s jednim odzivnikom:
Odzivnik: Molimo vas da generirate lijepu, realističnu odredišnu stranicu za uslugu koja vrhunskom entuzijastu kave nudi pretplatu od 200 USD mjesečno, uključujući najam opreme i poduku za prženje kave i pripremu vrhunskog espressa. Ciljana publika je osoba srednjih godina iz područja zaljeva San Francisca koja možda radi u tehnološkom sektoru, obrazovana je, ima raspoloživi dohodak i strastvena je prema umjetnosti i znanosti kave. Optimizirajte za konverziju za 6-mjesečnu pretplatu.
Pogledajte više primjera na modelu GPT‑5 u našoj galeriji ovdje(otvara se u novom prozoru).
GPT‑5 je bolji suradnik, osobito u proizvodima za kodiranje agentskih zadataka kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. Dok radi, GPT‑5 može ispisivati planove, ažuriranja i sažetke između poziva alata. U usporedbi s našim prijašnjim modelima, GPT‑5 je proaktivniji u izvršavanju ambicioznih zadataka bez čekanja na vaše odobrenje ili oklijevanja pred visokom složenošću.
Evo primjera kako GPT‑5 može izgledati dok se suočava s kompleksnim zadatkom (u ovom slučaju, kreiranjem mrežne stranice za restoran):
Nakon što korisnik zatraži mrežnu stranicu za svoj restoran, GPT‑5 dijeli brzi plan, strukturira aplikaciju, instalira ovisnosti, stvori sadržaj stranice, pokreće nadogradnju radi provjere pogrešaka u kompajliranju, sažima svoj rad i predlaže moguće sljedeće korake. Ovaj videozapis ubrzan je ~3x kako bismo vam uštedjeli čekanje; ukupno vrijeme potrebno za stvaranje mrežne stranice bilo je oko tri minute.
Osim u kodiranju agentskih zadataka, GPT‑5 je općenito bolji u agentskim zadacima. GPT‑5 postavlja nove rekorde na referentnim testovima praćenja uputa (69,6 % na Scale MultiChallenge, prema modelu o3‑mini) i pozivanja alata (96,7 % na evaluaciji τ2-bench telecom). Poboljšana inteligencija alata omogućuje modelu GPT‑5 pouzdanije međusobno povezivanje radnji kako bi se izvršavali stvarni zadaci.
Rane povratne informacije o modelu GPT‑5 za agentske zadatke
„GPT-5 je veliki iskorak naprijed. Na našim internim testovima postigao je najbolje performanse koje smo ikada vidjeli od jednog modela. GPT-5 je briljirao u raznim agentskim zadacima, čak i prije nego što smo doradili ijedan redak koda ili prilagodili odzivnik. Novi uvodi i preciznija kontrola korištenja alata omogućili su značajan iskorak u stabilnosti i upravljivosti naših agenata.”
GPT‑5 pouzdanije slijedi upute od bilo kojeg prethodnika, postižući visoke rezultate na evaluacijama COLLIE, Scale MultiChallenge i našoj internoj evaluaciji praćenja uputa.
U alatu COLLIE(otvara se u novom prozoru) modeli moraju pisati tekst koji zadovoljava različita ograničenja. U testu Scale MultiChallenge(otvara se u novom prozoru) modeli su dobili zadatak u višestrukim razgovorima da pravilno upotrebljavaju četiri vrste informacija iz prethodnih poruka. Naši rezultati nastali su na modelu o3‑mini kao ocjenjivačem, koji je bio precizniji od modela GPT‑4o. U našoj internoj evaluaciji praćenja uputa za OpenAI API, modeli moraju slijediti teške upute izvedene iz stvarnih povratnih informacija razvojnih inženjera. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.
Naporno smo radili na poboljšanju pozivanja alata na načine koji su važni razvojnim inženjerima. GPT‑5 je bolji u praćenju uputa alata, bolji u rješavanju pogrešaka alata i bolji u proaktivnom izvršavanju više poziva alata sekvencijski ili paralelno. Kada se to od njega zatraži, GPT‑5 također može slati uvodne poruke prije i između poziva alata kako bi obavijestio korisnike o napretku tijekom duljih agentskih zadataka.
Prije dva mjeseca Sierra.ai je objavila τ2-bench telecom kao referentni test upotrebe alata u kojem je istaknuto kako performanse jezičnog modela značajno opadaju pri interakciji s promjenjivim stanjem okruženja koje korisnici mogu mijenjati. U njihovoj publikaciji(otvara se u novom prozoru) nijedan model nije postigao rezultat iznad 49 %. GPT‑5 postiže 97 %.
U testu τ2-bench(otvara se u novom prozoru) model mora koristiti alate za izvršavanje zadatka korisničke službe, u kojemu može postojati korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.
GPT‑5 također pokazuje snažna poboljšanja u performansama za dugi kontekst. Na OpenAI-MRCR-u, mjerilu preuzimanja informacija u dugom kontekstu, GPT‑5 nadmašuje model o3 i GPT‑4.1, s razlikom koja znatno raste pri većim ulaznim duljinama.
U testu OpenAI-MRCR(otvara se u novom prozoru) (višerundno koreferentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla” ubacuje se u duge „stogove sijena” sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na i-tu iglu. Prosječni omjer podudaranja mjeri srednju vrijednost podudaranja niza između odgovora modela i točnog odgovora. Točke na maksimalno 256k tokena za upis predstavljaju prosjeke preko 128k do 256k tokena za upis i tako dalje. Ovdje 256k predstavlja 256 * 1.024 = 262.144 tokena. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.
Također, otvaramo BrowseComp Long Context(otvara se u novom prozoru), novi referentni test za evaluaciju pitanja i odgovora u dugom kontekstu. U ovom referentnom testu model dobiva korisnički upit, dugačak popis relevantnih rezultata pretraživanja i mora odgovoriti na pitanje na temelju tih rezultata. Dizajnirali smo BrowseComp Long Context da bude realističan, izazovan i da ima pouzdano točne odgovore. Na upisima koji su tokeni od 128K do 256K, GPT‑5 daje točan odgovor u 89 % vremena.
U API-ju svi modeli GPT‑5 mogu prihvatiti najviše 272.000 tokena za upis i emitirati najviše 128.000 izlaznih tokena i tokena za prosuđivanje, na ukupnoj duljini konteksta od 400.000 tokena.
GPT‑5 je pouzdaniji od naših prijašnjih modela. Na temelju odzivnika iz referentnih testova LongFact i FactScore, GPT‑5 čini ~80 % manje činjeničnih pogrešaka nego model o3. To ga čini prikladnijim za slučajeve upotrebe gdje je točnost ključna – posebno u kodu, podacima i donošenju odluka.
Viši rezultati su lošiji. LongFact(otvara se u novom prozoru) i FActScore(otvara se u novom prozoru) sastoje se od otvorenih pitanja za traženje činjenica. Koristimo se ocjenjivačem temeljenim na LLM-u s mogućnošću pregledavanja kako bismo provjerili točnost odgovora na odzivnike iz tih referentnih testova i mjerili udio činjenično netočnih tvrdnji. Detalji implementacije i ocjenjivanja mogu se pronaći u kartici sustava. Modeli prosuđivanja koristili su se visokim stupnjem napora u prosuđivanju. Pretraživanje nije bilo omogućeno.
Općenito, GPT‑5 je obučen da bude svjesniji svojih ograničenja i bolje sposoban nositi se s neočekivanim izazovima. Također smo obučili GPT‑5 da bude mnogo točniji u zdravstvenim pitanjima (više pročitajte na našem istraživačkom blogu). Kao i kod svih jezičnih modela, preporučujemo da provjerite rad modela GPT‑5 kada su ulozi visoki.
Razvojni inženjeri mogu kontrolirati vrijeme razmišljanja modela GPT‑5 putem parametra reasoning_effort u API-ju. Uz prethodne vrijednosti – nisko, srednje (zadano) i visoko – GPT‑5 također podržava minimalno, što minimizira prosuđivanje modela GPT‑5 za brzo uzvraćanje odgovora.
Veće vrijednosti za reasoning_effort maksimiziraju kvalitetu, dok niže vrijednosti maksimiziraju brzinu. Ne izvlače svi zadaci jednaku korist iz dodatnog prosuđivanja, stoga preporučujemo da eksperimentirate kako biste vidjeli što najbolje funkcionira za slučajeve upotrebe koji su vam važni.
Na primjer, prosuđivanje iznad vrijednosti nisko malo doprinosi preuzimanju relativno jednostavnog dugog konteksta, ali dodaje popriličan broj postotnih bodova na CharXiv Reasoning(otvara se u novom prozoru), mjerilu vizualnog prosuđivanja.
Napor u prosuđivanju modela GPT‑5 donosi različite koristi na različitim zadacima. Na evaluaciji CharXiv Reasoning, GPT‑5 je dobio pristup alatu Python.
Kako bismo olakšali usmjeravanje zadane duljine odgovora modela GPT‑5, uveli smo novi API parametar rječitost, koji može imati vrijednosti nisko, srednje (zadano) i visoko. Ako su eksplicitne upute u sukobu s parametrima rječitosti, eksplicitne upute imaju prednost. Na primjer, ako zatražite od modela GPT‑5 da „napiše esej od 5 odlomaka“, odgovor modela uvijek bi trebao biti 5 odlomaka bez obzira na razinu rječitosti (međutim, sami odlomci mogu biti dulji ili kraći).
Rječitost=niska
Rječitost=srednja
Rječitost=visoka
Ako je dana uputa, GPT‑5 će poslati korisniku-vidljive uvodne poruke prije i između poziva alata. Za razliku od skrivenih poruka prosuđivanja, ove vidljive poruke omogućuju modelu GPT‑5 da komunicira planove i napredak korisniku, olakšavajući krajnjim korisnicima da shvate njegov pristup i namjeru iza poziva alata.
Predstavljamo novu vrstu alata – prilagođene alate – koji omogućuje modelu GPT‑5 pozivanje alata pomoću formata plaintext umjesto formata JSON. Kako bi model GPT‑5 ograničili na praćenje prilagođenih formata alata, razvojni inženjeri mogu navesti regex ili čak potpuno specificiranu gramatiku bez konteksta(otvara se u novom prozoru).
Ranije je naše sučelje za alate koje definiraju razvojni inženjeri zahtijevalo da se pozivaju pomoću formata JSON, uobičajenog formata koji koriste mrežni API-ji i razvojni inženjeri općenito. Međutim, ispis u valjanom JSON-u zahtijeva da model savršeno izbjegne sve navodnike, kose crte unatrag, znakove za novi red i ostale kontrolne znakove. Premda su naši modeli dobro obučeni za slanje JSON-a, kod dugačkih upisa poput stotina linija koda ili izvještaja od 5 stranica, vjerojatnost pogreške raste. S prilagođenim alatima GPT‑5 može pisati upise alata kao plaintext, bez potrebe za izbjegavanjem svih znakova koji zahtijevaju izbjegavanje.
Na evaluaciji SWE-bench Verified pomoću prilagođenih alata umjesto alata u JSON-u, GPT‑5 postiže otprilike iste rezultate.
GPT‑5 pomiče granice u sigurnosti i predstavlja robusniji, pouzdaniji i korisniji model. GPT‑5 je znatno manje sklon „halucinacijama” nego naši prethodni model, iskrenije komunicira svoje radnje i potencijale korisniku te pruža najkorisniji odgovor ukoliko je to moguće, a da pritom ostane unutar sigurnosnih granica. Više možete pročitati na našem istraživačkom blogu.
GPT‑5 je sada dostupan na API platformi u tri veličine: gpt-5, gpt-5-mini i gpt-5-nano. Dostupan je na Responses API-ju, Completions API-ju, a zadan je u Codex CLI-ju. GPT‑5 je procijenjen na 1,25 USD/1 milijun tokena za upis i 10 USD/1 milijun izlaznih tokena, GPT‑5 mini je procijenjen na 0,25 USD/1 milijun tokena za upis i 2 USD/1 milijun izlaznih tokena, a GPT‑5 nano na 0,05 USD/1 milijun tokena za upis i 0,40 USD/1 milijun izlaznih tokena.
Ovi modeli podržavaju API parametre reasoning_effort i rječitost, kao i prilagođene alate. Oni također podržavaju paralelno pozivanje alata, ugrađene alate (mrežno pretraživanje, pretraživanje datoteka, generiranje slika i još mnogo toga), osnovne značajke API-ja (streaming, strukturirani izlazi i još mnogo toga) te značajke za uštedu troškova kao što su spremanje odzivnika u cache memoriju i Batch API.
Verzija modela GPT‑5 bez prosuđivanja koja se koristi u ChatGPT‑ju dostupna je u API-ju kao gpt-5-chat-latest, također po cijeni od 1,25 USD/1 milijun tokena za upis i 10 USD/1 milijun izlaznih tokena.
GPT‑5 se također pokreće na Microsoftovim platformama, uključujući Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.
Pogledajte dokumentaciju(otvara se u novom prozoru), detalje o cijenama(otvara se u novom prozoru) i vodič za odzivnike(otvara se u novom prozoru) za model GPT‑5 kako biste mogli započeti.
Inteligencija
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Postoji mala razlika u brojkama koje su navedene u našoj prethodnoj objavi na blogu, jer su tada bile pokrenute na starijoj verziji HLE-a.
Multimodalnost
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Kodiranje
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tis. USD | 75 tis. USD | 49 tis. USD | 86 tis. USD | 66 tis. USD | 34 tis. USD | 31 tis. USD | 9 tis. USD |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Izostavljamo 23/500 problema koji se nisu mogli pokrenuti na našoj infrastrukturi. Potpuni popis 23 izostavljena zadatka je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.
Praćenje uputa
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Napomena: utvrdili smo da zadani ocjenjivač u MultiChallenge (GPT-4o) često pogrešno ocjenjuje odgovore modela. Otkrili smo da zamjena ocjenjivača modelom prosuđivanja, poput modela o3-mini, značajno poboljšava točnost ocjenjivanja uzoraka koje smo pregledali.
Pozivanje funkcije
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Dugi kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Halucinacije
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


