Danas objavljujemo GPT‑5 na našoj API platformi—naš najbolji model do sada za kodiranje i zadatke vezane za agente.
GPT‑5 je najsavremeniji (SOTA) u ključnim testovima kodiranja, postižući rezultat od 74,9% na SWE-bench Potvrđeno i 88% na Aider polyglot. Obučili smo GPT‑5 da bude pravi suradnik u kodiranju. Odlikuje se proizvodnjom visokokvalitetnog koda i rješavanjem zadataka kao što su ispravljanje grešaka, uređivanje koda i odgovaranje na pitanja o složenim kodnim bazama. Model je upravljiv i kolaborativan – može slijediti vrlo detaljne upute s visokom preciznošću i može unaprijed pružiti objašnjenja svojih radnji prije i između poziva alata. Model se također ističe u front-end kodiranju, pobjeđujući OpenAI o3 u front-end web razvoju u 70% slučajeva u internom testiranju.
Obučili smo GPT‑5 na zadacima kodiranja iz stvarnog svijeta u saradnji sa ranim testerima iz startup kompanija i preduzeća. Cursor kaže da je GPT‑5 „najpametniji model koji su ikada koristili“ i „izuzetno inteligentan, jednostavan za upravljanje, pa čak ima i osobnost kakvu nisu vidjeli kod drugih modela“. Windsurf je podijelio da je GPT‑5 SOTA na njihovim evaluacijama i „ima upola manju stopu grešaka u pozivanju alata u odnosu na druge granične modele.“ Vercel kaže da je „najbolji frontend AI model, koji postiže vrhunske performanse kako u estetskom smislu, tako i u kvaliteti koda, svrstavajući ga u zasebnu kategoriju.“
GPT‑5 se također ističe u dugotrajnim agentskim zadacima – postižući SOTA rezultate na τ2-bench telecom (96,7%), benchmarku za pozivanje alata objavljenom prije samo 2 mjeseca. Poboljšana inteligencija alata GPT‑5 omogućava mu pouzdano povezivanje desetina poziva alata—bilo sekvencijalno ili paralelno—bez gubitka orijentacije, što ga čini daleko boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja. Također preciznije prati upute alata, bolje rukuje greškama alata i ističe se u pretraživanju sadržaja u dugom kontekstu. Manus kaže da je GPT‑5 „postigao najbolje performanse koje su ikada vidjeli od jednog modela na [njihovim] internim referentnim kriterijima.“ Notion kaže: "[brzi] odgovori modela, posebno u režimu niskog razmišljanja, čine GPT‑5 idealnim modelom kada trebate riješiti složene zadatke odjednom." Inditex je podijelio: „Ono što zaista izdvaja [GPT‑5] jeste dubina njegovog rasuđivanja: nijansirani, višeslojni odgovori koji odražavaju stvarno razumijevanje teme.“
Uvodimo nove funkcije u naš API kako bismo programerima omogućili veću kontrolu nad odgovorima modela. GPT‑5 podržava novi parametar verbosity (vrijednosti: low, medium, high) kako bi se lakše kontrolisalo jesu li odgovori kratki i sažeti ili dugi i sveobuhvatni. Parametar reasoning_effort za GPT‑5 sada može imati minimalnu vrijednost kako bi se odgovori dobili brže nazad, bez prethodnog opsežnog razmišljanja. Također smo dodali novi tip alata – prilagođene alate – kako bismo omogućili GPT‑5 da poziva alate s običnim tekstom umjesto JSON-a. Prilagođeni alati imaju podršku za ograničavanje pomoću gramatika bez konteksta koje obezbjeđuje programer.
Objavljujemo GPT‑5 u tri veličine u API-ju—gpt-5, gpt-5-mini, i gpt-5-nano—kako bismo programerima omogućili veću fleksibilnost u balansiranju između performansi, troškova i latencije. Dok je GPT‑5 u ChatGPT‑u sistem za rezonovanje, nerezonovanje i rutiranje, GPT‑5 na API platformi je model za rezonovanje koji omogućava maksimalne performanse u ChatGPT‑u. Značajno je da je GPT‑5 s minimalnim rezonovanjem drugačiji model od modela bez rezonovanja u ChatGPT‑u i bolje je prilagođen programerima. Model bez rezonovanja korišten u ChatGPT‑u dostupan je kao gpt-5-chat-latest.
Da biste pročitali o GPT‑5 u ChatGPT‑u i saznali više o drugim poboljšanjima ChatGPT‑a, posjetite naš istraživački blog. Za više informacija o tome kako su preduzeća uzbuđena zbog korištenja GPT‑5, pogledajte naš enterprise blog.
GPT‑5 je najjači model za kodiranje koji smo ikada objavili. Nadmašuje o3 u testovima kodiranja i stvarnim slučajevima upotrebe, te je fino podešen da zablista u agentnim kodnim proizvodima poput Cursora, Windsurfa, GitHub Copilota i Codex CLI-ja. GPT‑5 je impresionirao naše alfa testere, postavljajući rekorde na mnogim njihovim privatnim internim evaluacijama.
Rani povratni odgovor o GPT‑5 za zadatke kodiranja u stvarnom svijetu
„GPT-5 je najpametniji model za kodiranje koji smo koristili.“ Naš Team je otkrio da je GPT-5 izuzetno inteligentan, jednostavan za upravljanje, pa čak i da ima osobnost kakvu nismo vidjeli ni u jednom drugom modelu. Ne samo da otkriva lukave, duboko skrivene greške, već može i pokretati duge, višestruke pozadinske agente kako bi dovršio složene zadatke – vrste problema koje su ranije ostavljale druge modele zaglavljenima. Postao je naš svakodnevni alat za sve, od određivanja obima i planiranja PR-ova do završetka end-to-end izgradnji.
Na SWE-bench Verified, evaluaciji zasnovanoj na stvarnim zadacima softverskog inženjerstva, GPT‑5 postiže rezultat od 74,9%, u odnosu na 69,1% koji je postigao o3. Značajno je da GPT‑5 postiže svoj visoki rezultat s većom efikasnošću i brzinom: u poređenju s o3 pri visokom naporu razmišljanja, GPT‑5 koristi 22% manje izlaznih tokena i 45% manje poziva alata.
U SWE-bench Verified, modelu se dodjeljuje repozitorij koda i opis problema, te mora generirati zakrpu za rješavanje problema. Tekstualne oznake ukazuju na napor u rasuđivanju. Naši rezultati izostavljaju 23 od 500 problema čija rješenja nisu pouzdano prošla na našoj infrastrukturi. GPT‑5 je dobio kratak upit koji je naglašavao temeljito potvrđivanje rješenja; isti upit nije koristio o3.
Na Aider polyglot platformi, u evaluaciji uređivanja koda, GPT‑5 postavlja novi rekord od 88%, što predstavlja smanjenje stope grešaka za trećinu u poređenju sa o3.
U Aider polygot(otvara se u novom prozoru) (diff), modelu se daje vježba kodiranja iz Exercism-a i mora napisati svoje rješenje kao kodnu razliku. Modeli rezonovanja su pokrenuti uz veliki napor u rezonovanju.
Također smo otkrili da je GPT‑5 izvanredan u dubinskom istraživanju kodnih baza kako bi odgovorio na pitanja o tome kako različiti dijelovi funkcioniraju ili međusobno djeluju. U kodnoj bazi složenoj kao što je OpenAI-jev stek za pojačano učenje, otkrivamo da nam GPT‑5 može pomoći da rezonujemo i odgovaramo na pitanja o našem kodu, ubrzavajući naš svakodnevni rad.
Prilikom izrade frontend koda za web aplikacije, GPT‑5 je estetski osvješteniji, ambiciozniji i precizniji. U paralelnim poređenjima sa o3, naši testeri su preferirali GPT‑5 u 70% slučajeva.
Evo nekoliko zabavnih, pažljivo odabranih primjera šta GPT‑5 može postići jednim upitom:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Pogledajte više primjera GPT‑5 u našoj galeriji ovdje(otvara se u novom prozoru).
GPT‑5 je bolji saradnik, posebno u agentnim kodnim proizvodima kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. Dok radi, GPT‑5 može davati izlaz planova, ažuriranja i sažetaka između poziva alata. U poređenju s našim prethodnim modelima, GPT‑5 je proaktivniji u izvršavanju ambicioznih zadataka bez čekanja na vaše odobrenje ili oklijevanja pred visokom složenošću.
Evo primjera kako GPT‑5 može izgledati dok se suočava sa složenim zadatkom (u ovom slučaju, kreiranjem web stranice za restoran):
Nakon što korisnik zatraži web stranicu za svoj restoran, GPT‑5 dijeli brzi plan, postavlja aplikaciju, instalira zavisnosti, kreira sadržaj stranice, pokreće izgradnju za provjeru grešaka u kompajliranju, sumira svoj rad i predlaže potencijalne sljedeći korake. Ovaj video je ubrzan oko 3 puta da bismo Vam uštedjeli čekanje; ukupno vrijeme potrebno za kreiranje web stranice bilo je oko tri minute.
Osim agentnog kodiranja, GPT‑5 je općenito bolji u agentnim zadacima. GPT‑5 postavlja nove rekorde na mjerilima praćenja uputa (69,6% na Scale MultiChallenge, prema ocjeni o3‑mini) i pozivanja alata (96,7% na τ2-bench telecom). Poboljšana inteligencija alata omogućava GPT‑5 da pouzdanije poveže radnje kako bi izvršio zadatke u stvarnom svijetu.
Rani povratni odgovor o GPT‑5 za agentne zadatke
„GPT-5 je veliki iskorak naprijed.“ Na našim internim testovima postigao je najbolje performanse koje smo ikada vidjeli od jednog modela. GPT-5 se istakao u raznim agentnim zadacima — čak i prije nego što smo prilagodili ijednu liniju koda ili prilagodili upit. Novi uvodi i preciznija kontrola upotrebe alata omogućili su značajan skok u stabilnosti i upravljivosti naših agenata.
GPT‑5 pouzdanije prati instrukcije od bilo kojeg svog prethodnika, postižući visoke rezultate na COLLIE, Scale MultiChallenge i našoj internoj evaluaciji praćenja instrukcija.
U COLLIE(otvara se u novom prozoru), modeli moraju pisati tekst koji ispunjava različita ograničenja. U Scale MultiChallenge(otvara se u novom prozoru), modeli su izazvani u višestrukim razgovorima da pravilno koriste četiri vrste informacija iz prethodnih poruka. Naši rezultati dolaze od korištenja o3‑mini kao ocjenjivača, koji je bio precizniji od GPT‑4o. U našoj internoj evaluaciji praćenja instrukcija za OpenAI API, modeli moraju slijediti teške upute izvedene iz stvarnog povratnog odgovora programera. Modeli rezonovanja su pokrenuti uz veliki napor u rezonovanju.
Naporno smo radili na poboljšanju pozivanja alata na načine koji su važni za programere. GPT‑5 je bolji u praćenju uputa alata, bolji u rješavanju grešaka alata i bolji u proaktivnom upućivanju više poziva alata uzastopno ili paralelno. Kada se to naredi, GPT‑5 također može imati izlaz uvodnih poruka prije i između poziva alata kako bi obavijestio korisnike o napretku tokom dužih zadataka s agentima.
Prije dva mjeseca, τ2-bench telecom je objavljen od strane Sierra.ai kao izazovan benchmark za korištenje alata koji je naglasio kako performanse jezičkog modela značajno opadaju pri interakciji sa stanjem okruženja koje korisnici mogu mijenjati. U njihovoj publikaciji(otvara se u novom prozoru), nijedan model nije postigao rezultat iznad 49%. GPT‑5 postiže 97%.
U τ2-bench(otvara se u novom prozoru) modelu, model mora koristiti alate za izvršavanje zadatka korisničke podrške, gdje može postojati korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Modeli rezonovanja su pokrenuti uz visok napor u rezonovanju.
GPT‑5 također pokazuje značajna poboljšanja u performansama za dugi kontekst. Na OpenAI-MRCR, mjeri za pronalaženje informacija u dugom kontekstu, GPT‑5 nadmašuje o3 i GPT‑4.1, s razlikom koja znatno raste pri većim dužinama unosa.
U OpenAI-MRCR(otvara se u novom prozoru) (višekružno ko-referentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla“ ubacuje se u dugačke „plastove sijena“ sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na i-tu iglu. Prosječni omjer podudaranja mjeri prosječni omjer podudaranja nizova između odgovora modela i tačnog odgovora. Točke na maksimalno 256k ulaznih tokena predstavljaju prosjeke za 128k–256k ulazne tokene, i tako dalje. Ovdje, 256k predstavlja 256 * 1.024 = 262.144 tokena. Modeli rezonovanja su pokrenuti uz visok napor u rezonovanju.
Također objavljujemo kao otvoreni kod BrowseComp Long Context(otvara se u novom prozoru), novi referentni okvir za evaluaciju pitanja i odgovora u dugom kontekstu. U ovom benchmarku, model dobija upit korisnika, dugačak spisak relevantnih rezultata pretrage i mora odgovoriti na pitanje na osnovu tih rezultata pretrage. Dizajnirali smo BrowseComp Long kontekst da bude realističan, težak i da ima pouzdano tačne odgovore. Na unosima koji su 128K–256K tokena, GPT‑5 daje tačan odgovor u 89% slučajeva.
U API-ju, svi GPT‑5 modeli mogu prihvatiti maksimalno 272.000 ulaznih tokena i emitirati maksimalno 128.000 izlaznih tokena za zaključivanje i izlaz, za ukupnu dužinu konteksta od 400.000 tokena.
GPT‑5 je pouzdaniji od naših prethodnih modela. Na upitima iz LongFact i FactScore benchmarka, GPT‑5 pravi ~80% manje činjeničnih grešaka nego o3. To ga čini pogodnijim za agentne slučajeve upotrebe gdje je ispravnost važna—posebno u kodu, podacima i donošenju odluka.
Viši rezultati su lošiji. LongFact(otvara se u novom prozoru) i FActScore(otvara se u novom prozoru) sastoje se od otvorenih pitanja za traženje činjenica. Koristimo ocjenjivač zasnovan na LLM-u sa mogućnošću pregledavanja kako bismo provjerili tačnost odgovora na upite iz ovih mjerila i mjerili udio činjenično netačnih tvrdnji. Detalji implementacije i ocjenjivanja mogu se pronaći u sistemskoj kartici. Modeli rezonovanja koristili su visok napor rezonovanja. Pretraga nije omogućena.
Općenito, GPT‑5 je obučen da bude svjesniji svojih ograničenja i sposobniji da se nosi sa neočekivanim izazovima. Također smo obučili GPT‑5 da bude mnogo precizniji u vezi sa zdravstvenim pitanjima (pročitajte više u našem istraživačkom blogu). Kao i kod svih jezičkih modela, preporučujemo da potvrdite rad GPT‑5 kada su ulozi visoki.
Programeri mogu kontrolisati vrijeme razmišljanja GPT‑5 putem parametra reasoning_effort u API-ju. Pored prethodnih vrijednosti—low, medium (predodređeno) i high—GPT‑5 također pruža podršku za minimal, što minimizira rezonovanje GPT‑5 kako bi brzo vratio odgovor.
Veće vrijednosti reasoning_effort maksimiziraju kvalitet, dok niže vrijednosti maksimiziraju brzinu. Nisu svi zadaci jednako korisni od dodatnog rezonovanja, stoga preporučujemo da eksperimentirate kako biste vidjeli šta najbolje funkcioniše za slučajeve upotrebe koji su vam važni.
Na primjer, rezonovanje iznad low malo doprinosi relativno jednostavnom pronalaženju dugog konteksta, ali dodaje popriličan broj procentnih poena CharXiv Reasoning(otvara se u novom prozoru), mjerilu vizualnog rezonovanja.
Napor rasuđivanja GPT‑5 donosi različite koristi na različitim zadacima. Za CharXiv Reasoning, GPT‑5 je dobio pristup Python alatu.
Kako bismo pomogli u usmjeravanju predodređene dužine odgovora GPT‑5, uveli smo novi API parametar verbosity, koji može imati vrijednosti low, medium (predodređeno) i high. Ako su eksplicitne upute u sukobu s parametrima opširnosti, eksplicitne upute imaju prednost. Na primjer, ako od GPT‑5 zatražite da „napiše esej od 5 paragrafa“, odgovor modela uvijek treba biti 5 paragrafa bez obzira na razinu opširnosti (međutim, sami paragrafi mogu biti duži ili kraći).
Verbosity=nisko
Verbosity=srednje
Verbosity=visoko
Ako se naloži, GPT‑5 će prikazati korisnički vidljive preambulne poruke prije i između poziva alata. Za razliku od skrivenih poruka rezonovanja, ove vidljive poruke omogućavaju GPT‑5 da komunicira planove i napredak korisniku, pomažući krajnjim korisnicima da razumiju njegov pristup i namjeru iza poziva alata.
Predstavljamo novi tip alata – prilagođene alate – koji omogućava GPT‑5 da pozove alat sa čistim tekstom umjesto JSON-a. Da biste ograničili GPT‑5 na praćenje prilagođenih formata alata, programeri mogu obezbijediti regex ili čak potpunije specificiranu gramatiku bez konteksta(otvara se u novom prozoru).
Ranije je naš interfejs za alate koje definišu programeri zahtijevao da se pozivaju pomoću JSON-a, uobičajenog formata koji koriste web API-ji i programeri općenito. Međutim, za ispravan izlaz JSON-a, model mora savršeno obraditi sve navodnike, povratne kose crte, nove linije i druge kontrolne karaktere. Iako su naši modeli dobro obučeni za izlaz JSON-a, kod dugih unosa poput stotina linija koda ili izvještaja od 5 stranica, vjerovatnoća greške raste. Uz prilagođene alate, GPT‑5 može pisati unos alata kao običan tekst, bez potrebe za izbjegavanjem svih karaktera koji zahtijevaju izbjegavanje.
Na SWE-bench Potvrđeno korištenjem prilagođenih alata umjesto JSON alata, GPT‑5 postiže približno isti rezultat.
GPT‑5 pomiče granice sigurnosti i predstavlja robusniji, pouzdaniji i korisniji model. GPT‑5 je znatno manje sklon halucinacijama nego naši prethodni modeli, iskrenije komunicira svoje radnje i mogućnosti korisniku i pruža najkorisniji odgovor gdje je to moguće, a da pritom ostane unutar sigurnosnih granica. Više možete pročitati na našem istraživačkom blogu.
GPT‑5 je sada dostupan na API platformi u tri veličine: gpt-5, gpt-5-mini, i gpt-5-nano. Dostupan je na Responses API-ju, chat Completions API-ju i predodređeno je u Codex CLI-ju. GPT‑5 je cijenjen na $1,25/1M ulaznih tokena i $10/1M izlaznih tokena, GPT‑5 mini je cijenjen na $0,25/1M ulaznih tokena i $2/1M izlaznih tokena, a GPT‑5 nano je cijenjen na $0,05/1M ulaznih tokena i $0,40/1M izlaznih tokena.
Ovi modeli imaju podršku za API parametre reasoning_effort i verbosity, kao i prilagođene alate. Oni, također, podržavaju paralelno pozivanje alata, ugrađene alate (web pretraga, pretraga datoteka, generisanje slika i još mnogo toga), osnovne API funkcije (streaming, strukturirani izlazi i još mnogo toga), te funkcije za uštedu troškova kao što su keširanje upita i Batch API.
Nerazmišljajuća verzija GPT‑5 korištena u ChatGPT‑u dostupna je u API-ju kao gpt-5-chat-latest, također po cijeni od 1,25 USD/1M ulaznih tokena i 10 USD/1M izlaznih tokena.
GPT‑5 se također pokreće na Microsoftovim platformama, uključujući Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.
Pogledajte GPT‑5 dokumentaciju(otvara se u novom prozoru), detalje o cijenama(otvara se u novom prozoru) i vodič za upotrebu(otvara se u novom prozoru) da biste započeli.
Inteligencija
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Postoji mala neslaganja sa brojevima prijavljenim u našem prethodnom blog postu, jer su oni pokrenuti na starijoj verziji HLE-a.
Višemodalni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Kodiranje
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 hilj. USD | 75 hilj. USD | 49 hilj. USD | 86 hilj. USD | 66 hilj. USD | 34 hilj. USD | 31 hilj. USD | 9 hilj. USD |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Izostavljamo 23/500 problema koji se ne mogu pokrenuti na našoj infrastrukturi. Kompletna lista od 23 izostavljena zadatka je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.
Praćenje uputstava
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Napomena: utvrdili smo da zadani ocjenjivač u MultiChallengeu (GPT-4o) često pogrešno ocjenjuje odgovore modela. Utvrdili smo da zamjena ocjenjivača modelom za rezoniranje, poput o3‑mini, značajno poboljšava točnost ocjenjivanja na uzorcima koje smo pregledali.
Pozivanje funkcija
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Dugi kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Halucinacije
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


