Preskočite na glavni sadržaj
OpenAI

7. kolovoza 2025.

Proizvod

Predstavljamo GPT‑5 za razvojne inženjere

Najbolji model za kodiranje i agentske zadatke.

Učitavanje…

Uvod

Danas objavljujemo GPT‑5 na našoj API platformi – naš dosad najbolji model za kodiranje i agentske zadatke.

GPT‑5 je najsuvremeniji (SOTA) na ključnim referentnim testovima kodiranja, s rezultatom od 74,9 % na evaluaciji SWE-bench Verified i 88 % na evaluaciji Aider polyglot. Obučili smo GPT‑5 da bude pravi suradnik u kodiranju. Izvrsno se ističe u izradi visokokvalitetnog koda i rješavanju zadataka kao što su ispravljanje pogrešaka, uređivanje koda i odgovaranje na pitanja o složenim kodnim bazama. Model je upravljiv i suradnički – može slijediti vrlo detaljne upute s visokom točnošću i može unaprijed dati objašnjenja svojih radnji prije i između poziva alata.  Model se također ističe u kodiranju korisničkog sučelja, pobjeđujući OpenAI o3 u razvoju korisničkog sučelja u 70 % slučajeva u internom testiranju.

Obučili smo GPT‑5 na stvarnim zadacima kodiranja u suradnji s ranim testerima iz startupova i poduzeća. Cursor kaže da je GPT‑5 „najpametniji model koji su koristili“ i „izvanredno inteligentan, jednostavan za upravljanje, pa čak ima i osobnost kakvu nisu vidjeli kod ostalih modela“. Windsurf je objavio da je GPT‑5 SOTA na njihovim evaluacijama i „ima upola manju stopu pogrešaka u pozivanju alata u usporedbi s ostalim naprednim modelima“. Vercel kaže „to je najbolji frontend model umjetne inteligencije, koji postiže vrhunske performanse u estetskom smislu i kvaliteti koda, svrstavajući ga u vlastitu kategoriju“.

GPT‑5 se također ističe u dugotrajnim agentskim zadacima – postižući SOTA rezultate na τ2-bench telecom (96,7%), referentnom testu za pozivanje alata objavljenom prije samo 2 mjeseca. Poboljšana inteligencija alata na modelu GPT‑5 omogućuje mu pouzdano povezivanje desetaka poziva alata – bilo u nizu ili paralelno – bez gubitka smjera, čineći ga daleko boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja. Također, preciznije slijedi upute alata, bolje rukuje pogreškama alata i ističe se u pretraživanju sadržaja u dugom kontekstu. Manus kaže da je GPT‑5 „postigao najbolje performanse koje su ikada vidjeli od jednog modela na njihovim internim referentnim testovima“. Notion kaže: „[brzi] odgovori modela, osobito u načinu niskog prosuđivanja, čine GPT‑5 idealnim modelom kada trebate riješiti složene zadatke u jednom pokušaju". Inditex je podijelio „ono što [GPT‑5] zaista izdvaja jest dubina njegovog prosuđivanja: nijansirani, višeslojni odgovori koji odražavaju stvarno razumijevanje teme“.

Uvodimo nove značajke u naš API kako bismo razvojnim inženjerima omogućili veću kontrolu nad odgovorima modela. GPT‑5 podržava novi parametar rječitosti (vrijednosti: nisko, srednje, visoko) kako bi vam pomogao kontrolirati jesu li odgovori kratki i sažeti ili dugi i sveobuhvatni. Parametar reasoning_effort za GPT‑5 sada može imati minimalnu vrijednost kako bi se odgovori natrag dobili brže, bez prethodnog opsežnog prosuđivanja. Također smo dodali novu vrstu alata – prilagođene alate – kako bismo omogućili modelu GPT‑5 da poziva alate u datoteci plaintext umjesto u datoteci JSON. Prilagođeni alati podržavaju ograničavanje pomoću gramatika bez konteksta koje pružaju razvojni inženjeri.

Objavljujemo GPT‑5 u tri veličine u API-ju – gpt-5, gpt-5-mini i gpt-5-nano – kako bismo razvojnim inženjerima omogućili veću fleksibilnost u balansiranju između performansi, troškova i kašnjenja. Dok je GPT‑5 u ChatGPT‑ju sustav modela prosuđivanja, neprosuđivanja i usmjerivanja, GPT‑5 na API platformi je model prosuđivanja koji omogućuje maksimalne performanse u ChatGPT‑ju. Značajno je da je GPT‑5 s minimalnim prosuđivanjem drugačiji model od modela bez prosuđivanja u ChatGPT‑ju i bolje je prilagođen razvojnim inženjerima. Model bez prosuđivanja korišten u ChatGPT‑ju dostupan je kao gpt-5-chat-latest.

Kako biste pročitali o modelu GPT‑5 na aplikaciji ChatGPT i saznali više o ostalim poboljšanjima ChatGPT‑ja, pogledajte naš istraživački blog. Za više informacija o tome kakvo je raspoloženje u poduzećima zbog GPT‑5‑ja, pogledajte naš poduzetnički blog.

Kodiranje

GPT‑5 je najjači model za kodiranje koji smo ikada objavili. Nadmašuje model o3 u svim testovima kodiranja i stvarnim slučajevima upotrebe te je fino ugođen da zablista u proizvodima za kodiranje agentskih zadataka kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. GPT‑5 je impresionirao naše alfa testere, postavljajući rekorde na mnogim njihovim privatnim internim evaluacijama. 

Rane povratne informacije o modelu GPT‑5 za stvarne zadatke kodiranja

„GPT-5 je najpametniji model za kodiranje koji smo koristili. Naš tim je otkrio da je GPT-5 iznimno inteligentan, lako ga je usmjeravati i čak ima osobnost kakvu nismo vidjeli ni u jednom drugom modelu. Ne samo da otkriva lukave, duboko skrivene pogreške, već može i pokretati duge, višestruke pozadinske agente kako bi dovršio složene zadatke, vrste problema koji su prije ostavljali druge modele zaglavljenima. Postao je naš svakodnevni alat za sve, od određivanja opsega i planiranja PR-ova do dovršetka nadogradnji s kraja na kraj.“
Michael Truell, suosnivač i glavni izvršni direktor u Cursoru

Na SWE-bench Verified, evaluaciji temeljenoj na stvarnim zadacima softverskog inženjerstva, GPT‑5 postiže 74,9 %, što je porast u odnosu na 69,1 % kod modela o3. Značajno je da GPT‑5 postiže svoj visoki rezultat s većom učinkovitošću i brzinom: u usporedbi s modelom o3 pri velikom naporu u prosuđivanju, GPT‑5 upotrebljava 22 % manje izlaznih tokena i 45% manje poziva alata.

U evaluaciji SWE-bench Verified modelu se dodjeljuje repozitorij koda i opis problema te mora generirati zakrpu za rješavanje problema. Tekstualne oznake označavaju napor u prosuđivanju. Naši rezultati izostavljaju 23 od 500 problema čija rješenja nisu pouzdano prošla na našoj infrastrukturi. GPT‑5 je dobio kratki odzivnik koji je naglašavao temeljito provjeriti valjanost rješenja; isti odzivnik nije bio od koristi na modelu o3.

Na Aider polyglot, evaluaciji uređivanja koda, GPT‑5 postavlja novi rekord od 88 %, što predstavlja smanjenje stope pogrešaka za trećinu u usporedbi s modelom o3.

U testu Aider polygot(otvara se u novom prozoru) (diff) modelu se daje vježba kodiranja iz Exercisma i mora napisati svoje rješenje kao razliku koda. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.

Također smo otkrili da je GPT‑5 izvrstan u dubinskom istraživanju kodnih baza kako bi odgovorio na pitanja o tome kako različiti dijelovi funkcioniraju ili međusobno djeluju. U kodnoj bazi složenoj poput OpenAI-jevog niza za učenje putem povratnih informacija, otkrivamo da nam GPT‑5 može pomoći prosuditi i odgovarati na pitanja o našem kodu, ubrzavajući naš svakodnevni rad. 

Frontend inženjerstvo

Prilikom izrade frontend koda za mrežne aplikacije, GPT‑5 je estetski osvješteniji, ambiciozniji i precizniji. U usporedbama jedan na jedan s modelom o3, naši su testeri preferirali GPT‑5 u 70 % slučajeva.

Evo nekoliko zabavnih, pažljivo odabranih primjera što GPT‑5 može učiniti s jednim odzivnikom:

Odzivnik: Molimo vas da generirate lijepu, realističnu odredišnu stranicu za uslugu koja vrhunskom entuzijastu kave nudi pretplatu od 200 USD mjesečno, uključujući najam opreme i poduku za prženje kave i pripremu vrhunskog espressa. Ciljana publika je osoba srednjih godina iz područja zaljeva San Francisca koja možda radi u tehnološkom sektoru, obrazovana je, ima raspoloživi dohodak i strastvena je prema umjetnosti i znanosti kave. Optimizirajte za konverziju za 6-mjesečnu pretplatu.

Pogledajte više primjera na modelu GPT‑5 u našoj galeriji ovdje(otvara se u novom prozoru).

Suradnja u pisanju koda

GPT‑5 je bolji suradnik, osobito u proizvodima za kodiranje agentskih zadataka kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. Dok radi, GPT‑5 može ispisivati planove, ažuriranja i sažetke između poziva alata. U usporedbi s našim prijašnjim modelima, GPT‑5 je proaktivniji u izvršavanju ambicioznih zadataka bez čekanja na vaše odobrenje ili oklijevanja pred visokom složenošću.

Evo primjera kako GPT‑5 može izgledati dok se suočava s kompleksnim zadatkom (u ovom slučaju, kreiranjem mrežne stranice za restoran):

Nakon što korisnik zatraži mrežnu stranicu za svoj restoran, GPT‑5 dijeli brzi plan, strukturira aplikaciju, instalira ovisnosti, stvori sadržaj stranice, pokreće nadogradnju radi provjere pogrešaka u kompajliranju, sažima svoj rad i predlaže moguće sljedeće korake. Ovaj videozapis ubrzan je ~3x kako bismo vam uštedjeli čekanje; ukupno vrijeme potrebno za stvaranje mrežne stranice bilo je oko tri minute.

Agentski zadaci

Osim u kodiranju agentskih zadataka, GPT‑5 je općenito bolji u agentskim zadacima. GPT‑5 postavlja nove rekorde na referentnim testovima praćenja uputa (69,6 % na Scale MultiChallenge, prema modelu o3‑mini) i pozivanja alata (96,7 % na evaluaciji τ2-bench telecom). Poboljšana inteligencija alata omogućuje modelu GPT‑5 pouzdanije međusobno povezivanje radnji kako bi se izvršavali stvarni zadaci.

Rane povratne informacije o modelu GPT‑5 za agentske zadatke

„GPT-5 je veliki iskorak naprijed. Na našim internim testovima postigao je najbolje performanse koje smo ikada vidjeli od jednog modela. GPT-5 je briljirao u raznim agentskim zadacima, čak i prije nego što smo doradili ijedan redak koda ili prilagodili odzivnik. Novi uvodi i preciznija kontrola korištenja alata omogućili su značajan iskorak u stabilnosti i upravljivosti naših agenata.”
Yichao „Peak” Ji, suosnivač i glavni znanstvenik u Manusu

Praćenje uputa

GPT‑5 pouzdanije slijedi upute od bilo kojeg prethodnika, postižući visoke rezultate na evaluacijama COLLIE, Scale MultiChallenge i našoj internoj evaluaciji praćenja uputa.

U alatu COLLIE(otvara se u novom prozoru) modeli moraju pisati tekst koji zadovoljava različita ograničenja. U testu Scale MultiChallenge(otvara se u novom prozoru) modeli su dobili zadatak u višestrukim razgovorima da pravilno upotrebljavaju četiri vrste informacija iz prethodnih poruka. Naši rezultati nastali su na modelu o3‑mini kao ocjenjivačem, koji je bio precizniji od modela GPT‑4o. U našoj internoj evaluaciji praćenja uputa za OpenAI API, modeli moraju slijediti teške upute izvedene iz stvarnih povratnih informacija razvojnih inženjera. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.

Pozivanje alata

Naporno smo radili na poboljšanju pozivanja alata na načine koji su važni razvojnim inženjerima. GPT‑5 je bolji u praćenju uputa alata, bolji u rješavanju pogrešaka alata i bolji u proaktivnom izvršavanju više poziva alata sekvencijski ili paralelno. Kada se to od njega zatraži, GPT‑5 također može slati uvodne poruke prije i između poziva alata kako bi obavijestio korisnike o napretku tijekom duljih agentskih zadataka.

Prije dva mjeseca Sierra.ai je objavila τ2-bench telecom kao referentni test upotrebe alata u kojem je istaknuto kako performanse jezičnog modela značajno opadaju pri interakciji s promjenjivim stanjem okruženja koje korisnici mogu mijenjati. U njihovoj publikaciji(otvara se u novom prozoru) nijedan model nije postigao rezultat iznad 49 %. GPT‑5 postiže 97 %.

U testu τ2-bench(otvara se u novom prozoru) model mora koristiti alate za izvršavanje zadatka korisničke službe, u kojemu može postojati korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.

GPT‑5 također pokazuje snažna poboljšanja u performansama za dugi kontekst. Na OpenAI-MRCR-u, mjerilu preuzimanja informacija u dugom kontekstu, GPT‑5 nadmašuje model o3 i GPT‑4.1, s razlikom koja znatno raste pri većim ulaznim duljinama.

U testu OpenAI-MRCR(otvara se u novom prozoru) (višerundno koreferentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla” ubacuje se u duge „stogove sijena” sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na i-tu iglu. Prosječni omjer podudaranja mjeri srednju vrijednost podudaranja niza između odgovora modela i točnog odgovora. Točke na maksimalno 256k tokena za upis predstavljaju prosjeke preko 128k do 256k tokena za upis i tako dalje. Ovdje 256k predstavlja 256 * 1.024 = 262.144 tokena. Modeli prosuđivanja pokretani su s visokim naporom u prosuđivanju.

Također, otvaramo BrowseComp Long Context(otvara se u novom prozoru), novi referentni test za evaluaciju pitanja i odgovora u dugom kontekstu. U ovom referentnom testu model dobiva korisnički upit, dugačak popis relevantnih rezultata pretraživanja i mora odgovoriti na pitanje na temelju tih rezultata. Dizajnirali smo BrowseComp Long Context da bude realističan, izazovan i da ima pouzdano točne odgovore. Na upisima koji su tokeni od 128K do 256K, GPT‑5 daje točan odgovor u 89 % vremena.

U API-ju svi modeli GPT‑5 mogu prihvatiti najviše 272.000 tokena za upis i emitirati najviše 128.000 izlaznih tokena i tokena za prosuđivanje, na ukupnoj duljini konteksta od 400.000 tokena.

Činjeničnost

GPT‑5 je pouzdaniji od naših prijašnjih modela. Na temelju odzivnika iz referentnih testova LongFact i FactScore, GPT‑5 čini ~80 % manje činjeničnih pogrešaka nego model o3. To ga čini prikladnijim za slučajeve upotrebe gdje je točnost ključna – posebno u kodu, podacima i donošenju odluka.

Viši rezultati su lošiji. LongFact(otvara se u novom prozoru) i FActScore(otvara se u novom prozoru) sastoje se od otvorenih pitanja za traženje činjenica. Koristimo se ocjenjivačem temeljenim na LLM-u s mogućnošću pregledavanja kako bismo provjerili točnost odgovora na odzivnike iz tih referentnih testova i mjerili udio činjenično netočnih tvrdnji. Detalji implementacije i ocjenjivanja mogu se pronaći u kartici sustava. Modeli prosuđivanja koristili su se visokim stupnjem napora u prosuđivanju. Pretraživanje nije bilo omogućeno.

Općenito, GPT‑5 je obučen da bude svjesniji svojih ograničenja i bolje sposoban nositi se s neočekivanim izazovima. Također smo obučili GPT‑5 da bude mnogo točniji u zdravstvenim pitanjima (više pročitajte na našem istraživačkom blogu). Kao i kod svih jezičnih modela, preporučujemo da provjerite rad modela GPT‑5 kada su ulozi visoki.

Nove značajke

Minimalan napor u prosuđivanju

Razvojni inženjeri mogu kontrolirati vrijeme razmišljanja modela GPT‑5 putem parametra reasoning_effort u API-ju. Uz prethodne vrijednosti – nisko, srednje (zadano) i visoko – GPT‑5 također podržava minimalno, što minimizira prosuđivanje modela GPT‑5 za brzo uzvraćanje odgovora.

Veće vrijednosti za reasoning_effort maksimiziraju kvalitetu, dok niže vrijednosti maksimiziraju brzinu. Ne izvlače svi zadaci jednaku korist iz dodatnog prosuđivanja, stoga preporučujemo da eksperimentirate kako biste vidjeli što najbolje funkcionira za slučajeve upotrebe koji su vam važni.

Na primjer, prosuđivanje iznad vrijednosti nisko malo doprinosi preuzimanju relativno jednostavnog dugog konteksta, ali dodaje popriličan broj postotnih bodova na CharXiv Reasoning(otvara se u novom prozoru), mjerilu vizualnog prosuđivanja.

Napor u prosuđivanju modela GPT‑5 donosi različite koristi na različitim zadacima. Na evaluaciji CharXiv Reasoning, GPT‑5 je dobio pristup alatu Python.

Rječitost

Kako bismo olakšali usmjeravanje zadane duljine odgovora modela GPT‑5, uveli smo novi API parametar rječitost, koji može imati vrijednosti nisko, srednje (zadano) i visoko. Ako su eksplicitne upute u sukobu s parametrima rječitosti, eksplicitne upute imaju prednost. Na primjer, ako zatražite od modela GPT‑5 da „napiše esej od 5 odlomaka“, odgovor modela uvijek bi trebao biti 5 odlomaka bez obzira na razinu rječitosti (međutim, sami odlomci mogu biti dulji ili kraći).

Rječitost=niska

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Rječitost=srednja

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Rječitost=visoka

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Uvodne poruke prije poziva alata

Ako je dana uputa, GPT‑5 će poslati korisniku-vidljive uvodne poruke prije i između poziva alata. Za razliku od skrivenih poruka prosuđivanja, ove vidljive poruke omogućuju modelu GPT‑5 da komunicira planove i napredak korisniku, olakšavajući krajnjim korisnicima da shvate njegov pristup i namjeru iza poziva alata.

Prilagođeni alati

Predstavljamo novu vrstu alata – prilagođene alate – koji omogućuje modelu GPT‑5 pozivanje alata pomoću formata plaintext umjesto formata JSON. Kako bi model GPT‑5 ograničili na praćenje prilagođenih formata alata, razvojni inženjeri mogu navesti regex ili čak potpuno specificiranu gramatiku bez konteksta(otvara se u novom prozoru).

Ranije je naše sučelje za alate koje definiraju razvojni inženjeri zahtijevalo da se pozivaju pomoću formata JSON, uobičajenog formata koji koriste mrežni API-ji i razvojni inženjeri općenito. Međutim, ispis u valjanom JSON-u zahtijeva da model savršeno izbjegne sve navodnike, kose crte unatrag, znakove za novi red i ostale kontrolne znakove. Premda su naši modeli dobro obučeni za slanje JSON-a, kod dugačkih upisa poput stotina linija koda ili izvještaja od 5 stranica, vjerojatnost pogreške raste. S prilagođenim alatima GPT‑5 može pisati upise alata kao plaintext, bez potrebe za izbjegavanjem svih znakova koji zahtijevaju izbjegavanje.

Na evaluaciji SWE-bench Verified pomoću prilagođenih alata umjesto alata u JSON-u, GPT‑5 postiže otprilike iste rezultate.

Sigurnost

GPT‑5 pomiče granice u sigurnosti i predstavlja robusniji, pouzdaniji i korisniji model. GPT‑5 je znatno manje sklon „halucinacijama” nego naši prethodni model, iskrenije komunicira svoje radnje i potencijale korisniku te pruža najkorisniji odgovor ukoliko je to moguće, a da pritom ostane unutar sigurnosnih granica. Više možete pročitati na našem istraživačkom blogu.

Dostupnost i određivanje cijene

GPT‑5 je sada dostupan na API platformi u tri veličine: gpt-5, gpt-5-mini i gpt-5-nano. Dostupan je na Responses API-ju, Completions API-ju, a zadan je u Codex CLI-ju. GPT‑5 je procijenjen na 1,25 USD/1 milijun tokena za upis i 10 USD/1 milijun izlaznih tokena, GPT‑5 mini je procijenjen na 0,25 USD/1 milijun tokena za upis i 2 USD/1 milijun izlaznih tokena, a GPT‑5 nano na 0,05 USD/1 milijun tokena za upis i 0,40 USD/1 milijun izlaznih tokena.

Ovi modeli podržavaju   API parametre reasoning_effort i rječitost, kao i prilagođene alate. Oni također podržavaju paralelno pozivanje alata, ugrađene alate (mrežno pretraživanje, pretraživanje datoteka, generiranje slika i još mnogo toga), osnovne značajke API-ja (streaming, strukturirani izlazi i još mnogo toga) te značajke za uštedu troškova kao što su spremanje odzivnika u cache memoriju i Batch API.

Verzija modela GPT‑5 bez prosuđivanja koja se koristi u ChatGPT‑ju dostupna je u API-ju kao gpt-5-chat-latest, također po cijeni od 1,25 USD/1 milijun tokena za upis i 10 USD/1 milijun izlaznih tokena.

GPT‑5 se također pokreće na Microsoftovim platformama, uključujući Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.

Detaljne referentne vrijednosti

Inteligencija
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Postoji mala razlika u brojkama koje su navedene u našoj prethodnoj objavi na blogu, jer su tada bile pokrenute na starijoj verziji HLE-a.

Multimodalnost
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Kodiranje
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tis. USD75 tis. USD49 tis. USD86 tis. USD66 tis. USD34 tis. USD31 tis. USD9 tis. USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Izostavljamo 23/500 problema koji se nisu mogli pokrenuti na našoj infrastrukturi. Potpuni popis 23 izostavljena zadatka je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

Praćenje uputa
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Napomena: utvrdili smo da zadani ocjenjivač u MultiChallenge (GPT-4o) često pogrešno ocjenjuje odgovore modela. Otkrili smo da zamjena ocjenjivača modelom prosuđivanja, poput modela o3-mini, značajno poboljšava točnost ocjenjivanja uzoraka koje smo pregledali.

Pozivanje funkcije
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Dugi kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Halucinacije
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI