Preskočite na glavni sadržaj
OpenAI

7. august 2025.

Product

Predstavljamo GPT‑5 za programere

Najbolji model za kodiranje i zadatke s agentima.

Učitavanje…

Uvod

Danas objavljujemo GPT‑5 na našoj API platformi—naš najbolji model do sada za kodiranje i zadatke vezane za agente.

GPT‑5 je najsavremeniji (SOTA) u ključnim testovima kodiranja, postižući rezultat od 74,9% na SWE-bench Potvrđeno i 88% na Aider polyglot. Obučili smo GPT‑5 da bude pravi suradnik u kodiranju. Odlikuje se proizvodnjom visokokvalitetnog koda i rješavanjem zadataka kao što su ispravljanje grešaka, uređivanje koda i odgovaranje na pitanja o složenim kodnim bazama. Model je upravljiv i kolaborativan – može slijediti vrlo detaljne upute s visokom preciznošću i može unaprijed pružiti objašnjenja svojih radnji prije i između poziva alata.  Model se također ističe u front-end kodiranju, pobjeđujući OpenAI o3 u front-end web razvoju u 70% slučajeva u internom testiranju.

Obučili smo GPT‑5 na zadacima kodiranja iz stvarnog svijeta u saradnji sa ranim testerima iz startup kompanija i preduzeća. Cursor kaže da je GPT‑5 „najpametniji model koji su ikada koristili“ i „izuzetno inteligentan, jednostavan za upravljanje, pa čak ima i osobnost kakvu nisu vidjeli kod drugih modela“. Windsurf je podijelio da je GPT‑5 SOTA na njihovim evaluacijama i „ima upola manju stopu grešaka u pozivanju alata u odnosu na druge granične modele.“ Vercel kaže da je „najbolji frontend AI model, koji postiže vrhunske performanse kako u estetskom smislu, tako i u kvaliteti koda, svrstavajući ga u zasebnu kategoriju.“

GPT‑5 se također ističe u dugotrajnim agentskim zadacima – postižući SOTA rezultate na τ2-bench telecom (96,7%), benchmarku za pozivanje alata objavljenom prije samo 2 mjeseca. Poboljšana inteligencija alata GPT‑5 omogućava mu pouzdano povezivanje desetina poziva alata—bilo sekvencijalno ili paralelno—bez gubitka orijentacije, što ga čini daleko boljim u izvršavanju složenih, stvarnih zadataka od početka do kraja. Također preciznije prati upute alata, bolje rukuje greškama alata i ističe se u pretraživanju sadržaja u dugom kontekstu. Manus kaže da je GPT‑5 „postigao najbolje performanse koje su ikada vidjeli od jednog modela na [njihovim] internim referentnim kriterijima.“ Notion kaže: "[brzi] odgovori modela, posebno u režimu niskog razmišljanja, čine GPT‑5 idealnim modelom kada trebate riješiti složene zadatke odjednom." Inditex je podijelio: „Ono što zaista izdvaja [GPT‑5] jeste dubina njegovog rasuđivanja: nijansirani, višeslojni odgovori koji odražavaju stvarno razumijevanje teme.“

Uvodimo nove funkcije u naš API kako bismo programerima omogućili veću kontrolu nad odgovorima modela. GPT‑5 podržava novi parametar verbosity (vrijednosti: low, medium, high) kako bi se lakše kontrolisalo jesu li odgovori kratki i sažeti ili dugi i sveobuhvatni. Parametar reasoning_effort za GPT‑5 sada može imati minimalnu vrijednost kako bi se odgovori dobili brže nazad, bez prethodnog opsežnog razmišljanja. Također smo dodali novi tip alata – prilagođene alate – kako bismo omogućili GPT‑5 da poziva alate s običnim tekstom umjesto JSON-a. Prilagođeni alati imaju podršku za ograničavanje pomoću gramatika bez konteksta koje obezbjeđuje programer.

Objavljujemo GPT‑5 u tri veličine u API-ju—gpt-5, gpt-5-mini, i gpt-5-nano—kako bismo programerima omogućili veću fleksibilnost u balansiranju između performansi, troškova i latencije. Dok je GPT‑5 u ChatGPT‑u sistem za rezonovanje, nerezonovanje i rutiranje, GPT‑5 na API platformi je model za rezonovanje koji omogućava maksimalne performanse u ChatGPT‑u. Značajno je da je GPT‑5 s minimalnim rezonovanjem drugačiji model od modela bez rezonovanja u ChatGPT‑u i bolje je prilagođen programerima. Model bez rezonovanja korišten u ChatGPT‑u dostupan je kao gpt-5-chat-latest.

Da biste pročitali o GPT‑5 u ChatGPT‑u i saznali više o drugim poboljšanjima ChatGPT‑a, posjetite naš istraživački blog. Za više informacija o tome kako su preduzeća uzbuđena zbog korištenja GPT‑5, pogledajte naš enterprise blog.

Kodiranje

GPT‑5 je najjači model za kodiranje koji smo ikada objavili. Nadmašuje o3 u testovima kodiranja i stvarnim slučajevima upotrebe, te je fino podešen da zablista u agentnim kodnim proizvodima poput Cursora, Windsurfa, GitHub Copilota i Codex CLI-ja. GPT‑5 je impresionirao naše alfa testere, postavljajući rekorde na mnogim njihovim privatnim internim evaluacijama. 

Rani povratni odgovor o GPT‑5 za zadatke kodiranja u stvarnom svijetu

„GPT-5 je najpametniji model za kodiranje koji smo koristili.“ Naš Team je otkrio da je GPT-5 izuzetno inteligentan, jednostavan za upravljanje, pa čak i da ima osobnost kakvu nismo vidjeli ni u jednom drugom modelu. Ne samo da otkriva lukave, duboko skrivene greške, već može i pokretati duge, višestruke pozadinske agente kako bi dovršio složene zadatke – vrste problema koje su ranije ostavljale druge modele zaglavljenima. Postao je naš svakodnevni alat za sve, od određivanja obima i planiranja PR-ova do završetka end-to-end izgradnji.
Michael Truell, suosnivač i izvršni direktor u Cursor

Na SWE-bench Verified, evaluaciji zasnovanoj na stvarnim zadacima softverskog inženjerstva, GPT‑5 postiže rezultat od 74,9%, u odnosu na 69,1% koji je postigao o3. Značajno je da GPT‑5 postiže svoj visoki rezultat s većom efikasnošću i brzinom: u poređenju s o3 pri visokom naporu razmišljanja, GPT‑5 koristi 22% manje izlaznih tokena i 45% manje poziva alata.

U SWE-bench Verified, modelu se dodjeljuje repozitorij koda i opis problema, te mora generirati zakrpu za rješavanje problema. Tekstualne oznake ukazuju na napor u rasuđivanju. Naši rezultati izostavljaju 23 od 500 problema čija rješenja nisu pouzdano prošla na našoj infrastrukturi. GPT‑5 je dobio kratak upit koji je naglašavao temeljito potvrđivanje rješenja; isti upit nije koristio o3.

Na Aider polyglot platformi, u evaluaciji uređivanja koda, GPT‑5 postavlja novi rekord od 88%, što predstavlja smanjenje stope grešaka za trećinu u poređenju sa o3.

U Aider polygot(otvara se u novom prozoru) (diff), modelu se daje vježba kodiranja iz Exercism-a i mora napisati svoje rješenje kao kodnu razliku. Modeli rezonovanja su pokrenuti uz veliki napor u rezonovanju.

Također smo otkrili da je GPT‑5 izvanredan u dubinskom istraživanju kodnih baza kako bi odgovorio na pitanja o tome kako različiti dijelovi funkcioniraju ili međusobno djeluju. U kodnoj bazi složenoj kao što je OpenAI-jev stek za pojačano učenje, otkrivamo da nam GPT‑5 može pomoći da rezonujemo i odgovaramo na pitanja o našem kodu, ubrzavajući naš svakodnevni rad. 

Frontend inženjering

Prilikom izrade frontend koda za web aplikacije, GPT‑5 je estetski osvješteniji, ambiciozniji i precizniji. U paralelnim poređenjima sa o3, naši testeri su preferirali GPT‑5 u 70% slučajeva.

Evo nekoliko zabavnih, pažljivo odabranih primjera šta GPT‑5 može postići jednim upitom:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Pogledajte više primjera GPT‑5 u našoj galeriji ovdje(otvara se u novom prozoru).

Saradnja u kodiranju

GPT‑5 je bolji saradnik, posebno u agentnim kodnim proizvodima kao što su Cursor, Windsurf, GitHub Copilot i Codex CLI. Dok radi, GPT‑5 može davati izlaz planova, ažuriranja i sažetaka između poziva alata. U poređenju s našim prethodnim modelima, GPT‑5 je proaktivniji u izvršavanju ambicioznih zadataka bez čekanja na vaše odobrenje ili oklijevanja pred visokom složenošću.

Evo primjera kako GPT‑5 može izgledati dok se suočava sa složenim zadatkom (u ovom slučaju, kreiranjem web stranice za restoran):

Nakon što korisnik zatraži web stranicu za svoj restoran, GPT‑5 dijeli brzi plan, postavlja aplikaciju, instalira zavisnosti, kreira sadržaj stranice, pokreće izgradnju za provjeru grešaka u kompajliranju, sumira svoj rad i predlaže potencijalne sljedeći korake. Ovaj video je ubrzan oko 3 puta da bismo Vam uštedjeli čekanje; ukupno vrijeme potrebno za kreiranje web stranice bilo je oko tri minute.

Agentički zadaci

Osim agentnog kodiranja, GPT‑5 je općenito bolji u agentnim zadacima. GPT‑5 postavlja nove rekorde na mjerilima praćenja uputa (69,6% na Scale MultiChallenge, prema ocjeni o3‑mini) i pozivanja alata (96,7% na τ2-bench telecom). Poboljšana inteligencija alata omogućava GPT‑5 da pouzdanije poveže radnje kako bi izvršio zadatke u stvarnom svijetu.

Rani povratni odgovor o GPT‑5 za agentne zadatke

„GPT-5 je veliki iskorak naprijed.“ Na našim internim testovima postigao je najbolje performanse koje smo ikada vidjeli od jednog modela. GPT-5 se istakao u raznim agentnim zadacima — čak i prije nego što smo prilagodili ijednu liniju koda ili prilagodili upit. Novi uvodi i preciznija kontrola upotrebe alata omogućili su značajan skok u stabilnosti i upravljivosti naših agenata.
Yichao ‘Peak’ Ji, suosnivač i glavni naučnik u Manus

Praćenje uputstava

GPT‑5 pouzdanije prati instrukcije od bilo kojeg svog prethodnika, postižući visoke rezultate na COLLIE, Scale MultiChallenge i našoj internoj evaluaciji praćenja instrukcija.

U COLLIE(otvara se u novom prozoru), modeli moraju pisati tekst koji ispunjava različita ograničenja. U Scale MultiChallenge(otvara se u novom prozoru), modeli su izazvani u višestrukim razgovorima da pravilno koriste četiri vrste informacija iz prethodnih poruka. Naši rezultati dolaze od korištenja o3‑mini kao ocjenjivača, koji je bio precizniji od GPT‑4o. U našoj internoj evaluaciji praćenja instrukcija za OpenAI API, modeli moraju slijediti teške upute izvedene iz stvarnog povratnog odgovora programera. Modeli rezonovanja su pokrenuti uz veliki napor u rezonovanju.

Pozivi alata

Naporno smo radili na poboljšanju pozivanja alata na načine koji su važni za programere. GPT‑5 je bolji u praćenju uputa alata, bolji u rješavanju grešaka alata i bolji u proaktivnom upućivanju više poziva alata uzastopno ili paralelno. Kada se to naredi, GPT‑5 također može imati izlaz uvodnih poruka prije i između poziva alata kako bi obavijestio korisnike o napretku tokom dužih zadataka s agentima.

Prije dva mjeseca, τ2-bench telecom je objavljen od strane Sierra.ai kao izazovan benchmark za korištenje alata koji je naglasio kako performanse jezičkog modela značajno opadaju pri interakciji sa stanjem okruženja koje korisnici mogu mijenjati. U njihovoj publikaciji(otvara se u novom prozoru), nijedan model nije postigao rezultat iznad 49%. GPT‑5 postiže 97%.

U τ2-bench(otvara se u novom prozoru) modelu, model mora koristiti alate za izvršavanje zadatka korisničke podrške, gdje može postojati korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Modeli rezonovanja su pokrenuti uz visok napor u rezonovanju.

GPT‑5 također pokazuje značajna poboljšanja u performansama za dugi kontekst. Na OpenAI-MRCR, mjeri za pronalaženje informacija u dugom kontekstu, GPT‑5 nadmašuje o3 i GPT‑4.1, s razlikom koja znatno raste pri većim dužinama unosa.

U OpenAI-MRCR(otvara se u novom prozoru) (višekružno ko-referentno rješavanje), više identičnih korisničkih zahtjeva tipa „igla“ ubacuje se u dugačke „plastove sijena“ sličnih zahtjeva i odgovora, a od modela se traži da reproducira odgovor na i-tu iglu. Prosječni omjer podudaranja mjeri prosječni omjer podudaranja nizova između odgovora modela i tačnog odgovora. Točke na maksimalno 256k ulaznih tokena predstavljaju prosjeke za 128k–256k ulazne tokene, i tako dalje. Ovdje, 256k predstavlja 256 * 1.024 = 262.144 tokena. Modeli rezonovanja su pokrenuti uz visok napor u rezonovanju.

Također objavljujemo kao otvoreni kod BrowseComp Long Context(otvara se u novom prozoru), novi referentni okvir za evaluaciju pitanja i odgovora u dugom kontekstu. U ovom benchmarku, model dobija upit korisnika, dugačak spisak relevantnih rezultata pretrage i mora odgovoriti na pitanje na osnovu tih rezultata pretrage. Dizajnirali smo BrowseComp Long kontekst da bude realističan, težak i da ima pouzdano tačne odgovore. Na unosima koji su 128K–256K tokena, GPT‑5 daje tačan odgovor u 89% slučajeva.

U API-ju, svi GPT‑5 modeli mogu prihvatiti maksimalno 272.000 ulaznih tokena i emitirati maksimalno 128.000 izlaznih tokena za zaključivanje i izlaz, za ukupnu dužinu konteksta od 400.000 tokena.

Faktualnost

GPT‑5 je pouzdaniji od naših prethodnih modela. Na upitima iz LongFact i FactScore benchmarka, GPT‑5 pravi ~80% manje činjeničnih grešaka nego o3. To ga čini pogodnijim za agentne slučajeve upotrebe gdje je ispravnost važna—posebno u kodu, podacima i donošenju odluka.

Viši rezultati su lošiji. LongFact(otvara se u novom prozoru) i FActScore(otvara se u novom prozoru) sastoje se od otvorenih pitanja za traženje činjenica. Koristimo ocjenjivač zasnovan na LLM-u sa mogućnošću pregledavanja kako bismo provjerili tačnost odgovora na upite iz ovih mjerila i mjerili udio činjenično netačnih tvrdnji. Detalji implementacije i ocjenjivanja mogu se pronaći u sistemskoj kartici. Modeli rezonovanja koristili su visok napor rezonovanja. Pretraga nije omogućena.

Općenito, GPT‑5 je obučen da bude svjesniji svojih ograničenja i sposobniji da se nosi sa neočekivanim izazovima. Također smo obučili GPT‑5 da bude mnogo precizniji u vezi sa zdravstvenim pitanjima (pročitajte više u našem istraživačkom blogu). Kao i kod svih jezičkih modela, preporučujemo da potvrdite rad GPT‑5 kada su ulozi visoki.

Nove karakteristike

Minimalni napor razmišljanja

Programeri mogu kontrolisati vrijeme razmišljanja GPT‑5 putem parametra reasoning_effort u API-ju. Pored prethodnih vrijednosti—low, medium (predodređeno) i high—GPT‑5 također pruža podršku za minimal, što minimizira rezonovanje GPT‑5 kako bi brzo vratio odgovor.

Veće vrijednosti reasoning_effort maksimiziraju kvalitet, dok niže vrijednosti maksimiziraju brzinu. Nisu svi zadaci jednako korisni od dodatnog rezonovanja, stoga preporučujemo da eksperimentirate kako biste vidjeli šta najbolje funkcioniše za slučajeve upotrebe koji su vam važni.

Na primjer, rezonovanje iznad low malo doprinosi relativno jednostavnom pronalaženju dugog konteksta, ali dodaje popriličan broj procentnih poena CharXiv Reasoning(otvara se u novom prozoru), mjerilu vizualnog rezonovanja.

Napor rasuđivanja GPT‑5 donosi različite koristi na različitim zadacima. Za CharXiv Reasoning, GPT‑5 je dobio pristup Python alatu.

Rječitost

Kako bismo pomogli u usmjeravanju predodređene dužine odgovora GPT‑5, uveli smo novi API parametar verbosity, koji može imati vrijednosti low, medium (predodređeno) i high. Ako su eksplicitne upute u sukobu s parametrima opširnosti, eksplicitne upute imaju prednost. Na primjer, ako od GPT‑5 zatražite da „napiše esej od 5 paragrafa“, odgovor modela uvijek treba biti 5 paragrafa bez obzira na razinu opširnosti (međutim, sami paragrafi mogu biti duži ili kraći).

Verbosity=nisko

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=srednje

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=visoko

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Uvodne poruke prije poziva alata

Ako se naloži, GPT‑5 će prikazati korisnički vidljive preambulne poruke prije i između poziva alata. Za razliku od skrivenih poruka rezonovanja, ove vidljive poruke omogućavaju GPT‑5 da komunicira planove i napredak korisniku, pomažući krajnjim korisnicima da razumiju njegov pristup i namjeru iza poziva alata.

Prilagođeni alati

Predstavljamo novi tip alata – prilagođene alate – koji omogućava GPT‑5 da pozove alat sa čistim tekstom umjesto JSON-a. Da biste ograničili GPT‑5 na praćenje prilagođenih formata alata, programeri mogu obezbijediti regex ili čak potpunije specificiranu gramatiku bez konteksta(otvara se u novom prozoru).

Ranije je naš interfejs za alate koje definišu programeri zahtijevao da se pozivaju pomoću JSON-a, uobičajenog formata koji koriste web API-ji i programeri općenito. Međutim, za ispravan izlaz JSON-a, model mora savršeno obraditi sve navodnike, povratne kose crte, nove linije i druge kontrolne karaktere. Iako su naši modeli dobro obučeni za izlaz JSON-a, kod dugih unosa poput stotina linija koda ili izvještaja od 5 stranica, vjerovatnoća greške raste. Uz prilagođene alate, GPT‑5 može pisati unos alata kao običan tekst, bez potrebe za izbjegavanjem svih karaktera koji zahtijevaju izbjegavanje.

Na SWE-bench Potvrđeno korištenjem prilagođenih alata umjesto JSON alata, GPT‑5 postiže približno isti rezultat.

Sigurnost

GPT‑5 pomiče granice sigurnosti i predstavlja robusniji, pouzdaniji i korisniji model. GPT‑5 je znatno manje sklon halucinacijama nego naši prethodni modeli, iskrenije komunicira svoje radnje i mogućnosti korisniku i pruža najkorisniji odgovor gdje je to moguće, a da pritom ostane unutar sigurnosnih granica. Više možete pročitati na našem istraživačkom blogu.

Dostupnost i cijene

GPT‑5 je sada dostupan na API platformi u tri veličine: gpt-5, gpt-5-mini, i gpt-5-nano. Dostupan je na Responses API-ju, chat Completions API-ju i predodređeno je u Codex CLI-ju. GPT‑5 je cijenjen na $1,25/1M ulaznih tokena i $10/1M izlaznih tokena, GPT‑5 mini je cijenjen na $0,25/1M ulaznih tokena i $2/1M izlaznih tokena, a GPT‑5 nano je cijenjen na $0,05/1M ulaznih tokena i $0,40/1M izlaznih tokena.

Ovi modeli imaju podršku za API parametre reasoning_effort i verbosity, kao i prilagođene alate. Oni, također, podržavaju paralelno pozivanje alata, ugrađene alate (web pretraga, pretraga datoteka, generisanje slika i još mnogo toga), osnovne API funkcije (streaming, strukturirani izlazi i još mnogo toga), te funkcije za uštedu troškova kao što su keširanje upita i Batch API.

Nerazmišljajuća verzija GPT‑5 korištena u ChatGPT‑u dostupna je u API-ju kao gpt-5-chat-latest, također po cijeni od 1,25 USD/1M ulaznih tokena i 10 USD/1M izlaznih tokena.

GPT‑5 se također pokreće na Microsoftovim platformama, uključujući Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.

Detaljni benchmarki

Inteligencija
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Postoji mala neslaganja sa brojevima prijavljenim u našem prethodnom blog postu, jer su oni pokrenuti na starijoj verziji HLE-a.

Višemodalni
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Kodiranje
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 hilj. USD75 hilj. USD49 hilj. USD86 hilj. USD66 hilj. USD34 hilj. USD31 hilj. USD9 hilj. USD
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Izostavljamo 23/500 problema koji se ne mogu pokrenuti na našoj infrastrukturi. Kompletna lista od 23 izostavljena zadatka je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.

Praćenje uputstava
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Napomena: utvrdili smo da zadani ocjenjivač u MultiChallengeu (GPT-4o) često pogrešno ocjenjuje odgovore modela. Utvrdili smo da zamjena ocjenjivača modelom za rezoniranje, poput o3‑mini, značajno poboljšava točnost ocjenjivanja na uzorcima koje smo pregledali.

Pozivanje funkcija
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Dugi kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Halucinacije
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Autor

OpenAI