7. avgust 2025

Predstavljamo GPT‑5 za razvijalce

Najboljši model za kodiranje in agentne naloge.

Nalaganje …

Uvod

Danes na naši platformi API predstavljamo GPT‑5 – naš doslej najboljši model za kodiranje in agentne naloge.

GPT‑5 je najsodobnejši in vrhunski model na ključnih merilih za kodiranje, saj je dosegel 74,9 % na SWE-bench Verified in 88 % na Aider polyglot. GPT‑5 smo usposobili tako, da je pravi sodelavec pri programiranju. Odlikuje se pri ustvarjanju visokokakovostne kode in obvladovanju nalog, kot so odpravljanje napak, urejanje kode in odgovarjanje na vprašanja o kompleksnih zbirkah kode. Model je vodljiv in sodelovalen – z visoko natančnostjo lahko sledi zelo podrobnim navodilom in vnaprej lahko pojasni svoja dejanja pred in med klici orodij. Model prav tako blesti pri kodiranju ospredja, saj v internem testiranju v 70 % primerov premaga OpenAI o3 pri razvoju spletnih vmesnikov.

GPT‑5 smo usposobili za naloge kodiranja iz resničnega sveta v sodelovanju z zgodnjimi preizkuševalci iz zagonskih podjetij in velikih podjetij. Cursor pravi, da je GPT‑5 »najpametnejši model, ki so ga uporabili« in je »izjemno inteligenten, enostaven za usmerjanje in ima celo osebnost, ki je pri drugih modelih še niso videli«. Windsurf je delil, da je GPT‑5 vrhunski po njihovih ocenah in »ima polovico nižjo stopnjo napak pri klicanju orodij v primerjavi z drugimi modeli na meji zmogljivosti«. Vercel pravi, da je »to najboljši model umetne inteligence za ospredje, ki dosega vrhunsko zmogljivost tako v estetskem smislu kot v kakovosti kode, kar ga uvršča v svojo lastno kategorijo.«

GPT‑5 izstopa tudi pri dolgotrajnih agentnih nalogah – dosega vrhunske rezultate na τ²-bench telecom (96,7 %), meritveno orodje za klicanje, izdano pred komaj dvema mesecema. Izboljšana inteligenca orodij GPT‑5 omogoča zanesljivo povezovanje več ducatov klicev orodij – tako zaporedno kot vzporedno – brez izgube smeri, zaradi česar je veliko boljša pri izvajanju kompleksnih nalog iz resničnega sveta od začetka do konca. Prav tako natančneje sledi navodilom orodja, je boljši pri obravnavi napak orodij in izstopa pri pridobivanju vsebin iz dolgega sobesedila. Manus pravi, da je GPT‑5 »dosegel najboljšo zmogljivost, kar so jo kdaj videli pri enem samem modelu na njihovih internih merilih uspešnosti.« Notion pravi: »Hitri odzivi [Modela], še posebej v načinu nizkega razmišljanja, naredijo GPT‑5 idealen model, ko potrebujete kompleksne naloge rešiti v prvem poskusu.« Inditex je delil: »Kar resnično loči [GPT‑5] od drugih, je globina njegovega razmišljanja: niansirani, večplastni odgovori, ki odražajo resnično razumevanje tematike.«

V naš API uvajamo nove funkcije, da bi razvijalcem omogočili večji nadzor nad odzivi modelov. GPT‑5 podpira nov parameter verbosity (zgovornost) (vrednosti: nizka, srednja, visoka), ki vam pomaga nadzorovati, ali so odgovori kratki in jedrnati ali dolgi in celoviti. Parameter reasoning_effort (prizadevanje pri razmišljanju) GPT‑5 lahko zdaj zavzame minimalno vrednost, da hitreje prejmete odgovore, brez obsežnega razmišljanja. Dodali smo tudi novo vrsto orodja – orodja po meri –, ki omogočajo, da GPT‑5 kliče orodja z navadnim besedilom namesto JSON. Orodja po meri podpirajo omejevanje s sobesedilno prostimi slovnicami, ki jih zagotovi razvijalec.

Izdajamo GPT‑5 v treh velikostih v API-ju – gpt-5, gpt-5-mini in gpt-5-nano – da bi razvijalcem omogočili večjo prilagodljivost pri izbiri med zmogljivostjo, stroški in zakasnitvijo. Medtem ko je GPT‑5 v ChatGPT sistem za model sklepanja, nesklepanja in usmerjanja, je GPT‑5 na API platformi model sklepanja, ki zagotavlja največjo zmogljivost v ChatGPT. Pomembno je, da je GPT‑5 z minimalnim sklepanjem drugačen model kot model brez sklepanja v ChatGPT in je bolje prilagojen razvijalcem. Model brez sklepanja, ki se uporablja v ChatGPT, je na voljo kot gpt-5-chat-latest.

Če želite prebrati o GPT‑5 v ChatGPT in izvedeti več o drugih izboljšavah ChatGPT, obiščite naš raziskovalni blog. Za več informacij o tem, kako so podjetja navdušena nad uporabo GPT‑5, si oglejte naš poslovni blog⁠.

Programiranje

GPT‑5 je najmočnejši model za kodiranje, ki smo ga kdaj izdali. Prekaša o3 v merilih kodiranja in primerih uporabe v resničnem svetu ter je bil izpopolnjen, da izstopa v izdelkih za agentno kodiranje, kot so Cursor, Windsurf, GitHub Copilot in Codex CLI. GPT‑5 je navdušil naše alfa preizkuševalce in postavil rekorde na številnih njihovih zasebnih internih vrednotenjih.

Zgodnje povratne informacije o GPT‑5 za naloge kodiranja v resničnem svetu

»GPT-5 je najpametnejši model za kodiranje, ki smo ga uporabili. Naša ekipa je ugotovila, da je GPT-5 izjemno inteligenten, enostaven za upravljanje in ima celo osebnost, ki je nismo opazili v nobenem drugem modelu. Ne le zazna zapletene, globoko skrite hrošče, temveč lahko tudi zažene dolge, večstopenjske agente v ozadju, da do konca reši kompleksne naloge – tiste vrste težav, zaradi katerih so drugi modeli prej obtičali. To je postalo naše vsakodnevno orodje za vse, od določanja obsega in načrtovanja PR-jev do dokončanja celovitih projektov.«

Michael Truell, soustanovitelj in izvršni direktor Cursor

Na SWE-bench Verified, vrednotenju, ki temelji na resničnih nalogah programskega inženiringa, GPT‑5 dosega 74,9 %, kar je več kot o3 s 69,1 %. Omeniti velja, da GPT‑5 doseže svoj visok rezultat z večjo učinkovitostjo in hitrostjo: v primerjavi z o3 pri visokem prizadevanju za sklepanje GPT‑5 uporablja 22 % manj izhodnih žetonov in 45 % manj klicev orodij.

V SWE-bench Verified⁠ je modelu dodeljen repozitorij kode in opis težave, nato pa mora ustvariti popravek za rešitev te težave. Besedilne oznake nakazujejo trud pri razmišljanju. Naši rezultati izpuščajo 23 od 500 problemov, katerih rešitve niso zanesljivo prestale preizkusa na naši infrastrukturi. GPT‑5 je prejel kratek poziv, ki je poudarjal temeljito preverjanje rešitev; isti poziv ni koristil o3.

Na Aider polyglot, pri oceni urejanja kode, GPT‑5 postavlja nov rekord z 88 %, kar pomeni za tretjino manjšo stopnjo napak v primerjavi z o3.

V Aider polygot⁠(odpre se v novem oknu) (diff) je modelu dana vaja kodiranja iz Exercism in mora svojo rešitev napisati kot razliko kode. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.

Ugotovili smo tudi, da je GPT‑5 odličen pri poglobljenem raziskovanju zbirk kode za odgovarjanje na vprašanja o tem, kako različni deli delujejo samostojno ali medsebojno. V tako zapleteni zbirki kode, kot je OpenAI-jev sklad za okrepljeno učenje, ugotavljamo, da nam GPT‑5 lahko pomaga pri utemeljevanju in odgovarjanju na vprašanja o naši kodi, kar pospešuje naše vsakodnevno delo.

Inženiring ospredja

Pri izdelavi kode ospredja za spletne aplikacije je GPT‑5 bolj estetsko naravnan, ambiciozen in natančen. V vzporednih primerjavah z o3 so naši preizkuševalci v 70 % primerov dali prednost GPT‑5.

Tukaj je nekaj zabavnih, skrbno izbranih primerov, kaj lahko GPT‑5 naredi z enim samim pozivom:

Poziv: Generiraj čudovito, realistično uvodno stran za storitev, ki ljubiteljem kave zagotavlja 200 USD mesečno naročnino, ki zagotavlja najem opreme in svetovanje za praženje kave in pripravo vrhunskega espressa. Ciljno občinstvo je oseba srednjih let iz zaliva, ki morda dela na področju tehnologije, je izobražena, ima razpoložljiv dohodek ter je navdušena nad umetnostjo in znanostjo kave. Optimiziraj za konverzijo za 6-mesečno prijavo.

Več primerov GPT‑5 si lahko ogledate v naši galeriji tukaj⁠(odpre se v novem oknu).

Sodelovanje pri programiranju

GPT‑5 je boljši sodelavec, zlasti v izdelkih za agentno kodiranje, kot so Cursor, Windsurf, GitHub Copilot in Codex CLI. Medtem ko deluje, lahko GPT‑5 med klici orodij ustvari izhode, kot so načrti, posodobitve in povzetki. V primerjavi z našimi prejšnjimi modeli je GPT‑5 bolj proaktiven pri izpolnjevanju ambicioznih nalog, ne da bi čakal na vaše dovoljenje ali se obotavljal pri visoki kompleksnosti.

Tukaj je primer, kako je lahko GPT‑5 videti pri reševanju kompleksne naloge (v tem primeru, ustvari spletno stran za restavracijo):

Ko uporabnik zahteva spletno stran za svojo restavracijo, GPT‑5 deli hiter načrt, postavi ogrodje aplikacije, namesti odvisnosti, ustvari vsebino strani, izvede gradnjo za preverjanje napak pri prevajanju, povzame svoje delo in predlaga morebitne naslednje korake. Ta video je bil pospešen ~3x, da vam prihranimo čakanje; celotno trajanje ustvarjanja spletne strani je bilo približno tri minute.

Agentne naloge

Poleg agentnega kodiranja je GPT‑5 na splošno boljši pri agentnih nalogah. GPT‑5 postavlja nove rekorde na merilih sledenja navodilom (69,6 % na lestvici Scale MultiChallenge, po oceni o3‑mini) in klicanju orodij (96,7 % na τ²-bench telecom). Izboljšana inteligenca orodij omogoča GPT‑5, da zanesljiveje povezuje dejanja za opravljanje realnih nalog.

Zgodnje povratne informacije o GPT‑5 za agentne naloge

»GPT-5 je velik korak naprej. Na naših internih merilih uspešnosti je dosegel najboljšo zmogljivost, kar smo jih kdaj videli pri enem samem modelu. GPT-5 je blestel pri različnih agentnih nalogah – še preden smo popravili eno vrstico kode ali prilagodili poziv. Novi uvodi in natančnejši nadzor nad uporabo orodij so omogočili pomemben preskok v stabilnosti in usmerljivosti naših agentov.«

Yichao 'Peak' Ji, soustanovitelj in glavni znanstvenik pri Manus

Sledenje navodilom

GPT‑5 sledi navodilom zanesljiveje kot kateri koli od svojih predhodnikov, saj je dosegel visoke ocene na testih COLLIE, Scale MultiChallenge in naši interni oceni sledenja navodilom.

V COLLIE⁠(odpre se v novem oknu) morajo modeli pisati besedilo, ki izpolnjuje različne omejitve. V Scale MultiChallenge⁠(odpre se v novem oknu) so modeli izzvani v večpoteznih pogovorih, da pravilno uporabijo štiri vrste informacij iz prejšnjih sporočil. Naši rezultati izhajajo iz uporabe o3‑mini kot ocenjevalnika, ki je bil natančnejši od GPT‑4o. V naši interni evalvaciji sledenja navodilom za OpenAI API morajo modeli slediti zahtevnim navodilom, ki izhajajo iz dejanskih povratnih informacij razvijalcev. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.

Priklic orodja

Trdo smo delali na izboljšanju klicanja orodij na načine, ki so pomembni za razvijalce. GPT‑5 je boljši pri sledenju navodilom orodja, pri odpravljanju napak orodja in pri proaktivnem izvajanju številnih klicev orodja zaporedno ali vzporedno. Ko je to zahtevano, lahko GPT‑5 tudi ustvari izhodna uvodna sporočila pred in med klici orodij, da obvešča uporabnike o napredku med daljšimi agentnimi nalogami.

Pred dvema mesecema je Sierra.ai objavil τ²-bench telecom kot zahtevno merilo uporabe orodij, ki je poudarilo, kako zmogljivost jezikovnega modela znatno pade pri interakciji z okoljem, ki ga lahko uporabniki spremenijo. V njihovi objavi⁠(odpre se v novem oknu) noben model ni dosegel več kot 49 %. GPT‑5 dosega 97 %.

V τ2-bench⁠(odpre se v novem oknu) mora model uporabljati orodja za izvedbo naloge za pomoč strankam, kjer lahko obstaja uporabnik, ki lahko komunicira in izvaja dejanja na stanju sveta. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.

GPT‑5 kaže tudi močne izboljšave pri delovanju v dolgem sobesedilu. Na OpenAI-MRCR, merilu za dolgoročno kontekstno pridobivanje informacij, GPT‑5 presega o3 in GPT‑4.1 za razliko, ki znatno raste z daljšimi vnosnimi dolžinami.

V OpenAI-MRCR⁠(odpre se v novem oknu) (večkrožna soreferenčna ločljivost) se več enakih uporabniških zahtevkov tipa »igla« vstavi v dolge »kopice sena« podobnih zahtev in odgovorov, model pa se pozove, da reproducira odgovor na i-to iglo. Povprečno razmerje ujemanja meri povprečno razmerje ujemanja med odzivom modela in pravilnim odgovorom. Točke pri največ 256k vnosnih žetonih predstavljajo povprečja nad 128k–256k vnosnih žetonov in tako naprej. Tukaj 256k predstavlja 256 * 1.024 = 262.144 žetonov. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.

Prav tako odpiramo kodo za BrowseComp Long Context⁠(odpre se v novem oknu), novo merilo za ocenjevanje vprašanj in odgovorov z dolgim kontekstom. V tem merilu uspešnosti model prejme uporabnikovo poizvedbo, dolg seznam ustreznih rezultatov iskanja in mora odgovoriti na vprašanje na podlagi teh rezultatov. Merilo BrowseComp Long Context smo zasnovali tako, da je realistično, zahtevno in zagotavlja zanesljivo pravilne odgovore na podlagi resničnih podatkov. Pri vnosih, ki obsegajo 128K–256K žetonov GPT‑5 poda pravilen odgovor v 89 % primerov.

V API-ju lahko vsi modeli GPT‑5 sprejmejo največ 272.000 vnosnih žetonov in oddajo največ 128.000 žetonov za sklepanje in izhode, kar skupaj pomeni dolžino konteksta 400.000 žetonov.

Dejanskost

GPT‑5 je bolj zanesljiv kot naši prejšnji modeli. Na podlagi pozivov iz primerjalnih testov LongFact in FactScore GPT‑5 naredi ~80 % manj dejanskih napak kot o3. To ga naredi bolj primernega za agentne primere uporabe, kjer je pravilnost ključna – še posebej pri kodiranju, podatkih in sprejemanju odločitev.

Višje ocene so slabše. LongFact⁠(odpre se v novem oknu) in FActScore⁠(odpre se v novem oknu) sestavljata odprta vprašanja za iskanje dejstev. Uporabljamo ocenjevalnik na osnovi LLM z brskanjem za preverjanje odgovorov na pozive iz teh meril in merjenje deleža dejansko napačnih trditev. Podrobnosti o izvedbi in ocenjevanju lahko najdete v sistemski kartici⁠. Modeli sklepanja so zahtevali veliko truda pri sklepanju. Iskanje ni bilo omogočeno.

Na splošno je bil GPT‑5 usposobljen, da se bolj zaveda svojih omejitev in se bolje spopada z nepričakovanimi izzivi. Prav tako smo GPT‑5 usposobili tako, da je veliko natančnejši pri zdravstvenih vprašanjih (več preberite v našem raziskovalnem blogu). Kot pri vseh jezikovnih modelih priporočamo, da v pomembnih primerih preverite pravilnost dela GPT‑5.

Nove funkcije

Minimalno prizadevanje pri sklepanju

Razvijalci lahko nadzorujejo čas razmišljanja GPT‑5 prek parametra reasoning_effort v API-ju. Poleg prejšnjih vrednosti – nizka, srednja (privzeto) in visoka – GPT‑5 podpira tudi minimalna, ki zmanjšuje sklepanje GPT‑5 za hitro vrnitev odgovora.

Višje vrednosti parametra reasoning_effort povečujejo kakovost, nižje vrednosti pa povečujejo hitrost. Dodatno sklepanje ne koristi vsem nalogam, zato priporočamo, da eksperimentirate in ugotovite, katera najbolj ustreza primerom uporabe, ki vas zanimajo.

Na primer, sklepanje nad stopnjo nizka le malo prispeva k relativno preprostem iskanju dolgega konteksta, vendar doda kar nekaj odstotnih točk pri izvedbi CharXiv Reasoning⁠(odpre se v novem oknu), merilu za vizualno sklepanje.

Razmišljanje GPT‑5 prinaša različne koristi pri različnih nalogah. Za CharXiv Reasoning je GPT‑5 dobil dostop do orodja Python.

Zgovornost

Da bi lažje usmerjali privzeto dolžino odgovorov GPT‑5, smo uvedli nov parameter API-ja verbosity (zgovornost), ki sprejema vrednosti low (nizko), medium (srednje) (privzeto) in high (visoko). Če so izrecna navodila v nasprotju s parametri zgovornosti, imajo prednost izrecna navodila. Na primer, če od modela GPT‑5 zahtevate, naj »napiše esej s 5 odstavki«, mora biti odgovor modela vedno sestavljen iz 5 odstavkov, ne glede na raven podrobnosti (vendar so lahko sami odstavki daljši ali krajši).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Uvodna sporočila pred klici orodij

Če je tako določeno, bo GPT‑5 pred in med klici orodja prikazal uporabniku vidna uvodna sporočila. Za razliko od skritih sporočil o sklepanju ta vidna sporočila omogočajo GPT‑5, da uporabniku posreduje načrte in napredek, kar končnim uporabnikom pomaga razumeti njegov pristop in namen za klice orodij.

Prilagojena orodja

Predstavljamo novo vrsto orodja – orodja po meri – ki omogočajo, da GPT‑5 pokliče orodje z navadnim besedilom namesto z JSON. Da bi omejili GPT‑5, da sledi prilagojenim oblikam orodij, lahko razvijalci predložijo regex ali celo bolj natančno določeno slovnico brez konteksta⁠(odpre se v novem oknu).

Predhodno je naš vmesnik za orodja, ki jih definirajo razvijalci, zahteval, da so bila ta klicana z JSON-om, običajnim formatom, ki ga uporabljajo spletni API-ji in razvijalci na splošno. Vendar pa za izhod veljavnega JSON model zahteva popolno ubežanje vseh narekovajev, poševnic, novih vrstic in drugih kontrolnih znakov. Čeprav so naši modeli dobro usposobljeni za izhod JSON-a, se pri dolgih vnosih, kot so stotine vrstic kode ali petstransko poročilo, verjetnost napake poveča. Z orodji po meri lahko GPT‑5 zapiše vnos orodij kot navadno besedilo, ne da bi bilo treba ubežati vsem znakom, ki zahtevajo ubežanje.

Na SWE-bench Verified z uporabo prilagojenih orodij namesto JSON orodij GPT‑5 dosega približno enak rezultat.

Varnost

GPT‑5 napreduje na področju varnosti in je bolj robusten, zanesljiv ter uporaben model. GPT‑5 je bistveno manj nagnjen k halucinacijam kot naši prejšnji modeli, bolj iskreno sporoča svoja dejanja in zmogljivosti uporabniku ter ponuja najbolj uporaben odgovor, kjer je to mogoče, hkrati pa ostaja znotraj varnostnih meja. Več si lahko preberete v našem raziskovalnem blogu.

Razpoložljivost in cenik

GPT‑5 je zdaj na voljo na platformi API v treh velikostih: gpt-5, gpt-5-mini in gpt-5-nano. Na voljo je v Responses API, Chat Completions API in je privzeto v Codex CLI. GPT‑5 ima ceno 1,25 $/1M vnosnih žetonov in 10 $/1M izhodnih žetonov, GPT‑5 mini ima ceno 0,25 $/1M vnosnih žetonov in 2 $/1M izhodnih žetonov, GPT‑5 nano pa 0,05 $/1M vnosnih žetonov in 0,40 $/1M izhodnih žetonov.

Ti modeli podpirajo parametre API reasoning_effort in verbosity ter prilagojena orodja. Podpirajo tudi vzporedno klicanje orodij, vgrajena orodja (spletno iskanje, iskanje datotek, generiranje slik in še več), osnovne funkcije API-ja (pretakanje, strukturirani izhodi in še več) ter funkcije za varčevanje stroškov, kot so predpomnjenje pozivov in Batch API.

Različica GPT‑5 brez sklepanja, ki se uporablja v ChatGPT, je na voljo v API-ju kot gpt-5-chat-latest, prav tako po ceni 1,25 USD/1M vnosnih žetonov in 10 USD/1M izhodnih žetonov.

GPT‑5 se uvaja tudi na Microsoftovih platformah, vključno z Microsoft 365 Copilot, Copilot, GitHub Copilot in Azure AI Foundry.

Oglejte si dokumentacijo⁠(odpre se v novem oknu) GPT‑5, podrobnosti o cenah⁠(odpre se v novem oknu) in vodnik za pozive⁠(odpre se v novem oknu), da začnete.

Podrobna merila uspešnosti

Inteligenca

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94,6 %	91,1 %	85,2 %	88,9 %	92,7 %	46,4 %	40,2 %	-
FrontierMath(with python tool only)	26,3 %	22,1 %	9,6 %	15,8 %	15,4 %	-	-	-
GPQA diamond(no tools)	85,7 %	82,3 %	71,2 %	83,3 %	81,4 %	66,3 %	65,0 %	50,3 %
HLE^[1](no tools)	24,8 %	16,7 %	8,7 %	20,2 %	14,7 %	5,4 %	3,7 %	-
HMMT 2025(no tools)	93,3 %	87,8 %	75,6 %	81,7 %	85,0 %	28,9 %	35,0 %	-

[1] Obstaja majhno odstopanje pri številkah, ki smo jih navedli v prejšnjem prispevku na blogu, saj so bile te številke izračunane v prejšnji različici HLE.

Multimodalnost

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84,2 %	81,6 %	75,6 %	82,9 %	81,6 %	74,8 %	72,7 %	55,4 %
MMMU-Pro(avg across standard and vision sets)	78,4 %	74,1 %	62,6 %	76,4 %	73,4 %	60,3 %	58,9 %	33,0 %
CharXiv reasoning(python enabled)	81,1 %	75,5 %	62,7 %	78,6 %	72,0 %	56,7 %	56,8 %	40,5 %
VideoMMMU, max frame 256	84,6 %	82,5 %	66,8 %	83,3 %	79,4 %	60,9 %	55,1 %	30,2 %
ERQA	65,7 %	62,9 %	50,1 %	64,0 %	56,5 %	44,3 %	42,3 %	26,5 %

Programiranje

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	112 tis. $	75 tis. $	49 tis. $	86 tis. $	66 tis. $	34 tis. $	31 tis. $	9 tis. $
SWE-bench Verified^[2]	74,9 %	71,0 %	54,7 %	69,1 %	68,1 %	54,6 %	23,6 %	-
Aider polyglot(diff)	88,0 %	71,6 %	48,4 %	79,6 %	58,2 %	52,9 %	31,6 %	6,2 %

[2] Izpustimo 23/500 problemov, ki jih ni mogoče izvajati na naši infrastrukturi. Celoten seznam 23 izpuščenih nalog je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', in 'sphinx-doc__sphinx-9367'.

Sledenje navodilom

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69,6 %	62,3 %	54,9 %	60,4 %	57,5 %	46,2 %	42,2 %	31,1 %
Internal API instruction following eval(hard)	64,0 %	65,8 %	56,1 %	47,4 %	44,7 %	49,1 %	45,1 %	31,6 %
COLLIE	99,0 %	98,5 %	96,9 %	98,4 %	96,1 %	65,8 %	54,6 %	42,5 %

[3] Opomba: ugotovili smo, da privzeti ocenjevalec v MultiChallenge (GPT-4o) pogosto napačno oceni odgovore modela. Ugotovili smo, da zamenjava ocenjevalca z modelom za sklepanje, kot je o3-mini, znatno izboljša natančnost ocenjevanja na vzorcih, ki smo jih pregledali.

Klicanje funkcij

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62,6 %	60,0 %	41,0 %	64,8 %	60,2 %	56,0 %	51,0 %	14,0 %
Tau²-bench retail	81,1 %	78,3 %	62,3 %	80,2 %	70,5 %	74,0 %	66,0 %	21,5 %
Tau²-bench telecom	96,7 %	74,1 %	35,5 %	58,2 %	40,5 %	34,0 %	44,0 %	12,1 %

Dolg kontekst

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95,2 %	84,3 %	43,2 %	55,0 %	56,4 %	57,2 %	47,2 %	36,6 %
OpenAI-MRCR: 2 needle 256k	86,8 %	58,8 %	34,9 %	-	-	56,2 %	45,5 %	22,6 %
Graphwalks bfs <128k	78,3 %	73,4 %	64,0 %	77,3 %	62,3 %	61,7 %	61,7 %	25,0 %
Graphwalks parents <128k	73,3 %	64,3 %	43,8 %	72,9 %	51,1 %	58,0 %	60,5 %	9,4 %
BrowseComp Long Context 128k	90,0 %	89,4 %	80,4 %	88,3 %	80,0 %	85,9 %	89,0 %	89,4 %
BrowseComp Long Context 256k	88,8 %	86,0 %	68,4 %	-	-	75,5 %	81,6 %	19,1 %
VideoMME(long, with subtitle category)	86,7 %	78,5 %	65,7 %	84,9 %	79,5 %	78,7 %	68,4 %	55,2 %

Halucinacije

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1,0 %	0,7 %	1,0 %	5,2 %	3,0 %	0,7 %	1,1 %	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1,2 %	1,3 %	2,8 %	6,8 %	8,9 %	1,1 %	1,8 %	-
FActScore hallucination rate(no tools)[lower is better]	2,8 %	3,5 %	7,3 %	23,5 %	38,7 %	6,7 %	10,9 %	-

2025

Avtor

OpenAI

Berite naprej

Prikaži vse

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 je zdaj prednostni model v storitvi Microsoft 365 Copilot

Izdelek9. jul. 2026

ChatGPT je zdaj partner pri vašem najambicioznejšem delu

Izdelek9. jul. 2026

GPT-5.6: Prelomna inteligenca, ki raste z vašimi ambicijami

Izdelek9. jul. 2026