Danes na naši platformi API predstavljamo GPT‑5 – naš doslej najboljši model za kodiranje in agentne naloge.
GPT‑5 je najsodobnejši in vrhunski model na ključnih merilih za kodiranje, saj je dosegel 74,9 % na SWE-bench Verified in 88 % na Aider polyglot. GPT‑5 smo usposobili tako, da je pravi sodelavec pri programiranju. Odlikuje se pri ustvarjanju visokokakovostne kode in obvladovanju nalog, kot so odpravljanje napak, urejanje kode in odgovarjanje na vprašanja o kompleksnih zbirkah kode. Model je vodljiv in sodelovalen – z visoko natančnostjo lahko sledi zelo podrobnim navodilom in vnaprej lahko pojasni svoja dejanja pred in med klici orodij. Model prav tako blesti pri kodiranju ospredja, saj v internem testiranju v 70 % primerov premaga OpenAI o3 pri razvoju spletnih vmesnikov.
GPT‑5 smo usposobili za naloge kodiranja iz resničnega sveta v sodelovanju z zgodnjimi preizkuševalci iz zagonskih podjetij in velikih podjetij. Cursor pravi, da je GPT‑5 »najpametnejši model, ki so ga uporabili« in je »izjemno inteligenten, enostaven za usmerjanje in ima celo osebnost, ki je pri drugih modelih še niso videli«. Windsurf je delil, da je GPT‑5 vrhunski po njihovih ocenah in »ima polovico nižjo stopnjo napak pri klicanju orodij v primerjavi z drugimi modeli na meji zmogljivosti«. Vercel pravi, da je »to najboljši model umetne inteligence za ospredje, ki dosega vrhunsko zmogljivost tako v estetskem smislu kot v kakovosti kode, kar ga uvršča v svojo lastno kategorijo.«
GPT‑5 izstopa tudi pri dolgotrajnih agentnih nalogah – dosega vrhunske rezultate na τ2-bench telecom (96,7 %), meritveno orodje za klicanje, izdano pred komaj dvema mesecema. Izboljšana inteligenca orodij GPT‑5 omogoča zanesljivo povezovanje več ducatov klicev orodij – tako zaporedno kot vzporedno – brez izgube smeri, zaradi česar je veliko boljša pri izvajanju kompleksnih nalog iz resničnega sveta od začetka do konca. Prav tako natančneje sledi navodilom orodja, je boljši pri obravnavi napak orodij in izstopa pri pridobivanju vsebin iz dolgega sobesedila. Manus pravi, da je GPT‑5 »dosegel najboljšo zmogljivost, kar so jo kdaj videli pri enem samem modelu na njihovih internih merilih uspešnosti.« Notion pravi: »Hitri odzivi [Modela], še posebej v načinu nizkega razmišljanja, naredijo GPT‑5 idealen model, ko potrebujete kompleksne naloge rešiti v prvem poskusu.« Inditex je delil: »Kar resnično loči [GPT‑5] od drugih, je globina njegovega razmišljanja: niansirani, večplastni odgovori, ki odražajo resnično razumevanje tematike.«
V naš API uvajamo nove funkcije, da bi razvijalcem omogočili večji nadzor nad odzivi modelov. GPT‑5 podpira nov parameter verbosity (zgovornost) (vrednosti: nizka, srednja, visoka), ki vam pomaga nadzorovati, ali so odgovori kratki in jedrnati ali dolgi in celoviti. Parameter reasoning_effort (prizadevanje pri razmišljanju) GPT‑5 lahko zdaj zavzame minimalno vrednost, da hitreje prejmete odgovore, brez obsežnega razmišljanja. Dodali smo tudi novo vrsto orodja – orodja po meri –, ki omogočajo, da GPT‑5 kliče orodja z navadnim besedilom namesto JSON. Orodja po meri podpirajo omejevanje s sobesedilno prostimi slovnicami, ki jih zagotovi razvijalec.
Izdajamo GPT‑5 v treh velikostih v API-ju – gpt-5, gpt-5-mini in gpt-5-nano – da bi razvijalcem omogočili večjo prilagodljivost pri izbiri med zmogljivostjo, stroški in zakasnitvijo. Medtem ko je GPT‑5 v ChatGPT sistem za model sklepanja, nesklepanja in usmerjanja, je GPT‑5 na API platformi model sklepanja, ki zagotavlja največjo zmogljivost v ChatGPT. Pomembno je, da je GPT‑5 z minimalnim sklepanjem drugačen model kot model brez sklepanja v ChatGPT in je bolje prilagojen razvijalcem. Model brez sklepanja, ki se uporablja v ChatGPT, je na voljo kot gpt-5-chat-latest.
Če želite prebrati o GPT‑5 v ChatGPT in izvedeti več o drugih izboljšavah ChatGPT, obiščite naš raziskovalni blog. Za več informacij o tem, kako so podjetja navdušena nad uporabo GPT‑5, si oglejte naš poslovni blog.
GPT‑5 je najmočnejši model za kodiranje, ki smo ga kdaj izdali. Prekaša o3 v merilih kodiranja in primerih uporabe v resničnem svetu ter je bil izpopolnjen, da izstopa v izdelkih za agentno kodiranje, kot so Cursor, Windsurf, GitHub Copilot in Codex CLI. GPT‑5 je navdušil naše alfa preizkuševalce in postavil rekorde na številnih njihovih zasebnih internih vrednotenjih.
Zgodnje povratne informacije o GPT‑5 za naloge kodiranja v resničnem svetu
»GPT-5 je najpametnejši model za kodiranje, ki smo ga uporabili. Naša ekipa je ugotovila, da je GPT-5 izjemno inteligenten, enostaven za upravljanje in ima celo osebnost, ki je nismo opazili v nobenem drugem modelu. Ne le zazna zapletene, globoko skrite hrošče, temveč lahko tudi zažene dolge, večstopenjske agente v ozadju, da do konca reši kompleksne naloge – tiste vrste težav, zaradi katerih so drugi modeli prej obtičali. To je postalo naše vsakodnevno orodje za vse, od določanja obsega in načrtovanja PR-jev do dokončanja celovitih projektov.«
Na SWE-bench Verified, vrednotenju, ki temelji na resničnih nalogah programskega inženiringa, GPT‑5 dosega 74,9 %, kar je več kot o3 s 69,1 %. Omeniti velja, da GPT‑5 doseže svoj visok rezultat z večjo učinkovitostjo in hitrostjo: v primerjavi z o3 pri visokem prizadevanju za sklepanje GPT‑5 uporablja 22 % manj izhodnih žetonov in 45 % manj klicev orodij.
V SWE-bench Verified je modelu dodeljen repozitorij kode in opis težave, nato pa mora ustvariti popravek za rešitev te težave. Besedilne oznake nakazujejo trud pri razmišljanju. Naši rezultati izpuščajo 23 od 500 problemov, katerih rešitve niso zanesljivo prestale preizkusa na naši infrastrukturi. GPT‑5 je prejel kratek poziv, ki je poudarjal temeljito preverjanje rešitev; isti poziv ni koristil o3.
Na Aider polyglot, pri oceni urejanja kode, GPT‑5 postavlja nov rekord z 88 %, kar pomeni za tretjino manjšo stopnjo napak v primerjavi z o3.
V Aider polygot(odpre se v novem oknu) (diff) je modelu dana vaja kodiranja iz Exercism in mora svojo rešitev napisati kot razliko kode. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.
Ugotovili smo tudi, da je GPT‑5 odličen pri poglobljenem raziskovanju zbirk kode za odgovarjanje na vprašanja o tem, kako različni deli delujejo samostojno ali medsebojno. V tako zapleteni zbirki kode, kot je OpenAI-jev sklad za okrepljeno učenje, ugotavljamo, da nam GPT‑5 lahko pomaga pri utemeljevanju in odgovarjanju na vprašanja o naši kodi, kar pospešuje naše vsakodnevno delo.
Pri izdelavi kode ospredja za spletne aplikacije je GPT‑5 bolj estetsko naravnan, ambiciozen in natančen. V vzporednih primerjavah z o3 so naši preizkuševalci v 70 % primerov dali prednost GPT‑5.
Tukaj je nekaj zabavnih, skrbno izbranih primerov, kaj lahko GPT‑5 naredi z enim samim pozivom:
Poziv: Generiraj čudovito, realistično uvodno stran za storitev, ki ljubiteljem kave zagotavlja 200 USD mesečno naročnino, ki zagotavlja najem opreme in svetovanje za praženje kave in pripravo vrhunskega espressa. Ciljno občinstvo je oseba srednjih let iz zaliva, ki morda dela na področju tehnologije, je izobražena, ima razpoložljiv dohodek ter je navdušena nad umetnostjo in znanostjo kave. Optimiziraj za konverzijo za 6-mesečno prijavo.
Več primerov GPT‑5 si lahko ogledate v naši galeriji tukaj(odpre se v novem oknu).
GPT‑5 je boljši sodelavec, zlasti v izdelkih za agentno kodiranje, kot so Cursor, Windsurf, GitHub Copilot in Codex CLI. Medtem ko deluje, lahko GPT‑5 med klici orodij ustvari izhode, kot so načrti, posodobitve in povzetki. V primerjavi z našimi prejšnjimi modeli je GPT‑5 bolj proaktiven pri izpolnjevanju ambicioznih nalog, ne da bi čakal na vaše dovoljenje ali se obotavljal pri visoki kompleksnosti.
Tukaj je primer, kako je lahko GPT‑5 videti pri reševanju kompleksne naloge (v tem primeru, ustvari spletno stran za restavracijo):
Ko uporabnik zahteva spletno stran za svojo restavracijo, GPT‑5 deli hiter načrt, postavi ogrodje aplikacije, namesti odvisnosti, ustvari vsebino strani, izvede gradnjo za preverjanje napak pri prevajanju, povzame svoje delo in predlaga morebitne naslednje korake. Ta video je bil pospešen ~3x, da vam prihranimo čakanje; celotno trajanje ustvarjanja spletne strani je bilo približno tri minute.
Poleg agentnega kodiranja je GPT‑5 na splošno boljši pri agentnih nalogah. GPT‑5 postavlja nove rekorde na merilih sledenja navodilom (69,6 % na lestvici Scale MultiChallenge, po oceni o3‑mini) in klicanju orodij (96,7 % na τ2-bench telecom). Izboljšana inteligenca orodij omogoča GPT‑5, da zanesljiveje povezuje dejanja za opravljanje realnih nalog.
Zgodnje povratne informacije o GPT‑5 za agentne naloge
»GPT-5 je velik korak naprej. Na naših internih merilih uspešnosti je dosegel najboljšo zmogljivost, kar smo jih kdaj videli pri enem samem modelu. GPT-5 je blestel pri različnih agentnih nalogah – še preden smo popravili eno vrstico kode ali prilagodili poziv. Novi uvodi in natančnejši nadzor nad uporabo orodij so omogočili pomemben preskok v stabilnosti in usmerljivosti naših agentov.«
GPT‑5 sledi navodilom zanesljiveje kot kateri koli od svojih predhodnikov, saj je dosegel visoke ocene na testih COLLIE, Scale MultiChallenge in naši interni oceni sledenja navodilom.
V COLLIE(odpre se v novem oknu) morajo modeli pisati besedilo, ki izpolnjuje različne omejitve. V Scale MultiChallenge(odpre se v novem oknu) so modeli izzvani v večpoteznih pogovorih, da pravilno uporabijo štiri vrste informacij iz prejšnjih sporočil. Naši rezultati izhajajo iz uporabe o3‑mini kot ocenjevalnika, ki je bil natančnejši od GPT‑4o. V naši interni evalvaciji sledenja navodilom za OpenAI API morajo modeli slediti zahtevnim navodilom, ki izhajajo iz dejanskih povratnih informacij razvijalcev. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.
Trdo smo delali na izboljšanju klicanja orodij na načine, ki so pomembni za razvijalce. GPT‑5 je boljši pri sledenju navodilom orodja, pri odpravljanju napak orodja in pri proaktivnem izvajanju številnih klicev orodja zaporedno ali vzporedno. Ko je to zahtevano, lahko GPT‑5 tudi ustvari izhodna uvodna sporočila pred in med klici orodij, da obvešča uporabnike o napredku med daljšimi agentnimi nalogami.
Pred dvema mesecema je Sierra.ai objavil τ2-bench telecom kot zahtevno merilo uporabe orodij, ki je poudarilo, kako zmogljivost jezikovnega modela znatno pade pri interakciji z okoljem, ki ga lahko uporabniki spremenijo. V njihovi objavi(odpre se v novem oknu) noben model ni dosegel več kot 49 %. GPT‑5 dosega 97 %.
V τ2-bench(odpre se v novem oknu) mora model uporabljati orodja za izvedbo naloge za pomoč strankam, kjer lahko obstaja uporabnik, ki lahko komunicira in izvaja dejanja na stanju sveta. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.
GPT‑5 kaže tudi močne izboljšave pri delovanju v dolgem sobesedilu. Na OpenAI-MRCR, merilu za dolgoročno kontekstno pridobivanje informacij, GPT‑5 presega o3 in GPT‑4.1 za razliko, ki znatno raste z daljšimi vnosnimi dolžinami.
V OpenAI-MRCR(odpre se v novem oknu) (večkrožna soreferenčna ločljivost) se več enakih uporabniških zahtevkov tipa »igla« vstavi v dolge »kopice sena« podobnih zahtev in odgovorov, model pa se pozove, da reproducira odgovor na i-to iglo. Povprečno razmerje ujemanja meri povprečno razmerje ujemanja med odzivom modela in pravilnim odgovorom. Točke pri največ 256k vnosnih žetonih predstavljajo povprečja nad 128k–256k vnosnih žetonov in tako naprej. Tukaj 256k predstavlja 256 * 1.024 = 262.144 žetonov. Modeli sklepanja so bili izvedeni z visokim prizadevanjem pri sklepanju.
Prav tako odpiramo kodo za BrowseComp Long Context(odpre se v novem oknu), novo merilo za ocenjevanje vprašanj in odgovorov z dolgim kontekstom. V tem merilu uspešnosti model prejme uporabnikovo poizvedbo, dolg seznam ustreznih rezultatov iskanja in mora odgovoriti na vprašanje na podlagi teh rezultatov. Merilo BrowseComp Long Context smo zasnovali tako, da je realistično, zahtevno in zagotavlja zanesljivo pravilne odgovore na podlagi resničnih podatkov. Pri vnosih, ki obsegajo 128K–256K žetonov GPT‑5 poda pravilen odgovor v 89 % primerov.
V API-ju lahko vsi modeli GPT‑5 sprejmejo največ 272.000 vnosnih žetonov in oddajo največ 128.000 žetonov za sklepanje in izhode, kar skupaj pomeni dolžino konteksta 400.000 žetonov.
GPT‑5 je bolj zanesljiv kot naši prejšnji modeli. Na podlagi pozivov iz primerjalnih testov LongFact in FactScore GPT‑5 naredi ~80 % manj dejanskih napak kot o3. To ga naredi bolj primernega za agentne primere uporabe, kjer je pravilnost ključna – še posebej pri kodiranju, podatkih in sprejemanju odločitev.
Višje ocene so slabše. LongFact(odpre se v novem oknu) in FActScore(odpre se v novem oknu) sestavljata odprta vprašanja za iskanje dejstev. Uporabljamo ocenjevalnik na osnovi LLM z brskanjem za preverjanje odgovorov na pozive iz teh meril in merjenje deleža dejansko napačnih trditev. Podrobnosti o izvedbi in ocenjevanju lahko najdete v sistemski kartici. Modeli sklepanja so zahtevali veliko truda pri sklepanju. Iskanje ni bilo omogočeno.
Na splošno je bil GPT‑5 usposobljen, da se bolj zaveda svojih omejitev in se bolje spopada z nepričakovanimi izzivi. Prav tako smo GPT‑5 usposobili tako, da je veliko natančnejši pri zdravstvenih vprašanjih (več preberite v našem raziskovalnem blogu). Kot pri vseh jezikovnih modelih priporočamo, da v pomembnih primerih preverite pravilnost dela GPT‑5.
Razvijalci lahko nadzorujejo čas razmišljanja GPT‑5 prek parametra reasoning_effort v API-ju. Poleg prejšnjih vrednosti – nizka, srednja (privzeto) in visoka – GPT‑5 podpira tudi minimalna, ki zmanjšuje sklepanje GPT‑5 za hitro vrnitev odgovora.
Višje vrednosti parametra reasoning_effort povečujejo kakovost, nižje vrednosti pa povečujejo hitrost. Dodatno sklepanje ne koristi vsem nalogam, zato priporočamo, da eksperimentirate in ugotovite, katera najbolj ustreza primerom uporabe, ki vas zanimajo.
Na primer, sklepanje nad stopnjo nizka le malo prispeva k relativno preprostem iskanju dolgega konteksta, vendar doda kar nekaj odstotnih točk pri izvedbi CharXiv Reasoning(odpre se v novem oknu), merilu za vizualno sklepanje.
Razmišljanje GPT‑5 prinaša različne koristi pri različnih nalogah. Za CharXiv Reasoning je GPT‑5 dobil dostop do orodja Python.
Da bi lažje usmerjali privzeto dolžino odgovorov GPT‑5, smo uvedli nov parameter API-ja verbosity (zgovornost), ki sprejema vrednosti low (nizko), medium (srednje) (privzeto) in high (visoko). Če so izrecna navodila v nasprotju s parametri zgovornosti, imajo prednost izrecna navodila. Na primer, če od modela GPT‑5 zahtevate, naj »napiše esej s 5 odstavki«, mora biti odgovor modela vedno sestavljen iz 5 odstavkov, ne glede na raven podrobnosti (vendar so lahko sami odstavki daljši ali krajši).
Verbosity=low
Verbosity=medium
Verbosity=high
Če je tako določeno, bo GPT‑5 pred in med klici orodja prikazal uporabniku vidna uvodna sporočila. Za razliko od skritih sporočil o sklepanju ta vidna sporočila omogočajo GPT‑5, da uporabniku posreduje načrte in napredek, kar končnim uporabnikom pomaga razumeti njegov pristop in namen za klice orodij.
Predstavljamo novo vrsto orodja – orodja po meri – ki omogočajo, da GPT‑5 pokliče orodje z navadnim besedilom namesto z JSON. Da bi omejili GPT‑5, da sledi prilagojenim oblikam orodij, lahko razvijalci predložijo regex ali celo bolj natančno določeno slovnico brez konteksta(odpre se v novem oknu).
Predhodno je naš vmesnik za orodja, ki jih definirajo razvijalci, zahteval, da so bila ta klicana z JSON-om, običajnim formatom, ki ga uporabljajo spletni API-ji in razvijalci na splošno. Vendar pa za izhod veljavnega JSON model zahteva popolno ubežanje vseh narekovajev, poševnic, novih vrstic in drugih kontrolnih znakov. Čeprav so naši modeli dobro usposobljeni za izhod JSON-a, se pri dolgih vnosih, kot so stotine vrstic kode ali petstransko poročilo, verjetnost napake poveča. Z orodji po meri lahko GPT‑5 zapiše vnos orodij kot navadno besedilo, ne da bi bilo treba ubežati vsem znakom, ki zahtevajo ubežanje.
Na SWE-bench Verified z uporabo prilagojenih orodij namesto JSON orodij GPT‑5 dosega približno enak rezultat.
GPT‑5 napreduje na področju varnosti in je bolj robusten, zanesljiv ter uporaben model. GPT‑5 je bistveno manj nagnjen k halucinacijam kot naši prejšnji modeli, bolj iskreno sporoča svoja dejanja in zmogljivosti uporabniku ter ponuja najbolj uporaben odgovor, kjer je to mogoče, hkrati pa ostaja znotraj varnostnih meja. Več si lahko preberete v našem raziskovalnem blogu.
GPT‑5 je zdaj na voljo na platformi API v treh velikostih: gpt-5, gpt-5-mini in gpt-5-nano. Na voljo je v Responses API, Chat Completions API in je privzeto v Codex CLI. GPT‑5 ima ceno 1,25 $/1M vnosnih žetonov in 10 $/1M izhodnih žetonov, GPT‑5 mini ima ceno 0,25 $/1M vnosnih žetonov in 2 $/1M izhodnih žetonov, GPT‑5 nano pa 0,05 $/1M vnosnih žetonov in 0,40 $/1M izhodnih žetonov.
Ti modeli podpirajo parametre API reasoning_effort in verbosity ter prilagojena orodja. Podpirajo tudi vzporedno klicanje orodij, vgrajena orodja (spletno iskanje, iskanje datotek, generiranje slik in še več), osnovne funkcije API-ja (pretakanje, strukturirani izhodi in še več) ter funkcije za varčevanje stroškov, kot so predpomnjenje pozivov in Batch API.
Različica GPT‑5 brez sklepanja, ki se uporablja v ChatGPT, je na voljo v API-ju kot gpt-5-chat-latest, prav tako po ceni 1,25 USD/1M vnosnih žetonov in 10 USD/1M izhodnih žetonov.
GPT‑5 se uvaja tudi na Microsoftovih platformah, vključno z Microsoft 365 Copilot, Copilot, GitHub Copilot in Azure AI Foundry.
Oglejte si dokumentacijo(odpre se v novem oknu) GPT‑5, podrobnosti o cenah(odpre se v novem oknu) in vodnik za pozive(odpre se v novem oknu), da začnete.
Inteligenca
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Obstaja majhno odstopanje pri številkah, ki smo jih navedli v prejšnjem prispevku na blogu, saj so bile te številke izračunane v prejšnji različici HLE.
Multimodalnost
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Programiranje
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tis. $ | 75 tis. $ | 49 tis. $ | 86 tis. $ | 66 tis. $ | 34 tis. $ | 31 tis. $ | 9 tis. $ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Izpustimo 23/500 problemov, ki jih ni mogoče izvajati na naši infrastrukturi. Celoten seznam 23 izpuščenih nalog je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', in 'sphinx-doc__sphinx-9367'.
Sledenje navodilom
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Opomba: ugotovili smo, da privzeti ocenjevalec v MultiChallenge (GPT-4o) pogosto napačno oceni odgovore modela. Ugotovili smo, da zamenjava ocenjevalca z modelom za sklepanje, kot je o3-mini, znatno izboljša natančnost ocenjevanja na vzorcih, ki smo jih pregledali.
Klicanje funkcij
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Dolg kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Halucinacije
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


