Täna toome turule GPT‑5 oma API platvormil — meie seni parim mudel programmeerimise ja agentlike ülesannete jaoks.
GPT‑5 on tipptasemel (SOTA) olulistes kodeerimistestides, saavutades 74,9% SWE-bench Verifiedil ja 88% Aider polüglotis. Me oleme GPT‑5 koolitanud tõelise kodeerimiskoostöö partneriks. See paistab silma kvaliteetse koodi loomisel ja selliste ülesannete käsitlemisel nagu vigade parandamine, koodi redigeerimine ja keeruliste koodibaaside kohta küsimustele vastamine. Mudel on juhitav ja koostöövõimeline — see suudab väga täpselt järgida üksikasjalikke juhiseid ning anda oma toimingute kohta selgitusi enne tööriistakõnesid ja nende vahel. Mudel paistab silma ka front-end kodeerimises, edestades OpenAI o3‑d front-end veebiarenduse sisemistes testides 70% juhtudest.
Me treenisime GPT‑5 reaalsetel kodeerimisülesannetel koostöös iduettevõtete ja ettevõtete varajaste testijatega. Cursor ütleb, et GPT‑5 on „kõige targem mudel, mida nad on kasutanud“ ja „erakordselt intelligentne, kergesti juhitav ning omab isegi isiksust, mida nad teistes mudelites pole näinud“. Windsurf jagas, et GPT‑5 on nende hindamistel SOTA ja „tööriista kutsumise veamäär on poole väiksem kui teistel esirinnas olevatel mudelitel“. Vercel ütleb, et "see on parim front-end tehisintellekti mudel, mis saavutab tipptaseme nii esteetiliselt kui ka koodi kvaliteedis, asetades selle omaette kategooriasse."
GPT‑5 paistab silma ka pikaajaliste agentsete ülesannete täitmisel – saavutades SOTA tulemusi τ2-pingil telecom (96,7%), mis on tööriistade kutsumise võrdlustest, mis avaldati vaid 2 kuud tagasi. GPT‑5 täiustatud tööriistade intelligentsus võimaldab tal usaldusväärselt ühendada kümneid tööriistakutseid – nii järjestikku kui paralleelselt – ilma eksimata, muutes selle palju paremaks keeruliste, reaaleluliste ülesannete täitmisel ülesande algusest lõpuni. See järgib ka tööriista juhiseid täpsemalt, käsitleb tööriista vigu paremini ja paistab silma pika kontekstiga sisu kättesaamisel. Manus ütleb, et GPT‑5 "saavutas parima jõudluse, mida nad on kunagi ühest mudelist oma sisemiste võrdlusaluste põhjal näinud." Notion ütleb, et "[mudeli] kiired vastused, eriti madala arutlusvõime režiimis, teevad GPT‑5‑st ideaalse mudeli, kui keerulised ülesanded tuleb korraga lahendada." Inditex jagas, et „[GPT‑5] eristub tõeliselt sügava arutluskäigu poolest: nüansirikkad ja mitmekihilised vastused, mis peegeldavad tõelist teema mõistmist“.
Tutvustame oma API-s uusi funktsioone, et anda arendajatele rohkem kontrolli mudeli vastuste üle. GPT‑5 pakub uut verbosity parameetrit (väärtused: madal, keskmine, kõrge), mis aitab kontrollida, kas vastused on lühikesed ja konkreetsed või pikad ja põhjalikud. GPT‑5 reasoning_effort parameeter võib nüüd võtta minimaalse väärtuse, et vastused kiiremini kätte saada, ilma põhjaliku arutluskäiguta. Oleme lisanud ka uue tööriistatüübi—kohandatud tööriistad—, et GPT‑5 saaks tööriistu kutsuda tavatekstiga JSONi asemel. Kohandatud tööriistad toetavad arendaja määratud kontekstivabade grammatikate piiranguid.
Me toome API-s välja GPT‑5 kolme suurusega—gpt-5, gpt-5-mini ja gpt-5-nano—, et pakkuda arendajatele rohkem paindlikkust jõudluse, kulude ja latentsuse osas. Kui ChatGPT GPT‑5 on arutlus-, mitte-arutlus- ja ruuterimudelite süsteem, siis API platvormil on GPT‑5 see arutlusmudel, mis tagab ChatGPT‑s maksimaalse jõudluse. Oluline on märkida, et GPT‑5, millel on minimaalne põhjendusvõime, on erinev mudel kui ChatGPT mittearutlev mudel ja see on arendajatele paremini kohandatud. ChatGPT‑s kasutatav mittearutlev mudel on saadaval kui gpt-5-chat-latest.
Et lugeda GPT‑5 kohta ChatGPT‑s ja saada rohkem teavet teiste ChatGPT täiustuste kohta, külastage meie uurimisblogi. Lisateavet selle kohta, miks ettevõtted on põnevil GPT‑5 kasutamise üle, leiate meie ettevõtte ajaveebist.
GPT‑5 on tugevaim kodeerimismudel, mille me kunagi oleme välja andnud. See ületab o3 nii kodeerimisvõrdluste kui ka reaalsete kasutusjuhtude puhul ning on peenhäälestatud, et särada agentse kodeerimise toodetes nagu Cursor, Windsurf, GitHub Copilot ja Codex CLI. GPT‑5 avaldas meie alfatestijatele muljet, püstitades rekordeid paljudes nende privaatsetes sisehindamistes.
Varajane tagasiside GPT‑5 kohta reaaleluliste koodi kirjutamise ülesannete jaoks
„GPT-5 on kõige arukam kodeerimismudel, mida me oleme kasutanud. Meeskond on leidnud, et GPT-5 on erakordselt intelligentne, lihtne juhtida ja omab isegi isiksust, mida me pole üheski teises mudelis näinud. See mitte ainult ei püüa keerulisi ja sügavalt peidetud vigu, vaid suudab ka käivitada pikki, mitme käiguga taustaagente, et keerulisi ülesandeid lõpule viia — sellised probleemid, mis varem teistele mudelitele raskusi põhjustasid. Sellest on saanud meie igapäevane töövahend kõiges, alates tööulatuse määramisest ja PR-ide planeerimisest kuni terviklike lahenduste valmimiseni.
SWE-bench Verifiedil, mis põhineb reaalsetel tarkvarainseneri ülesannetel, annab GPT‑5 tulemuseks 74,9%, olles parem kui o3 69,1%. Oluline on märkida, et GPT‑5 saavutab oma kõrge tulemuse suurema efektiivsuse ja kiirusega: võrreldes o3‑ga kõrge arutlusvõime juures kasutab GPT‑5 22% vähem väljundmärke ja 45% vähem tööriistakutseid.
SWE-bench Verifiedis antakse mudelile koodihoidla ja probleemi kirjeldus ning probleemi lahendamiseks tuleb koostada parandus. Tekstimärgised näitavad arutluse pingutust. Meie tulemused ei hõlma 500 probleemist 23, mille lahendused ei läbinud meie infrastruktuuri usaldusväärselt. GPT‑5‑le anti lühike viip, milles rõhutati lahenduste põhjalikku kinnitamist; samast viibast ei olnud kasu o3 jaoks.
Aider polyglotis koodi redigeerimise hindamisel püstitas GPT‑5 uue rekordi 88%, mis on veamäära vähenemine ühe kolmandiku võrra võrreldes o3‑ga.
Aider polygot(avaneb uues aknas) (diff) antakse mudelile Exercismi kodeerimisülesanne ja see peab kirjutama lahenduse koodierinevusena. Arutlusmudeleid käivitati suure arutluspingutusega.
Oleme samuti leidnud, et GPT‑5 on suurepärane koodibaaside süvitsi uurimisel, et vastata küsimustele, kuidas erinevad osad töötavad või omavahel ühilduvad. Nii keerulises koodibaasis nagu OpenAI kinnistava õppimise virn, leiame, et GPT‑5 aitab meil oma koodi üle arutleda ja küsimustele vastata, kiirendades meie igapäevast tööd.
Veebirakenduste front-end koodi loomisel on GPT‑5 esteetilisem, ambitsioonikam ja täpsem. Kõrvuti võrdlustes o3‑ga eelistasid meie testijad GPT‑5 70% juhtudest.
Siin on mõned lõbusad, hoolikalt valitud näited sellest, mida GPT‑5 ühe viibaga teha suudab:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Vaata rohkem näiteid GPT‑5 kohta meie galeriis siit(avaneb uues aknas).
GPT‑5 on parem koostööpartner, eriti agentlike koodikirjutamistoodete puhul nagu Cursor, Windsurf, GitHub Copilot ja Codex CLI. Kui see töötab, suudab GPT‑5 tööriistakõnede vahel anda plaanide, uuenduste ja kokkuvõtete väljundi. Võrreldes meie varasemate mudelitega on GPT‑5 proaktiivsem ambitsioonikate ülesannete täitmisel, ilma et peaks peatuma sinu käest loa saamiseks või jääks kõrge keerukuse ees kõhklema.
Siin on näide, kuidas GPT‑5 võib välja näha keerulise ülesande lahendamisel (antud juhul restorani jaoks veebilehte luues):
Pärast seda, kui kasutaja palub oma restoranile veebilehe koostada, jagab GPT‑5 kiirelt plaani, loob rakenduse struktuuri, installib sõltuvused, loob saidi sisu, käivitab ehituse kompileerimisvigade kontrollimiseks, võtab töö kokku ja soovitab võimalikke järgmisi samme. See video on kiirendatud ~3x, et säästa sind ootamisest; veebisaidi loomise koguaeg oli umbes kolm minutit.
Lisaks agentsele koodikirjutamisele on GPT‑5 üldiselt parem agentsete ülesannete täitmisel. GPT‑5 püstitab uued rekordid juhiste järgimise (69,6% Scale MultiChallenge'il, hinnatud o3‑mini poolt) ja tööriistade kutsumise (96,7% τ2-bench telecomil) võrdlusnäitajates. Täiustatud tööriistade intelligentsus võimaldab GPT‑5‑l usaldusväärsemalt järjestada toiminguid, et täita reaalseid ülesandeid.
Varajane tagasiside GPT‑5 kohta agendipõhiste ülesannete jaoks
„GPT-5 on suur edasiminek. See saavutas parima tulemuse, mida me oleme kunagi ühe mudeli puhul oma sisemistes võrdlusuuringutes näinud. GPT-5 paistis silma erinevates agentsetes ülesannetes – isegi enne, kui me ühtegi koodirida muutsime või viipa kohandasime. Uued preambulid ja täpsem kontroll tööriistade kasutamise üle võimaldasid teha märkimisväärse hüppe meie agentide stabiilsuses ja juhitavuses."
GPT‑5 järgib juhiseid usaldusväärsemalt kui ükski tema eelkäija, saavutades kõrgeid punkte COLLIE-s, Scale MultiChallenge'is ja meie sisemistes juhiste järgimise hindamistes.
COLLIE(avaneb uues aknas) mudelid peavad kirjutama teksti, mis vastab erinevatele piirangutele. Scale MultiChallenge(avaneb uues aknas) raames pannakse mudelid mitmepöördelistes vestlustes proovile, et nad kasutaksid õigesti nelja tüüpi teavet eelmistest sõnumitest. Meie hinded pärinevad hindajana o3‑mini kasutamisest, mis oli täpsem kui GPT‑4o. Meie sisemises OpenAI API juhiste järgimise hindamises peavad mudelid järgima keerulisi juhiseid, mis on saadud reaalsest arendaja tagasisidest. Arutlusmudeleid käivitati suure mõtlemispingutusega.
Töötasime kõvasti, et parandada tööriistade kasutamist arendajatele olulistel viisidel. GPT‑5 on parem tööriistade juhiste järgimisel, tööriistavigade käsitlemisel ja paljude tööriistakutsete proaktiivsel tegemisel järjestikku või paralleelselt. Kui juhiseid antakse, võib GPT‑5 väljastada ka eelsõnumid enne tööriistakutseid ja nende vahel, et teavitada kasutajaid pikemate agentsete ülesannete edenemisest.
Kaks kuud tagasi avaldas Sierra.ai τ2-bench telecomi kui väljakutsuva tööriistakasutuse võrdlusaluse, mis tõi esile, kuidas keelemudeli jõudlus oluliselt langeb, kui suheldakse keskkonna seisundiga, mida kasutajad muuta saavad. Nende publikatsioonis(avaneb uues aknas) ei saanud ükski mudel üle 49%. GPT‑5 saavutas 97%.
τ2-bench(avaneb uues aknas)'is peab mudel kasutama tööriistu, et täita klienditeenindusülesannet, kus võib olla kasutaja, kes saab suhelda ja teha toiminguid maailma seisundi üle. Arutlusmudeleid käivitati suure arutluspingutusega.
GPT‑5 näitab samuti tugevaid edasiminekuid pika konteksti jõudluses. OpenAI-MRCR-il, mis on pika kontekstiga teabeotsingu mõõdik, edestab GPT‑5 o3 ja GPT‑4.1, kusjuures marginaal suureneb oluliselt pikemate sisendpikkuste korral.
OpenAI-MRCR(avaneb uues aknas) (mitmevooruline kaasviite lahendus) puhul, sisestatakse mitu identset "nõela" laadselt toimivat kasutaja päringut pikkadesse sarnaste päringute ja vastuste "heinakuhjadesse" ning mudelil palutakse taastoota vastus i-ndale nõelani. Keskmine vastavus mõõdab mudeli vastuse ja õige vastuse vahelist keskmist sõnede vastavuse suhet. Punktid 256k maksimaalse sisestusmärgi juures tähistavad keskmisi 128k–256k sisestusmärkide vahel ja nii edasi. Siin tähistab 256k 256 * 1,024 = 262 114 tokenit. Arutlusmudeleid käitati suure arutluspingutusega.
Samuti avame lähtekoodi BrowseComp Long Context(avaneb uues aknas) jaoks, mis on uus etalon pika kontekstiga küsimuste ja vastuste hindamiseks. Selles võrdluses antakse mudelile kasutajapäring, pikk nimekiri asjakohastest otsingutulemustest ning mudel peab vastama küsimusele nende tulemuste põhjal. Me kujundasime BrowseComp Long konteksti realistlikuks, keeruliseks ja usaldusväärselt õigeid vastuseid omavaks. 128K–256K tokeni suuruse sisendi korral annab GPT‑5 89%-l juhtudest õige vastuse.
API-s saavad kõik GPT‑5 mudelid vastu võtta maksimaalselt 272 000 sisestusmärki ja emiteerida maksimaalselt 128 000 põhjendus- ja väljundtokenit, kokku 400 000 tokeni pikkuse kontekstiga.
GPT‑5 on usaldusväärsem kui meie varasemad mudelid. LongFacti ja FactScore'i võrdlusaluste viipadel teeb GPT‑5 ~80% vähem faktilisi vigu kui o3. See muudab selle paremini sobivaks agentsete kasutusjuhtude jaoks, kus korrektsus on oluline – eriti koodi, andmete ja otsuste tegemise puhul.
Kõrgemad punktisummad on halvemad. LongFact(avaneb uues aknas) ja FActScore(avaneb uues aknas) koosnevad avatud faktiküsimustest. Kasutame sirvimisega LLM-põhist hindajat, et kontrollida vastuseid nende võrdlusnäitajate viipadele ja mõõta faktiliselt ebaõigete väidete osakaalu. Rakendamise ja hindamise üksikasjad leiad süsteemikaardilt. Mõtlemismudelid kasutasid suurt arutluskoormust. Otsing ei olnud lubatud.
Üldiselt on GPT‑5 treenitud olema teadlikum omaenda piirangutest ja paremini ootamatute väljakutsetega hakkama saama. Samuti treenisime GPT‑5‑t terviseküsimustes palju täpsemaks (loe lähemalt meie uurimisblogist). Nagu kõigi keelemudelite puhul, soovitame sul veenduda GPT‑5 töös, kui panused on suured.
Arendajad saavad GPT‑5 mõtlemisaega kontrollida API reasoning_effort parameetri kaudu. Lisaks eelnevatele väärtustele—madal, keskmine (vaikimisi) ja kõrge—on GPT‑5‑l ka tugi väärtuse minimaalne jaoks, mis vähendab GPT‑5 arutluskäiku, et vastus kiiresti tagastada.
Suuremad reasoning_effort väärtused maksimeerivad kvaliteeti ja väiksemad väärtused maksimeerivad kiirust. Mitte kõik ülesanded ei saa võrdselt kasu täiendavast arutlemisest, seega soovitame katsetada, milline sobib kõige paremini just nendele kasutusjuhtudele, mis sind huvitavad.
Näiteks arutlus üle taseme madal ei lisa suhteliselt lihtsale pika konteksti otsingule palju juurde, kuid lisab üsna palju protsendipunkte CharXiv Reasoning(avaneb uues aknas) jaoks, mis on visuaalse mõtlemise võrdlusalus.
GPT‑5 arutluskäik pakub erinevate ülesannetega seoses erinevaid eeliseid. CharXiv Reasoningu jaoks anti GPT‑5‑le ligipääs Pythoni-tööriistale.
GPT‑5 vastuste vaikimisi pikkuse suunamiseks oleme kasutusele võtnud uue API parameetri verbosity, mille väärtused on madal, keskmine (vaikimisi) ja kõrge. Kui selgesõnalised juhised on vastuolus sõnaohtruse parameetritega, on selgesõnalised juhised ülimuslikud. Näiteks kui palud GPT‑5‑l „kirjutada 5-lõigulise essee“, peaks mudeli vastus alati olema 5 lõiku pikk, olenemata sõnaohtruse astmest (lõigud ise võivad aga olla pikemad või lühemad).
Sõnaohtrus=madal
Sõnaohtrus=keskmine
Sõnaohtrus=kõrge
Kui juhiseid antakse, annab GPT‑5 kasutajale nähtava väljundi eelsõnumitena enne tööriistakõnesid ja nende vahel. Erinevalt varjatud arutlussõnumitest võimaldavad need nähtavad sõnumid GPT‑5‑l kasutajale plaanidest ja edusammudest rääkida, aidates lõppkasutajatel mõista selle lähenemist ja tööriistakõnede taga olevat kavatsust.
Tutvustame uut tööriistatüüpi – kohandatud tööriistu –, mis võimaldavad GPT‑5‑l tööriista kutsuda lihttekstina JSON-i asemel. Selleks, et sundida GPT‑5 järgima kohandatud tööriistavorminguid, saavad arendajad esitada regulaaravaldise või isegi täpsemalt määratletud kontekstivaba grammatika(avaneb uues aknas).
Varem nõudis meie arendaja määratletud tööriistade liides nende kutsumist JSON-vormingus, mis on levinud vorming, mida veebi-API-d ja arendajad üldiselt kasutavad. Kehtiva JSONi väljund nõuab aga, et mudel oskaks täiuslikult vältida kõiki jutumärke, kaldkriipse, reavahetusi ja muid tähemärke. Kuigi meie mudelid on hästi treenitud JSON-väljundi loomiseks, suureneb vea tõenäosus pikkade sisendite korral, nagu sadade koodiridade või 5-leheküljelise raporti puhul. Kohandatud tööriistade abil saab GPT‑5 kirjutada tööriista sisendeid lihttekstina, ilma et peaks kõiki põgenemist vajavaid tähemärke eraldi märkima.
SWE-Bench Verifiedil JSON-tööriistade asemel kohandatud tööriistu kasutades saab GPT‑5 umbes sama hinde.
GPT‑5 viib ohutuse esirinda ja on tugevam, usaldusväärsem ning kasulikum mudel. GPT‑5 hallutsineerib oluliselt madalama tõenäosusega kui meie varasemad mudelid, edastab kasutajale ausamalt oma toiminguid ja võimeid ning annab võimalusel kõige kasulikuma vastuse, jäädes samal ajal ohutuse piiridesse. Saad rohkem lugeda meie uurimisblogist.
GPT‑5 on nüüd saadaval API platvormil kolmes suuruses: gpt-5, gpt-5-mini ja gpt-5-nano. See on saadaval Responses API-s, vestlus Completions API-s ja on Codex CLI puhul vaikimisi valik. GPT‑5 maksab $1,25/1M sisestusmärgi ja $10/1M väljundmärgi eest, GPT‑5 mini maksab $0,25/1M sisestusmärgi ja $2/1M väljundmärgi eest ning GPT‑5 nano maksab $0,05/1M sisestusmärgi ja $0,40/1M väljundmärgi eest.
Need mudelid toetavad reasoning_effort ja verbosity API parameetreid ning kohandatud tööriistu. Nad toetavad ka paralleelset tööriistade kutsumist, sisseehitatud tööriistu (veebiotsing, failide otsing, piltide genereerimine ja muud), põhifunktsioone (voogedastus, struktureeritud väljundid ja muud) ning kulude kokkuhoiu funktsioone nagu viipide vahemällu salvestamine ja partii-API.
ChatGPT‑s kasutatav GPT‑5 mitte-järeldav versioon on API-s saadaval kui gpt-5-chat-latest, hinnaga 1,25 dollarit/1M sisestusmärki ja 10 dollarit/1M väljundmärki.
GPT‑5 käivitatakse ka Microsofti platvormidel, sealhulgas Microsoft 365 Copilot, Copilot, GitHub Copilot ja Azure AI Foundry.
Tutvu GPT‑5 dokumentatsiooni(avaneb uues aknas), hinnastamise üksikasjade(avaneb uues aknas) ja juhendiga(avaneb uues aknas), et alustada.
Intelligentsus
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Meie eelmises ajaveebipostituses teatatud numbritega on väike lahknevus, kuna need arvutati HLE varasemas versioonis.
Multimodaalne
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Kodeerimine
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tuh $ | 75 tuh $ | 49 tuh $ | 86 tuh $ | 66 tuh $ | 34 tuh $ | 31 tuh $ | 9 tuh $ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Jätame välja 23/500 probleemi, mis ei saanud meie infrastruktuuris töötada. Täielik nimekiri 23 väljajäetud ülesandest on 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ja 'sphinx-doc__sphinx-9367'.
Juhendi järgimine
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Märkus: leiame, et MultiChallenge'i (GPT-4o) vaikimisi hindaja hindab mudeli vastuseid sageli valesti. Leiame, et kui vahetame hindaja arutlusmudeliks, näiteks o3-mini, parandab see oluliselt hindamise täpsust kontrollitud proovide puhul.
Funktsiooni kutsumine
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Pikk kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Hallutsinatsioonid
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


