Jäta vahele ja mine põhisisu juurde
OpenAI

7. august 2025

Toode

GPT‑5 tutvustus arendajatele

Parim mudel kodeerimis- ja agentlike ülesannete jaoks.

Laadimine…

Sissejuhatus

Täna toome turule GPT‑5 oma API platvormil — meie seni parim mudel programmeerimise ja agentlike ülesannete jaoks.

GPT‑5 on tipptasemel (SOTA) olulistes kodeerimistestides, saavutades 74,9% SWE-bench Verifiedil ja 88% Aider polüglotis. Me oleme GPT‑5 koolitanud tõelise kodeerimiskoostöö partneriks. See paistab silma kvaliteetse koodi loomisel ja selliste ülesannete käsitlemisel nagu vigade parandamine, koodi redigeerimine ja keeruliste koodibaaside kohta küsimustele vastamine. Mudel on juhitav ja koostöövõimeline — see suudab väga täpselt järgida üksikasjalikke juhiseid ning anda oma toimingute kohta selgitusi enne tööriistakõnesid ja nende vahel.  Mudel paistab silma ka front-end kodeerimises, edestades OpenAI o3‑d front-end veebiarenduse sisemistes testides 70% juhtudest.

Me treenisime GPT‑5 reaalsetel kodeerimisülesannetel koostöös iduettevõtete ja ettevõtete varajaste testijatega. Cursor ütleb, et GPT‑5 on „kõige targem mudel, mida nad on kasutanud“ ja „erakordselt intelligentne, kergesti juhitav ning omab isegi isiksust, mida nad teistes mudelites pole näinud“. Windsurf jagas, et GPT‑5 on nende hindamistel SOTA ja „tööriista kutsumise veamäär on poole väiksem kui teistel esirinnas olevatel mudelitel“. Vercel ütleb, et "see on parim front-end tehisintellekti mudel, mis saavutab tipptaseme nii esteetiliselt kui ka koodi kvaliteedis, asetades selle omaette kategooriasse."

GPT‑5 paistab silma ka pikaajaliste agentsete ülesannete täitmisel – saavutades SOTA tulemusi τ2-pingil telecom (96,7%), mis on tööriistade kutsumise võrdlustest, mis avaldati vaid 2 kuud tagasi. GPT‑5 täiustatud tööriistade intelligentsus võimaldab tal usaldusväärselt ühendada kümneid tööriistakutseid – nii järjestikku kui paralleelselt – ilma eksimata, muutes selle palju paremaks keeruliste, reaaleluliste ülesannete täitmisel ülesande algusest lõpuni. See järgib ka tööriista juhiseid täpsemalt, käsitleb tööriista vigu paremini ja paistab silma pika kontekstiga sisu kättesaamisel. Manus ütleb, et GPT‑5 "saavutas parima jõudluse, mida nad on kunagi ühest mudelist oma sisemiste võrdlusaluste põhjal näinud." Notion ütleb, et "[mudeli] kiired vastused, eriti madala arutlusvõime režiimis, teevad GPT‑5‑st ideaalse mudeli, kui keerulised ülesanded tuleb korraga lahendada." Inditex jagas, et „[GPT‑5] eristub tõeliselt sügava arutluskäigu poolest: nüansirikkad ja mitmekihilised vastused, mis peegeldavad tõelist teema mõistmist“.

Tutvustame oma API-s uusi funktsioone, et anda arendajatele rohkem kontrolli mudeli vastuste üle. GPT‑5 pakub uut verbosity parameetrit (väärtused: madal, keskmine, kõrge), mis aitab kontrollida, kas vastused on lühikesed ja konkreetsed või pikad ja põhjalikud. GPT‑5 reasoning_effort parameeter võib nüüd võtta minimaalse väärtuse, et vastused kiiremini kätte saada, ilma põhjaliku arutluskäiguta. Oleme lisanud ka uue tööriistatüübi—kohandatud tööriistad—, et GPT‑5 saaks tööriistu kutsuda tavatekstiga JSONi asemel. Kohandatud tööriistad toetavad arendaja määratud kontekstivabade grammatikate piiranguid.

Me toome API-s välja GPT‑5 kolme suurusega—gpt-5, gpt-5-mini ja gpt-5-nano—, et pakkuda arendajatele rohkem paindlikkust jõudluse, kulude ja latentsuse osas. Kui ChatGPT GPT‑5 on arutlus-, mitte-arutlus- ja ruuterimudelite süsteem, siis API platvormil on GPT‑5 see arutlusmudel, mis tagab ChatGPT‑s maksimaalse jõudluse. Oluline on märkida, et GPT‑5, millel on minimaalne põhjendusvõime, on erinev mudel kui ChatGPT mittearutlev mudel ja see on arendajatele paremini kohandatud. ChatGPT‑s kasutatav mittearutlev mudel on saadaval kui gpt-5-chat-latest.

Et lugeda GPT‑5 kohta ChatGPT‑s ja saada rohkem teavet teiste ChatGPT täiustuste kohta, külastage meie uurimisblogi. Lisateavet selle kohta, miks ettevõtted on põnevil GPT‑5 kasutamise üle, leiate meie ettevõtte ajaveebist.

Kodeerimine

GPT‑5 on tugevaim kodeerimismudel, mille me kunagi oleme välja andnud. See ületab o3 nii kodeerimisvõrdluste kui ka reaalsete kasutusjuhtude puhul ning on peenhäälestatud, et särada agentse kodeerimise toodetes nagu Cursor, Windsurf, GitHub Copilot ja Codex CLI. GPT‑5 avaldas meie alfatestijatele muljet, püstitades rekordeid paljudes nende privaatsetes sisehindamistes. 

Varajane tagasiside GPT‑5 kohta reaaleluliste koodi kirjutamise ülesannete jaoks

„GPT-5 on kõige arukam kodeerimismudel, mida me oleme kasutanud. Meeskond on leidnud, et GPT-5 on erakordselt intelligentne, lihtne juhtida ja omab isegi isiksust, mida me pole üheski teises mudelis näinud. See mitte ainult ei püüa keerulisi ja sügavalt peidetud vigu, vaid suudab ka käivitada pikki, mitme käiguga taustaagente, et keerulisi ülesandeid lõpule viia — sellised probleemid, mis varem teistele mudelitele raskusi põhjustasid. Sellest on saanud meie igapäevane töövahend kõiges, alates tööulatuse määramisest ja PR-ide planeerimisest kuni terviklike lahenduste valmimiseni.
Michael Truell, Cursori kaasasutaja & tegevjuht

SWE-bench Verifiedil, mis põhineb reaalsetel tarkvarainseneri ülesannetel, annab GPT‑5 tulemuseks 74,9%, olles parem kui o3 69,1%. Oluline on märkida, et GPT‑5 saavutab oma kõrge tulemuse suurema efektiivsuse ja kiirusega: võrreldes o3‑ga kõrge arutlusvõime juures kasutab GPT‑5 22% vähem väljundmärke ja 45% vähem tööriistakutseid.

SWE-bench Verifiedis antakse mudelile koodihoidla ja probleemi kirjeldus ning probleemi lahendamiseks tuleb koostada parandus. Tekstimärgised näitavad arutluse pingutust. Meie tulemused ei hõlma 500 probleemist 23, mille lahendused ei läbinud meie infrastruktuuri usaldusväärselt. GPT‑5‑le anti lühike viip, milles rõhutati lahenduste põhjalikku kinnitamist; samast viibast ei olnud kasu o3 jaoks.

Aider polyglotis koodi redigeerimise hindamisel püstitas GPT‑5 uue rekordi 88%, mis on veamäära vähenemine ühe kolmandiku võrra võrreldes o3‑ga.

Aider polygot(avaneb uues aknas) (diff) antakse mudelile Exercismi kodeerimisülesanne ja see peab kirjutama lahenduse koodierinevusena. Arutlusmudeleid käivitati suure arutluspingutusega.

Oleme samuti leidnud, et GPT‑5 on suurepärane koodibaaside süvitsi uurimisel, et vastata küsimustele, kuidas erinevad osad töötavad või omavahel ühilduvad. Nii keerulises koodibaasis nagu OpenAI kinnistava õppimise virn, leiame, et GPT‑5 aitab meil oma koodi üle arutleda ja küsimustele vastata, kiirendades meie igapäevast tööd. 

Front-end arendus

Veebirakenduste front-end koodi loomisel on GPT‑5 esteetilisem, ambitsioonikam ja täpsem. Kõrvuti võrdlustes o3‑ga eelistasid meie testijad GPT‑5 70% juhtudest.

Siin on mõned lõbusad, hoolikalt valitud näited sellest, mida GPT‑5 ühe viibaga teha suudab:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Vaata rohkem näiteid GPT‑5 kohta meie galeriis siit(avaneb uues aknas).

Koodikirjutamise alane koostöö

GPT‑5 on parem koostööpartner, eriti agentlike koodikirjutamistoodete puhul nagu Cursor, Windsurf, GitHub Copilot ja Codex CLI. Kui see töötab, suudab GPT‑5 tööriistakõnede vahel anda plaanide, uuenduste ja kokkuvõtete väljundi. Võrreldes meie varasemate mudelitega on GPT‑5 proaktiivsem ambitsioonikate ülesannete täitmisel, ilma et peaks peatuma sinu käest loa saamiseks või jääks kõrge keerukuse ees kõhklema.

Siin on näide, kuidas GPT‑5 võib välja näha keerulise ülesande lahendamisel (antud juhul restorani jaoks veebilehte luues):

Pärast seda, kui kasutaja palub oma restoranile veebilehe koostada, jagab GPT‑5 kiirelt plaani, loob rakenduse struktuuri, installib sõltuvused, loob saidi sisu, käivitab ehituse kompileerimisvigade kontrollimiseks, võtab töö kokku ja soovitab võimalikke järgmisi samme. See video on kiirendatud ~3x, et säästa sind ootamisest; veebisaidi loomise koguaeg oli umbes kolm minutit.

Agentlikud ülesanded

Lisaks agentsele koodikirjutamisele on GPT‑5 üldiselt parem agentsete ülesannete täitmisel. GPT‑5 püstitab uued rekordid juhiste järgimise (69,6% Scale MultiChallenge'il, hinnatud o3‑mini poolt) ja tööriistade kutsumise (96,7% τ2-bench telecomil) võrdlusnäitajates. Täiustatud tööriistade intelligentsus võimaldab GPT‑5‑l usaldusväärsemalt järjestada toiminguid, et täita reaalseid ülesandeid.

Varajane tagasiside GPT‑5 kohta agendipõhiste ülesannete jaoks

„GPT-5 on suur edasiminek. See saavutas parima tulemuse, mida me oleme kunagi ühe mudeli puhul oma sisemistes võrdlusuuringutes näinud. GPT-5 paistis silma erinevates agentsetes ülesannetes – isegi enne, kui me ühtegi koodirida muutsime või viipa kohandasime. Uued preambulid ja täpsem kontroll tööriistade kasutamise üle võimaldasid teha märkimisväärse hüppe meie agentide stabiilsuses ja juhitavuses."
Yichao ‘Peak’ Ji, Manuse kaasasutaja ja teadusjuht

Juhendi järgimine

GPT‑5 järgib juhiseid usaldusväärsemalt kui ükski tema eelkäija, saavutades kõrgeid punkte COLLIE-s, Scale MultiChallenge'is ja meie sisemistes juhiste järgimise hindamistes.

COLLIE(avaneb uues aknas) mudelid peavad kirjutama teksti, mis vastab erinevatele piirangutele. Scale MultiChallenge(avaneb uues aknas) raames pannakse mudelid mitmepöördelistes vestlustes proovile, et nad kasutaksid õigesti nelja tüüpi teavet eelmistest sõnumitest. Meie hinded pärinevad hindajana o3‑mini kasutamisest, mis oli täpsem kui GPT‑4o. Meie sisemises OpenAI API juhiste järgimise hindamises peavad mudelid järgima keerulisi juhiseid, mis on saadud reaalsest arendaja tagasisidest. Arutlusmudeleid käivitati suure mõtlemispingutusega.

Tööriista kutsumine

Töötasime kõvasti, et parandada tööriistade kasutamist arendajatele olulistel viisidel. GPT‑5 on parem tööriistade juhiste järgimisel, tööriistavigade käsitlemisel ja paljude tööriistakutsete proaktiivsel tegemisel järjestikku või paralleelselt. Kui juhiseid antakse, võib GPT‑5 väljastada ka eelsõnumid enne tööriistakutseid ja nende vahel, et teavitada kasutajaid pikemate agentsete ülesannete edenemisest.

Kaks kuud tagasi avaldas Sierra.ai τ2-bench telecomi kui väljakutsuva tööriistakasutuse võrdlusaluse, mis tõi esile, kuidas keelemudeli jõudlus oluliselt langeb, kui suheldakse keskkonna seisundiga, mida kasutajad muuta saavad. Nende publikatsioonis(avaneb uues aknas) ei saanud ükski mudel üle 49%. GPT‑5 saavutas 97%.

τ2-bench(avaneb uues aknas)'is peab mudel kasutama tööriistu, et täita klienditeenindusülesannet, kus võib olla kasutaja, kes saab suhelda ja teha toiminguid maailma seisundi üle. Arutlusmudeleid käivitati suure arutluspingutusega.

GPT‑5 näitab samuti tugevaid edasiminekuid pika konteksti jõudluses. OpenAI-MRCR-il, mis on pika kontekstiga teabeotsingu mõõdik, edestab GPT‑5 o3 ja GPT‑4.1, kusjuures marginaal suureneb oluliselt pikemate sisendpikkuste korral.

OpenAI-MRCR(avaneb uues aknas) (mitmevooruline kaasviite lahendus) puhul, sisestatakse mitu identset "nõela" laadselt toimivat kasutaja päringut pikkadesse sarnaste päringute ja vastuste "heinakuhjadesse" ning mudelil palutakse taastoota vastus i-ndale nõelani. Keskmine vastavus mõõdab mudeli vastuse ja õige vastuse vahelist keskmist sõnede vastavuse suhet. Punktid 256k maksimaalse sisestusmärgi juures tähistavad keskmisi 128k–256k sisestusmärkide vahel ja nii edasi. Siin tähistab 256k 256 * 1,024 = 262 114 tokenit. Arutlusmudeleid käitati suure arutluspingutusega.

Samuti avame lähtekoodi BrowseComp Long Context(avaneb uues aknas) jaoks, mis on uus etalon pika kontekstiga küsimuste ja vastuste hindamiseks. Selles võrdluses antakse mudelile kasutajapäring, pikk nimekiri asjakohastest otsingutulemustest ning mudel peab vastama küsimusele nende tulemuste põhjal. Me kujundasime BrowseComp Long konteksti realistlikuks, keeruliseks ja usaldusväärselt õigeid vastuseid omavaks. 128K–256K tokeni suuruse sisendi korral annab GPT‑5 89%-l juhtudest õige vastuse.

API-s saavad kõik GPT‑5 mudelid vastu võtta maksimaalselt 272 000 sisestusmärki ja emiteerida maksimaalselt 128 000 põhjendus- ja väljundtokenit, kokku 400 000 tokeni pikkuse kontekstiga.

Faktilisus

GPT‑5 on usaldusväärsem kui meie varasemad mudelid. LongFacti ja FactScore'i võrdlusaluste viipadel teeb GPT‑5 ~80% vähem faktilisi vigu kui o3. See muudab selle paremini sobivaks agentsete kasutusjuhtude jaoks, kus korrektsus on oluline – eriti koodi, andmete ja otsuste tegemise puhul.

Kõrgemad punktisummad on halvemad. LongFact(avaneb uues aknas) ja FActScore(avaneb uues aknas) koosnevad avatud faktiküsimustest. Kasutame sirvimisega LLM-põhist hindajat, et kontrollida vastuseid nende võrdlusnäitajate viipadele ja mõõta faktiliselt ebaõigete väidete osakaalu. Rakendamise ja hindamise üksikasjad leiad süsteemikaardilt. Mõtlemismudelid kasutasid suurt arutluskoormust. Otsing ei olnud lubatud.

Üldiselt on GPT‑5 treenitud olema teadlikum omaenda piirangutest ja paremini ootamatute väljakutsetega hakkama saama. Samuti treenisime GPT‑5‑t terviseküsimustes palju täpsemaks (loe lähemalt meie uurimisblogist). Nagu kõigi keelemudelite puhul, soovitame sul veenduda GPT‑5 töös, kui panused on suured.

Uued funktsioonid

Minimaalne arutluskäik

Arendajad saavad GPT‑5 mõtlemisaega kontrollida API reasoning_effort parameetri kaudu. Lisaks eelnevatele väärtustele—madal, keskmine (vaikimisi) ja kõrge—on GPT‑5‑l ka tugi väärtuse minimaalne jaoks, mis vähendab GPT‑5 arutluskäiku, et vastus kiiresti tagastada.

Suuremad reasoning_effort väärtused maksimeerivad kvaliteeti ja väiksemad väärtused maksimeerivad kiirust. Mitte kõik ülesanded ei saa võrdselt kasu täiendavast arutlemisest, seega soovitame katsetada, milline sobib kõige paremini just nendele kasutusjuhtudele, mis sind huvitavad.

Näiteks arutlus üle taseme madal ei lisa suhteliselt lihtsale pika konteksti otsingule palju juurde, kuid lisab üsna palju protsendipunkte CharXiv Reasoning(avaneb uues aknas) jaoks, mis on visuaalse mõtlemise võrdlusalus.

GPT‑5 arutluskäik pakub erinevate ülesannetega seoses erinevaid eeliseid. CharXiv Reasoningu jaoks anti GPT‑5‑le ligipääs Pythoni-tööriistale.

Sõnaohtrus

GPT‑5 vastuste vaikimisi pikkuse suunamiseks oleme kasutusele võtnud uue API parameetri verbosity, mille väärtused on madal, keskmine (vaikimisi) ja kõrge. Kui selgesõnalised juhised on vastuolus sõnaohtruse parameetritega, on selgesõnalised juhised ülimuslikud. Näiteks kui palud GPT‑5‑l „kirjutada 5-lõigulise essee“, peaks mudeli vastus alati olema 5 lõiku pikk, olenemata sõnaohtruse astmest (lõigud ise võivad aga olla pikemad või lühemad).

Sõnaohtrus=madal

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Sõnaohtrus=keskmine

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Sõnaohtrus=kõrge

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Eelsõnumid enne tööriistakutseid

Kui juhiseid antakse, annab GPT‑5 kasutajale nähtava väljundi eelsõnumitena enne tööriistakõnesid ja nende vahel. Erinevalt varjatud arutlussõnumitest võimaldavad need nähtavad sõnumid GPT‑5‑l kasutajale plaanidest ja edusammudest rääkida, aidates lõppkasutajatel mõista selle lähenemist ja tööriistakõnede taga olevat kavatsust.

Kohandatud tööriistad

Tutvustame uut tööriistatüüpi – kohandatud tööriistu –, mis võimaldavad GPT‑5‑l tööriista kutsuda lihttekstina JSON-i asemel. Selleks, et sundida GPT‑5 järgima kohandatud tööriistavorminguid, saavad arendajad esitada regulaaravaldise või isegi täpsemalt määratletud kontekstivaba grammatika(avaneb uues aknas).

Varem nõudis meie arendaja määratletud tööriistade liides nende kutsumist JSON-vormingus, mis on levinud vorming, mida veebi-API-d ja arendajad üldiselt kasutavad. Kehtiva JSONi väljund nõuab aga, et mudel oskaks täiuslikult vältida kõiki jutumärke, kaldkriipse, reavahetusi ja muid tähemärke. Kuigi meie mudelid on hästi treenitud JSON-väljundi loomiseks, suureneb vea tõenäosus pikkade sisendite korral, nagu sadade koodiridade või 5-leheküljelise raporti puhul. Kohandatud tööriistade abil saab GPT‑5 kirjutada tööriista sisendeid lihttekstina, ilma et peaks kõiki põgenemist vajavaid tähemärke eraldi märkima.

SWE-Bench Verifiedil JSON-tööriistade asemel kohandatud tööriistu kasutades saab GPT‑5 umbes sama hinde.

Ohutus

GPT‑5 viib ohutuse esirinda ja on tugevam, usaldusväärsem ning kasulikum mudel. GPT‑5 hallutsineerib oluliselt madalama tõenäosusega kui meie varasemad mudelid, edastab kasutajale ausamalt oma toiminguid ja võimeid ning annab võimalusel kõige kasulikuma vastuse, jäädes samal ajal ohutuse piiridesse. Saad rohkem lugeda meie uurimisblogist.

Saadavus ja hinnastamine

GPT‑5 on nüüd saadaval API platvormil kolmes suuruses: gpt-5, gpt-5-mini ja gpt-5-nano. See on saadaval Responses API-s, vestlus Completions API-s ja on Codex CLI puhul vaikimisi valik. GPT‑5 maksab $1,25/1M sisestusmärgi ja $10/1M väljundmärgi eest, GPT‑5 mini maksab $0,25/1M sisestusmärgi ja $2/1M väljundmärgi eest ning GPT‑5 nano maksab $0,05/1M sisestusmärgi ja $0,40/1M väljundmärgi eest.

Need mudelid toetavad reasoning_effort ja verbosity API parameetreid ning kohandatud tööriistu. Nad toetavad ka paralleelset tööriistade kutsumist, sisseehitatud tööriistu (veebiotsing, failide otsing, piltide genereerimine ja muud), põhifunktsioone (voogedastus, struktureeritud väljundid ja muud) ning kulude kokkuhoiu funktsioone nagu viipide vahemällu salvestamine ja partii-API.

ChatGPT‑s kasutatav GPT‑5 mitte-järeldav versioon on API-s saadaval kui gpt-5-chat-latest, hinnaga 1,25 dollarit/1M sisestusmärki ja 10 dollarit/1M väljundmärki.

GPT‑5 käivitatakse ka Microsofti platvormidel, sealhulgas Microsoft 365 Copilot, Copilot, GitHub Copilot ja Azure AI Foundry.

Üksikasjalikud võrdlusalused

Intelligentsus
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Meie eelmises ajaveebipostituses teatatud numbritega on väike lahknevus, kuna need arvutati HLE varasemas versioonis.

Multimodaalne
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Kodeerimine
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tuh $75 tuh $49 tuh $86 tuh $66 tuh $34 tuh $31 tuh $9 tuh $
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Jätame välja 23/500 probleemi, mis ei saanud meie infrastruktuuris töötada. Täielik nimekiri 23 väljajäetud ülesandest on 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ja 'sphinx-doc__sphinx-9367'.

Juhendi järgimine
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Märkus: leiame, et MultiChallenge'i (GPT-4o) vaikimisi hindaja hindab mudeli vastuseid sageli valesti. Leiame, et kui vahetame hindaja arutlusmudeliks, näiteks o3-mini, parandab see oluliselt hindamise täpsust kontrollitud proovide puhul.

Funktsiooni kutsumine
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Pikk kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Hallutsinatsioonid
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Autor

OpenAI