Julkaisemme tänään API-alustallamme GPT‑5:n, joka on tähän mennessä paras mallimme koodaamiseen ja agenttipohjaisiin tehtäviin.
GPT‑5 on huippuluokkaa (SOTA-tasolla) tärkeimmissä koodaustesteissä, ja se sai 74,9 % pistettä SWE-bench Verified- ja 88 % Aider-polyglot-testissä. Koulutimme GPT‑5:n aidoksi koodauskumppaniksi. Se on erinomainen korkealaatuisen koodin tuottamisessa ja tehtävien käsittelyssä, kuten virheiden korjaamisessa, koodin muokkaamisessa ja vastaamisessa monimutkaisia koodikantoja koskeviin kysymyksiin. Malli on ohjattava ja yhteistyökykyinen. Se pystyy noudattamaan erittäin yksityiskohtaisia ohjeita erittäin tarkasti ja voi etukäteen selittää toimintojaan ennen työkalukutsuja ja niiden välillä. Malli loistaa myös front-end-koodauksessa, ja sisäisissä testeissä se voittaa OpenAI o3:n frontend-verkkokehityksessä 70 % tapauksista.
Koulutimme GPT‑5:n todellisissa koodaustehtävissä yhteistyössä alkuvaiheen testaajien kanssa startup-yrityksissä ja suuryrityksissä. Cursor kertoi, että GPT‑5 on ”älykkäin malli, jota [he] ovat käyttäneet” ja ”huomattavan älykäs, helppo ohjata ja sillä on jopa persoonallisuus, jota [he] eivät ole nähneet muissa malleissa”. Windsurf-yhtiön mukaan GPT‑5 on heidän arvioinneissaan SOTA-tasolla ja että ”sen työkalukutsujen virheprosentti on puolet pienempi kuin muissa edistyneissä malleissa”. Vercel sanoi, että ”se on paras käyttöliittymäpuolen tekoälymalli, joka saavuttaa huippusuorituskyvyn sekä esteettisen mielen että koodin laadun osalta, mikä asettaa sen omaan kategoriaansa”.
GPT‑5 loistaa myös pitkäkestoisissa agenttipohjaisissa tehtävissä. Se saavutti SOTA-tason tuloksia τ2-bench telecom -testissä (96,7 %), joka on vain kaksi kuukautta sitten julkaistu työkalukutsujen vertailuarvo. GPT‑5:n parannettu työkaluälykkyys mahdollistaa sen, että se voi luotettavasti ketjuttaa kymmeniä työkutsuja (sekä peräkkäin että rinnakkain) menettämättä suuntaa. Tämä tekee siitä huomattavasti paremman suorittamaan monimutkaisia, todellisia tehtäviä alusta loppuun. Se myös noudattaa työkalujen ohjeita tarkemmin, käsittelee työkaluvirheitä paremmin ja on erinomainen pitkän kontekstin sisällön hakemisessa. Manus ilmoitti, että GPT‑5 ”saavutti parhaan suorituskyvyn, jonka [he] ovat koskaan nähneet yksittäisestä mallista [heidän] sisäisissä vertailuissaan.” Notion kertoi, että ”[mallin] nopeat vasteet, erityisesti matalan päättelykyvyn tilassa, tekevät GPT‑5:stä ihanteellisen mallin, kun monimutkaiset tehtävät on ratkaistava kerralla.” Inditex kertoi, että ”GPT‑5 erottuu muista erityisesti syvällisen päättelykykynsä ansiosta: se antaa monipuolisia ja monitasoisia vastauksia, jotka osoittavat todellista aihepiirin ymmärrystä”.
Esittelemme API:ssamme uusia ominaisuuksia, jotka antavat kehittäjille enemmän hallintamahdollisuuksia mallin vastauksiin. GPT‑5 tukee uutta verbosity-parametria (monisanaisuus) (arvot: low, medium, high), jonka avulla voi hallita, ovatko vastaukset lyhyitä ja ytimekkäitä vai pitkiä ja kattavia. GPT‑5:n reasoning_effort-parametrille voi nyt antaa minimal-arvon, jotta vastaukset saadaan nopeammin ilman perusteellista päättelyä. Olemme myös lisänneet uuden työkalutyypin – mukautetut työkalut – joiden avulla GPT‑5 voi kutsua työkaluja tekstimuodossa JSON-muodon sijaan. Mukautetut työkalut tukevat rajoittamista kehittäjien toimittamilla kontekstittomilla kieliopeilla.
Julkaisemme GPT‑5:n API:ssa kolmessa koossa: gpt-5, gpt-5-mini ja gpt-5-nano. Ne antavat kehittäjille enemmän joustavuutta suorituskyvyn, kustannusten ja viiveen suhteen. Vaikka ChatGPT:ssä GPT‑5 on päättely-, ei-päättely- ja reititysmallien järjestelmä, API-alustalla GPT‑5 on päättelymalli, joka maksimoi ChatGPT:n suorituskyvyn. Merkillepantavaa on, että minimaalisella päättelyllä varustettu GPT‑5 on eri malli kuin ChatGPT:n ei-päättelymalli, ja sopii paremmin kehittäjille. ChatGPT:ssä käytetty ei-päättelevä malli on saatavilla nimellä gpt-5-chat-latest.
Saat lisätietoja GPT‑5:stä ChatGPT:ssä ja muista ChatGPT‑parannuksista tutkimusblogistamme. Lisätietoja siitä, miksi yritykset ovat innoissaan GPT‑5:stä, on yritysblogissamme.
GPT‑5 on vahvin koodausmalli, jonka olemme koskaan julkaisseet. Se ylittää o3:n koodausvertailuissa ja tosielämän käyttötapauksissa, ja on hienosäädetty toimimaan erinomaisesti agenttipohjaisten koodaustuotteiden kanssa, kuten Cursor, Windsurf ja Codex CLI. GPT‑5 teki vaikutuksen alfa-testaajiimme ja rikkoi ennätyksiä monissa heidän yksityisissä sisäisissä arvioinneissaan.
Varhainen palaute GPT‑5:stä tosielämän koodaustehtävissä
”GPT-5 on älykkäin käyttämämme koodausmalli. Tiimimme mielestä GPT-5 on huomattavan älykäs, helppo ohjata ja sillä on jopa persoonallisuus, jota emme ole nähneet missään muissa malleissa. Se ei ainoastaan löydä hankalia, syvällä piileviä virheitä, vaan se voi myös suorittaa pitkiä, usean vuoron tausta-agentteja suorittaakseen monimutkaiset tehtävät loppuun asti eli sellaisia ongelmia, jotka aiemmin jättivät muut mallit jumiin. Siitä on tullut päivittäinen ajurimme kaikessa aina PR-suunnittelusta kokonaisvaltaisten rakennusprojektien loppuun saattamiseen.”
SWE-bench Verified -testissä, joka perustuu todellisiin ohjelmistosuunnittelutehtäviin, GPT‑5:n tulos oli 74,9 %, kun o3 sai 69,1 %. Merkittävää on, että GPT‑5 saavuttaa korkean pistemääränsä suuremmalla tehokkuudella ja nopeudella. Verrattuna o3:een, joka vaatii paljon päättelykykyä, GPT‑5 käyttää 22 % vähemmän tuotetunnisteita ja 45 % vähemmän työkalukutsuja.
SWE-bench Verified -testissä mallille annetaan koodivarasto ja ongelman kuvaus, ja sen on luotava korjaustiedosto ongelman ratkaisemiseksi. Tekstimerkinnät osoittavat päättelyn vaivannäköä. Tuloksistamme on jätetty pois 23 ongelmaa 500:sta. Niiden ratkaisut eivät läpäisseet infrastruktuuriamme luotettavasti. GPT‑5:lle annettiin lyhyt kehote, jossa korostettiin ratkaisujen huolellista tarkistamista; sama kehote ei hyödyttänyt o3:a.
Koodieditoinnin arviointityökalussa Aider polyglotissa GPT‑5 teki uuden ennätyksen 88 %, mikä on kolmanneksen pienempi virheprosentti kuin o3:ssa.
Aider polygot(avautuu uudessa ikkunassa) (diff) -tehtävässä mallille annetaan Exercism-sivustolta koodausharjoitus, jossa ratkaisu on kirjoitettava koodieroina. Päättelymalleja käytettiin vaativalla päättelytasolla.
Olemme myös havainneet, että GPT‑5 pystyy erinomaisesti syventymään koodipohjiin ja vastaamaan kysymyksiin eri osien toiminnasta tai yhteentoimivuudesta. OpenAI:n vahvistusoppimispinon kaltaisessa monimutkaisessa koodikannassa huomaamme, että GPT‑5 voi auttaa meitä pohtimaan ja vastaamaan koodiamme koskeviin kysymyksiin, mikä nopeuttaa omaa päivittäistä työtämme.
Verkkosovellusten käyttöliittymäkoodia tuotettaessa GPT‑5 on esteettisesti ajattelevampi, kunnianhimoisempi ja tarkempi. Rinnakkaisissa vertailuissa o3:n kanssa testaajamme suosivat GPT‑5:tä 70 % ajasta.
Tässä on muutamia hauskoja, valikoituja esimerkkejä siitä, mitä GPT‑5 pystyy tekemään yhdellä käskyllä:
Kehote: Ole hyvä ja luo kaunis ja realistinen aloitussivu palvelulle, joka tarjoaa kahvinharrastajille 200 dollarin kuukausitilauksen, joka sisältää laitteiden vuokrauksen ja valmennusta kahvinpaahtamiseen ja täydellisen espresson valmistamiseen. Kohderyhmä on keski-ikäinen henkilö lahden ympäristöstä, joka saattaa työskennellä teknologia-alalla, on koulutettu, hänellä on käytettävissä olevia tuloja ja hän on intohimoinen kahvin taiteesta ja tieteestä. Optimoi konversioille 6 kuukauden rekisteröitymisen yhteydessä.
Katso lisää GPT‑5:n esimerkkejä galleriassamme täällä(avautuu uudessa ikkunassa).
GPT‑5 on parempi yhteistyökumppani erityisesti agenttipohjaisissa koodaustuotteissa, kuten Cursor, Windsurf, GitHub Copilot ja Codex CLI. Toimintansa aikana GPT‑5 voi tuottaa suunnitelmia, päivityksiä ja yhteenvetoja työkalukutsujen välillä. Aikaisempiin malleihimme verrattuna GPT‑5 on proaktiivisempi kunnianhimoisten tehtävien suorittamisessa ilman, että se odottaa sinun hyväksyntääsi tai epäröi monimutkaisten tehtävien edessä.
Tässä on esimerkki siitä, miltä GPT‑5 voi näyttää suorittaessaan monimutkaista tehtävää (tässä tapauksessa ravintolan verkkosivuston luominen):
Kun käyttäjä pyytää ravintolalleen verkkosivustoa, GPT‑5 tekee nopean suunnitelman, luo sovelluksen tukirakenteet, asentaa riippuvuudet, luo sivuston sisällön, suorittaa koontiversion käännösvirheiden tarkastamiseksi, tekee yhteenvedon työstään ja ehdottaa mahdollisia seuraavia vaiheita. Tätä videota on nopeutettu noin kolminkertaisesti ajan säästämiseksi. Verkkosivuston luominen kesti kokonaisuudessaan noin kolme minuuttia.
Agenttipohjaisen koodauksen lisäksi GPT‑5 on yleisesti ottaen parempi agenttipohjaisissa tehtävissä. GPT‑5 on saavuttanut uudet ennätykset ohjeiden noudattamisen (69,6 % Scale MultiChallenge -testissä, o3‑mini‑luokitus) ja työkalujen kutsumisen (96,7 % τ2-bench telecom -testissä) vertailuissa. Parannettu työkalujen älykkyys mahdollistaa GPT‑5:n yhdistää toimia entistä luotettavammin toisiinsa tosielämän tehtävien suorittamiseksi.
Varhainen palaute GPT‑5:stä agenttipohjaisissa tehtävissä
”GPT-5 on suuri edistysaskel. Se saavutti sisäisissä vertailutesteissämme parhaan suorituskyvyn, jonka olemme koskaan nähneet yksittäisellä mallilla. GPT-5 suoriutui erinomaisesti erilaisista agenttipohjaisista tehtävistä, jopa ennen kuin muutimme yhtään koodiriviä tai räätälöimme kehotetta. Uudet johdannot ja työkalujen käytön tarkempi hallinta mahdollistivat merkittävän harppauksen agenttiemme vakaudessa ja ohjattavuudessa.”
GPT‑5 noudattaa ohjeita luotettavammin kuin mikään edeltäjänsä, ja sai korkeat pisteet COLLIE- ja Scale MultiChallenge-testeissä, ja sisäisessä ohjeiden noudattamisen arvioinnissamme.
COLLIE(avautuu uudessa ikkunassa)-testissä mallien on kirjoitettava tekstiä, joka noudattaa useita rajoituksia. Scale MultiChallenge(avautuu uudessa ikkunassa) -testissä malleja haastetaan monikäänteisissä keskusteluissa käyttämään oikein neljää erityyppistä tietoa aiemmista viesteistä. Pisteet perustuvat o3‑mini‑mallin käyttöön arviointityökaluna, joka oli tarkempi kuin GPT‑4o. Arvioinnin jälkeen sisäisessä OpenAI API -ohjeessamme mallien on noudatettava vaikeita ohjeita, jotka on johdettu todellisesta kehittäjäpalautteesta. Päättelymalleja käytettiin vaativalla päättelytasolla.
Olemme tehneet lujasti töitä parantaaksemme työkalujen kutsumista tavoilla, joilla on merkitystä kehittäjille. GPT‑5 on parempi noudattamaan työkalujen ohjeita, käsittelemään työkalujen virheitä ja tekemään proaktiivisesti useita työkalukutsuja sekä peräkkäin että rinnakkain. Ohjeistettuna GPT‑5 voi myös tuottaa johdantoviestejä ennen työkalukutsuja ja niiden välillä pitääkseen käyttäjät ajan tasalla pidempien agenttipohjaisten tehtävien edistymisestä.
Kaksi kuukautta sitten Sierra.ai julkaisi τ2-bench telecom -testin haastavana työkalun käytön vertailuarvona, joka korosti, kuinka kielimallin suorituskyky heikkenee merkittävästi sen ollessa vuorovaikutuksessa ympäristössä, jonka tilaa käyttäjät voivat muuttaa. Heidän julkaisussaan(avautuu uudessa ikkunassa) mikään malli ei saavuttanut yli 49 %:n tulosta. GPT‑5 sai tulokseksi 97 %.
τ2-bench(avautuu uudessa ikkunassa)-evaluoinnissa mallin on käytettävä työkaluja suorittaakseen asiakaspalvelutehtävän, jossa voi olla käyttäjä, joka voi kommunikoida ja toimia maailman tilan suhteen. Päättelymalleja käytettiin vaativalla päättelytasolla.
GPT‑5 osoittaa myös vahvoja parannuksia pitkän kontekstin suorituskyvyssä. Pitkän kontekstin tiedonhakua mittaavassa OpenAI-MRCR-testissä GPT‑5 ylittää o3:n ja GPT‑4.1:n suorituskyvyn ja ero kasvaa merkittävästi pidempien syötteiden kohdalla.
OpenAI-MRCR(avautuu uudessa ikkunassa)-vertailussa (monikierroksinen yhteisviittausresoluutio) useita identtisiä ”neula”-käyttäjäpyyntöjä lisätään pitkiin ”heinäsuoviin”, joissa on samankaltaisia pyyntöjä ja vastauksia, ja mallia pyydetään tuottamaan vastaus i:nnelle neulalle. Keskimääräinen osumasuhde mittaa merkkijonojen keskimääräistä osumasuhdetta mallin vastauksen ja oikean vastauksen välillä. Pisteet 256 000 syötetunnisteen enimmäismäärän kohdalla edustavat keskiarvoja 128 000–256 000 syötetunnisteen yli ja niin edelleen. Tässä 256k edustaa 256 * 1 024 = 262 114 tunnistetta. Päättelymalleja käytettiin vaativalla päättelytasolla.
Julkaisemme myös uuden avoimen lähdekoodin BrowseComp Long Context(avautuu uudessa ikkunassa) -vertailuarvon pitkän kontekstin kysymys- ja vastausosioiden arviointiin. Tässä vertailussa mallille annetaan käyttäjän kysely, pitkä luettelo asiaankuuluvista hakutuloksista, ja sen on vastattava kysymykseen hakutulosten perusteella. Suunnittelimme BrowseComp Long Context -vertailun realistiseksi, vaikeaksi ja luotettavaksi antamaan oikeita ja totuudenmukaisia vastauksia. 128 000–256 000 tunnistetta sisältävillä syötteillä GPT‑5 antaa oikean vastauksen 89 % ajasta.
API:ssa kaikki GPT‑5‑mallit voivat hyväksyä enintään 272 000 syötetunnistetta ja lähettää enintään 128 000 päättely- ja tuotostunnistetta, jolloin kontekstin kokonaispituus on 400 000 tunnistetta.
GPT‑5 on aiempia mallejamme luotettavampi. LongFact- ja FactScore-vertailujen kehotteissa GPT‑5 tekee noin 80 % vähemmän faktavirheitä kuin o3. Se tekee siitä paremmin sopivan agenttipohjaisiin käyttötapauksiin, joissa oikeellisuus on tärkeää, kuten erityisesti koodissa, datassa ja päätöksenteossa.
Korkeammat pisteet ovat huonompia. LongFact(avautuu uudessa ikkunassa) ja FActScore(avautuu uudessa ikkunassa) koostuvat avoimista faktaa etsivistä kysymyksistä. Käytämme LLM-pohjaista arviointityökalua, jossa on selausmahdollisuus, tarkastaaksemme näiden vertailukohtien vastausten faktat ja mitataksemme faktavirheiden osuuden. Toteutus- ja arvostelutiedot löytyvät järjestelmäkortista. Päättelymallit käyttivät vaativaa päättelytasoa. Haku ei ollut käytössä.
Yleisesti ottaen GPT‑5 on koulutettu olemaan paremmin tietoinen omista rajoituksistaan ja kykenevämpi käsittelemään odottamattomia haasteita. Lisäksi olemme kouluttaneet GPT‑5:n vastaamaan terveyttä koskeviin kysymyksiin paljon tarkemmin (lue lisää tutkimusblogistamme). Kuten kaikkien kielimallien kohdalla, suosittelemme tarkastamaan GPT‑5:n työn tuotokset, kun kyseessä on tärkeä asia.
Kehittäjät voivat hallita GPT‑5:n ajatteluun käyttämää aikaa API:n reasoning_effort-parametrin avulla. Aiempien arvojen (low, medium (oletus) ja high) lisäksi GPT‑5 tukee myös arvoa minimal-arvoa, joka minimoi GPT‑5:n päättelyn ja palauttaa vastauksen nopeasti.
Korkeammat reasoning_effort-arvot maksimoivat laadun ja matalammat arvot maksimoivat nopeuden. Kaikki tehtävät eivät hyödy yhtä paljon ylimääräisestä päättelystä, joten suosittelemme kokeilemaan, mikä toimii parhaiten sinulle tärkeissä käyttötapauksissa.
Esimerkiksi low-tasoa korkeampi päättely lisää vain vähän suhteellisen yksinkertaiseen pitkän kontekstin hakuun, mutta se lisää useita prosenttiyksiköitä CharXiv Reasoning(avautuu uudessa ikkunassa) -testiin, joka on visuaalisen päättelyn vertailuarvo.
GPT‑5:n päättely tuottaa erilaisia hyötyjä eri tehtävissä. CharXiv-päättelyä varten GPT‑5:lle annettiin käyttöön Python-työkalu.
GPT‑5:n vastausten oletuspituuden mukauttamiseksi olemme ottaneet käyttöön uuden API-parametrin verbosity (monisanaisuus), jonka arvot ovat low, medium (oletus) ja high. Jos nimenomaiset ohjeet ovat ristiriidassa monisanaisuus-parametrien kanssa, nimenomaiset ohjeet ovat etusijalla. Jos esimerkiksi pyydät GPT‑5:ltä: ”Kirjoita viiden kappaleen essee”, niin mallin vastauksessa tulisi aina olla viisi kappaletta riippumatta monisanaisuuden parametrin arvosta (kappaleet voivat kuitenkin olla pidempiä tai lyhyempiä).
Verbosity=low
Verbosity=medium
Verbosity=high
Mikäli niin ohjeistetaan, GPT‑5 näyttää käyttäjälle johdantoviestit ennen työkalukutsuja ja niiden välillä. Toisin kuin piilotetut päättelyviestit, nämä näkyvät viestit antavat GPT‑5:lle mahdollisuuden viestiä suunnitelmista ja edistymisestä käyttäjälle, auttaen loppukäyttäjiä ymmärtämään sen lähestymistapaa ja työkalukutsujen taustalla olevaa tarkoitusta.
Esittelemme uuden työkalutyypin, mukautetut työkalut, joiden avulla GPT‑5 voi kutsua työkalun tekstimuodossa JSON-muodon sijaan. Rajoittaakseen GPT‑5:n mukautettujen työkalumuotojen noudattamista kehittäjät voivat tarjota säännöllisen lausekkeen tai jopa tarkemmin määritellyn kontekstittoman kieliopin(avautuu uudessa ikkunassa).
Aiemmin kehittäjien määrittämien työkalujen käyttöliittymä vaati, että ne kutsuttiin JSON-muodossa, joka on yleinen verkkorajapintojen ja kehittäjien käyttämä muoto. Kelvollisen JSON-tiedoston tuottaminen kuitenkin edellyttää, että malli pystyy täydellisesti käsittelemään kaikki lainausmerkit, kauttaviivat, rivinvaihdot ja muut ohjausmerkit. Vaikka mallimme on hyvin koulutettu tuottamaan JSON-tiedostoja, pitkissä syötteissä, kuten useissa sadoissa koodiriveissä tai viiden sivun raportissa, virheiden todennäköisyys kasvaa. Mukautettujen työkalujen avulla GPT‑5 voi kirjoittaa työkalun syötteet tekstimuodossa ilman, että kaikkia merkkejä, jotka vaativat paikanvaihtoa, tarvitsee vaihtaa.
SWE-bench Verified -testissä, jossa käytettiin mukautettuja työkaluja JSON-työkalujen sijaan, GPT‑5:n pisteet ovat suunnilleen samat.
GPT‑5 edistää turvallisuuden eturintamaa ja on vankempi, luotettavampi ja hyödyllisempi malli. GPT‑5:llä on huomattavasti pienempi todennäköisyys hallusinaatioihin kuin aiemmilla malleillamme, se viestii toimistaan ja ominaisuuksistaan käyttäjälle rehellisemmin, ja tarjoaa mahdollisimman hyödyllisen vastauksen pysyen silti turvallisuusrajoissa. Saat lisätietoja tutkimusblogistamme.
GPT‑5 on nyt saatavilla API-alustalla kolmessa koossa: gpt-5, gpt-5-mini ja gpt-5-nano. Se on saatavilla vastausten API:ssa ja keskustelun loppuun päättämisen API:ssa, ja on oletusarvoisena Codex CLI:ssä. GPT‑5:n hinta on 1,25 dollaria/1 miljoona syötetunnistetta ja 10 dollaria/1 miljoona tuotostunnistetta, GPT‑5 minin hinta on 0,25 dollaria/1 miljoona syötetunnistetta ja 2 dollaria/1 miljoona tuotostunnistetta, ja GPT‑5 nanon hinta on 0,05 dollaria/1 miljoona syötetunnistetta ja 0,40 dollaria/1 miljoona tuotostunnistetta.
Kaikki GPT‑5‑mallit tukevat reasoning_effort- ja verbosity-API-parametreja sekä mukautettuja työkaluja. Ne tukevat myös rinnakkaisia työkalukutsuja, sisäänrakennettuja työkaluja (verkkohaku, tiedostohaku, kuvien luonti ja muuta), API-ydinominaisuuksia (suoratoisto, strukturoidut tuotokset ja muuta) sekä kustannusten säästöominaisuuksia, kuten kehotevälimuistia ja Batch API:a.
ChatGPT:ssä käytetty GPT‑5:n ei-päättelyversio on saatavilla API:ssa nimellä gpt-5-chat-latest, jonka hinta on myös 1,25 dollaria/1 miljoona syöttötunnistetta ja 10 dollaria/1 miljoona tuotostunnistetta.
GPT‑5 julkaistaan myös useilla Microsoftin alustoilla, mukaan lukien Microsoft 365 Copilot, Copilot, GitHub Copilot ja Azure AI Foundry.
Aloita tutustumalla GPT‑5:n dokumentaatioon(avautuu uudessa ikkunassa), hinnoittelutietoihin(avautuu uudessa ikkunassa) ja kehoteoppaaseen(avautuu uudessa ikkunassa).
Älykkyys
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Edellisessä blogikirjoituksessamme raportoitujen lukujen välillä on pieni ero, koska ne ajettiin HLE:n aiemmalla versiolla.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Koodaus
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 t. $ | 75 t. $ | 49 t. $ | 86 t. $ | 66 t. $ | 34 t. $ | 31 t. $ | 9 t. $ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Jätämme pois 23/500 ongelmaa, joita ei voitu suorittaa infrastruktuurissamme. Luettelo kaikista 23 pois jätetystä tehtävästä on 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ja 'sphinx-doc__sphinx-9367'.
Ohjeiden noudattaminen
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Huomautus: havaitsimme, että MultiChallengen (GPT-4o) oletusarvoinen arvioija pisteyttää mallivastauksia usein väärin. Havaitsimme, että arvioijan vaihtaminen päättelymalliin, kuten o3-miniin, parantaa merkittävästi tarkastelemiemme näytteiden arvioinnin tarkkuutta.
Toiminnon kutsuminen
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Long Context
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallusinaatiot
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


