Siirry pääsisältöön
OpenAI

7. elokuuta 2025

Tuote

Esittelyssä GPT‑5 kehittäjille

Paras malli koodaus- ja agenttipohjaisia tehtäviä varten.

Ladataan...

Johdanto

Julkaisemme tänään API-alustallamme GPT‑5:n, joka on tähän mennessä paras mallimme koodaamiseen ja agenttipohjaisiin tehtäviin.

GPT‑5 on huippuluokkaa (SOTA-tasolla) tärkeimmissä koodaustesteissä, ja se sai 74,9 % pistettä SWE-bench Verified- ja 88 % Aider-polyglot-testissä. Koulutimme GPT‑5:n aidoksi koodauskumppaniksi. Se on erinomainen korkealaatuisen koodin tuottamisessa ja tehtävien käsittelyssä, kuten virheiden korjaamisessa, koodin muokkaamisessa ja vastaamisessa monimutkaisia koodikantoja koskeviin kysymyksiin. Malli on ohjattava ja yhteistyökykyinen. Se pystyy noudattamaan erittäin yksityiskohtaisia ohjeita erittäin tarkasti ja voi etukäteen selittää toimintojaan ennen työkalukutsuja ja niiden välillä.  Malli loistaa myös front-end-koodauksessa, ja sisäisissä testeissä se voittaa OpenAI o3:n frontend-verkkokehityksessä 70 % tapauksista.

Koulutimme GPT‑5:n todellisissa koodaustehtävissä yhteistyössä alkuvaiheen testaajien kanssa startup-yrityksissä ja suuryrityksissä. Cursor kertoi, että GPT‑5 on ”älykkäin malli, jota [he] ovat käyttäneet” ja ”huomattavan älykäs, helppo ohjata ja sillä on jopa persoonallisuus, jota [he] eivät ole nähneet muissa malleissa”. Windsurf-yhtiön mukaan GPT‑5 on heidän arvioinneissaan SOTA-tasolla ja että ”sen työkalukutsujen virheprosentti on puolet pienempi kuin muissa edistyneissä malleissa”. Vercel sanoi, että ”se on paras käyttöliittymäpuolen tekoälymalli, joka saavuttaa huippusuorituskyvyn sekä esteettisen mielen että koodin laadun osalta, mikä asettaa sen omaan kategoriaansa”.

GPT‑5 loistaa myös pitkäkestoisissa agenttipohjaisissa tehtävissä. Se saavutti SOTA-tason tuloksia τ2-bench telecom -testissä (96,7 %), joka on vain kaksi kuukautta sitten julkaistu työkalukutsujen vertailuarvo. GPT‑5:n parannettu työkaluälykkyys mahdollistaa sen, että se voi luotettavasti ketjuttaa kymmeniä työkutsuja (sekä peräkkäin että rinnakkain) menettämättä suuntaa. Tämä tekee siitä huomattavasti paremman suorittamaan monimutkaisia, todellisia tehtäviä alusta loppuun. Se myös noudattaa työkalujen ohjeita tarkemmin, käsittelee työkaluvirheitä paremmin ja on erinomainen pitkän kontekstin sisällön hakemisessa. Manus ilmoitti, että GPT‑5 ”saavutti parhaan suorituskyvyn, jonka [he] ovat koskaan nähneet yksittäisestä mallista [heidän] sisäisissä vertailuissaan.” Notion kertoi, että ”[mallin] nopeat vasteet, erityisesti matalan päättelykyvyn tilassa, tekevät GPT‑5:stä ihanteellisen mallin, kun monimutkaiset tehtävät on ratkaistava kerralla.” Inditex kertoi, että ”GPT‑5 erottuu muista erityisesti syvällisen päättelykykynsä ansiosta: se antaa monipuolisia ja monitasoisia vastauksia, jotka osoittavat todellista aihepiirin ymmärrystä”.

Esittelemme API:ssamme uusia ominaisuuksia, jotka antavat kehittäjille enemmän hallintamahdollisuuksia mallin vastauksiin. GPT‑5 tukee uutta verbosity-parametria (monisanaisuus) (arvot: low, medium, high), jonka avulla voi hallita, ovatko vastaukset lyhyitä ja ytimekkäitä vai pitkiä ja kattavia. GPT‑5:n reasoning_effort-parametrille voi nyt antaa minimal-arvon, jotta vastaukset saadaan nopeammin ilman perusteellista päättelyä. Olemme myös lisänneet uuden työkalutyypin – mukautetut työkalut – joiden avulla GPT‑5 voi kutsua työkaluja tekstimuodossa JSON-muodon sijaan. Mukautetut työkalut tukevat rajoittamista kehittäjien toimittamilla kontekstittomilla kieliopeilla.

Julkaisemme GPT‑5:n API:ssa kolmessa koossa: gpt-5, gpt-5-mini ja gpt-5-nano. Ne antavat kehittäjille enemmän joustavuutta suorituskyvyn, kustannusten ja viiveen suhteen. Vaikka ChatGPT:ssä GPT‑5 on päättely-, ei-päättely- ja reititysmallien järjestelmä, API-alustalla GPT‑5 on päättelymalli, joka maksimoi ChatGPT:n suorituskyvyn. Merkillepantavaa on, että minimaalisella päättelyllä varustettu GPT‑5 on eri malli kuin ChatGPT:n ei-päättelymalli, ja sopii paremmin kehittäjille. ChatGPT:ssä käytetty ei-päättelevä malli on saatavilla nimellä gpt-5-chat-latest.

Saat lisätietoja GPT‑5:stä ChatGPT:ssä ja muista ChatGPT‑parannuksista tutkimusblogistamme. Lisätietoja siitä, miksi yritykset ovat innoissaan GPT‑5:stä, on yritysblogissamme.

Koodaus

GPT‑5 on vahvin koodausmalli, jonka olemme koskaan julkaisseet. Se ylittää o3:n koodausvertailuissa ja tosielämän käyttötapauksissa, ja on hienosäädetty toimimaan erinomaisesti agenttipohjaisten koodaustuotteiden kanssa, kuten Cursor, Windsurf ja Codex CLI. GPT‑5 teki vaikutuksen alfa-testaajiimme ja rikkoi ennätyksiä monissa heidän yksityisissä sisäisissä arvioinneissaan. 

Varhainen palaute GPT‑5:stä tosielämän koodaustehtävissä

”GPT-5 on älykkäin käyttämämme koodausmalli. Tiimimme mielestä GPT-5 on huomattavan älykäs, helppo ohjata ja sillä on jopa persoonallisuus, jota emme ole nähneet missään muissa malleissa. Se ei ainoastaan löydä hankalia, syvällä piileviä virheitä, vaan se voi myös suorittaa pitkiä, usean vuoron tausta-agentteja suorittaakseen monimutkaiset tehtävät loppuun asti eli sellaisia ongelmia, jotka aiemmin jättivät muut mallit jumiin. Siitä on tullut päivittäinen ajurimme kaikessa aina PR-suunnittelusta kokonaisvaltaisten rakennusprojektien loppuun saattamiseen.”
Michael Truell, yksi Cursorin perustajista ja toimitusjohtaja

SWE-bench Verified -testissä, joka perustuu todellisiin ohjelmistosuunnittelutehtäviin, GPT‑5:n tulos oli 74,9 %, kun o3 sai 69,1 %. Merkittävää on, että GPT‑5 saavuttaa korkean pistemääränsä suuremmalla tehokkuudella ja nopeudella. Verrattuna o3:een, joka vaatii paljon päättelykykyä, GPT‑5 käyttää 22 % vähemmän tuotetunnisteita ja 45 % vähemmän työkalukutsuja.

SWE-bench Verified -testissä mallille annetaan koodivarasto ja ongelman kuvaus, ja sen on luotava korjaustiedosto ongelman ratkaisemiseksi. Tekstimerkinnät osoittavat päättelyn vaivannäköä. Tuloksistamme on jätetty pois 23 ongelmaa 500:sta. Niiden ratkaisut eivät läpäisseet infrastruktuuriamme luotettavasti. GPT‑5:lle annettiin lyhyt kehote, jossa korostettiin ratkaisujen huolellista tarkistamista; sama kehote ei hyödyttänyt o3:a.

Koodieditoinnin arviointityökalussa Aider polyglotissa GPT‑5 teki uuden ennätyksen 88 %, mikä on kolmanneksen pienempi virheprosentti kuin o3:ssa.

Aider polygot(avautuu uudessa ikkunassa) (diff) -tehtävässä mallille annetaan Exercism-sivustolta koodausharjoitus, jossa ratkaisu on kirjoitettava koodieroina. Päättelymalleja käytettiin vaativalla päättelytasolla.

Olemme myös havainneet, että GPT‑5 pystyy erinomaisesti syventymään koodipohjiin ja vastaamaan kysymyksiin eri osien toiminnasta tai yhteentoimivuudesta. OpenAI:n vahvistusoppimispinon kaltaisessa monimutkaisessa koodikannassa huomaamme, että GPT‑5 voi auttaa meitä pohtimaan ja vastaamaan koodiamme koskeviin kysymyksiin, mikä nopeuttaa omaa päivittäistä työtämme. 

Frontend-suunnittelu

Verkkosovellusten käyttöliittymäkoodia tuotettaessa GPT‑5 on esteettisesti ajattelevampi, kunnianhimoisempi ja tarkempi. Rinnakkaisissa vertailuissa o3:n kanssa testaajamme suosivat GPT‑5:tä 70 % ajasta.

Tässä on muutamia hauskoja, valikoituja esimerkkejä siitä, mitä GPT‑5 pystyy tekemään yhdellä käskyllä:

Kehote: Ole hyvä ja luo kaunis ja realistinen aloitussivu palvelulle, joka tarjoaa kahvinharrastajille 200 dollarin kuukausitilauksen, joka sisältää laitteiden vuokrauksen ja valmennusta kahvinpaahtamiseen ja täydellisen espresson valmistamiseen. Kohderyhmä on keski-ikäinen henkilö lahden ympäristöstä, joka saattaa työskennellä teknologia-alalla, on koulutettu, hänellä on käytettävissä olevia tuloja ja hän on intohimoinen kahvin taiteesta ja tieteestä. Optimoi konversioille 6 kuukauden rekisteröitymisen yhteydessä.

Katso lisää GPT‑5:n esimerkkejä galleriassamme täällä(avautuu uudessa ikkunassa).

Koodausyhteistyö

GPT‑5 on parempi yhteistyökumppani erityisesti agenttipohjaisissa koodaustuotteissa, kuten Cursor, Windsurf, GitHub Copilot ja Codex CLI. Toimintansa aikana GPT‑5 voi tuottaa suunnitelmia, päivityksiä ja yhteenvetoja työkalukutsujen välillä. Aikaisempiin malleihimme verrattuna GPT‑5 on proaktiivisempi kunnianhimoisten tehtävien suorittamisessa ilman, että se odottaa sinun hyväksyntääsi tai epäröi monimutkaisten tehtävien edessä.

Tässä on esimerkki siitä, miltä GPT‑5 voi näyttää suorittaessaan monimutkaista tehtävää (tässä tapauksessa ravintolan verkkosivuston luominen):

Kun käyttäjä pyytää ravintolalleen verkkosivustoa, GPT‑5 tekee nopean suunnitelman, luo sovelluksen tukirakenteet, asentaa riippuvuudet, luo sivuston sisällön, suorittaa koontiversion käännösvirheiden tarkastamiseksi, tekee yhteenvedon työstään ja ehdottaa mahdollisia seuraavia vaiheita. Tätä videota on nopeutettu noin kolminkertaisesti ajan säästämiseksi. Verkkosivuston luominen kesti kokonaisuudessaan noin kolme minuuttia.

Agenttipohjaiset tehtävät

Agenttipohjaisen koodauksen lisäksi GPT‑5 on yleisesti ottaen parempi agenttipohjaisissa tehtävissä. GPT‑5 on saavuttanut uudet ennätykset ohjeiden noudattamisen (69,6 % Scale MultiChallenge -testissä, o3‑mini‑luokitus) ja työkalujen kutsumisen (96,7 % τ2-bench telecom -testissä) vertailuissa. Parannettu työkalujen älykkyys mahdollistaa GPT‑5:n yhdistää toimia entistä luotettavammin toisiinsa tosielämän tehtävien suorittamiseksi.

Varhainen palaute GPT‑5:stä agenttipohjaisissa tehtävissä

”GPT-5 on suuri edistysaskel. Se saavutti sisäisissä vertailutesteissämme parhaan suorituskyvyn, jonka olemme koskaan nähneet yksittäisellä mallilla. GPT-5 suoriutui erinomaisesti erilaisista agenttipohjaisista tehtävistä, jopa ennen kuin muutimme yhtään koodiriviä tai räätälöimme kehotetta. Uudet johdannot ja työkalujen käytön tarkempi hallinta mahdollistivat merkittävän harppauksen agenttiemme vakaudessa ja ohjattavuudessa.”
Yichao ’Peak’ Ji, Yksi Manuksen perustajista ja päätutkija

Ohjeiden noudattaminen

GPT‑5 noudattaa ohjeita luotettavammin kuin mikään edeltäjänsä, ja sai korkeat pisteet COLLIE- ja Scale MultiChallenge-testeissä, ja sisäisessä ohjeiden noudattamisen arvioinnissamme.

COLLIE(avautuu uudessa ikkunassa)-testissä mallien on kirjoitettava tekstiä, joka noudattaa useita rajoituksia. Scale MultiChallenge(avautuu uudessa ikkunassa) -testissä malleja haastetaan monikäänteisissä keskusteluissa käyttämään oikein neljää erityyppistä tietoa aiemmista viesteistä. Pisteet perustuvat o3‑mini‑mallin käyttöön arviointityökaluna, joka oli tarkempi kuin GPT‑4o. Arvioinnin jälkeen sisäisessä OpenAI API -ohjeessamme mallien on noudatettava vaikeita ohjeita, jotka on johdettu todellisesta kehittäjäpalautteesta. Päättelymalleja käytettiin vaativalla päättelytasolla.

Työkalukutsu

Olemme tehneet lujasti töitä parantaaksemme työkalujen kutsumista tavoilla, joilla on merkitystä kehittäjille. GPT‑5 on parempi noudattamaan työkalujen ohjeita, käsittelemään työkalujen virheitä ja tekemään proaktiivisesti useita työkalukutsuja sekä peräkkäin että rinnakkain. Ohjeistettuna GPT‑5 voi myös tuottaa johdantoviestejä ennen työkalukutsuja ja niiden välillä pitääkseen käyttäjät ajan tasalla pidempien agenttipohjaisten tehtävien edistymisestä.

Kaksi kuukautta sitten Sierra.ai julkaisi τ2-bench telecom -testin haastavana työkalun käytön vertailuarvona, joka korosti, kuinka kielimallin suorituskyky heikkenee merkittävästi sen ollessa vuorovaikutuksessa ympäristössä, jonka tilaa käyttäjät voivat muuttaa. Heidän julkaisussaan(avautuu uudessa ikkunassa) mikään malli ei saavuttanut yli 49 %:n tulosta. GPT‑5 sai tulokseksi 97 %.

τ2-bench(avautuu uudessa ikkunassa)-evaluoinnissa mallin on käytettävä työkaluja suorittaakseen asiakaspalvelutehtävän, jossa voi olla käyttäjä, joka voi kommunikoida ja toimia maailman tilan suhteen. Päättelymalleja käytettiin vaativalla päättelytasolla.

GPT‑5 osoittaa myös vahvoja parannuksia pitkän kontekstin suorituskyvyssä. Pitkän kontekstin tiedonhakua mittaavassa OpenAI-MRCR-testissä GPT‑5 ylittää o3:n ja GPT‑4.1:n suorituskyvyn ja ero kasvaa merkittävästi pidempien syötteiden kohdalla.

OpenAI-MRCR(avautuu uudessa ikkunassa)-vertailussa (monikierroksinen yhteisviittausresoluutio) useita identtisiä ”neula”-käyttäjäpyyntöjä lisätään pitkiin ”heinäsuoviin”, joissa on samankaltaisia pyyntöjä ja vastauksia, ja mallia pyydetään tuottamaan vastaus i:nnelle neulalle. Keskimääräinen osumasuhde mittaa merkkijonojen keskimääräistä osumasuhdetta mallin vastauksen ja oikean vastauksen välillä. Pisteet 256 000 syötetunnisteen enimmäismäärän kohdalla edustavat keskiarvoja 128 000–256 000 syötetunnisteen yli ja niin edelleen. Tässä 256k edustaa 256 * 1 024 = 262 114 tunnistetta. Päättelymalleja käytettiin vaativalla päättelytasolla.

Julkaisemme myös uuden avoimen lähdekoodin BrowseComp Long Context(avautuu uudessa ikkunassa) -vertailuarvon pitkän kontekstin kysymys- ja vastausosioiden arviointiin. Tässä vertailussa mallille annetaan käyttäjän kysely, pitkä luettelo asiaankuuluvista hakutuloksista, ja sen on vastattava kysymykseen hakutulosten perusteella. Suunnittelimme BrowseComp Long Context -vertailun realistiseksi, vaikeaksi ja luotettavaksi antamaan oikeita ja totuudenmukaisia vastauksia. 128 000–256 000 tunnistetta sisältävillä syötteillä GPT‑5 antaa oikean vastauksen 89 % ajasta.

API:ssa kaikki GPT‑5‑mallit voivat hyväksyä enintään 272 000 syötetunnistetta ja lähettää enintään 128 000 päättely- ja tuotostunnistetta, jolloin kontekstin kokonaispituus on 400 000 tunnistetta.

Todenmukaisuus

GPT‑5 on aiempia mallejamme luotettavampi. LongFact- ja FactScore-vertailujen kehotteissa GPT‑5 tekee noin 80 % vähemmän faktavirheitä kuin o3. Se tekee siitä paremmin sopivan agenttipohjaisiin käyttötapauksiin, joissa oikeellisuus on tärkeää, kuten erityisesti koodissa, datassa ja päätöksenteossa.

Korkeammat pisteet ovat huonompia. LongFact(avautuu uudessa ikkunassa) ja FActScore(avautuu uudessa ikkunassa) koostuvat avoimista faktaa etsivistä kysymyksistä. Käytämme LLM-pohjaista arviointityökalua, jossa on selausmahdollisuus, tarkastaaksemme näiden vertailukohtien vastausten faktat ja mitataksemme faktavirheiden osuuden. Toteutus- ja arvostelutiedot löytyvät järjestelmäkortista. Päättelymallit käyttivät vaativaa päättelytasoa. Haku ei ollut käytössä.

Yleisesti ottaen GPT‑5 on koulutettu olemaan paremmin tietoinen omista rajoituksistaan ja kykenevämpi käsittelemään odottamattomia haasteita. Lisäksi olemme kouluttaneet GPT‑5:n vastaamaan terveyttä koskeviin kysymyksiin paljon tarkemmin (lue lisää tutkimusblogistamme). Kuten kaikkien kielimallien kohdalla, suosittelemme tarkastamaan GPT‑5:n työn tuotokset, kun kyseessä on tärkeä asia.

Uudet ominaisuudet

Minimaalinen päättelytyö

Kehittäjät voivat hallita GPT‑5:n ajatteluun käyttämää aikaa API:n reasoning_effort-parametrin avulla. Aiempien arvojen (low, medium (oletus) ja high) lisäksi GPT‑5 tukee myös arvoa minimal-arvoa, joka minimoi GPT‑5:n päättelyn ja palauttaa vastauksen nopeasti.

Korkeammat reasoning_effort-arvot maksimoivat laadun ja matalammat arvot maksimoivat nopeuden. Kaikki tehtävät eivät hyödy yhtä paljon ylimääräisestä päättelystä, joten suosittelemme kokeilemaan, mikä toimii parhaiten sinulle tärkeissä käyttötapauksissa.

Esimerkiksi low-tasoa korkeampi päättely lisää vain vähän suhteellisen yksinkertaiseen pitkän kontekstin hakuun, mutta se lisää useita prosenttiyksiköitä CharXiv Reasoning(avautuu uudessa ikkunassa) -testiin, joka on visuaalisen päättelyn vertailuarvo.

GPT‑5:n päättely tuottaa erilaisia hyötyjä eri tehtävissä. CharXiv-päättelyä varten GPT‑5:lle annettiin käyttöön Python-työkalu.

Monisanaisuus

GPT‑5:n vastausten oletuspituuden mukauttamiseksi olemme ottaneet käyttöön uuden API-parametrin verbosity (monisanaisuus), jonka arvot ovat low, medium (oletus) ja high. Jos nimenomaiset ohjeet ovat ristiriidassa monisanaisuus-parametrien kanssa, nimenomaiset ohjeet ovat etusijalla. Jos esimerkiksi pyydät GPT‑5:ltä: ”Kirjoita viiden kappaleen essee”, niin mallin vastauksessa tulisi aina olla viisi kappaletta riippumatta monisanaisuuden parametrin arvosta (kappaleet voivat kuitenkin olla pidempiä tai lyhyempiä).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Johdantoviestit ennen työkalukutsuja

Mikäli niin ohjeistetaan, GPT‑5 näyttää käyttäjälle johdantoviestit ennen työkalukutsuja ja niiden välillä. Toisin kuin piilotetut päättelyviestit, nämä näkyvät viestit antavat GPT‑5:lle mahdollisuuden viestiä suunnitelmista ja edistymisestä käyttäjälle, auttaen loppukäyttäjiä ymmärtämään sen lähestymistapaa ja työkalukutsujen taustalla olevaa tarkoitusta.

Mukautetut työkalut

Esittelemme uuden työkalutyypin, mukautetut työkalut, joiden avulla GPT‑5 voi kutsua työkalun tekstimuodossa JSON-muodon sijaan. Rajoittaakseen GPT‑5:n mukautettujen työkalumuotojen noudattamista kehittäjät voivat tarjota säännöllisen lausekkeen tai jopa tarkemmin määritellyn kontekstittoman kieliopin(avautuu uudessa ikkunassa).

Aiemmin kehittäjien määrittämien työkalujen käyttöliittymä vaati, että ne kutsuttiin JSON-muodossa, joka on yleinen verkkorajapintojen ja kehittäjien käyttämä muoto. Kelvollisen JSON-tiedoston tuottaminen kuitenkin edellyttää, että malli pystyy täydellisesti käsittelemään kaikki lainausmerkit, kauttaviivat, rivinvaihdot ja muut ohjausmerkit. Vaikka mallimme on hyvin koulutettu tuottamaan JSON-tiedostoja, pitkissä syötteissä, kuten useissa sadoissa koodiriveissä tai viiden sivun raportissa, virheiden todennäköisyys kasvaa. Mukautettujen työkalujen avulla GPT‑5 voi kirjoittaa työkalun syötteet tekstimuodossa ilman, että kaikkia merkkejä, jotka vaativat paikanvaihtoa, tarvitsee vaihtaa.

SWE-bench Verified -testissä, jossa käytettiin mukautettuja työkaluja JSON-työkalujen sijaan, GPT‑5:n pisteet ovat suunnilleen samat.

Turvallisuus

GPT‑5 edistää turvallisuuden eturintamaa ja on vankempi, luotettavampi ja hyödyllisempi malli. GPT‑5:llä on huomattavasti pienempi todennäköisyys hallusinaatioihin kuin aiemmilla malleillamme, se viestii toimistaan ja ominaisuuksistaan käyttäjälle rehellisemmin, ja tarjoaa mahdollisimman hyödyllisen vastauksen pysyen silti turvallisuusrajoissa. Saat lisätietoja tutkimusblogistamme.

Saatavuus ja hinnoittelu

GPT‑5 on nyt saatavilla API-alustalla kolmessa koossa: gpt-5, gpt-5-mini ja gpt-5-nano. Se on saatavilla vastausten API:ssa ja keskustelun loppuun päättämisen API:ssa, ja on oletusarvoisena Codex CLI:ssä. GPT‑5:n hinta on 1,25 dollaria/1 miljoona syötetunnistetta ja 10 dollaria/1 miljoona tuotostunnistetta, GPT‑5 minin hinta on 0,25 dollaria/1 miljoona syötetunnistetta ja 2 dollaria/1 miljoona tuotostunnistetta, ja GPT‑5 nanon hinta on 0,05 dollaria/1 miljoona syötetunnistetta ja 0,40 dollaria/1 miljoona tuotostunnistetta.

Kaikki GPT‑5‑mallit tukevat reasoning_effort- ja verbosity-API-parametreja sekä mukautettuja työkaluja. Ne tukevat myös rinnakkaisia työkalukutsuja, sisäänrakennettuja työkaluja (verkkohaku, tiedostohaku, kuvien luonti ja muuta), API-ydinominaisuuksia (suoratoisto, strukturoidut tuotokset ja muuta) sekä kustannusten säästöominaisuuksia, kuten kehotevälimuistia ja Batch API:a.

ChatGPT:ssä käytetty GPT‑5:n ei-päättelyversio on saatavilla API:ssa nimellä gpt-5-chat-latest, jonka hinta on myös 1,25 dollaria/1 miljoona syöttötunnistetta ja 10 dollaria/1 miljoona tuotostunnistetta.

GPT‑5 julkaistaan myös useilla Microsoftin alustoilla, mukaan lukien Microsoft 365 Copilot, Copilot, GitHub Copilot ja Azure AI Foundry.

Yksityiskohtaiset vertailuarvot

Älykkyys
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Edellisessä blogikirjoituksessamme raportoitujen lukujen välillä on pieni ero, koska ne ajettiin HLE:n aiemmalla versiolla.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Koodaus
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 t. $75 t. $49 t. $86 t. $66 t. $34 t. $31 t. $9 t. $
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Jätämme pois 23/500 ongelmaa, joita ei voitu suorittaa infrastruktuurissamme. Luettelo kaikista 23 pois jätetystä tehtävästä on 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' ja 'sphinx-doc__sphinx-9367'.

Ohjeiden noudattaminen
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Huomautus: havaitsimme, että MultiChallengen (GPT-4o) oletusarvoinen arvioija pisteyttää mallivastauksia usein väärin. Havaitsimme, että arvioijan vaihtaminen päättelymalliin, kuten o3-miniin, parantaa merkittävästi tarkastelemiemme näytteiden arvioinnin tarkkuutta.

Toiminnon kutsuminen
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Long Context
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallusinaatiot
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Tekijä

OpenAI