Julkaisemme tänään GPT‑5.4 mini- ja nano-mallit, tähän mennessä suorituskykyisimmät pienet mallimme. Ne tuovat monia GPT‑5.4:n vahvuuksista nopeampiin ja tehokkaampiin malleihin, jotka on suunniteltu suuren volyymin työkuormiin.
GPT‑5.4 mini on GPT‑5 miniä huomattavasti parempi koodaamisessa, päättelyssä, monimuotoisen sisällön ymmärtämisessä ja työkalujen käytössä, ja se toimii yli kaksi kertaa nopeammin. Se lähestyy myös suuremman GPT‑5.4‑mallin suorituskykyä useissa arvioinneissa, kuten SWE-Bench Pro ja OSWorld-Verified.
GPT‑5.4 nano on GPT‑5.4:n pienin ja edullisin versio tehtäviin, joissa nopeus ja kustannukset ovat tärkeimpiä tekijöitä. Se on myös merkittävä parannus GPT‑5 nanoon verrattuna. Suosittelemme sitä luokitteluun, datan poimintaan, järjestämiseen ja koodaamaan aliagentteja, jotka hoitavat yksinkertaisempia tukitehtäviä.
Nämä mallit on suunniteltu sellaisiin työkuormiin, joissa viive vaikuttaa suoraan käyttökokemukseen: koodausavustajiin, joiden on toimittava nopeasti, aliagentteihin, jotka suorittavat tukitehtäviä tehokkaasti, tietokonejärjestelmiin, jotka tallentavat ja tulkitsevat kuvakaappauksia, sekä multimodaalisiin sovelluksiin, jotka analysoivat kuvia reaaliajassa. Näissä asetuksissa paras malli ei useinkaan ole suurin – vaan se, joka pystyy vastaamaan nopeasti, käyttämään työkaluja luotettavasti ja silti suoriutumaan hyvin monimutkaisista ammatillisista tehtävistä.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 minin korkein mahdollinen reasoning_effort on ”high”.
Tässä on asiakkaidemme kokemuksia GPT‑5.4 mini- ja nano-mallien testaamisesta omissa työnkuluissaan:
“GPT-5.4 mini tarjoaa tämän luokan malliksi erinomaisen suorituskyvyn alusta loppuun asti. Arvioinneissamme se saavutti tai ylitti kilpailevien mallien tulokset useissa tuotostehtävissä ja viittausten tunnistamisessa huomattavasti alhaisemmilla kustannuksilla. Se saavutti myös korkeammat läpäisyasteet koko prosessin ajan ja paremman lähteiden tunnistamisen kuin suurempi GPT-5.4-malli.”
GPT‑5.4 mini ja nano ovat erityisen tehokkaita koodaustyönkuluissa, joissa nopea iterointi on eduksi. Mallit käsittelevät kohdennettuja muokkauksia, koodipohjan navigointia, käyttöliittymän luomista ja virheenkorjaussilmukoita vähäisellä viiveellä. Tämä tekee niistä erinomaisen valinnan koodaustehtäviin, jotka vaativat nopeampaa valmistumista ja alhaisempia kustannuksia.
Vertailutesteissä GPT‑5.4 mini suoriutuu johdonmukaisesti paremmin kuin GPT‑5‑mini vastaavilla viiveillä ja lähestyy GPT‑5.4:n tason onnistumisprosentit, samalla kun se toimii huomattavasti nopeammin. Näin se tarjoaa yhden parhaista suorituskyky-viive-suhteista koodaustyönkulkuja varten.
Arvioimme viivettä tarkastelemalla malliemme tuotantokäyttäytymistä ja simuloimalla tätä offline-tilassa. Viivearvio ottaa huomioon työkalukutsun keston (koodin suoritusaika), näytteistetyt tokenit ja syötetokenit. Reaalimaailman viive voi vaihdella huomattavasti, ja se riippuu monista tekijöistä, joita simulaatiomme ei kata. Samoin kustannukset arvioidaan näiden mallien API-hinnoittelun perusteella kirjoittamishetkellä. Kustannukset voivat muuttua tulevaisuudessa. Päättely pyyhkäistiin low-tasosta xhigh-tasoon.
GPT‑5.4 mini sopii erinomaisesti myös järjestelmiin, joissa yhdistetään erikokoisia malleja. Codexissa esimerkiksi suurempi malli, kuten GPT‑5.4, voi hoitaa suunnittelun, koordinoinnin ja lopullisen harkinnan, samalla kun se delegoi GPT‑5.4 mini -aliagenteille, jotka hoitavat rinnakkain kapeampia osatehtäviä – kuten koodipohjan hakua, suuren tiedoston tarkastelua tai tukidokumenttien käsittelyä. Katso dokumentaatiosta(avautuu uudessa ikkunassa), miten aliagentit toimivat Codexissa.
Tämä malli osoittautuu yhä hyödyllisemmäksi, kun pienemmät mallit muuttuvat yhä nopeammiksi ja suorituskykyisemmiksi. Sen sijaan että kehittäjät käyttäisivät yhtä mallia kaikkeen, he voivat rakentaa järjestelmiä, joissa suuremmat mallit päättävät toimista ja pienemmät mallit toteuttavat ne nopeasti laajassa mittakaavassa. GPT‑5.4 mini on tähän mennessä vahvin minimallimme kyseiseen työnkulun tyyliin.
GPT‑5.4 mini suoriutuu erinomaisesti myös monimuotoisista tehtävistä, etenkin tietokoneen käyttöön liittyvistä. Malli voi tulkita nopeasti tiheästi pakattujen käyttöliittymien ruutukaappauksia suorittaakseen tietokoneen käyttötehtäviä nopeasti. OSWorld-Verified-testissä GPT‑5.4 mini lähestyy GPT‑5.4:n suorituskykyä ja ylittää GPT‑5 mini:n suorituskyvyn selvästi.
GPT‑5.4 mini on nyt saatavilla API:ssa, Codexissa ja ChatGPT:ssä.
API:ssa GPT‑5.4 mini tukee teksti- ja kuvasyötteitä, työkalujen käyttöä, toiminnon kutsumista, verkkohakua, tiedostohakua, tietokoneen käyttöä ja taitoja. Sen konteksti-ikkuna on 400 000 merkkiä, ja hinta on 0,75 dollaria miljoonaa syötetunnistetta kohti ja 4,50 dollaria miljoonaa tuotostunnistetta kohti.
Codexissa GPT‑5.4 mini on saatavilla Codex-sovelluksessa, CLI:ssä, IDE-laajennuksessa ja verkossa. Se käyttää vain 30 % GPT‑5.4:n kiintiöstä, minkä ansiosta kehittäjät voivat hoitaa yksinkertaisempia koodaustehtäviä Codexissa nopeasti noin kolmanneksella kustannuksista. Codex voi myös delegoida GPT‑5.4 mini -aliagenteille, jolloin vähemmän päättelyä vaativaa työtä voidaan suorittaa edullisemmalla mallilla.
ChatGPT:ssä GPT‑5.4 mini on saatavilla Free- ja Go-käyttäjille + -valikon ”Thinking”-ominaisuuden kautta. Kaikille muille käyttäjille GPT‑5.4 mini on saatavilla GPT‑5.4 Thinkingin varajärjestelmänä käyttörajoitusten ylittyessä .
GPT‑5.4 nano on saatavilla vain API:ssa ja maksaa 0,20 $ per 1 M syötetunnistetta ja 1,25 $ per 1 M tulostetunnistetta.
Lisätietoja mallien suojatoimista on järjestelmäkortin lisäyksessä Käyttöönoton turvallisuuskeskuksessa(avautuu uudessa ikkunassa).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 minin korkein mahdollinen reasoning_effort on ”high”.
2 Kokonaiseditointietäisyys OmniDocBench suoritettiin siten, että reasoning_effort-arvoksi oli asetettu "none", jotta se kuvastaisi edullista ja vähäviiveistä suorituskykyä.


