Tänään julkaisemme GPT‑5.4:n ChatGPT:ssä (nimellä GPT‑5.4 Thinking), API ja Codex. Se on kyvykkäin ja tehokkain edistynyt mallimme ammattilaistyöhön. Julkaisemme myös GPT‑5.4 Pro -version ChatGPT:ssä ja API:ssa niille, jotka haluavat maksimaalisen suorituskyvyn monimutkaisissa tehtävissä.
GPT‑5.4 yhdistää parhaat viimeaikaiset edistysaskeleemme päättelyssä, koodauksessa ja agenttipohjaisissa työnkuluissa yhdeksi edistyneeksi malliksi. Se sisältää alan johtavat koodausominaisuudet, jotka tarjoaa GPT‑5.3‑Codex, ja samalla parantaa sitä, miten malli toimii eri työkalujen, ohjelmistoympäristöjen ja ammatillisten tehtävien parissa, joihin liittyy laskentataulukoita, esityksiä ja asiakirjoja. Tuloksena on malli, joka hoitaa monimutkaisen oikean työn tarkasti, tehokkaasti ja sujuvasti – ja toimittaa pyytämäsi tulokset vähemmällä edestakaisin viestinnällä.
ChatGPT:ssä GPT‑5.4 Thinking voi nyt tarjota etukäteen suunnitelman ajattelustaan, jotta voit muuttaa suuntaa kesken vastauksen sen työskennellessä, ja päätyä lopulliseen tulokseen, joka vastaa paremmin tarpeitasi ilman ylimääräisiä kierroksia. GPT‑5.4 Thinking parantaa myös syvätutkimusta verkossa, erityisesti erittäin tarkkojen kyselyiden osalta, samalla kun se ylläpitää kontekstia paremmin kysymyksissä, jotka vaativat pidempää ajattelua. Yhdessä nämä parannukset tarkoittavat laadukkaampia vastauksia, jotka saapuvat nopeammin ja ovat merkityksellisiä käsiteltävälle tehtävälle.
Codexissa ja API:ssa GPT‑5.4 on ensimmäinen julkaisemamme yleiskäyttöinen malli, jossa on natiivisti huippuluokan tietokoneen käyttövalmiudet, minkä ansiosta agentit voivat käyttää tietokoneita ja toteuttaa monimutkaisia työnkulkuja eri sovelluksissa. Se tukee jopa miljoonaa kontekstitokenia, minkä ansiosta agentit voivat suunnitella, suorittaa ja varmistaa tehtäviä pitkien aikajänteiden yli. GPT‑5.4 parantaa myös sitä, miten mallit toimivat laajoissa työkalu- ja yhdistinekosysteemeissä työkaluhakua hyödyntäen, auttaen agentteja löytämään ja käyttämään oikeita työkaluja tehokkaammin älykkyydestä tinkimättä. Lopuksi GPT‑5.4 on meidän tähän mennessä token-tehokkain päättelymallimme , ja se käyttää ongelmien ratkaisemiseen merkittävästi vähemmän tokeneita verrattuna GPT‑5.2:een– mikä tarkoittaa pienempää token-käyttöä ja suurempia nopeuksia.
Yhdessä yleisen päättelyn, koodauksen ja ammatillisen tietotyön edistysaskeleiden kanssa GPT‑5.4 mahdollistaa luotettavammat agentit, nopeammat kehittäjien työnkulut ja laadukkaammat tuotokset ChatGPT:ssä, API:ssa ja Codexissa.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (voitot tai tasapelit) | 83,0 % | 70,9 % | 70,9 % |
SWE-Bench Pro (julkinen) | 57,7 % | 56,8 % | 55,6 % |
OSWorld-Verified | 75,0 % | 74,0 %* | 47,3 % |
Toolathlon | 54,6 % | 51,9 % | 46,3 % |
BrowseComp | 82,7 % | 77,3 % | 65,8 % |
*Aiemmin raportoitu 64,7 %. GPT‑5.3‑Codex saavuttaa 74,0 % äskettäin käyttöön otetulla API-parametrilla, joka säilyttää alkuperäisen kuvan resoluution.
Perustuen GPT‑5.2:n yleiseen päättelyyn, GPT‑5.4 tuottaa entistä johdonmukaisempia ja viimeistellympiä tuloksia tosielämän tehtävissä, joilla on merkitystä ammattilaisille.
GDPval-arvioinnissa, joka testaa agenttien kykyä tuottaa tarkasti määriteltyä tietotyötä 44 ammatissa, GPT‑5.4 saavuttaa uuden huipputason ja vastaa alan ammattilaisten tasoa tai ylittää sen 83,0 %:ssa vertailuista, kun GPT‑5.2:n osuus on 71,0 %.
GDPvalissa mallit pyrkivät suorittamaan hyvin määriteltyä tietotyötä, joka kattaa 44 ammattia yhdeksältä toimialalta, jotka eniten vaikuttavat Yhdysvaltojen BKT:hen. Tehtävät vaativat todellisia työtuotteita, kuten myyntiesityksiä, kirjanpitotaulukoita, kiireellisiä päivystysaikatauluja, valmistuskaavioita tai lyhyitä videoita. Päättelyponnistus asetettiin arvoon xhigh GPT‑5.4:lle ja arvoon heavy GPT‑5.2:lle (hieman matalampi taso ChatGPT:ssä).
“GPT-5.4 on paras malli, jota olemme koskaan kokeilleet. Se on nyt leaderboardin kärjessä APEX-Agents-vertailussamme, joka mittaa mallin suorituskykyä ammatillisten palveluiden työssä. Se on erinomainen pitkän horisontin toimitusten, kuten esityskalvojen, talousmallien ja oikeudellisen analyysin, tuottamisessa ja tarjoaa huippusuorituskyvyn samalla kun se toimii nopeammin ja edullisemmin kuin kilpailevat edistyneet mallit.”
Keskityimme erityisesti parantamaan GPT‑5.4:n kykyä luoda ja muokata taulukoita, esityksiä ja asiakirjoja. Sisäisessä vertailussa, jossa mitattiin junior-investointipankkiirien mahdollisesti suorittamia taulukkolaskenta- ja mallinnustehtäviä, GPT‑5.4 saavutti keskimääräisen pistemäärän 87,.5 %, verrattuna arvoon 68,4 % GPT‑5.2:llen. Esitysten arviointikysymyksissä ihmisarvioijat suosivat 68,0 %:ssa tapauksista GPT‑5.4:n esityksiä GPT‑5.2:n esityksiin nähden, koska ne olivat esteettisesti parempia, visuaalisesti monipuolisempia ja kuvan luonti oli tehokkaampaa.

Asiakirjat luotiin, kun päättelyponnistus oli asetettu arvoon xhigh
Voit kokeilla näitä ominaisuuksia ChatGPT:ssä käyttämällä GPT‑5.4 Thinkingiä tai Prota. Jos olet Enterprise-asiakas, suosittelemme käyttämään vastikään julkaistuja ChatGPT for Excel- ja Google Sheets -laajennuksiamme(avautuu uudessa ikkunassa), jotka julkaistiin myös tänään. Olemme myös päivittäneet Codexissa ja API:ssa saatavilla olevat laskentataulukko(avautuu uudessa ikkunassa)- ja esitystaidot(avautuu uudessa ikkunassa).
Jotta GPT‑5.4 toimisi paremmin todellisessa työssä, jatkoimme työtämme hallusinaatioiden ja virheiden vähentämiseksi. GPT‑5.4 on toistaiseksi tosiasiallisesti tarkin mallimme: joukossa tunnisteettomia kehotteita, joissa käyttäjät merkitsivät tosiasiallisia virheitä, GPT‑5.4:n yksittäisten väitteiden todennäköisyys olla vääriä on 33 % pienempi ja sen täydellisten vastausten todennäköisyys sisältää virheitä on 18 % pienempi verrattuna GPT‑5.2:een.
“GPT-5.4 asettaa uuden riman asiakirjapainotteiselle juridiselle työlle. BigLaw Bench -arvioinnissamme se sai tulokseksi 91 %. Verrattuna muihin malleihin GPT-5.4 on tällä hetkellä parempi jäsentämään monimutkaista transaktioanalyysiä, säilyttämään tarkkuuden pitkien sopimusten läpi ja tuottamaan sen korkean yksityiskohtaisuuden tason, jota oikeusalan ammattilaiset edellyttävät.”
GPT‑5.4 on ensimmäinen yleiskäyttöinen mallimme, jossa on natiivit tietokoneen käyttövalmiudet ja se merkitsee suurta askelta eteenpäin sekä kehittäjille että agenteille. Se on tällä hetkellä paras kehittäjille saatavilla oleva malli agenttien rakentamiseen, jotta ne voivat suorittaa todellisia tehtäviä verkkosivustoissa ja ohjelmistojärjestelmissä.
Olemme suunnitelleet GPT‑5.4:n toimimaan tehokkaasti monenlaisissa tietokoneiden työkuormissa. Se on erinomainen kirjoittamaan koodia tietokoneiden käyttämiseksi Playwrightin kaltaisten kirjastojen avulla sekä antamaan hiiren ja näppäimistön komentoja vastauksena kuvakaappauksiin. Sen käyttäytymistä voidaan ohjata kehittäjäviestien avulla, jolloin kehittäjät voivat mukauttaa käyttäytymistä tiettyihin käyttötapauksiin. Kehittäjät voivat jopa mukauttaa mallin turvallisuuskäyttäytymistä eri riskinsietotasoille määrittämällä omia vahvistuskäytäntöjä.
Mallin suorituskyky ja joustavuus näkyvät vertailuarvoissa, jotka testaavat tietokoneen käyttöä eri ympäristöissä. OSWorld-Verified-vertailussa, joka mittaa mallin kykyä navigoida työpöytäympäristössä kuvakaappausten sekä näppäimistö- ja hiiritoimintojen avulla, GPT‑5.4 saavuttaa huipputason 75,0 % onnistumisasteen, ylittäen reilusti GPT‑5.2:n 47,3 %:n, ja ylittäen ihmisen suorituskyvyn 72,4 %.1
Selaimen käyttöä testaavassa WebArena-Verified-testissä GPT‑5.4 saavuttaa johtavan 67,3 %:n onnistumisasteen käytettäessä sekä DOM- että kuvakaappauspohjaista vuorovaikutusta, kun GPT‑5.2:n vastaava luku on 65,4 %. Online-Mind2Web-vertailussa, jossa testataan myös selaimen käyttöä, GPT‑5.4 saavuttaa 92,8 %:n onnistumisprosentin pelkästään kuvakaappauksiin perustuvien havaintojen avulla, mikä on parannus ChatGPT Atlas’s Agent Modeen verrattuna; se saavuttaa 70,9 %:n onnistumisasteen.
Työkalutuotto tarkoittaa sitä, että avustaja tuottaa await-työkaluvastauksia. Jos kolme työkalua kutsutaan rinnakkain ja sen jälkeen kolme muuta työkalua kutsutaan rinnakkain, tuottojen määrä olisi kaksi. Työkalujen tuotot ovat parempi viiveen mittari kuin työkalukutsut, koska ne heijastavat rinnakkaistamisen hyötyjä.
GPT‑5.4 tulkitsee selaimen käyttöliittymän kuvakaappauksia ja on vuorovaikutuksessa käyttöliittymäelementtien kanssa koordinaattipohjaisilla napsautuksilla lähettääkseen sähköposteja ja aikatauluttaakseen kalenteritapahtuman.
GPT‑5.4:n parannettu tietokoneen käyttö perustuu mallin parannettuihin yleisiin visuaalisen havainnoinnin valmiuksiin. MMMU-Pro-testissä, jossa mitataan mallin visuaalista ymmärrystä ja päättelykykyä, GPT‑5.4 saavuttaa 81,2 %:n onnistumisasteen ilman työkalujen käyttöä. Tämä on parannus GPT‑5.2:n 79,5 %. Parantunut visuaalinen havainnointi johtaa myös parempiin asiakirjojen jäsentämisominaisuuksiin. OmniDocBench-vertailussa GPT‑5.4 ilman päättelyponnistusta saavuttaa keskimääräisen virheen (mitattuna normalisoidulla editointietäisyydellä mallin ennusteen ja oikean vastauksen välillä) 0,109, parannettuna GPT‑5.2:n 0,140:sta.
MMMUPro suoritettiin päättelyponnistuksella, joka oli asetettu arvoon xhigh. OmniDocBench ajettiin siten, että päättelyponnistukseksi oli asetettu none, jotta se kuvastaisi edullista ja vähäviiveistä suorituskykyä.
Parannamme myös visuaalista ymmärrystä tiheille, korkearesoluutioisille kuville, joissa täysi tarkkuus on tärkeää. GPT‑5.4:stä alkaen, esittelemme kuvan original-syöttötarkkuuden(avautuu uudessa ikkunassa) tason, joka tukee täyden tarkkuuden havainnointia enintään 10,24 M kokonaispikseliin tai 6 000 pikselin enimmäismittaan asti sen mukaan, kumpi on pienempi; kuvan high-syöttötarkkuuden taso tukee nyt enintään 2,56 M kokonaispikseliä tai 2 048 pikselin enimmäismittaa. Varhaisessa testauksessa API-käyttäjien kanssa havaitsimme merkittäviä parannuksia lokalisointikyvyssä, kuvien ymmärtämisessä ja klikkaustarkkuudessa, kun käytettiin original- tai high -tarkkuuden tasoa.
”Arvioinneissamme, joissa mitataan tietokoneen käytön suorituskykyä ~30K HOA- ja kiinteistöveron portaalissa, GPT-5.4 saavutti 95 %:n onnistumisasteen ensimmäisellä yrityksellä ja 100 % kolmen yrityksen sisällä, kun aiemmilla CUA-malleilla vastaava luku oli ~73–79 %. Se myös suoritti istunnot ~ kolme kertaa nopeammin käyttäen ~70 % vähemmän tokeneja, mikä paransi olennaisesti luotettavuutta ja kustannustehokkuutta suuressa mittakaavassa."
API:ssa kehittäjät voivat käyttää näitä ominaisuuksia päivitetyn computer-työkalun avulla. Katso parhaiden käytäntöjen ohjeet päivitetystä dokumentaatiostamme(avautuu uudessa ikkunassa).
GPT‑5.4 yhdistää GPT‑5.3‑Codexin koodausvahvuudet johtaviin tietotyön ja tietokoneen käytön kyvykkyyksiin, joilla on eniten merkitystä pitkäkestoisissa tehtävissä, joissa malli voi käyttää työkaluja, toistaa ja viedä työtä eteenpäin vähemmällä manuaalisella puuttumisella. Se vastaa tai ylittää GPT‑5.3‑Codexin suorituskyvyn SWE-Bench Pro -testissä ja tarjoaa samalla pienemmän viiveen eri päättelyprosesseissa.
Arvioimme viivettä tarkastelemalla malliemme tuotantokäyttäytymistä ja simuloimalla tätä offline-tilassa. Viivearvio ottaa huomioon työkalukutsun keston (koodin suoritusaika), näytteistetyt tokenit ja syötetokenit. Reaalimaailman viive voi vaihdella huomattavasti, ja se riippuu monista tekijöistä, joita simulaatiomme ei kata. Päättelykyky pyyhkäistiin none-tasosta xhigh-tasoon.
Kun se on kytketty päälle, Codexin /fast mode tarjoaa jopa 1,5 kertaa nopeamman token-nopeuden GPT‑5.4:n kanssa. Se on sama malli ja sama älykkyys, vain nopeampana versiona. Se tarkoittaa, että käyttäjät voivat edetä koodaustehtävissä, iteroinnissa ja virheenkorjauksessa pysyen keskittyneinä. Kehittäjät voivat käyttää GPT‑5.4:ää API:n kautta yhtä nopeasti hyödyntämällä prioriteettikäsittelyä(avautuu uudessa ikkunassa).
Arvioinnissa ja sisäisissä testeissä havaitsimme, että GPT‑5.4 loistaa monimutkaisissa frontend-tehtävissä ja tuottaa selvästi esteettisempiä ja toiminnallisempia tuloksia kuin mikään aiemmin julkaisemamme malli.
Mallin parantuneiden tietokoneen käyttö- ja koodausominaisuuksien yhteistoiminnan demonstroimiseksi julkaisemme myös kokeellisen Codex-taidon nimeltä “Playwright (Interactive)(avautuu uudessa ikkunassa)”. Tämä mahdollistaa Codexille web- ja Electron-sovellusten visuaalisen virheenkorjauksen. Sitä voidaan käyttää jopa sovelluksen testaamiseen sen rakentamisen aikana.
GPT‑5.4:llä tehty huvipuistosimulaatiopeli yhdestä kevyesti määritellystä kehotteesta, käyttäen Playwright Interactivea selaimessa tehtävään pelitestaukseen ja Kuvan luonti -toimintoa isometriseen resurssikokonaisuuteen. Simulaatio sisältää ruutuihin perustuvan polkujen sijoittelun, laitteiden ja maisemien rakentamisen, vieraiden reitinhaun, jonottamisen ja laiteajosyklit, kun taas puiston mittarit, kuten raha, vieraiden määrä, onnellisuus, siisteys ja arvosana, nousevat tai laskevat sen mukaan, miten pohjaratkaisu toimii ja miten vieraat reagoivat siihen. Playwrightia käytettiin selainpohjaisten pelitestien automatisointiin rakentamalla ja laajentamalla puistoa, sijoittamalla ja poistamalla polkuja ja nähtävyyksiä, tarkistamalla kameran navigointia sekä varmistamalla, että vieraat, jonot, laitteiden tilat ja käyttöliittymän mittarit päivittyivät oikein useiden pelikierrosten aikana.
Kehote: Käytä $playwright-interactive- ja $imagegen-työkaluja. Luo interaktiivinen isometrinen huvipuistosimulaatiopeli, jota voin rakentaa ja jossa voin liikkua selaimessa. Käytä imagegeniä kokonaisvaltaisen visuaalisen vision määrittämiseen ja pelin aineistojen luomiseen, mukaan lukien laitteet, polut, maasto, puut, vesi, ruokakojut, koristeet, rakennukset, kuvakkeet ja käyttöliittymäkuvitukset. Maailman tulisi tuntua yhtenäiseltä, viimeistellyltä ja visuaalisesti rikkaalta, ja siinä tulisi olla premium-tason taiteellinen suunta, joka toimii hyvin isometrisestä näkökulmasta. Anna minun sijoittaa ja poistaa polkuja, lisätä nähtävyyksiä, asetella maisemaa ja liikkua puistossa sujuvasti samalla, kun seuraan vieraiden aktiivisuutta, laitteiden tilaa ja puiston kasvua. Sisällytä uskottava vieraiden liikkuminen, yksinkertaiset puistonhallintajärjestelmät kuten raha, siisteys, jonotus ja onnellisuus, ja tee kokemuksesta leikkisä, selkeä ja kokonainen, eikä karkea prototyyppi. Aseta viehättävyys, luettavuus ja vahva pelikokemus etusijalle realismin sijaan.
Kun testaat peliä, muista rakentaa ja laajentaa puistoa useiden pelikierrosten aikana, varmistaa, että sijoittelu ja navigointi toimivat sujuvasti, tarkistaa, että vieraat reagoivat puiston ulkoasuun ja nähtävyyksiin, sekä varmistaa, että grafiikka, käyttöliittymä ja vuorovaikutus tuntuvat vakaalta ja yhtenäiseltä.
”Insinöörimme pitävät GPT-5.4:ää luonnollisempana ja vakuuttavampana kuin aiempia malleja . Se ratkaisee epäselviä ongelmia epäröimättä, ja se on ennakoiva työn rinnakkaistamisessa, jotta asiat etenevät.”
GPT‑5.4:n avulla olemme parantaneet merkittävästi mallien yhteensopivuutta ulkoisten työkalujen kanssa. Agentit voivat nyt toimia laajemmissa työkaluekosysteemeissä, valita oikeat työkalut luotettavammin ja suorittaa monivaiheisia työnkulkuja pienemmillä kustannuksilla ja viiveellä.
API:ssa GPT‑5.4 esittelee työkaluhakutoiminnon(avautuu uudessa ikkunassa), jonka avulla mallit voivat toimia tehokkaasti useiden työkalujen kanssa.
Aikaisemmin, kun mallille annettiin työkalut, kaikki työkalujen määritelmät sisältyivät etukäteen kehotteeseen. Järjestelmissä, joissa on paljon työkaluja, tämä voi lisätä tuhansia tai jopa kymmeniä tuhansia tokeneita jokaiseen pyyntöön, mikä kasvattaa kustannuksia, hidastaa vastauksia ja täyttää kontekstin tiedoilla, joita malli ei ehkä koskaan käytä.
Työkaluhakua käytettäessä GPT‑5.4 saa sen sijaan kevyen luettelon käytettävissä olevista työkaluista sekä työkaluhakutoiminnon. Kun malli tarvitsee työkalua, se voi hakea kyseisen työkalun määritelmän ja liittää sen keskusteluun sillä hetkellä.
Tämä lähestymistapa vähentää merkittävästi työkalupainotteisissa työnkuluissa tarvittavien tokenien määrää ja säilyttää välimuistin, mikä tekee pyynnöistä nopeampia ja edullisempia. Se mahdollistaa myös agenttien luotettavan työskentelyn paljon suuremmissa työkaluekosysteemeissä. MCP-palvelimille, jotka voivat sisältää kymmeniä tuhansia työkalumääritelmien tokeneja, tehokkuuden paraneminen voi olla huomattavaa.
Tehokkuuden parantumisen osoittamiseksi arvioimme 250 tehtävää Scale-yrityksen MCP Atlas(avautuu uudessa ikkunassa) -vertailuarvosta, jossa kaikki 36 MCP-palvelinta olivat käytössä kahdessa tilassa: (1) tuomalla jokainen MCP-funktio suoraan mallin kontekstiin ja (2) sijoittamalla kaikki MCP-palvelimet työkaluhakutoiminnon taakse. Työkalun haku -määritys vähensi token-käyttöä yhteensä 47 % saavuttaen samalla saman tarkkuuden.
Esimerkkitokenit perustuvat MCP-Atlasin julkisen aineiston 250 tietojoukon keskiarvoon.
GPT‑5.4 parantaa myös työkalukutsuja, mikä tekee siitä tarkemman ja tehokkaamman, kun se päättää, milloin ja miten työkaluja käytetään päättelyn aikana, erityisesti API:ssa. GPT‑5.2:een verrattuna se saavuttaa Toolathlon-vertailuarvossa korkeamman tarkkuuden vähemmillä vuoroilla. Toolathlon-vertailuarvolla testataan kuinka hyvin tekoälyagentit osaavat käyttää tosielämän työkaluja ja API:ita monivaiheisten tehtävien suorittamiseen. Esimerkiksi agentin on luettava sähköposteja, poimittava tehtävän liitteet, ladattava ne palvelimeen, arvioitava ne ja kirjattava tulokset laskentataulukkoon.
Työkalutuotto tarkoittaa sitä, että avustaja tuottaa await-työkaluvastauksia. Jos kolme työkalua kutsutaan rinnakkain ja sen jälkeen kolme muuta työkalua kutsutaan rinnakkain, tuottojen määrä olisi kaksi. Työkalujen tuotot ovat parempi viiveen mittari kuin työkalukutsut, koska ne heijastavat rinnakkaistamisen hyötyjä.
Viiveherkissä käyttötapauksissa, joissa None-päättelyponnistus on suositeltava, GPT‑5.4 on entistä parempi kuin edeltäjänsä.
In τ2-bench(avautuu uudessa ikkunassa), mallin on käytettävä työkaluja suorittaakseen asiakaspalvelutehtävän, jossa voi olla simuloitu käyttäjä, joka voi kommunikoida ja toimia maailman tilan suhteen. Päättelyponnistus asetettiin arvoon None.
GPT‑5.4 on parempi agenttipohjaisessa verkkohaussa. BrowseCompissa, mittarissa, joka kuvaa, kuinka hyvin tekoälyagentit pystyvät selaamaan verkkoa pitkäjänteisesti löytääkseen vaikeasti löydettävää tietoa, GPT‑5.4 hyppää 17 %abs GPT‑5.2:n yli, ja GPT‑5.4 Pro asettaa uuden huipputason 89,3 %.
Käytännössä tämä tarkoittaa, että GPT‑5.4 Thinking on vahvempi vastaamaan kysymyksiin, jotka edellyttävät tietojen yhdistämistä monista lähteistä verkossa. Se voi hakea sitkeämmin useiden kierrosten ajan tunnistaakseen kaikkein asiaankuuluvimmat lähteet, erityisesti “neula heinäsuovassa” -tyyppisissä kysymyksissä, ja yhdistää ne selkeäksi, hyvin perustelluksi vastaukseksi.
BrowseCompissa käytimme hakujen estolistaa, joka sulki arvioinnista pois verkkosivustot, jotka sisältävät vertailuarvon vastauksia, kontaminaation estämiseksi ja suorituskyvyn oikeudenmukaisen mittaamisen varmistamiseksi. GPT‑5.4 mitattiin myöhempänä ajankohtana kuin GPT‑5.2, jotta pisteet vastaisivat muutoksia mallissa, hakujärjestelmässämme ja internetin tilassa. GPT‑5.4 testattiin pidemmällä, päivitetyllä estoluettelolla. Mallit käyttävät ChatGPT‑haun työkalua, jossa voi olla pieniä eroja API-hausta.
“GPT-5.4 xhigh on uusi huipputaso monivaiheisessa työkalujen käytössä. Zapier toteuttaa alan tiukimpia työkalujen käyttöä mittaavia vertailuarvoja ja testaa malleja sadoissa edistyneissä tosielämän työnkuluissa. GPT-5.4 sai työn valmiiksi siinä, missä aiemmat mallit luovuttivat - tähän mennessä sitkein malli.”
Samoin kuin Codex hahmottelee lähestymistapansa aloittaessaan työskentelyn, GPT‑5.4 ChatGPT:n Thinking käyttää nyt suoraan pidempiä ja monimutkaisempia kyselyjä. Voit myös lisätä ohjeita tai säätää sen suuntaa kesken vastauksen. Tämä helpottaa mallin ohjaamista kohti juuri haluamaasi lopputulosta ilman, että sinun tarvitsee aloittaa alusta tai käydä läpi useita lisävuoroja. Tämä ominaisuus on nyt saatavilla sivustolla chatgpt.com(avautuu uudessa ikkunassa) ja Android-sovelluksessa, ja se on tulossa pian iOS-sovellukseen.
Malli voi myös ajatella pidempään vaikeissa tehtävissä säilyttäen samalla vahvemman tietoisuuden keskustelun aiemmista vaiheista. Tämä mahdollistaa pidempien työnkulkujen ja monimutkaisempien kehotteiden käsittelyn samalla, kun vastaukset pysyvät johdonmukaisina ja olennaisina koko prosessin ajan.
Tätä videota on nopeutettu havainnollistamistarkoituksessa.
Viime kuukausien aikana olemme jatkaneet GPT‑5.3‑Codexin myötä käyttöön ottamiemme suojatoimien parantamista samalla, kun valmistelemme GPT‑5.4:ää käyttöönottoa varten. Samoin kuin GPT‑5.3‑Codexin kohdalla, käsittelemme GPT‑5.4:ää valmiuskehyksessämme korkean kyberturvallisuuskyvyn tasona, ja otamme sen käyttöön vastaavien suojausten kanssa, kuten järjestelmäkortissa on dokumentoitu. Näihin sisältyy laajennettu kyberturvallisuusratkaisujen kokonaisuus, mukaan lukien valvontajärjestelmät, luotettavat pääsynhallintamekanismit sekä asynkroninen estäminen korkeamman riskin pyyntöjen osalta asiakkaille, jotka käyttävät tietojen määräaikaista säilyttämistä (ZDR) -pintoja, sekä jatkuvat investoinnit laajempaan turvallisuusekosysteemiin.
Koska kyberturvallisuusominaisuudet ovat luonteeltaan kaksoiskäyttöisiä, noudatamme varotoimiin perustuvaa lähestymistapaa käyttöönotossa samalla kun jatkamme käytäntöjemme ja luokituksiemme kalibrointia. Tietyille asiakkaille ZDR-pintojen osalta pyynnön tason estäminen on edelleen osa kyberriskien hallintatoimenpiteitämme; koska luokittelijat kehittyvät edelleen, joitakin vääriä positiivisia tuloksia voi esiintyä, kun jatkamme näiden suojatoimenpiteiden kehittämistä. Näiden päivitysten tavoitteena on parantaa suojatoimien käytännön toimivuutta, mukaan lukien tarpeettomien kieltäytymisten ja liiallisesti varauksellisten vastausten vähentäminen, samalla kun säilytetään vahvat suojaukset väärinkäyttöä vastaan.
Olemme jatkaneet turvallisuustutkimustamme ajatusketjun (CoT) seurattavuudesta ymmärtääksemme paremmin, miten mallit päättelevät, ja auttaaksemme havaitsemaan mahdolliset väärinkäytökset. Osana tätä työtä esittelemme uuden avoimen lähdekoodin arvioinnin, CoT-hallittavuuden, joka mittaa, voivatko mallit tarkoituksellisesti hämärtää päättelyään välttääkseen valvonnan. Havaitsimme, että GPT‑5.4 Thinkingin kyky hallita CoT:tään on heikko, mikä on turvallisuuden kannalta myönteinen ominaisuus, ja viittaa siihen, että mallilta puuttuu kyky piilottaa päättelynsä ja että CoT-seuranta on edelleen tehokas turvallisuustyökalu.
GPT‑5.4 otetaan käyttöön asteittain tänään ChatGPT:ssä ja Codexissa. API:ssa GPT‑5.4 on nyt saatavilla nimellä gpt-5.4. GPT‑5.4 Pro on saatavilla myös API:ssa nimellä gpt-5.4-pro kehittäjille, jotka tarvitsevat maksimaalista suorituskykyä kaikkein monimutkaisimmissa tehtävissä.
ChatGPT:ssä GPT‑5.4 Thinking on saatavilla tästä päivästä alkaen ChatGPT Plus-, Team- ja Pro-käyttäjille, korvaten GPT‑5.2 Thinkingin. GPT‑5.2 Thinking pysyy saatavilla maksaville käyttäjille kolmen kuukauden ajan mallinvalitsimessa Legacy Models -osiossa, minkä jälkeen se poistetaan käytöstä 5. kesäkuuta 2026. Enterprise- ja Edu-sopimusten käyttäjät voivat saada varhaisen pääsyn käyttöön järjestelmänvalvojan asetuksista. GPT‑5.4 Pro on saatavilla Pro- ja Enterprise-versioissa. Konteksti-ikkunat(avautuu uudessa ikkunassa) ChatGPT:ssä GPT‑5.4:lle Thinking pysyy muuttumattomana GPT‑5.2 Thinkingistä.
GPT‑5.4 on ensimmäinen pääpäättelymallimme, joka sisältää GPT‑5.3‑codexin edistyneet koodausominaisuudet ja se otetaan käyttöön ChatGPT:ssä, API:ssa ja Codexissa. Kutsumme sitä GPT‑5.4:ksi, jotta se kuvastaisi tätä harppausta ja yksinkertaistaisi mallien valintaa Codexia käytettäessä. Ajan myötä Instant-mallimme ja Thinking-mallimme kehittyvät todennäköisesti eri tahtiin.
GPT‑5.4 sisältää Codexissa kokeellisen tuen 1M kontekstin pituudelle. Kehittäjät voivat kokeilla tätä määrittämällä kohteet model_context_window ja model_auto_compact_token_limit. Pyynnöt, jotka ylittävät tavallisen 272K konteksti-ikkunan, lasketaan käyttörajoihin 2x normaalilla nopeudella.
API:ssa GPT‑5.4 on hinnoiteltu korkeammaksi per token kuin GPT‑5.2 sen parannettujen ominaisuuksien vuoksi, kun taas sen parempi token-tehokkuus auttaa vähentämään monissa tehtävissä tarvittavien tokenien kokonaismäärää. Batch- ja Flex-hinnoittelu ovat saatavilla puoleen hintaan API-vakiohinnasta, kun taas Priority-käsittely on saatavilla kaksinkertaiseen hintaan API-vakiohinnasta.
API-malli | Syötehinta | Välimuistissa olevan syötteen hinta | Tuotoksen hinta |
gpt-5.2 | 1,75 $ / M tokenia | 0,175 $ / M tokenia | 14 $ / M tokenia |
gpt-5.4 | 2,50 $ / M tokenia | 0,25 $ / M tokenia | 15 $ / M tokenia |
gpt-5.2-pro | 21 $ / M tokenia | - | 168 $ / M tokenia |
gpt-5.4-pro | 30 $ / M tokenia | - | 180 $ / M tokenia |
Ammattilainen
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0 % | 82,0 % | 70,9 % | 70,9 % | 74,1 % |
FinanceAgent v1.1 | 56,0 % | 61,5 % | 54,0 % | 59,5 % | — |
Investointipankkitoiminnan mallinnustehtävät (sisäinen) | 87,3 % | 83,6 % | 79,3 % | 68,4 % | 71,7 % |
OfficeQA | 68,1 % | — | 65,1 % | 63,1 % | — |
Koodaus
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (julkinen) | 57,7 % | — | 56,8 % | 55,6 % | — |
Terminal-Bench 2.0 | 75,1 % | — | 77,3 % | 62,2% | — |
Tietokoneen käyttö ja visio
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0 % | — | 74,0 % | 47,3 % | — |
MMMU Pro (ei työkaluja) | 81,2 % | — | — | 79,5 % | — |
MMMU Pro (työkalujen kanssa) | 82,1 % | — | — | 80,4 % | — |
Työkalun käyttö
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7 % | 89,3 % | 77,3 % | 65,8 % | 77,9 % |
MCP Atlas | 67,2 % | — | — | 60,6 % | — |
Toolathlon | 54,6 % | — | 51,9 % | 45,7 % | — |
Tau2-bench Telecom | 98,9 % | — | — | 98,7 % | — |
Akateeminen
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Edistynyt luonnontieteellinen tutkimus | 33,0 % | 36,7 % | — | 25,2 % | — |
FrontierMath Taso 1–3 | 47,6 % | — | — | 40,7 % | — |
FrontierMath Taso 4 | 27,1 % | 38,0 % | — | 18,8 % | 31,3 % |
GPQA-diamond | 92,8 % | 94,4 % | 92,6 % | 92,4 % | 93,2 % |
Ihmiskunnan viimeinen koe (ei työkaluja) | 39,8 % | 42,7 % | — | 34,5 % | 36,6 % |
Ihmiskunnan viimeinen koe (työkalujen kanssa) | 52,1 % | 58,7 % | — | 45.5 % | 50,0 % |
Pitkä konteksti
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0 % | — | — | 94,0 % | — |
Graphwalks BFS 256K–1M | 21,4 % | — | — | — | — |
Graphwalks parents 0–128K (tarkkuus) | 89,8 % | — | — | 89,0 % | — |
Graphwalks parents 256K–1M (tarkkuus) | 32,4 % | — | — | — | — |
OpenAI MRCR v2 8 neulaa 4–8 K | 97,3 % | — | — | 98,2 % | — |
OpenAI MRCR v2 8 neulaa 8–16 K | 91,4 % | — | — | 89,3 % | — |
OpenAI MRCR v2 8 neulaa 16–32 K | 97,2 % | — | — | 95,3 % | — |
OpenAI MRCR v2 8 neulaa 32–64 K | 90,5 % | — | — | 92,0 % | — |
OpenAI MRCR v2 8 neulaa 64–128 K | 86,0 % | — | — | 85,6 % | — |
OpenAI MRCR v2 8 neulaa 128–256 K | 79,3 % | — | — | 77,0 % | — |
OpenAI MRCR v2 8 neulaa 256–512 K | 57,5 % | — | — | — | — |
OpenAI MRCR v2 8 neulaa 512 K – 1 M | 36,6 % | — | — | — | — |
Abstrakti ajattelu
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (vahvistettu) | 93,7 % | 94,5 % | — | 86,2 % | 90,5 % |
ARC-AGI-2 (vahvistettu) | 73,3 % | 83,3 % | — | 52,9 % | 54,2 % (korkea) |
Arvioinnit ilman päättelyä
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalisoitu editointietäisyys) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3 % | 57,2 % | 43,6 % |
Arvioinnit suoritettiin päättelyponnistuksen asetuksella xhigh, paitsi jos toisin on määritetty. Vertailutestit suoritettiin tutkimusympäristössä, mikä saattaa joissakin tapauksissa tuottaa hieman erilaisia tuloksia kuin tuotantoympäristön ChatGPT.
Tekijä
Alaviitteet
1 Ihmisen suorituskyky raportoitu julkaisussa OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(avautuu uudessa ikkunassa).


