Esittelemme GPT‑5.2:n, tähän mennessä kyvykkäimmän mallisarjamme ammatilliseen tietotyöhön.
Jo nyt keskimääräinen ChatGPT Enterprise -käyttäjä sanoo, että tekoäly säästää heiltä 40–60 minuuttia päivässä, ja aktiiviset käyttäjät sanovat sen säästävän heiltä yli 10 tuntia viikossa. Suunnittelimme GPT‑5.2:n tuomaan ihmisille entistä enemmän taloudellista arvoa. Se on entistä parempi luomaan laskentataulukoita, rakentamaan esityksiä, kirjoittamaan koodia, tulkitsemaan kuvia, ymmärtämään pitkiä konteksteja, käyttämään työkaluja ja käsittelemään monimutkaisia, monivaiheisia projekteja.
GPT‑5.2 asettaa uuden huipputason monilla vertailualueilla, mukaan lukien GDPval, jossa se suoriutuu paremmin kuin alan ammattilaiset tarkasti määritellyissä tiedon tehtävissä, jotka kattavat 44 ammattia.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (voittaa tai tasapeli) | 70,9 % | 38,8 % (GPT‑5) |
SWE-Bench Pro (julkinen) | 55,6 % | 50,8 % |
SWE-bench vahvistettu | 80,0 % | 76,3 % |
GPQA Diamond (ei työkaluja) | 92,4 % | 88,1 % |
CharXiv-päättely (Pythonin kanssa) | 88,7 % | 80,3 % |
HMMT (helmikuu 2025) | 99,4 % | 96,3 % |
FrontierMath (Taso 1–3) | 40,3 % | 31,0 % |
ARC-AGI-1 (Vahvistettu) | 86,2 % | 72,8 % |
ARC-AGI-2 (Vahvistettu) | 52,9 % | 17,6 % |
Notion(avautuu uudessa ikkunassa), Box(avautuu uudessa ikkunassa), Shopify(avautuu uudessa ikkunassa), Harvey(avautuu uudessa ikkunassa) ja Zoom(avautuu uudessa ikkunassa) havaitsivat, että GPT‑5.2 osoittaa huipputason pitkän aikavälin päättely- ja työkalukutsusuorituskykyä. Databricks(avautuu uudessa ikkunassa), Hex(avautuu uudessa ikkunassa) ja Triple Whale(avautuu uudessa ikkunassa) totesivat, että GPT‑5.2 on erinomainen agenttipohjaisessa datatieteessä ja asiakirja-analyysitehtävissä. Cognition(avautuu uudessa ikkunassa), Warp(avautuu uudessa ikkunassa), Charlie Labs(avautuu uudessa ikkunassa), JetBrains(avautuu uudessa ikkunassa) ja Augment Code(avautuu uudessa ikkunassa) sanovat, että GPT‑5.2 tarjoaa huippuluokan agenttisen koodauksen suorituskyvyn, ja siinä on mitattavissa olevia parannuksia alueilla, kuten interaktiivinen koodaus, koodikatselmukset ja virheiden löytäminen.
ChatGPT:ssä GPT‑5.2 Instant-, Thinking- ja Pro-versiot tulevat saataville tänään, alkaen maksullisista sopimuksista. API:ssa ne ovat nyt kaikkien kehittäjien käytettävissä.
Kaiken kaikkiaan GPT‑5.2 tuo merkittäviä parannuksia yleiseen älykkyyteen, pitkän kontekstin ymmärtämiseen, agenttipohjaiseen työkalujen käyttöön ja visioon, minkä ansiosta se suoriutuu monimutkaisten, todellisten tehtävien suorittamisesta paremmin kuin mikään aiempi malli.
GPT‑5.2 Thinking on paras malli tähän mennessä todelliseen ammatilliseen käyttöön. GDPval-arviointi mittaa tarkasti määriteltyjä tietotyötehtäviä 44 ammatissa, GPT‑5.2 Thinking asettaa uuden huipputason pistemäärän ja on ensimmäinen mallimme, joka toimii ihmisen asiantuntijatasolla tai sen yläpuolella. Erityisesti GPT‑5.2 Thinking voittaa tai on tasoissa asiantuntijatuomareiden mukaan alan huippuammattilaisten kanssa 70,9 %:ssa GDPval-tietotyötehtävien vertailuista. Nämä tehtävät sisältävät esitysten, laskentataulukoiden ja muiden artefaktien tekemisen. GPT‑5.2 Thinking tuotti GDPval-tehtävien tulokset yli 11 kertaa nopeammin ja alle 1 %:n kustannuksilla verrattuna asiantuntija-ammattilaisiin, mikä viittaa siihen, että ihmisen valvonnassa GPT‑5.2 voi auttaa ammatillisessa työssä. Nopeus- ja kustannusarviot perustuvat historiallisiin mittareihin; ChatGPT:n nopeus voi vaihdella.
GDPvalissa mallit pyrkivät suorittamaan hyvin määriteltyä tietotyötä, joka kattaa 44 ammattia yhdeksältä toimialalta, jotka eniten vaikuttavat Yhdysvaltojen BKT:hen. Tehtävät vaativat todellisia työtuotteita, kuten myyntiesityksiä, kirjanpitotaulukoita, kiireellisiä päivystysaikatauluja, valmistuskaavioita tai lyhyitä videoita. ChatGPT:ssä GPT‑5.2 Thinkingilla on uusia työkaluja, joita GPT‑5 Thinkingilla ei ole.
Erityisen hyvää tuotosta arvioidessaan yksi GDPval-tuomarista kommentoi: ”Tuotoksen laatu on parantunut merkittävästi ja jännittävällä tavalla... [Se] näyttää olevan ammattimaisen yrityksen ja sen henkilöstön tekemä, ja sen ulkoasu ja ohjeet ovat yllättävän hyvin suunniteltuja molemmissa tuotoksissa, joskin toisessa onkin vielä joitakin pieniä virheitä korjattavana.”
Lisäksi sisäisessä vertailussamme, joka koskee nuorempien investointipankkianalyytikoiden laskentataulukkomallinnustehtäviä – kuten Fortune 500 -yrityksen kolmen laskelman mallin laatimista asianmukaisella muotoilulla ja viittauksilla tai velkarahoitteisen yritysostomallin rakentamista yksityisomistukseen siirtymistä varten – GPT‑5.2 Thinkingin keskimääräinen pistemäärä per tehtävä on 9,3 % korkeampi kuin GPT‑5.1:n. nousten 59,1 %:sta 68,4 %:iin.
Rinnakkaisvertailut osoittavat, että laskentataulukoiden ja diaesitysten hienostuneisuus ja muotoilu ovat parantuneet GPT‑5.2:n luomana. Thinkingin luomana:

Kehote: Luo työvoimasuunnittelumalli: henkilöstömäärä, rekrytointisuunnitelma, vaihtuvuus ja budjettivaikutus. Sisällytä suunnittelu-, markkinointi-, lakiasiain- ja myyntiosastot.
Käyttääksesi ChatGPT:n uusia taulukko- ja esitysominaisuuksia, sinulla on oltava maksullinen sopimus ja valittava joko GPT‑5.2 Thinking tai Pro. Monimutkaisten tuotosten luominen voi kestää useita minuutteja.
GPT‑5.2 Thinking asettaa uuden huipputason 55,6 %:n SWE-bench Pro -testissä, joka on tiukka arviointi todellisesta ohjelmistokehityksestä. Toisin kuin SWE-bench Verified, joka testaa vain Pythonia, SWE-bench Pro testaa neljää kieltä ja pyrkii olemaan kestävämpi saastumiselle, haastavampi, monipuolisempi ja teollisesti merkityksellisempi.
SWE-bench Prossa(avautuu uudessa ikkunassa), mallille annetaan koodivarasto, ja sen on luotava korjaustiedosto realistisen ohjelmistokehitystehtävän ratkaisemiseksi.
SWE-bench vahvistettu (ei piirretty), GPT‑5.2 Thinking saavuttaa uuden ennätyksemme: 80 %.
Jokapäiväisessä ammattikäytössä tämä tarkoittaa mallia, joka pystyy luotettavammin korjaamaan tuotantokoodin virheitä, toteuttamaan ominaisuuspyyntöjä, uudistamaan suuria koodipohjia ja toimittamaan korjauksia päästä päähän vähemmällä manuaalisella työllä.
GPT‑5.2 Thinking on myös parempi front-end-ohjelmistosuunnittelussa kuin GPT‑5.1 Thinking. Varhaiset testaajat huomasivat sen olevan huomattavasti tehokkaampi front-end-kehityksessä ja monimutkaisessa tai epätavanomaisessa käyttöliittymätyössä—erityisesti 3D-elementtejä sisältävässä—tehden siitä tehokkaan päivittäisen kumppanin insinööreille koko pinossa. Katso muutamia esimerkkejä siitä, mitä se voi luoda yhdestä kehotteesta:
Kehote: Luo yksisivuinen sovellus yhteen HTML-tiedostoon seuraavien vaatimusten mukaisesti:
– Nimi: Meren aaltojen simulointi
– Tavoite: näyttää realistisesti animoituja aaltoja.
– Ominaisuudet: muuta tuulen nopeutta, aallon korkeutta ja valaistusta.
– Käyttöliittymän tulisi olla rauhoittava ja realistinen.
Varhaiset testaajat jakoivat palautteensa GPT‑5.2:n koodausvalmiuksista:
"GPT-5.2 edustaa suurinta harppausta GPT-malleissa agenttipohjaisessa koodauksessa sitten GPT-5:n ja on SOTA-koodausmalli hintaluokassaan. Version päivitys aliarvioi älykkyyden harppauksen. Olemme innoissamme tehdessämme siitä oletuksen Windsurfissa ja useissa Devinin keskeisissä työkuormissa."
GPT‑5.2 Thinking hallusinoi vähemmän kuin GPT‑5.1 Thinking. Tunnistamattomiksi muutetuista ChatGPT‑kyselyistä virheelliset vastaukset olivat 38 % harvinaisempia. Ammattilaisille tämä tarkoittaa vähemmän virheitä, kun mallia käytetään tutkimukseen, kirjoittamiseen, analyysiin ja päätöksenteon tukeen, mikä tekee mallista luotettavamman jokapäiväisessä tietotyössä.
Päättelytaso asetettiin suurimmalle mahdolliselle tasolle ja hakutyökalu otettiin käyttöön. Muut mallit havaitsivat virheitä, ja ne saattavat itsekin tehdä virheitä. Väitekohtaiset virheasteet ovat huomattavasti alhaisemmat kuin vastaustason virheasteet, sillä useimmat vastaukset sisältävät monia väitteitä.
Muiden mallien tavoin, GPT‑5.2. Thinking ei ole täydellinen Kriittisissä asioissa tarkasta vastaukset kahdesti.
GPT‑5.2 Thinking asettaa uuden standardin pitkän kontekstin päättelyssä ja saavuttaa johtavan suorituskyvyn OpenAI MRCRv2:ssa – arvioinnissa, joka testaa mallin kykyä yhdistää tietoa, joka on hajautettu pitkiin asiakirjoihin. Todellisissa tehtävissä, kuten syvällisessä asiakirja-analyysissä, joka vaatii satojen tuhansien tokenien verran toisiinsa liittyvää tietoa, GPT‑5.2 Thinking on huomattavasti tarkempi kuin GPT‑5.1 Thinking. Erityisesti se on ensimmäinen malli, joka saavuttaa lähes 100 %:n tarkkuuden 4-neulan MRCR-variantissa (256 000 tokeniin asti).
Käytännössä tämä mahdollistaa ammattilaisille ottaa GPT‑5.2 käyttöön pitkien asiakirjojen, kuten raporttien, sopimusten, tutkimuspapereiden, transkriptioiden ja monen tiedoston projektien parissa, säilyttäen samalla johdonmukaisuuden ja tarkkuuden satojen tuhansien tokenien joukossa. Tämä tekee GPT‑5.2:sta erityisen hyvin soveltuvan syvälliseen analyysiin, synteesiin ja monimutkaisiin monilähteisiin työnkulkuihin.
OpenAI-MRCR(avautuu uudessa ikkunassa) v2:ssa (monikierroksinen yhteisviittausresoluutio), useita identtisiä ”neula”-käyttäjäpyyntöjä lisätään pitkiin ”heinäsuopiin” samankaltaisia pyyntöjä ja vastauksia sisältäen, ja mallia pyydetään tuottamaan vastaus n:nnelle neulalle. Version 2 korjaa ~5 % tehtävistä, joissa oli virheellisiä totuusarvoja. Keskimääräinen osumasuhde mittaa merkkijonojen keskimääräistä osumasuhdetta mallin vastauksen ja oikean vastauksen välillä. Pisteet 256k syötetunnisteen enimmäismäärän kohdalla edustavat keskiarvoja 128k–256k syötetunnisteen yli ja niin edelleen. Tässä 256k tarkoittaa 256 x 1 024 = 262 114 tunnistetta. Päättelyponnistus asetettiin suurimmalle mahdolliselle tasolle.
Tehtäville, jotka hyötyvät ajattelusta maksimaalisen konteksti-ikkunan ulkopuolella, GPT‑5.2 Thinking on yhteensopiva uuden Responses /compact päätepisteemme kanssa, joka laajentaa mallin tehokasta konteksti-ikkunaa. Tämä mahdollistaa GPT‑5.2 Thinkingin käsitellä työkaluja enemmän vaativissa, pitkäkestoisissa työnkuluissa, jotka muuten olisivat kontekstin pituuden rajoittamia. Lue lisää API-dokumentaatiostamme(avautuu uudessa ikkunassa).
GPT‑5.2 Thinking on tähän mennessä vahvin visiomallimme, joka puolittaa virheprosentit kaavioiden päättelyssä ja ohjelmistojen käyttöliittymien ymmärtämisessä.
Ammattikäytössä tämä tarkoittaa, että malli voi tarkemmin tulkita ohjauspaneeleja, tuotekuvakaappauksia, teknisiä kaavioita ja visuaalisia raportteja – tukien työnkulkuja taloushallinnossa, operaatioissa, insinöörityössä, suunnittelussa ja asiakaspalvelussa, joissa visuaalinen tieto on keskeistä.
CharXiv Reasoningissa(avautuu uudessa ikkunassa) mallit vastaavat tieteellisten artikkelien visuaalisiin kaavioihin liittyviin kysymyksiin. Python-työkalu otettiin käyttöön ja päättelyponnistelut asetettiin maksimiin.
ScreenSpot-Prossa(avautuu uudessa ikkunassa), mallien on pystyttävä miettimään korkearesoluutioisia graafisten käyttöliittymien kuvakaappauksia eri ammatillisista ympäristöistä. Python-työkalu otettiin käyttöön ja päättelyponnistelut asetettiin maksimiin. Ilman Python-työkalua pisteet ovat huomattavasti alhaisemmat. Suosittelemme Python-työkalun käyttöönottoa tällaisissa visuaalisissa tehtävissä.
Verrattuna aikaisempiin malleihin GPT‑5.2 Thinkingilla on vahvempi käsitys siitä, miten elementit on sijoitettu kuvaan, mikä auttaa tehtävissä, joissa suhteellinen asettelu on keskeisessä roolissa ongelman ratkaisemisessa. Alla olevassa esimerkissä pyydämme mallia tunnistamaan komponentit kuvasyötteessä (tässä tapauksessa emolevy) ja palauttamaan merkinnät likimääräisillä rajauslaatikoilla. Vaikka GPT‑5.2 tunnistaa pääalueet ja sijoittaa laatikot, jotka suunnilleen vastaavat kunkin komponentin todellisia sijainteja jopa huonolaatuisessa kuvassa, GPT‑5.1 merkitsee vain muutamia osia ja osoittaa paljon heikompaa ymmärrystä niiden tilallisesta järjestelystä.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking saavuttaa uuden huipputason 98,7 % Tau2-bench Telecomissa, mikä osoittaa sen kyvyn käyttää työkaluja luotettavasti pitkissä, monivaiheisissa tehtävissä.
Viiveherkille käyttötapauksille GPT‑5.2 Thinking toimii myös paljon paremmin päättelyssä, ja effort=’none’. päihittää merkittävästi suorituskyvyssä GPT‑5.1:n ja GPT‑4.1:n.
τ2-benchissä(avautuu uudessa ikkunassa) mallit käyttävät työkaluja suorittaakseen tukitehtäviä monikierroksisessa vuorovaikutuksessa simuloidun käyttäjän kanssa. Televiestinnän toimialueella lisäsimme järjestelmäkehoteeseen lyhyen, yleisesti hyödyllisen ohjeen suorituskyvyn parantamiseksi. Jätämme pois lentoyhtiöiden osajoukon, koska sen perustotuuden arviointi on heikkolaatuista.
Ammattilaisille tämä tarkoittaa tehokkaampia kokonaisvaltaisia työnkulkuja, kuten asiakastukitapausten ratkaisemista, tietojen keräämistä useista järjestelmistä, analyysien suorittamista ja lopullisten tulosten tuottamista vähemmillä keskeytyksillä vaiheiden välillä.
Esimerkiksi, kun kysytään monimutkaista asiakaspalvelukysymystä, jonka ratkaiseminen vaatii useita vaiheita, malli voi tehokkaammin koordinoida koko työnkulun useiden agenttien välillä. Alla olevassa tapauksessa matkustaja ilmoittaa lennon viivästymisestä, jatkolennon myöhästymisestä, yöpymisestä New Yorkissa ja lääketieteellisestä istumapaikkavaatimuksesta. GPT‑5.2 hallinnoi koko tehtäväketjua – uudelleenvaraukset, erityisavun tarvitsevien matkustajien istumapaikat ja korvaukset – ja tuottaa GPT‑5.1:tä kattavamman lopputuloksen.
GPT‑5.1

GPT‑5.2

Yksi toiveistamme tekoälyn suhteen on, että se nopeuttaa tieteellistä tutkimusta kaikkien hyödyksi. Tätä varten olemme tehneet yhteistyötä tutkijoiden kanssa ja kuunnelleet heitä nähdäksemme, miten tekoäly voi nopeuttaa heidän työtään, ja viime kuussa jaoimme joitakin varhaisia yhteistyökokeiluja täällä.
Uskomme, että GPT‑5.2 Pro ja GPT‑5.2 Thinking ovat maailman parhaita malleja tutkijoiden avustamiseen ja työn nopeuttamiseen. GPQA Diamond, korkeakoulutason Google-proof Q&A -vertailuarvo, GPT‑5.2 Pro saavuttaa 93,2 %, ja sitä seuraa läheisesti GPT‑5.2 Thinking 92,4 %.
GPQA Diamondissa(avautuu uudessa ikkunassa) mallit vastaavat monivalintakysymyksiin fysiikasta, kemiasta ja biologiasta. Työkaluja ei otettu käyttöön ja päättelytaso asetettiin maksimiin.
FrontierMathissa (Taso 1–3) arvioidaan asiantuntijatason matematiikkaa, GPT‑5.2. Thinking asetti uuden huipputason ratkaisemalla 40,3 % ongelmista.
FrontierMathissa mallit(avautuu uudessa ikkunassa) ratkaisevat asiantuntijatason matematiikkaongelmia. Python-työkalu otettiin käyttöön ja päättelyponnistelut asetettiin maksimiin.
Alamme nähdä, kuinka tekoälymallit merkittävästi nopeuttavat edistystä matematiikassa ja tieteessä konkreettisilla tavoilla. Esimerkiksi viimeaikaisessa työssä GPT‑5.2 Pro:n kanssa, tutkijat tutkivat avointa kysymystä tilastollisen oppimisen teoriassa. Kapeassa, tarkasti määritellyssä ympäristössä malli ehdotti todistusta, jonka kirjoittajat myöhemmin vahvistivat ja ulkopuoliset asiantuntijat tarkastivat, mikä osoittaa, kuinka huippumallit voivat auttaa matemaattisessa tutkimuksessa tiukan ihmisen valvonnan alaisuudessa.
ARC-AGI-1:ssä (Vahvistettu), joka on yleisen päättelykyvyn mittaamiseen suunniteltu vertailuarvo, GPT‑5.2 on ensimmäinen malli, joka ylittää 90 %:n rajan, parantaen viime vuoden o3‑esikatselun 87 %:sta samalla kun suorituskyvyn saavuttamisen kustannukset pienenevät noin 390-kertaisesti.
ARC-AGI-2:ssa (Vahvistettu), joka nostaa vaikeustasoa ja eristää paremmin sujuvaa päättelykykyä, GPT‑5.2 Thinking saavuttaa uuden huipputason ajatusketjumalleille, saavuttaen 52,9 %. GPT‑5.2 Pro suoriutuu vielä paremmin, saavuttaen 54,2 %, mikä laajentaa entisestään mallin kykyä järkeillä uusia, abstrakteja ongelmia.
Parannukset näissä arvioinneissa heijastavat GPT‑5.2:n parannuksia. vahvempi monivaiheinen päättelykyky, suurempi kvantitatiivinen tarkkuus ja luotettavampi ongelmanratkaisu monimutkaisissa teknisissä tehtävissä.
Tässä on, mitä varhaiset testaajamme sanovat GPT‑5.2:sta:
"GPT-5.2 avasi meille täydellisen arkkitehtuurin muutoksen. Muutimme hauraan, usean agentin järjestelmän yhdeksi mega-agentiksi, jossa on yli 20 työkalua. Parasta on, että se vain toimii. Mega-agentti on nopeampi, älykkäämpi ja 100 kertaa helpompi ylläpitää. Viive on huomattavasti pienempi, työkalujen kutsuminen on paljon tehokkaampaa, eikä meidän enää tarvitse käyttää laajoja järjestelmäkomentoja, koska versio 5.2 toimii puhtaasti yhdellä rivillä. Tuntuu kuin se olisi puhdasta taikuutta."
ChatGPT:ssä käyttäjien pitäisi huomata, että GPT‑5.2 tuntuu paremmalta käyttää päivittäin – se on rakenteellisempi, luotettavampi ja edelleen miellyttävä keskustelukumppani.
GPT‑5.2 Instant on nopea ja kykenevä työjuhta jokapäiväiseen työhön ja oppimiseen, tarjoten selkeitä parannuksia tiedonhakukysymyksiin, ohjeisiin ja opastuksiin, tekniseen kirjoittamiseen ja kääntämiseen, rakentaen GPT‑5.1 Instantissa esitellyn lämpimämmän keskustelusävyn pohjalle. Varhaiset testaajat kiinnittivät erityisesti huomiota selkeämpiin selityksiin, joissa tärkeät tiedot tuodaan esiin heti alussa.
GPT‑5.2 Thinking on suunniteltu syvällisempään työskentelyyn, auttaen käyttäjiä käsittelemään monimutkaisempia tehtäviä suuremmalla huolellisuudella – erityisesti koodauksessa, pitkien asiakirjojen tiivistämisessä, ladattuihin tiedostoihin liittyviin kysymyksiin vastaamisessa, matemaattisten ja loogisten ongelmien vaiheittaisessa läpikäymisessä sekä suunnittelun ja päätöksenteon tukemisessa selkeämmällä rakenteella ja hyödyllisemmillä yksityiskohdilla.
GPT‑5.2 Pro on älykkäin ja luotettavin vaihtoehtomme vaikeisiin kysymyksiin, joissa korkealaatuisen vastauksen odottaminen kannattaa. Alkutestit osoittavat vähemmän merkittäviä virheitä ja vahvempaa suorituskykyä monimutkaisilla toimialueilla, kuten ohjelmoinnissa.
GPT‑5.2 rakentuu turvallisen suorittamisen tutkimuksen pohjalta, jonka esittelimme GPT‑5:n yhteydessä. Tämä opettaa mallia antamaan mahdollisimman hyödyllisen vastauksen pysyen samalla turvallisuusrajoissa.
Tämän julkaisun myötä jatkoimme työtämme vahvistaaksemme malliemme vastauksia arkaluonteisissa keskusteluissa, ja teimme merkittäviä parannuksia siihen, miten mallit vastaavat kehotteisiin, jotka viittaavat itsemurha- tai itsetuhoaikeisiin, mielenterveysongelmiin tai tunnesidonnaisuuteen malliin. Nämä kohdennetut toimenpiteet ovat vähentäneet ei-toivottuja reaktioita sekä GPT‑5.2 Instantissa että GPT‑5.2 Thinkingissä verrattuna GPT‑5.1‑ ja GPT‑5 Instant- ja Thinking-malleihin. Lisätietoja löytyy järjestelmäkortista.
Olemme alkuvaiheessa ottamassa käyttöön ikäennustemalliamme, jotta voimme automaattisesti soveltaa sisältösuojauksia alle 18-vuotiaisiin käyttäjiin rajoittaaksemme pääsyä arkaluonteiseen sisältöön. Tämä perustuu nykyiseen lähestymistapaamme alle 18-vuotiaisiin käyttäjiin ja käytönvalvontaan.
GPT‑5.2 on yksi askel jatkuvassa parannusten sarjassa, emmekä ole vielä valmiita. Vaikka tämä versio tarjoaa merkittäviä parannuksia älykkyydessä ja tuottavuudessa, tiedämme, että on alueita, joilla ihmiset haluavat enemmän. ChatGPT:ssä työskentelemme tunnettujen ongelmien, kuten liiallisten hylkäysten, parissa ja nostamme samalla yleistä turvallisuuden ja luotettavuuden tasoa. Nämä muutokset ovat monimutkaisia, ja keskitymme tekemään ne oikein.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Mielenterveys | 0,995 | 0,883 | 0,915 | 0,684 |
Tunneperäinen riippuvuus | 0,938 | 0,945 | 0,955 | 0,785 |
Itsensä vahingoittaminen | 0,938 | 0,925 | 0,963 | 0,937 |
ChatGPT:ssä aloitamme tänään GPT‑5.2:n (Instant, Thinking ja Pro) käyttöönoton, alkaen maksullisista sopimuksista (Plus, Pro, Go, Business, Enterprise). Otamme GPT‑5.2:n käyttöön vähitellen, jotta ChatGPT pysyy mahdollisimman sujuvana ja luotettavana; jos et näe sitä heti, yritä myöhemmin uudelleen. ChatGPT:ssä GPT‑5.1 on edelleen maksullisten käyttäjien käytettävissä kolmen kuukauden ajan vanhojen mallien mukaisesti, minkä jälkeen GPT‑5.1 poistetaan käytöstä.
ChatGPT | API |
ChatGPT‑5.2 Välitön | GPT‑5.2‑keskustelu‑viimeisin |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
API-alustallamme GPT‑5.2 Thinking on saatavilla tänään Vastaukset-API:ssa ja Keskustelun loppuunpäättämisen API:ssa nimellä gpt-5.2, ja GPT‑5.2 Instant nimellä GPT‑5.2‑chat‑latest. GPT‑5.2 Pro on saatavilla Responses API:ssa nimellä gpt-5.2-pro. Kehittäjät voivat nyt asettaa päättelyparametrin GPT‑5.2 Prohon, ja sekä GPT‑5.2 Pro että GPT‑5.2 Thinking nyt tukevat uutta viidennen tason päättelyponnistelua xhigh-tasolla, tehtäviin, joissa laatu on tärkeintä.
GPT‑5.2:n hinta on 1,75 $ / 1 miljoonaa syötetunnistetta ja 14 $ / 1 miljoonaa tuotostunnistetta, ja välimuistissa olevista syötteistä saa 90 % alennuksen. Useilla agenttien arvioinneilla havaitsimme, että huolimatta GPT‑5.2:n suuremmasta tunnistekohtaisesta kustannuksesta, mutta tietyn laatutason saavuttamisen kustannukset osoittautuivat edullisemmiksi GPT‑5.2:n paremman tunnisteiden tehokkuuden ansiosta.
Vaikka ChatGPT‑tilauksen hinnoittelu pysyy samana, API:ssa GPT‑5.2 on hinnoiteltu korkeammaksi per token kuin GPT‑5.1, koska se on kyvykkäämpi malli. Sen hinta on edelleen alhaisempi kuin muiden frontier-mallien, joten ihmiset voivat jatkaa sen syvällistä käyttöä päivittäisessä työssään ja keskeisissä sovelluksissaan.
Malli | Syöte | Välimuistissa oleva syöte | Tuotos |
GPT‑5.2 / GPT‑5.2‑keskustelu‑viimeisin | 1,75 $ | 0,175 $ | 14 $ |
gpt-5.2-pro | 21 $ | - | 168 $ |
GPT‑5.1 / GPT‑5.1‑keskustelu‑viimeisin | 1,25 $ | 0,125 $ | 10 $ |
gpt-5-pro | 15 $ | - | 120 $ |
Meillä ei ole tällä hetkellä suunnitelmia poistaa käytöstä GPT‑5.1:tä, GPT‑5:ttä tai GPT‑4.1:tä API:ssa ja ilmoitamme kehittäjille hyvissä ajoin mahdollisista käytöstäpoistosuunnitelmista. Vaikka GPT‑5.2 toimii hyvin suoraan Codexissa, odotamme julkaisevamme version GPT‑5.2:sta, joka on optimoitu Codexille tulevien viikkojen aikana.
GPT‑5.2 rakennettiin yhteistyössä pitkäaikaisten kumppaneidemme NVIDIA:n ja Microsoftin kanssa. Azure-datakeskukset ja NVIDIA GPU:t, mukaan lukien H100, H200 ja GB200-NVL72, tukevat OpenAI:n laajamittaista koulutusinfrastruktuuria, ja edistävät merkittävästi mallien älykkyyttä. Yhteistyön ansiosta voimme laajentaa laskentakapasiteettia luottavaisin mielin ja tuoda uusia malleja markkinoille entistä nopeammin.
Alla raportoimme kattavat vertailuarvot GPT‑5.2 Thinkingille yhdessä osajoukon kanssa GPT‑5.2 Prolle.
Ammattilainen
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Koodaus
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Todenmukaisuus
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Pitkä konteksti
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Näkymä
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Työkalun käyttö
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Akateeminen
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstrakti ajattelu
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Malleja ajettiin API:ssamme suurimmalla mahdollisella päättelyponnistelulla (xhigh GPT‑5.2 Thinkingille & Prolle, ja korkea GPT‑5.1 Thinkingille), paitsi ammatillisissa arvioinneissa, joissa GPT‑5.2 Thinking suoritettiin vaativalla päättelyponnistelulla, joka on suurin mahdollinen ChatGPT Pro -palvelussa. Vertailutestit suoritettiin tutkimusympäristössä, mikä saattaa joissakin tapauksissa tuottaa hieman erilaisia tuloksia kuin tuotantoympäristön ChatGPT.
* SWE-Lancerille jätämme pois 40/237 ongelmaa, jotka eivät toimineet infrastruktuurissamme.


