5. märts 2026

Tutvustame mudelit GPT‑5.4

Loodud professionaalseks tööks

Laadimine…

Täna avaldame ChatGPT‑s GPT‑5.4 (kui GPT‑5.4 Thinking), API ja Codex. See on meie kõige võimekam ja tõhusam tipptasemel mudel professionaalseks tööks. Toome välja ka GPT‑5.4 Pro ChatGPT‑s ja API-s, inimestele, kes soovivad keerukate ülesannete puhul maksimaalset jõudlust.

GPT‑5.4 koondab meie hiljutiste edusammude parima arutluse, kodeerimise ja agentlike töövoogude vallas ühte tipptasemel mudelisse. See hõlmab valdkonna juhtivaid kodeerimisvõimekusi, mida pakub GPT‑5.3‑Codex⁠, parandades samal ajal seda, kuidas mudel töötab erinevate tööriistade, tarkvarakeskkondade ja professionaalsete ülesannete puhul, mis hõlmavad arvutustabeleid, esitlusi ja dokumente. Tulemuseks on mudel, mis teeb keerulise päris töö täpselt, tulemuslikult ja tõhusalt ära –pakkudes seda, mida palusid, väiksema edasi-tagasi suhtlusega.

ChatGPT‑s saab GPT‑5.4 Thinking nüüd esitada oma mõtlemise kohta ette plaani, nii et saad vastuse keskel samal ajal kui see töötab, kurssi kohandada ja jõuda lõpliku väljundini, mis on ilma lisavoorudeta sinu vajadustega paremini kooskõlas. GPT‑5.4 Thinking parandab ka süvaveebi uurimist, eriti väga spetsiifiliste päringute puhul, ning säilitab paremini konteksti küsimuste jaoks, mis nõuavad pikemat mõtlemist. Koos tähendavad need täiustused, et vastused on kvaliteetsemad, jõuavad kiiremini kohale ja püsivad käsiloleva ülesande jaoks asjakohased.

Codex ja API-s on GPT‑5.4 esimene üldotstarbeline mudel, mille oleme välja andnud natiivse, tipptasemel arvuti kasutamise võimekusega, võimaldades agentidel kasutada arvuteid ja viia läbi keerukaid töövooge eri rakendustes. See toetab kuni 1M tokeni konteksti, võimaldades agentidel planeerida, täita ja kontrollida ülesandeid pikkade ajahorisontide jooksul. GPT‑5.4 parandab ka seda, kuidas mudelid töötavad suurtes tööriistade ja ühenduste ökosüsteemides, kasutades tööriistade otsingut, aidates agentidel leida ja kasutada õigeid tööriistu tõhusamalt, ilma intelligentsust ohverdamata. Lõpuks on GPT‑5.4 meie seni kõige tokenitõhusam arutlusmudel , kasutades probleemide lahendamiseks võrreldes GPT‑5.2‑ga oluliselt vähem tokeneid—mis tähendab väiksemat tokenikasutust ja suuremat kiirust.

Koos edusammudega üldises arutluses, kodeerimises ja professionaalses teadmistepõhises töös võimaldab GPT‑5.4 usaldusväärsemaid agente, kiiremaid arendajate töövooge ja kõrgema kvaliteediga väljundeid ChatGPT‑s, API-s ja Codexis.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (võidud või viigid)	83,0%	70,9%	70,9%
SWE-Bench Pro (avalik)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74,0%*	47,3%
Toolathlon	54,6%	51,9%	46,3%
BrowseComp	82,7%	77,3%	65,8%

*Varem teatati, et see oli 64,7%. GPT‑5.3‑Codex saavutab 74,0% äsja kasutusele võetud API parameetriga, mis säilitab algse pildiresolutsiooni.

Teadmiste töö

Tuginedes GPT‑5.2‑le üldisele arutlusvõimele, GPT‑5.4 pakub veelgi järjepidevamaid ja viimistletumaid tulemusi reaalelulistes ülesannetes, mis on professionaalidele olulised.

GDPvalis GDPval⁠, mis testib agentide võimekust toota hästi määratletud teadmustööd 44 ametikohal, saavutab GPT‑5.4 uue tipptaseme, olles 83,0% võrdlustest valdkonna professionaalidega samal tasemel või neid ületades, võrreldes GPT‑5.2 71,0% -ga.

GDPvalis püüavad mudelid teha hästi määratletud teadmistööd, mis hõlmab 44 ametit 9 peamisest tööstusharust, mis annavad panuse USA SKP-sse. Ülesanded nõuavad reaalseid töötooteid, nagu müügiesitlused, raamatupidamisarvutustabelid, erakorralise abi ajakavad, tootmisdiagrammid või lühivideod. Arutluse pingutus seati GPT‑5.4 jaoks tasemele xhigh ja GPT‑5.2 jaoks tasemele heavy. (veidi madalam tase ChatGPT‑s).

„GPT-5.4 on parim mudel, mida oleme kunagi proovinud. See on nüüd meie APEX-Agentsi võrdlusalusel edetabeli tipus, mis mõõdab mudeli tulemuslikkust professionaalsete teenuste töö jaoks. See paistab silma pika horisondiga väljundite, nagu slaidiesitluste, finantsmudelite ja õigusanalüüside loomisel, pakkudes tipptasemel jõudlust, töötades samal ajal kiiremini ja madalamate kuludega kui konkureerivad tipptasemel mudelid.”

— Brendan Foody, Mercori tegevjuht

Pöörasime erilist tähelepanu GPT‑5.4 täiustamisele. võime luua ja redigeerida arvutustabeleid, esitlusi ja dokumente. Meie sisemises võrdlusuuringus, mis hõlmab tabelarvutuste modelleerimisülesandeid, mida noorem investeerimispanganduse analüütik võiks teha, saavutab GPT‑5.4 keskmise tulemuse 87,5%, võrreldes 68,4% GPT‑5.2 puhul. Esitluste hindamise viipade komplektis eelistasid inimhindajad GPT‑5.4 esitlusi GPT‑5.2 omadele 68,0% ajast, tänu tugevamale esteetikale, suuremale visuaalsele mitmekesisusele ja pildi genereerimise tõhusamale kasutamisele.

Kõrvuti näide GPT-5.2 vs GPT-5.4 arvutustabeli väljunditest

Dokumendid loodi arutluspingutusega, mis oli seatud tasemele 'xhigh'

Saad neid võimekusi ChatGPT‑s proovida, kasutades mudeleid GPT‑5.4 Thinking või Pro. Kui olete Enterprise’i klient, soovitame kasutada meie äsja välja antud ChatGPT for Exceli ja Google Sheetsi pistikprogramme⁠(avaneb uues aknas), mis käivitati samuti täna. Oleme ka uuendanud oma arvutustabeli⁠(avaneb uues aknas) ja esitluse oskusi⁠(avaneb uues aknas), mis on saadaval Codexis ja API-s.

Et muuta GPT‑5.4 paremaks reaalmaailma töös, jätkasime edusamme hallutsinatsioonide ja vigade vähendamisel. GPT‑5.4 on meie seni kõige faktitäpsem mudel: deidentifitseeritud viipade kogumis, kus kasutajad märkisid ära faktivead, GPT‑5.4 üksikväidete puhul on 33% väiksem tõenäosus, et need on valed, ja selle täielikes vastustes on 18% väiksem tõenäosus, et need sisaldavad mingeid vigu, võrreldes GPT‑5.2‑ga.

„GPT-5.4 seab uue lati dokumendimahukas õigustöös. Meie BigLaw Bench hinnangus kogus see 91%. Teiste mudelitega võrreldes on GPT-5.4 hetkel suutlikum keerukate tehinguanalüüside ülesehitamisel, täpsuse hoidmisel pikkades lepingutes ning juuraekspertidele vajaliku detailirohkuse tagamisel.“

— Niko Grupen, Harvey rakendusuuringute juht

Arvuti kasutamine ja nägemine

GPT‑5.4 on meie esimene üldotstarbeline mudel, millel on natiivne arvuti kasutamise võimekus ja see tähistab suurt edasiminekut nii arendajate kui ka agentide jaoks. See on praegu arendajatele saadaval olev parim mudel agentide loomiseks, mis täidavad reaalseid ülesandeid veebisaitidel ja tarkvarasüsteemides.

Oleme loonud GPT‑5.4 nii, et see pakuks head jõudlust paljude arvutikasutuse töökoormuste puhul. See paistab silma koodi kirjutamises, et juhtida arvuteid Playwrighti-suguste teekide kaudu, ning samuti hiire- ja klaviatuurikäskude andmises vastuseks ekraanipiltidele. Selle käitumist saab arendaja sõnumite kaudu suunata, mis tähendab, et arendajad saavad käitumist kohandada konkreetsete kasutusjuhtude jaoks. Arendajad saavad isegi konfigureerida mudeli ohutuskäitumist, et see sobiks erinevate riskitaluvuse tasemetega, määrates kohandatud kinnitamispoliitikad.

Mudeli jõudlus ja paindlikkus kajastuvad mõõdupuudes, mis testivad arvuti kasutamist erinevates keskkondades. On OSWorld-Verifiedil, mis mõõdab mudeli võimet navigeerida töölauakeskkonnas ekraanipiltide ning klaviatuuri-/hiiretoimingute abil, saavutab GPT‑5.4 tipptasemel 75,0% edukuse määr, ületades kaugelt GPT‑5.2 47,3%, ja ületades inimeste sooritust 72,4% võrra.¹

Platvormil WebArena-Verified, mis testib brauseri kasutamist, saavutab GPT‑5.4 juhtiva 67,3% edukuse määra, kui kasutatakse nii DOM- kui ka ekraanipildipõhist interaktsiooni, võrreldes GPT‑5.2 65,4%-ga. Võrdlustestis Online-Mind2Web, mis testib ka brauseri kasutust, saavutab GPT‑5.4 92,8% edukusmäära, kasutades ainult ekraanipiltidel põhinevaid vaatlusi, parandades ChatGPT Atlase Agent Mode’i, mis saavutab 70,9% edukusmäära.

Tööriista yield on see, kui assistent loovutab juhtimise, et oodata tööriista vastuseid. Kui 3 tööriista kutsutakse paralleelselt, millele järgneb veel 3 tööriista paralleelselt kutsumine, oleks yield’ide arv 2. Tööriistade yield’id on latentsuse parem asendusmõõdik kui tööriistakutsed, sest need peegeldavad paralleelstamise eeliseid.

GPT‑5.4 tõlgendab brauseri liidese ekraanipilte ja suhtleb kasutajaliidese elementidega koordinaadipõhise klikkimise kaudu, et saata e-kirju ja ajastada kalendrisündmus.

GPT‑5.4 täiustatud arvutikasutus põhineb mudeli paranenud üldistel visuaalse taju võimekustel. MMMU-Pro-s, mis on mudeli visuaalse mõistmise ja arutluse test, saavutab GPT‑5.4 ilma tööriistu kasutamata 81,2% edukuse määra, mis on paranemine võrreldes GPT‑5.2 omaga 79,5%. Paranenud visuaalne taju toob kaasa ka paremad dokumendiparsimise võimekused. Platvormil OmniDocBench saavutab GPT‑5.4 ilma arutluspingutuseta keskmise vea (mõõdetuna normaliseeritud redigeerimiskaugusena mudeli ennustuse ja tõeväärtuse vahel) 0,109, mis on parem kui GPT‑5.2 0,140.

MMMUPro viidi läbi arutluspingutusega, mis oli seatud tasemele 'xhigh'. OmniDocBench viidi läbi ilma arutluspingutuseta (none), et kajastada madalaid kulusid ja madala latentsusega jõudlust.

Täiustame ka visuaalset mõistmist tihedate, kõrge resolutsiooniga piltide puhul, kus täielik täpsus on oluline. Alates GPT‑5.4‑st, võtame kasutusele algse pildi sisendi detailsustaseme⁠(avaneb uues aknas), mis toetab täieliku eraldusvõimega taju kuni 10,24 miljoni pikslini või maksimaalse mõõtmeni 6000 pikslit, olenevalt sellest, kumb on madalam; kõrge pildisisendi detailsustase toetab nüüd kuni 2,56 miljonit kogupikslit või maksimaalset mõõdet 2048 pikslit. API kasutajatega tehtud varases testimises täheldasime tugevat tõusu lokaliseerimisvõimes, piltide mõistmises ja klikkimise täpsuses, kui kasutati algset või kõrget detailsust.

„Meie hinnangutes, mis mõõtsid arvutikasutuse jõudlust umbes 30 000 korteriühistu ja kinnisvaramaksu portaalis, saavutas GPT-5.4 esimesel katsel 95% ja kolme katse jooksul 100% edukuse, võrreldes varasemate CUA mudelite ~73–79%-ga. Samuti viis see seansid lõpule ligi kolm korda kiiremini, kasutades samal ajal ~70% vähem tokeneid, parandades oluliselt töökindlust ja kulutõhusust suures mastaabis."

— Dod Fraser, Mainstay tegevjuht

API-s saad nendele võimalustele juurde pääseda, kasutades uuendatud arvutitööriista. Vaata meie uuendatud dokumentatsiooni⁠(avaneb uues aknas) soovitatud parimate tavade kohta.

Kodeerimine

GPT‑5.4 ühendab GPT‑5.3‑Codexi kodeerimistugevused juhtivate teadmiste töö ja arvuti kasutamise võimekustega, mis on kõige olulisemad pikema kestusega ülesannete puhul, kus mudel saab kasutada tööriistu, itereerida ja viia töö kaugemale väiksema käsitsi sekkumisega. See vastab või ületab GPT‑5.3‑Codexi SWE-Bench Pro'l, olles samal ajal väiksema latentsusega arutluste lõikes.

Hindame latentsust, vaadates meie mudelite käitumist tootmiskeskkonnas, ja simuleerides seda võrguühenduseta. Latentsi hinnang võtab arvesse tööriistakutse kestust (koodi käivitusaega), proovivõetud tokenite ja sisendtokenite. Reaalse maailma latentsus võib oluliselt varieeruda ja sõltub paljudest teguritest, mida meie simulatsioon ei hõlma. Arutluspingutus viidi tasemelt 'none' tasemele 'xhigh'.

Sisselülitatuna pakub Codexi /fast mode kuni 1.5x kiiremat tokenite kiirust GPT‑5.4‑ga. See on sama mudel ja sama intelligentsus, lihtsalt kiirem. See tähendab, et kasutajad saavad liikuda läbi kodeerimisülesannete, iteratsiooni ja silumise, püsides samal ajal töövoos. Arendajad saavad API kaudu kasutada GPT‑5.4 sama kiirel kiirusel, kasutades prioriteetset töötlemist⁠(avaneb uues aknas).

Sisehindamiste ja sisemiste testide käigus leidsime, et GPT‑5.4 paistab silma keerukate front-end ülesannete puhul, andes märgatavalt esteetilisemaid ja funktsionaalsemaid tulemusi kui ükski mudel, mille oleme varem turule toonud.

Mudeli täiustatud arvutikasutuse ja kodeerimisvõimekuse koos toimimise demonstratsioonina anname välja ka eksperimentaalse Codexi oskuse nimega „Playwright (Interactive)⁠(avaneb uues aknas)”. See võimaldab Codexil veebirakendusi ja Electroni rakendusi visuaalselt siluda; seda saab isegi kasutada selleks, et testida rakendust, mida see ehitab, samal ajal kui see seda ehitab.

GPT‑5.4 abil loodud teemapargi simulatsioonimäng ühest kergelt täpsustatud viibast, kasutades brauseris mängu testimiseks Playwright Interactive’it ja isomeetrilise varakomplekti jaoks pildi genereerimist. Simulatsioon hõlmab ruudustikupõhist radade paigutamist, atraktsioonide ja dekoratsioonide ehitamist, külastajate teeotsingut, järjekorras seismist ja atraktsioonitsükleid. Pargi näitajad, nagu raha, külastajate arv, rahulolu, puhtus ja hinnang, tõusevad või langevad sõltuvalt sellest, kui hästi paigutus toimib ja kuidas külastajad sellele reageerivad. Playwrighti kasutati brauseripõhise mängu testimise automatiseerimiseks, ehitades ja laiendades parki, paigutades ja eemaldades teid ja atraktsioone, kontrollides kaamera navigeerimist ning veendudes, et külalised, järjekorrad, sõitude olekud ja kasutajaliidese mõõdikud uuenevad mitme mänguvooru jooksul korrektselt.

Viip: kasuta $playwright-interactive'i ja $imagegeni. Loo interaktiivne isomeetriline teemapargi simulatsioonimäng, mida saab brauseris ehitada ja milles saab ringi liikuda. Kasuta imagegenit, et paika panna üldine visuaalne visioon ja genereerida mängu varad, sh atraktsioonid, rajad, maastik, puud, vesi, toidukioskid, dekoratsioonid, hooned, ikoonid ja kasutajaliidese illustratsioonid. Maailm peaks tunduma ühtne, viimistletud ja visuaalselt rikkalik, premium-klassi kunstilise suunaga, mis töötab isomeetrilisest vaatenurgast hästi. Luba mul paigutada ja eemaldada radu, lisada atraktsioone, paigutada dekoratsioone ning liikuda pargis sujuvalt ringi, jälgides samal ajal külastajate aktiivsust, atraktsioonide olekut ja pargi arengut. Lisa usutav külastajate liikumine, lihtsad pargihalduse süsteemid nagu raha, puhtus, järjekorrad ja rahulolu, ning tee kogemus mänguliseks, selgeks ja terviklikuks, mitte nagu toores prototüüp. Sea esikohale sarm, loetavus ja tugev mängutunne, mitte realism.

Mängu testimisel ehita ja laienda kindlasti parki mitme mänguvooru jooksul, veendu, et paigutamine ja navigeerimine toimivad sujuvalt, kinnita, et külastajad reageerivad pargi paigutusele ja atraktsioonidele, ning taga, et visuaalid, kasutajaliides ja interaktsioonid tunduvad stabiilsed ja ühtsed.

„Meie arendajad leiavad, et GPT-5.4 on loomulikum ja enesekindlam kui varasemad mudelid. See töötab läbi mitmetimõistetavad probleemid ilma endas kahtlemata ning on proaktiivne töö paralleelselt jaotamises, et asjad liiguksid edasi.”

— Lee Robinson, Cursori arendajahariduse asepresident

Tööriistade kasutamine

GPT‑5.4‑ga, oleme märkimisväärselt parandanud seda, kuidas mudelid töötavad väliste tööriistadega. Agendid saavad nüüd tegutseda suuremates tööriistaökosüsteemides, valida sobivad tööriistad usaldusväärsemalt ning viia mitmeastmelised töövood lõpule väiksema kulu ja latentsusega.

Tööriistaotsing

API-s tutvustab GPT‑5.4 tööriistaotsingut⁠(avaneb uues aknas), mis võimaldab mudelitel tõhusalt töötada, kui neile antakse palju tööriistu.

Varem, kui mudelile anti tööriistad, lisati kõik tööriistade definitsioonid viip ette juba alguses. Paljude tööriistadega süsteemide puhul võib see lisada igale päringule tuhandeid (või isegi kümneid tuhandeid) tokeneid, suurendades kulu, aeglustades vastuseid ja täites konteksti teabega, mida mudel ei pruugi kunagi kasutada.

Tööriistaotsingu korral saab GPT‑5.4 selle asemel kerge loendi saadaolevatest tööriistadest koos tööriistaotsingu võimalusega. Kui mudel peab kasutama tööriista, saab ta otsida selle tööriista definitsiooni ja lisada selle vestlusele sel hetkel.

See lähenemine vähendab märkimisväärselt tööriistarohkete töövoogude jaoks vajalike tokenite arvu ja säilitab vahemälu, muutes päringud kiiremaks ja odavamaks. See võimaldab agentidel ka usaldusväärselt töötada palju suuremate tööriistade ökosüsteemidega. MCP-serverite puhul, mis võivad sisaldada kümneid tuhandeid token'eid tööriistade definitsioone, võivad tõhususe võidud olla märkimisväärsed.

Tõhususe kasvu näitamiseks hindasime 250 ülesannet Scale’i MCP Atlas⁠(avaneb uues aknas) etalonist, kus kõik 36 MCP-serverit olid lubatud kahes režiimis: (1) avalikustades iga MCP-funktsiooni otse mudeli kontekstis ja (2) paigutades kõik MCP-serverid tööriistaotsingu taha. Tööriistaotsingu seadistus vähendas tokenite kogukasutust 47% võrra, saavutades samal ajal sama täpsuse.

Tokenite arvud pärinevad MCP-Atlase avaliku andmestiku 250 ülesande keskmistamisest.

Agentlik tööriista kutsumine

GPT‑5.4 parandab ka tööriistakutseid, muutes selle täpsemaks ja tõhusamaks, kui otsustatakse, millal ja kuidas tööriistu arutluse käigus kasutada, eriti API-s. Võrreldes GPT‑5.2‑ga saavutab see Toolathlonis suurema täpsuse vähemate voorudega; Toolathlon on võrdlusalus, mis testib, kui hästi AI-agendid suudavad kasutada pärismaailma tööriistu ja API-sid mitmeastmeliste ülesannete täitmiseks. Näiteks peab agent lugema e-kirju, eraldama ülesande manused, need üles laadima, neid hindama ja tulemused arvutustabelisse kirja panema.

Latentsustundlike kasutusjuhtude puhul, kus eelistatakse arutluskoormuse väärtust None, täiustab GPT‑5.4 oma eelkäijaid veelgi.

τ2-benchis⁠⁠(avaneb uues aknas) peab mudel kasutama tööriistu, et täita klienditeenindusülesannet, kus võib olla simuleeritud kasutaja, kes saab suhelda ja teha toiminguid maailma seisundi üle. Arutlus oli seatud väärtusele Puudub.

Täiustatud veebiotsing

GPT‑5.4 on agentse veebiotsingu osas parem. BrowseCompi testis, mis mõõdab, kui hästi AI-agendid suudavad püsivalt veebis sirvida, et leida raskesti leitavat teavet, edestab GPT‑5.4 GPT‑5.2‑t 17%_abs võrra, ja GPT‑5.4 Pro seab uue tipptaseme 89,3%.

Praktikas tähendab see, et GPT‑5.4 Thinking on parem küsimustele vastamisel, mis nõuavad teabe kokkupanekut paljudest allikatest üle veebi. See suudab mitme vooru jooksul järjekindlamalt otsida, et tuvastada kõige asjakohasemad allikad, eriti “nõel heinakuhjas” tüüpi küsimuste puhul, ning sünteesida need selgeks, hästi põhjendatud vastuseks.

BrowseCompis kasutasime otsingu blokeerimisloendit, mis välistas hindamisest veebisaidid, mis sisaldasid võrdlusaluse vastuseid, et vältida saastumist ja tagada jõudluse õiglane mõõtmine. GPT‑5.4 mõõdeti hilisemal kuupäeval kui GPT‑5.2, nii et skoorid kajastavad muutusi mudelis, meie otsingusüsteemis ja interneti seisundis. GPT‑5.4 testiti pikema, ajakohastatud blokeerimisloendiga. Mudelid kasutavad ChatGPT otsingu tööriista, millel võivad olla väikesed erinevused võrreldes API otsinguga.

„GPT-5.4 xhigh on mitmeetapilise tööriistakasutuse uus tipptase. Zapier viib läbi valdkonna kõige rangemaid tööriistakasutuse jõudlusteste, katsetades mudeleid sadades täiustatud reaalmaailma töövoogudes. GPT-5.4 viis töö lõpule seal, kus varasemad mudelid alla andsid – see on senistest kõige järjekindlam mudel.

— Wade, Zapieri tegevjuht

Juhitavus

Sarnaselt sellele, kuidas Codex kirjeldab oma lähenemist, kui ta tööle asub, GPT‑5.4 ChatGPT‑s mõtlemine kirjeldab nüüd pikemate ja keerukamate päringute puhul oma töö käiku sissejuhatusega. Sa saad lisada ka juhiseid või kohandada selle suunda vastuse keskel. See teeb lihtsamaks suunata mudelit täpselt soovitud tulemuseni, ilma et peaksid otsast alustama või vajaksid mitut täiendavat käiku. See funktsioon on nüüd saadaval saidil chatgpt.com⁠(avaneb uues aknas) ja Androidi rakenduses, iOS-i rakendusse jõuab peagi.

Mudel saab ka keeruliste ülesannete puhul pikemalt mõelda, säilitades samal ajal tugevama teadlikkuse vestluse varasematest sammudest. See võimaldab tal käsitleda pikemaid töövooge ja keerukamaid viipasid, hoides samal ajal vastused sidusad ja asjakohased kogu vältel.

See video on illustratiivsetel eesmärkidel kiirendatud.

Ohutus

Viimastel kuudel oleme jätkanud GPT‑5.3‑Codex'iga kasutusele võetud kaitsemeetmete täiustamist, valmistades samal ajal GPT‑5.4 juurutamiseks ette. Kui sul on küsimusi, anna teada. Sarnaselt GPT‑5.3‑Codex'ile käsitleme GPT‑5.4 meie Valmisoleku Raamistikus kõrge kübervõimekusena ning juurutame selle koos vastavate kaitsemeetmetega, nagu on dokumenteeritud süsteemikaardis⁠. Nende hulka kuuluvad laiendatud küberohutuse meetmed, sealhulgas seiresüsteemid, usaldusväärsed juurdepääsukontrollid ja asünkroonne blokeerimine kõrgema riskiga päringute puhul klientidele, kes kasutavad andmeid ei säilitata (ZDR) pindu, koos jätkuvate investeeringutega laiemasse turbeökosüsteemi.

Kuna küberturbevõimed on olemuselt topeltkasutusega, rakendame juurutamisel ettevaatusabinõusid, jätkates samal ajal oma poliitikate ja klassifikaatorite täpsustamist. Teatud klientide puhul ZDR-pindadel on päringutasandi blokeerimine endiselt osa meie küberriskide leevendusmeetmetest; kuna klassifikaatorid alles paranevad, võib nende kaitsemeetmete täiustamise jätkudes esineda mõningaid valepositiivseid tulemusi. Nende uuenduste eesmärk on parandada kaitsemeetmete praktilist toimimist, sealhulgas vähendada tarbetuid keeldumisi ja liiga paljude reservatsioonidega vastuseid, säilitades samal ajal tugeva kaitse väärkasutuse vastu.

Oleme jätkanud oma ohutusuuringuid mõttekäigu (CoT) jälgitavuse kohta, et paremini mõista, kuidas mudelid arutlevad, ja aidata tuvastada võimalikku väärkäitumist. Selle töö osana tutvustame uut avatud lähtekoodiga hindamist, CoT juhitavus⁠, mis mõõdab, kas mudelid suudavad oma arutlust tahtlikult varjata, et jälgimisest kõrvale hiilida. Leiame, et GPT‑5.4 Thinkingu võime oma CoT-i kontrollida on madal, mis on ohutuse seisukohast positiivne omadus, viidates sellele, et mudelil puudub võime oma arutlust varjata ja et CoT jälgimine jääb tõhusaks ohutustööriistaks.

Saadavus ja hinnastamine

GPT‑5.4 jõuab täna järk-järgult kasutusele ChatGPT‑s ja Codexis. API-s on GPT‑5.4 nüüd saadaval nimega gpt-5.4. GPT‑5.4 Pro on ka API-s saadaval nimega gpt-5.4-pro arendajatele, kes vajavad maksimaalset jõudlust kõige keerukamate ülesannete puhul.

ChatGPT‑s on GPT‑5.4 Thinking alates tänasest saadaval ChatGPT Plusi, Teami ja Pro kasutajatele, asendades mudelit GPT‑5.2 Thinking. GPT‑5.2 Thinking jääb tasulistele kasutajatele mudeli valikus jaotises Legacy Models saadavale kolmeks kuuks, pärast mida see eemaldatakse 5. juunil 2026. Enterprise ja Edu plaanide kasutajad saavad varajase juurdepääsu lubada administraatori seadete kaudu. GPT‑5.4 Pro on saadaval Pro ja Enterprise plaanides. Kontekstiaknad⁠(avaneb uues aknas) ChatGPT‑s GPT‑5.4 Thinkingu jaoks jäävad muutmata võrreldes GPT‑5.2 Thinkinguga.

GPT‑5.4 on meie esimene pealiini arutlusmudel, mis hõlmab gpt-5.3-codexi tipptasemel kodeerimisvõimekust ja see jõuab kasutusele ChatGPT‑s, API-s ja Codexis. Me nimetame seda hüpet kajastamiseks GPT‑5.4‑ks ja selleks, et lihtsustada Codexi kasutamisel mudelite vahel valimist. Aja jooksul võite eeldada, et meie Instant ja Thinking mudelid arenevad erineva kiirusega.

GPT‑5.4 Codexis sisaldab eksperimentaalset tuge 1M kontekstiaknale. Arendajad saavad seda proovida, konfigureerides model_context_window ja model_auto_compact_token_limit. Päringud, mis ületavad standardset 272K kontekstiakent, arvestatakse kasutuslimiitide hulka kahekordse määraga.

API-s on GPT‑5.4 tokeni kohta kõrgema hinnaga kui GPT‑5.2, et kajastada selle paremaid võimekusi, samas kui selle suurem tokenitõhusus aitab paljude ülesannete puhul vähendada vajalike tokenite koguarvu. Batch- ja Flex hinnastamine on saadaval poole standardse API hinnaga, samas kui prioriteetne töötlemine on saadaval kaks korda standardse API hinnaga.

API mudel	Sisesta hind	Vahemällu salvestatud sisendi hind	Väljundhind
gpt-5.2	1,75 $ / M tokenit	0,175 $/ M tokenit	14 $/ M tokenit
gpt-5.4	2,50 $ / M tokenit	0,25 $ / M tokenit	15 $ / M tokenit
gpt-5.2-pro	21 $ / M tokenit	-	168 $ / M tokenit
gpt-5.4-pro	30 $ / M tokenit	-	180 $ / M tokenit

Hindamised

Professionaalne

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	–
Investeerimispanganduse modelleerimisülesanded (sisemine)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	–	65,1%	63,1%	–

Kodeerimine

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (avalik)	57,7%	–	56,8%	55,6%	–
Terminal-Bench 2.0	75,1%	–	77,3%	62,2%	–

Arvuti kasutamine ja nägemine

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	–	74,0%	47,3%	–
MMMU Pro (ilma tööriistadeta)	81,2%	–	–	79,5%	–
MMMU Pro (tööriistadega)	82,1%	–	–	80,4%	–

Tööriistade kasutamine

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3%	77,3%	65,8%	77,9%
MCP Atlas	67,2%	–	–	60,6%	–
Toolathlon	54,6%	–	51,9%	45,7%	–
Tau2-bench Telecom	98,9%	–	–	98,7%	–

Akadeemiline

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Tipptasemel teadusuuringud	33,0%	36,7%	–	25,2%	–
FrontierMath 1.–3. tase	47,6%	–	–	40,7%	–
FrontierMath 4. tase	27,1%	38,0%	–	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Inimkonna viimane eksam (ilma tööriistadeta)	39,8%	42,7%	–	34,5%	36,6%
Inimkonna viimane eksam (tööriistadega)	52,1%	58,7%	–	45,5%	50,0%

Pikk kontekst

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0%	–	–	94,0%	–
Graphwalks BFS 256K–1M	21,4%	–	–	–	–
Graphwalks parents 0–128K (täpsus)	89,8%	–	–	89,0%	–
Graphwalks parents 256K–1M (täpsus)	32,4%	–	–	–	–
OpenAI MRCR v2 8-needle 4K–8K	97,3%	–	–	98,2%	–
OpenAI MRCR v2 8-needle 8K–16K	91,4%	–	–	89,3%	–
OpenAI MRCR v2 8-needle 16K–32K	97,2%	–	–	95,3%	–
OpenAI MRCR v2 8-needle 32K–64K	90,5%	–	–	92,0%	–
OpenAI MRCR v2 8-needle 64K–128K	86,0%	–	–	85,6%	–
OpenAI MRCR v2 8-needle 128K–256K	79,3%	–	–	77,0%	–
OpenAI MRCR v2 8-needle 256K–512K	57,5%	–	–	–	–
OpenAI MRCR v2 8-needle 512K–1M	36,6%	–	–	–	–

Abstraktne arutlemine

Hindamine	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (kinnitatud)	93,7%	94,5%	–	86,2%	90,5%
ARC-AGI-2 (kinnitatud)	73,3%	83,3%	–	52.9%	54,2% (kõrge)

Hindamised ilma arutluseta

Hindamine	GPT‑5.4 (puudub)	GPT‑5.2 (puudub)	GPT‑4.1
OmniDocBench (normaliseeritud redigeerimiskaugus)	0,109	0,140	–
Tau2-bench Telecom	64,3%	57,2%	43,6%

Evals käivitati, kui arutluspingutus oli seatud tasemele xhigh (välja arvatud GPT‑5.2 GDPvalis). Võrdlustestid viidi läbi uurimiskeskkonnas, mis võib mõnel juhul anda tootekeskkonna ChatGPT‑st veidi erinevaid tulemusi.