Šodien mēs laižam klajā GPT‑5.4 platformā ChatGPT (kā GPT‑5.4 Thinking), API un Codex. Tas ir mūsu spējīgākais un efektīvākais robežšķirtnes modelis profesionālam darbam. Mēs arī laižam klajā GPT‑5.4 Pro platformā ChatGPT un API – cilvēkiem, kuri vēlas maksimālu veiktspēju sarežģītu uzdevumu veikšanai.
GPT‑5.4 vienā robežšķirtnes modelī apvieno mūsu jaunākos sasniegumus spriestspējā, programmēšanā un aģentiskajās darbplūsmās. Tajā ir iekļautas nozarē vadošās programmēšanas spējas, ko nodrošina GPT‑5.3‑Codex, vienlaikus uzlabojot, kā modelis darbojas dažādos rīkos, programmatūras vidēs un profesionālos uzdevumos, kas saistīti ar izklājlapām, prezentācijām un dokumentiem. Rezultāts ir modelis, kas precīzi, efektīvi un lietderīgi paveic sarežģītu reālu darbu – sniedzot to, ko prasīji, ar mazāku turp-atpakaļ saziņu.
Platformā ChatGPT modelis GPT‑5.4 Thinking tagad var iepriekš sniegt savas domāšanas plānu, lai tu varētu pielāgot virzienu atbildes vidū kamēr tas strādā, un nonākt pie galarezultāta, kas precīzāk atbilst tev vajadzīgajam, bez papildu sarunas kārtām. GPT‑5.4 Thinking arī uzlabo dziļo tīmekļa izpēti, īpaši ļoti specifiskiem vaicājumiem, vienlaikus labāk saglabājot kontekstu jautājumiem, kuriem nepieciešama ilgāka domāšana. Kopā šie uzlabojumi nozīmē augstākas kvalitātes atbildes, kas tiek sniegtas ātrāk un saglabā atbilstību konkrētajam uzdevumam.
Codex un API vidē GPT‑5.4 ir pirmais mūsu izlaistais vispārējas lietošanas modelis ar iebūvētām modernākajām datora lietošanas spējām, ļaujot aģentiem lietot datorus un izpildīt sarežģītas darbplūsmas dažādās lietojumprogrammās. Tas atbalsta līdz 1M konteksta tekstvienību, ļaujot aģentiem plānot, izpildīt un pārbaudīt uzdevumus ilgtermiņā. GPT‑5.4 arī uzlabo to, kā modeļi darbojas plašās rīku un savienotāju ekosistēmās ar rīku meklēšanu, palīdzot aģentiem efektīvāk atrast un izmantot pareizos rīkus, neupurējot intelektu. Visbeidzot, GPT‑5.4 ir mūsu līdz šim visefektīvākais spriestspējas modelis tekstvienību ziņā , kas problēmu risināšanai izmanto ievērojami mazāk tekstvienību, salīdzinot ar GPT‑5.2 – tādējādi samazinot tekstvienību patēriņu un nodrošinot lielāku ātrumu.
Kopā ar sasniegumiem vispārējā spriestspējā, programmēšanā un profesionālajā zināšanu darbā GPT‑5.4 nodrošina uzticamākus aģentus, ātrākas izstrādātāju darbplūsmas un augstākas kvalitātes rezultātus visā ChatGPT, API un Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (uzvaras vai neizšķirts) | 83,0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57,7% | 56,8 % | 55,6% |
OSWorld verificēts | 75,0% | 74,0%* | 47,3% |
Toolathlon | 54,6 % | 51,9% | 46,3% |
BrowseComp | 82,7% | 77,3 % | 65,8% |
*Iepriekš ziņots kā 64,7%. GPT‑5.3‑Codex sasniedz 74.0% ar jaunieviestu API parametru, kas saglabā sākotnējo attēla izšķirtspēju.
Pilnveidojot GPT‑5.2 vispārējo spriestspēju, GPT‑5.4 nodrošina vēl konsekventākus un noslīpētākus rezultātus reālās pasaules uzdevumos, kas ir svarīgi profesionāļiem.
Novērtējumā GDPval, kas pārbauda aģentu spējas veikt precīzi definētu zināšanu darbu 44 profesijās, GPT‑5.4 sasniedz jaunu labāko līmeni, 83,0% salīdzinājumu sasniedzot nozares profesionāļu līmeni vai to pārsniedzot, pretstatā 71,0% GPT‑5.2 gadījumā.
Etalonā GDPval modeļi mēģina izpildīt precīzi definētu zināšanu darbu, kas aptver 44 profesijas no 9 vadošajām nozarēm, kuras veicina ASV IKP. Uzdevumi pieprasa reālus darba produktus, piemēram, pārdošanas prezentācijas, grāmatvedības izklājlapas, neatliekamās aprūpes grafikus, ražošanas diagrammas vai īsus video. Spriestspēja tika iestatīta uz "xhigh" modelim GPT‑5.4 un "heavy" modelim GPT‑5.2 (nedaudz zemāks līmenis platformā ChatGPT).
“GPT-5.4 ir labākais modelis, ko jebkad esam izmēģinājuši. Tagad tas ir līderu saraksta augšgalā mūsu APEX-Agents etalonā, kas mēra modeļa veiktspēju profesionālo pakalpojumu darbā. Tas izceļas ar ilgtermiņa rezultātu izstrādi, piemēram, slaidu prezentāciju komplektiem, finanšu modeļiem un juridisko analīzi, sniedzot augstāko veiktspēju un vienlaikus darbojoties ātrāk un ar zemākām izmaksām nekā konkurējošie robežšķirtnes modeļi.”
Mēs īpašu uzmanību pievērsām tam, lai uzlabotu GPT‑5.4 spēju veidot un rediģēt izklājlapas, prezentācijas un dokumentus. Iekšējā salīdzinošajā novērtējumā par izklājlapu modelēšanas uzdevumiem, ko varētu veikt jaunākais investīciju banku analītiķis, GPT‑5.4 sasniedz vidējo rezultātu 87,5% – salīdzinājumā ar 68,4%, ko sasniedz GPT‑5.2. Prezentāciju novērtēšanas uzvedņu kopumā cilvēki vērtētāji 68,0% gadījumu deva priekšroku GPT‑5.4 prezentācijām, nevis GPT‑5.2 prezentācijām, jo tām bija labāka estētika, lielāka vizuālā daudzveidība un efektīvāka attēlu ģenerēšanas izmantošana.

Dokumenti tika ģenerēti ar spriestspēju iestatītu uz “xhigh”
Vari izmēģināt šīs iespējas ChatGPT, izmantojot GPT‑5.4 Thinking vai Pro. Ja esi Enterprise klients, iesakām izmantot mūsu tikko izlaistos ChatGPT spraudņus programmām Excel un Google Sheets(atveras jaunā logā), kas arī tika laisti klajā šodien. Mēs esam arī atjauninājuši savas izklājlapu(atveras jaunā logā) un prezentāciju prasmes(atveras jaunā logā), kas ir pieejamas Codex un API.
Lai padarītu GPT‑5.4 piemērotāku darbam reālajā pasaulē, mēs turpinājām progresu halucināciju un kļūdu mazināšanā. GPT‑5.4 līdz šim ir mūsu faktoloģiski precīzākais modelis: deidentificētu uzvedņu kopā, kur lietotāji bija atzīmējuši faktu kļūdas, GPT‑5.4 atsevišķi apgalvojumi ir par 33% relatīvi retāk nepatiesi, bet pilnās atbildes – par 18% relatīvi retāk satur jebkādas kļūdas salīdzinājumā ar GPT‑5.2.
"GPT-5.4 nosaka jaunu standartu juridiskajam darbam, kas saistīts ar lielu dokumentu apjomu. Mūsu BigLaw Bench novērtējuma testā tas sasniedza 91%. Salīdzinājumā ar citiem modeļiem GPT-5.4 pašlaik labāk strukturē sarežģītu darījumu analīzi, saglabā precizitāti garos līgumos un nodrošina augstu detalizācijas līmeni, kas nepieciešams juridiskās prakses speciālistiem.”
GPT‑5.4 ir mūsu pirmais vispārējas lietošanas modelis ar natīvām datora lietošanas spējām un iezīmē būtisku soli uz priekšu gan izstrādātājiem, gan aģentiem. Tas ir labākais modelis, kas pašlaik ir pieejams izstrādātājiem, kuri veido aģentus, kas izpilda reālus uzdevumus dažādās tīmekļa vietnēs un programmatūras sistēmās.
Mēs esam izstrādājuši GPT‑5.4 tā, lai tas nodrošinātu augstu veiktspēju plašā datora lietošanas darba slodžu spektrā. Tas izcili raksta kodu datora vadīšanai, izmantojot tādas bibliotēkas kā Playwright, kā arī dod peles un tastatūras komandas, reaģējot uz ekrānuzņēmumiem. Tā uzvedība ir vadāma, izmantojot izstrādātāja ziņojumus, kas nozīmē, ka izstrādātāji var pielāgot uzvedību konkrētiem lietošanas gadījumiem. Izstrādātāji pat var konfigurēt modeļa drošības uzvedību, lai tā atbilstu dažādiem riska tolerances līmeņiem, norādot pielāgotas apstiprināšanas politikas.
Modeļa veiktspēja un elastība atspoguļojas etalonos, kas pārbauda datora lietošanu dažādās vidēs. Etalonā OSWorld-Verified, kas mēra modeļa spēju orientēties darbvirsmas vidē, izmantojot ekrānuzņēmumus un tastatūras/peles darbības, GPT‑5.4 sasniedz līdz šim labāko 75,0% panākumu līmeni, ievērojami pārsniedzot GPT‑5.2 47,3%, un pārspēj cilvēka sniegumu, kas ir 72,4%.1
Etalonā WebArena-Verified, kas testē pārlūkprogrammas lietojumu, GPT‑5.4 sasniedz vadošu 67,3% panākumu līmeni, izmantojot gan uz DOM, gan uz ekrānuzņēmumiem balstītu mijiedarbību, salīdzinājumā ar GPT‑5.2 65,4%. Etalonā Online-Mind2Web, kas arī pārbauda pārlūkprogrammas izmantošanu, GPT‑5.4 sasniedz 92,8% panākumu rādītāju, izmantojot tikai uz ekrānuzņēmumiem balstītus novērojumus – tas ir uzlabojums salīdzinājumā ar ChatGPT Atlas aģenta režīmu, kas sasniedz 70,9% panākumu rādītāju.
Rīka nodošana notiek brīdī, kad palīgs pārtrauc darbību, lai sagaidītu rīku atbildes. Ja paralēli tiek izsaukti 3 rīki un pēc tam paralēli vēl 3 rīki, nodošanu skaits būs 2. Rīku nodošanu skaits ir labāks latentuma rādītājs nekā rīku izsaukumu skaits, jo tas atspoguļo paralelizācijas priekšrocības.
GPT‑5.4 interpretē pārlūkprogrammas saskarnes ekrānuzņēmumus un mijiedarbojas ar UI elementiem, izmantojot klikšķināšanu pēc koordinātēm, lai nosūtītu e-pastus un ieplānotu kalendāra notikumu.
GPT‑5.4 uzlabotā datora lietošana ir balstīta uz modeļa uzlabotajām vispārējās vizuālās uztveres spējām. Etalonā MMMU-Pro, kas pārbauda modeļa vizuālo izpratni un spriestspēju, GPT‑5.4 sasniedz 81,2% panākumu līmeni bez rīku izmantošanas, kas ir uzlabojums salīdzinājumā ar GPT‑5.2 79,5%. Uzlabota vizuālā uztvere arī nozīmē labākas dokumentu parsēšanas spējas. Etalonā OmniDocBench GPT‑5.4 bez spriestspējas piepūles sasniedz vidējo kļūdu (mērītu pēc normalizētā rediģēšanas attāluma starp modeļa prognozi un pamatpatiesību) 0,109, kas ir uzlabojums salīdzinājumā ar GPT‑5.2 0,140.
MMMUPro tika darbināts ar “xhigh” spriestspējas piepūli. OmniDocBench tika darbināts ar spriestspējas piepūli “none“ , lai atspoguļotu zemu izmaksu un zema latentuma veiktspēju.
Mēs arī uzlabojam vizuālo izpratni attiecībā uz blīviem, augstas izšķirtspējas attēliem, kuros svarīga ir pilna precizitāte. Sākot ar GPT‑5.4, mēs ieviešam original attēla ievades detalizācijas(atveras jaunā logā) līmeni, kas atbalsta pilnīgu precizitāti līdz 10,24M kopējo pikseļu vai 6000 pikseļu maksimālajam izmēram (atkarībā no tā, kas ir mazāks); high attēla ievades detalizācijas līmenis tagad atbalsta līdz 2,56M kopējo pikseļu vai 2048 pikseļu maksimālajam izmēram. Agrīnās testēšanas laikā ar API lietotājiem mēs novērojām ievērojamus uzlabojumus lokalizācijas spējā, attēlu izpratnē un klikšķu precizitātē, izmantojot original vai high detalizācijas līmeni.
“Mūsu novērtējumos, kuros tika mērīta veiktspēja datorlietojuma uzdevumos aptuveni 30 tūkstošos mājokļu īpašnieku asociāciju (HOA) un īpašuma nodokļa portālu, GPT-5.4 pirmajā mēģinājumā sasniedza 95% panākumu rādītāju un 100% trīs mēģinājumu laikā, salīdzinot ar aptuveni 73–79% iepriekšējiem CUA modeļiem.” Tas arī pabeidza sesijas ~3x ātrāk, vienlaikus izmantojot par ~70% mazāk tekstvienību, būtiski uzlabojot uzticamību un izmaksu efektivitāti lielā mērogā."
API vidē izstrādātāji var piekļūt šīm iespējām, izmantojot atjaunināto computer rīku. Lūdzu, skatiet mūsu atjaunināto dokumentāciju(atveras jaunā logā) par ieteicamo labāko praksi.
GPT‑5.4 apvieno GPT‑5.3‑Codex kodēšanas stiprās puses ar vadošām zināšanu darba un datora lietošanas spējām, kas ir vissvarīgākās ilgstošākos uzdevumos, kuros modelis var izmantot rīkus, iterēt un virzīt darbu tālāk ar mazāku manuālu iejaukšanos. Tas sasniedz vai pārspēj GPT‑5.3‑Codex rezultātus SWE-Bench Pro testā, vienlaikus nodrošinot mazāku latentumu dažādos spriešanas intensitātes līmeņos.
Mēs novērtējam latentumu, aplūkojot savu modeļu uzvedību ražošanas vidē un to simulējot bezsaistē. Latentuma novērtējumā ir ņemts vērā rīka izsaukuma ilgums (koda izpildes laiks), ģenerētās tekstvienības un ievades tekstvienības. Reālās pasaules latentums var būtiski atšķirties un ir atkarīgs no daudziem faktoriem, kas nav ietverti mūsu simulācijā. Spriešanas intensitāte tika variēta no “none” līdz “xhigh”.
Kad tas ir ieslēgts, režīms /fast Codex vidē nodrošina līdz pat 1,5x ātrāku tekstvienību plūsmu ar GPT‑5.4. Tas ir tas pats modelis un tas pats intelekts, tikai ātrāks. Tas nozīmē, ka lietotāji var virzīties cauri programmēšanas uzdevumiem, iterācijai un atkļūdošanai, saglabājot plūsmu. Izstrādātāji var piekļūt GPT‑5.4 ar tādu pašu ātrdarbību caur API, lietojot prioritāro apstrādi(atveras jaunā logā).
Novērtēšanā un iekšējā testēšanā mēs atklājām, ka GPT‑5.4 izceļas sarežģītos frontend uzdevumos, nodrošinot ievērojami estētiskākus un funkcionālākus rezultātus nekā jebkuri modeļi, ko esam laiduši klajā iepriekš.
Kā demonstrāciju tam, kā modeļa uzlabotās datora lietošanas un programmēšanas spējas darbojas tandēmā, mēs arī izlaižam eksperimentālu Codex prasmi ar nosaukumu “Playwright (Interactive)(atveras jaunā logā)”. Tā ļauj Codex vizuāli atkļūdot tīmekļa un Electron lietotnes; to pat var izmantot, lai testētu lietotni, ko tas izstrādā, tieši izstrādes procesa laikā.
Atrakciju parka simulācijas spēle, kas izveidota ar GPT‑5.4 no vienas viegli aprakstītas uzvednes, izmantojot Playwright Interactive pārlūkprogrammas spēles testēšanai un attēlu ģenerēšanu izometriskajam resursu kopumam. Simulācija ietver uz režģa balstītu balstītu celiņu izvietošanu, atrakciju un dekorāciju būvniecību, apmeklētāju maršrutu meklēšanu, rindu veidošanos un atrakciju ciklus. Parka rādītāji, piemēram, nauda, apmeklētāju skaits, laime, tīrība un vērtējums, pieaug vai samazinās atkarībā no tā, cik labi darbojas izkārtojums un kā apmeklētāji uz to reaģē. Playwright tika izmantots, lai automatizētu pārlūka spēles testus, būvējot un paplašinot parku, izvietojot un noņemot celiņus un atrakcijas, pārbaudot kameras navigāciju un pārbaudot, ka viesi, rindas, braucienu stāvokļi un lietotāja saskarnes metrikas rādītāji vairākās spēles kārtās tika atjaunināti pareizi.
Uzvedne: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.
When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.
“Mūsu inženieriem GPT-5.4 šķiet dabiskāks un pārliecinošāks nekā iepriekšējie modeļi. Tas tiek galā ar neskaidrām problēmām, nešauboties par sevi, un proaktīvi paralēlizē darbu, lai viss virzītos uz priekšu.”
Ar GPT‑5.4 mēs esam būtiski uzlabojuši to, kā modeļi darbojas ar ārējiem rīkiem. Aģenti tagad var darboties plašākās rīku ekosistēmās, uzticamāk izvēlēties pareizos rīkus un pabeigt daudzpakāpju darbplūsmas ar zemākām izmaksām un mazāku latentumu.
API vidē GPT‑5.4 ievieš rīku meklēšanu(atveras jaunā logā), kas ļauj modeļiem efektīvi strādāt, ja tiem ir piešķirti daudzi rīki.
Iepriekš, kad modelim tika piešķirti rīki, visas rīku definīcijas tika iekļautas uzvednē jau iepriekš. Sistēmām ar daudziem rīkiem tas varētu katram pieprasījumam pievienot tūkstošiem –vai pat desmitiem tūkstošu – tekstvienību, palielinot izmaksas, palēninot atbildes un pārblīvējot kontekstu ar informāciju, ko modelis, iespējams, nekad neizmantos.
Izmantojot rīku meklēšanu, GPT‑5.4 tā vietā saņem vieglu pieejamo rīku sarakstu kopā ar rīku meklēšanas spēju. Kad modelim ir jāizmanto rīks, tas var uzmeklēt šī rīka definīciju un tajā brīdī pievienot to sarunai.
Šī pieeja ievērojami samazina rīkiem bagātu darbplūsmu veikšanai nepieciešamo tekstvienību skaitu un saglabā kešatmiņu, padarot pieprasījumus ātrākus un lētākus. Tas arī ļauj aģentiem uzticami strādāt ar daudz lielākām rīku ekosistēmām. MCP serveriem, kuros var būt desmitiem tūkstošu rīku definīciju tekstvienību, efektivitātes ieguvumi var būt ievērojami.
Lai demonstrētu efektivitātes pieaugumu, mēs novērtējām 250 uzdevumus no Scale MCP Atlas(atveras jaunā logā) etalona ar visiem 36 MCP serveriem, kas bija iespējoti divos režīmos: (1) katras MCP funkcijas tieša atklāšana modeļa kontekstā un (2) visu MCP serveru izvietošana aiz rīku meklēšanas. Rīku meklēšanas konfigurācija samazināja kopējo tekstvienību lietojumu par 47%, vienlaikus saglabājot tādu pašu precizitāti.
Tekstvienību skaita piemēri iegūti, aprēķinot vidējo no 250 uzdevumiem MCP-Atlas publiskajā datu kopā.
GPT‑5.4 arī uzlabo rīku izsaukšanu, padarot to precīzāku un efektīvāku, lemjot, kad un kā spriešanas laikā izmantot rīkus, īpaši API vidē. Salīdzinājumā ar GPT‑5.2 tas sasniedz augstāku precizitāti ar mazāku kārtu skaitu Toolathlon etalonā, kas pārbauda, cik labi MI aģenti spēj izmantot reālās pasaules rīkus un API, lai izpildītu daudzpakāpju uzdevumus. Piemēram, aģentam ir jālasa e-pasta ziņojumi, jāizvelk uzdevuma pielikumi, jāaugšupielādē tie, jānovērtē tie un jāieraksta rezultāti izklājlapā.
Rīka nodošana notiek brīdī, kad palīgs pārtrauc darbību, lai sagaidītu rīku atbildes. Ja paralēli tiek izsaukti 3 rīki un pēc tam paralēli vēl 3 rīki, nodošanu skaits būs 2. Rīku nodošanu skaits ir labāks latentuma rādītājs nekā rīku izsaukumu skaits, jo tas atspoguļo paralelizācijas priekšrocības.
Lietošanas gadījumiem, kuros liela nozīme ir latentumam, un kuros priekšroka tiek dota “none” spriestspējai, GPT‑5.4 vēl vairāk pārspēj savus priekšgājējus.
Etalonā τ2-bench(atveras jaunā logā) modelim ir jāizmanto rīki, lai veiktu klientu apkalpošanas uzdevumu, kur var būt simulēts lietotājs, kas var sazināties un veikt darbības ar pasaules stāvokli. Spriestspējas piepūle bija iestatīta uz “none“.
GPT‑5.4 labāk veic aģentisko tīmekļa meklēšanu. BrowseComp etalonā, kas mēra, cik labi MI aģenti spēj pastāvīgi pārlūkot tīmekli, lai atrastu grūti atrodamu informāciju, GPT‑5.4 par 17%abs apsteidz GPT‑5.2, un GPT‑5.4 Pro sasniedz jaunu izcilības līmeni – 89,3%.
Praksē tas nozīmē, ka GPT‑5.4 Thinking labāk spēj atbildēt uz jautājumiem, kuriem nepieciešams vākt informāciju no daudziem avotiem tīmeklī. Tas var noturīgāk meklēt vairākās kārtās, lai identificētu atbilstīgākos avotus, īpaši “adatas siena kaudzē” tipa jautājumiem, un sintezēt tos skaidrā, labi pamatotā atbildē.
BrowseComp ietvaros mēs izmantojām meklēšanas bloķēšanas sarakstu, izslēdzot vietnes, kas satur etalona atbildes, lai novērstu piesārņojumu un nodrošinātu taisnīgu snieguma novērtējumu. GPT‑5.4 tika mērīts vēlāk nekā GPT‑5.2, tāpēc rezultāti atspoguļo izmaiņas modelī, mūsu meklēšanas sistēmā un interneta stāvoklī. GPT‑5.4 tika testēts ar garāku, atjauninātu bloķēšanas sarakstu. Modeļi izmanto ChatGPT meklēšanas rīku, kuram var būt nelielas atšķirības salīdzinājumā ar API meklēšanu.
“GPT-5.4 xhigh ir jaunais izcilības līmenis daudzpakāpju rīku izmantošanā. Zapier veic vienus no stingrākajiem rīku izmantošanas salīdzinošajiem testiem nozarē, testējot modeļus ar simtiem detalizētu, reālu darbplūsmu. GPT-5.4 pabeidza darbu tur, kur iepriekšējie modeļi padevās – tas ir līdz šim noturīgākais modelis.”
Līdzīgi tam, kā Codex izklāsta savu pieeju, kad tas sāk strādāt, GPT‑5.4 Thinking platformā ChatGPT tagad izklāstīs savu darbu ar ievadu garākiem, sarežģītākiem vaicājumiem. Tu vari arī pievienot norādījumus vai pielāgot tā virzienu atbildes sniegšanas laikā. Tas atvieglo modeļa virzīšanu uz tieši tādu rezultātu, kādu vēlies, nesākot no jauna un neprasot vairākas papildu kārtas. Šī funkcija tagad ir pieejama chatgpt.com(atveras jaunā logā) un Android lietotnē, un drīzumā būs pieejama iOS lietotnē.
Modelis var arī ilgāk pārdomāt sarežģītus uzdevumus, vienlaikus saglabājot labāku izpratni par iepriekšējiem soļiem sarunā. Tas ļauj apstrādāt garākas darbplūsmas un sarežģītākas uzvednes, vienlaikus saglabājot atbildes saskaņotas un atbilstošas visā procesā.
Šis video ir paātrināts ilustratīviem nolūkiem.
Pēdējo mēnešu laikā mēs turpinājām uzlabot aizsardzības pasākumus, ko ieviesām ar GPT‑5.3‑Codex, vienlaikus gatavojot GPT‑5.4 ieviešanai. Līdzīgi kā GPT‑5.3‑Codex, mēs uzskatām GPT‑5.4 par augstu kiberspēju līmeni saskaņā ar mūsu Sagatavotības satvaru, un mēs to izvietojam ar atbilstošajiem aizsardzības pasākumiem, kā dokumentēts sistēmas karte. Tie ietver paplašinātu kiberdrošības pasākumu kopumu, tostarp uzraudzības sistēmas, uzticamas piekļuves kontroli un asinhronu bloķēšanu augstāka riska pieprasījumiem klientiem, kuri izmanto nulles datu saglabāšanas (ZDR) virsmas, kā arī pastāvīgus ieguldījumus plašākā drošības ekosistēmā.
Tā kā kiberdrošības spējas pēc būtības ir divējāda lietojuma, mēs saglabājam piesardzīgu pieeju izvietošanai, vienlaikus turpinot pielāgot savu politiku un klasifikatorus. Noteiktiem klientiem ZDR virsmās pieprasījumu līmeņa bloķēšana joprojām ir daļa no mūsu kiberriska mazināšanas pasākumu kopuma; tā kā klasifikatori joprojām tiek uzlaboti, var rasties daži kļūdaini pozitīvi rezultāti, kamēr mēs turpinām pilnveidot šos aizsardzības pasākumus. Šo atjauninājumu mērķis ir uzlabot to, kā aizsardzības pasākumi darbojas praksē, tostarp samazināt nevajadzīgus atteikumus un pārlieku piesardzīgas atbildes ar atrunām, vienlaikus saglabājot stingru aizsardzību pret ļaunprātīgu izmantošanu.
Mēs esam turpinājuši savu drošības izpēti par domu ķēdes (CoT) uzraugāmību, lai labāk izprastu, kā modeļi spriež, un palīdzētu atklāt iespējamu nepareizu rīcību. Šī darba ietvaros mēs ieviešam jaunu atvērtā pirmkoda novērtējumu, CoT controllability, kas mēra, vai modeļi var apzināti aizplīvurot savu spriestspēju, lai izvairītos no uzraudzības. Mēs secinām, ka GPT‑5.4 Thinking spēja kontrolēt savu domu ķēdi ir zema, kas ir pozitīva īpašība drošībai, liecinot, ka modelim trūkst spējas slēpt savu spriešanu un ka domu ķēdes uzraudzība joprojām ir efektīvs drošības rīks.
GPT‑5.4 šodien pakāpeniski tiek ieviests visā ChatGPT un Codex. API ietvaros GPT‑5.4 tagad ir pieejams kā gpt-5.4. GPT‑5.4 Pro arī ir pieejams API kā gpt-5.4-pro izstrādātājiem, kuriem nepieciešama maksimāla veiktspēja viskomplicētākajos uzdevumos.
Platformā ChatGPT modelis GPT‑5.4 Thinking ir pieejams, sākot no šodienas, ChatGPT Plus, Team un Pro lietotājiem, aizstājot GPT‑5.2 Thinking. GPT‑5.2 Thinking būs pieejams maksas lietotājiem vēl trīs mēnešus modeļu izvēlē sadaļā Vecie modeļi; pēc tam tas 2026. gada 5. jūnijā tiks izņemts no lietošanas. Enterprise un Edu plānu lietotāji var iespējot agrīno piekļuvi, izmantojot administratora iestatījumus. GPT‑5.4 Pro ir pieejams Pro un Enterprise plāniem. Konteksta logi(atveras jaunā logā) platformā ChatGPT modelim GPT‑5.4 Thinking paliek nemainīti no GPT‑5.2 Thinking.
GPT‑5.4 ir mūsu pirmais spriestspējas pamatmodelis, kas ietver GPT‑5.3‑codex robežšķirtnes programmēšanas spējas un tiek ieviests visā ChatGPT, API un Codex. Mēs to saucam par GPT‑5.4, lai atspoguļotu šo lēcienu un vienkāršotu izvēli starp modeļiem, lietojot Codex. Laika gaitā varat gaidīt, ka mūsu Instant modeļi un Thinking modeļi attīstīsies atšķirīgā tempā.
GPT‑5.4 Codex vidē ietver eksperimentālu atbalstu 1M konteksta logam. Izstrādātāji var to izmēģināt, konfigurējot model_context_window un model_auto_compact_token_limit. Pieprasījumi, kas pārsniedz standarta 272K konteksta logu, tiek ieskaitīti lietošanas ierobežojumos ar 2x lielāku likmi nekā parasti.
API vidē GPT‑5.4 cena par tekstvienību ir augstāka nekā GPT‑5.2, lai atspoguļotu tā uzlabotās spējas, savukārt augstāka tekstvienību efektivitāte palīdz daudzos uzdevumos samazināt kopējo nepieciešamo tekstvienību skaitu. Batch un Flex cenas ir pieejamas par pusi no standarta API likmes, savukārt prioritārā apstrāde ir pieejama par divkāršu standarta API likmi.
API modelis | Ievades cena | Kešatmiņā saglabātas ievades cena | Izvades cena |
gpt-5.2 | 1,75 USD / M tekstvienību | 0,175 USD / M tekstvienību | 14 USD / M tekstvienību |
gpt-5.4 | 2,50 USD / M tekstvienību | 0,25 USD / M tekstvienību | 15 USD / M tekstvienību |
gpt-5.2-pro | 21 USD / M tekstvienību | - | 168 USD / M tekstvienību |
gpt-5.4-pro | 30 USD / M tekstvienību | - | 180 USD / M tekstvienību |
Profesionāls
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | – |
Investīciju banku modelēšanas uzdevumi (iekšējie) | 87,3 % | 83,6% | 79,3% | 68,4% | 71,7 % |
OfficeQA | 68,1% | – | 65,1% | 63,1% | – |
Programmēšana
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7% | – | 56,8 % | 55,6% | – |
Terminal-Bench 2.0 | 75,1% | – | 77,3 % | 62,2 % | – |
Datora lietošana un redze
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld verificēts | 75,0% | – | 74,0% | 47,3% | – |
MMMU Pro (bez rīkiem) | 81,2% | – | – | 79,5% | – |
MMMU Pro (ar rīkiem) | 82,1% | – | – | 80,4% | – |
Rīku izmantošana
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7% | 89,3% | 77,3 % | 65,8% | 77,9% |
MCP Atlas | 67,2% | – | – | 60,6% | – |
Toolathlon | 54,6% | – | 51,9% | 45,7% | – |
Tau2-bench Telecom | 98,9% | – | – | 98,7% | – |
Akadēmisks
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Robežšķirtnes zinātniskie pētījumi | 33,0% | 36,7 % | – | 25,2% | – |
FrontierMath 1.–3. līmenis | 47,6% | – | – | 40,7% | – |
FrontierMath 4. līmenis | 27,1% | 38,0 % | – | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Cilvēces pēdējais eksāmens (bez rīkiem) | 39,8% | 42,7% | – | 34,5% | 36,6% |
Cilvēces pēdējais eksāmens (ar rīkiem) | 52,1% | 58,7% | – | 45,5% | 50,0% |
Garš konteksts
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | – | – | 94,0% | – |
Graphwalks BFS 256K–1M | 21,4% | – | – | – | – |
Graphwalks parents 0–128K (precizitāte) | 89,8% | – | – | 89,0% | – |
Graphwalks parents 256K–1M (precizitāte) | 32,4% | – | – | – | – |
OpenAI MRCR v2 8-needle 4K–8K | 97,3% | – | – | 98,2% | – |
OpenAI MRCR v2 8-needle 8K–16K | 91,4% | – | – | 89,3% | – |
OpenAI MRCR v2 8-needle 16K–32K | 97,2% | – | – | 95,3% | – |
OpenAI MRCR v2 8-needle 32K–64K | 90,5% | – | – | 92,0% | – |
OpenAI MRCR v2 8-needle 64K–128K | 86,0% | – | – | 85,6% | – |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | – | – | 77,0% | – |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | – | – | – | – |
OpenAI MRCR v2 8-needle 512K–1M | 36,6% | – | – | – | – |
Abstraktā domāšana
Novērtējums | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93,7% | 94,5% | – | 86,2% | 90.5 % |
ARC-AGI-2 (Verified) | 73,3% | 83,3% | – | 52,9% | 54,2% (augsts) |
Novērtējumi bez spriestspējas izmantošanas
Novērtējums | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalizēts rediģēšanas attālums) | 0,109 | 0,140 | – |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Novērtējumi tika veikti ar spriestspēju, kas iestatīta uz “xhigh”, izņemot gadījumus, kad norādīts citādi. Salīdzinošie testi tika veikti pētnieciskā vidē, tāpēc dažos gadījumos rezultāti var nedaudz atšķirties no ražošanas vides ChatGPT.
Autors
Zemsvītras piezīmes
1 Cilvēka veiktspēja norādīta OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(atveras jaunā logā).


