5. mars 2026

Við kynnum GPT‑5.4

Hannað fyrir faglega vinnu

Hleður inn...

Í dag erum við að gefa út GPT‑5.4 í ChatGPT (sem GPT‑5.4 Thinking), API og Codex. Þetta er framarlega líkanið okkar sem er hæfasta og skilvirkasta fyrir faglega vinnu. Við erum einnig að gefa út GPT‑5.4 Pro í ChatGPT og API, fyrir fólk sem vill hámarksafköst í flóknum verkefnum.

GPT‑5.4 sameinar það besta af nýlegum framförum okkar í rökum, kóðun og fulltrúavinnuflæði í eitt framarlega líkan. Það innlimar leiðandi kóðunargetu í greininni frá GPT‑5.3‑Codex⁠ á sama tíma og það bætir hvernig líkanið vinnur þvert á verkfæri, hugbúnaðarumhverfi og fagleg verkefni sem fela í sér töflureikna, kynningar og skjöl. Niðurstaðan er líkan sem leysir flókin raunveruleg verkefni af hendi á nákvæman, skilvirkan og árangursríkan hátt—og skilar því sem þú baðst um þannig að minna þarf að fara fram og til baka.

Í ChatGPT, GPT‑5.4 Thinking getur nú gefið fram fyrirframáætlun um hugsun sína, svo þú getir breytt um stefnu í miðju svari á meðan það er að vinna, og komist að endanlegri niðurstöðu sem er betur í takt við það sem þú þarft án frekari umferða. GPT‑5.4 Thinking bætir einnig ítarlegar vefrannsóknir, sérstaklega fyrir mjög sértækar fyrirspurnir, á sama tíma og það heldur samhengi betur fyrir spurningar sem krefjast lengri umhugsunar. Saman þýða þessar umbætur að svör verða vandaðri, berast hraðar og haldast viðeigandi fyrir verkefnið sem um ræðir.

Í Codex og API er GPT‑5.4 fyrsta almenna líkanið sem við höfum gefið út með innbyggða, nýjustu hæfni í tölvunotkun, sem gerir fulltrúum kleift að stjórna tölvum og framkvæma flókin verkflæði þvert á forrit. Það styður allt að 1 milljón tóka af samhengi, sem gerir fulltrúum kleift að skipuleggja, framkvæma og sannreyna verkefni yfir langan tíma. GPT‑5.4 bætir einnig hvernig líkön virka yfir stór vistkerfi verkfæra og tenginga með verkfæraleit, og hjálpar fulltrúum að finna og nota réttu verkfærin skilvirkar án þess að fórna greind. Að lokum er GPT‑5.4 okkar skilvirkasta rakalíkan í tókanotkun hingað til og notar marktækt færri tóka til að leysa vandamál í samanburði við GPT‑5.2—sem leiðir til minni tókanotkunar og meiri hraða.

Samhliða framförum í almennum rökum, kóðun og faglegri þekkingarvinnu gerir GPT‑5.4 kleift að búa til áreiðanlegri fulltrúa, hraðari verkflæði fyrir forritara og hágæða niðurstöður í ChatGPT, API og Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (wins or ties)	83,0%	70,9%	70,9%
SWE-Bench Pro (Public)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74,0%*	47,3%
Toolathlon	54,6%	51,9%	46,3%
BrowseComp	82,7%	77,3%	65,8%

*Áður greint frá sem 64,7%. GPT‑5.3‑Codex nær 74.0% með nýlega innleiddri API-breytu sem varðveitir upprunalega myndupplausn.

Þekkingarvinna

Byggt á almennri rökgetu GPT‑5.2 getur GPT‑5.4 skilar enn samkvæmari og fágaðri niðurstöðum í raunverulegum verkefnum sem skipta fagfólk máli.

Á GDPval⁠, mati sem prófar hæfni fulltrúa til að skila vel skilgreindri þekkingarvinnu yfir 44 starfsgreinar, nær GPT‑5.4 nýju viðmiði, og jafnast á við eða fer fram úr atvinnusérfræðingum í 83,0% af samanburði, samanborið við 71,0% fyrir GPT‑5.2.

Í GDPval reyna líkön að vinna vel skilgreind þekkingarstörf sem spanna 44 starfsgreinar úr efstu 9 atvinnugreinum sem leggja mest til verga landsframleiðslu Bandaríkjanna. Verkefni krefjast raunverulegra vinnuafurða, eins og framsetninga, bókhaldsskjalatöflureikna, áætlanir fyrir bráðaþjónustu, framleiðsluteikningar eða stutt myndbönd. Átak raka var stillt á xhigh fyrir GPT‑5.4 og heavy fyrir GPT‑5.2 (örlítið lægra stig í ChatGPT).

„GPT-5.4 er besta líkanið sem við höfum nokkru sinni prófað. Það er nú efst á stigatöflunni á APEX-Agents viðmiðinu okkar, sem mælir frammistöðu líkans fyrir faglega þjónustuvinnu. Það skarar fram úr við að búa til langtímaverkefni eins og glærukynningar, fjármálalíkön og lögfræðilega greiningu, og skilar framúrskarandi frammistöðu á sama tíma og það keyrir hraðar og með lægri tilkostnaði en samkeppnishæf framarleg líkön.

— Brendan Foody, forstjóri hjá Mercor

Við lögðum sérstaka áherslu á að bæta getu GPT‑5.4 til að búa til og breyta töflureiknum, kynningum og skjölum. Á innri viðmiðun okkar fyrir verkefni í töflureiknilíkönum sem yngri greiningaraðili í fjárfestingabanka gæti unnið, nær GPT‑5.4 meðaleinkunn upp á 87,5%, samanborið við 68,4% fyrir GPT‑5.2. Í safni kvaðninga til mats á kynningum kusu mannlegir matsaðilar kynningar frá GPT‑5.4 í 68,0% tilfella fram yfir þær frá GPT‑5.2 vegna sterkari fagurfræði, meiri sjónrænnar fjölbreytni og skilvirkari notkunar á myndun mynda.

Samanburður hlið við hlið á úttaki töflureikna frá GPT-5.2 og GPT-5.4

Skjöl voru búin til með rök stillt á xhigh.

Þú getur prófað þessa eiginleika í ChatGPT með GPT‑5.4 Thinking eða Pro. Ef þú ert Enterprise-viðskiptavinur mælum við með að þú notir nýútgefnu ChatGPT‑viðbæturnar okkar fyrir Excel og Google Sheets⁠(opnast í nýjum glugga), sem voru einnig settar á markað í dag. Við höfum einnig uppfært töflureikni⁠(opnast í nýjum glugga) og kynningarfærni⁠(opnast í nýjum glugga) okkar sem er fáanleg í Codex og API.

Til að gera GPT‑5.4 betri í raunverulegri vinnu héldum við áfram framförum okkar við að draga úr ofskynjunum og villum. GPT‑5.4 er staðreyndalegasta líkan okkar hingað til: á safni nafnlausra kvaðninga þar sem notendur merktu við staðreyndavillur eru einstakar fullyrðingar GPT‑5.4 33% ólíklegri til að vera rangar og full svör þess eru 18% ólíklegri til að innihalda einhverjar villur, miðað við GPT‑5.2.

„GPT-5.4 setur ný viðmið fyrir skjalamiðaða lögfræðivinnu. Í BigLaw Bench-matinu okkar náði það 91%. Í samanburði við önnur líkön er GPT-5.4 um þessar mundir betra í að setja flókna viðskiptagreiningu í skýra uppbyggingu, viðhalda nákvæmni yfir langa samninga og skila því mikla smáatriðastigi sem lögfræðingar krefjast.”

— Niko Grupen, yfirmaður hagnýtra rannsókna hjá Harvey

Notkun á tölvu og sýn

GPT‑5.4 er fyrsta almenna líkanið okkar með innbyggða hæfni í tölvunotkun og markar stórt framfaraskref fyrir bæði forritara og fulltrúa. Það er besta líkanið sem er í boði eins og er fyrir forritara sem byggja fulltrúa sem ljúka raunverulegum verkefnum á vefsvæðum og í hugbúnaðarkerfum.

Við höfum hannað GPT‑5.4 til að skila góðri frammistöðu í fjölbreyttum tölvunotkunarverkefnum. Það er framúrskarandi í að skrifa kóða til að stjórna tölvum með söfnum eins og Playwright, sem og að gefa músar- og lyklaborðsskipanir til að bregðast við skjáskotum. Hegðun þess er stýranleg með skilaboðum til forritara, sem þýðir að forritarar geta aðlagað hegðunina að tilteknum notkunartilvikum. Forritarar geta jafnvel stillt öryggishegðun líkansins til að henta mismunandi áhættuþoli með því að tilgreina sérsniðnar staðfestingarstefnur.

Frammistaða og sveigjanleiki líkansins endurspeglast í viðmiðum sem prófa tölvunotkun í mismunandi aðstæðum. Á OSWorld-Verified, sem mælir getu líkans til að rata um skjáborðsumhverfi með skjámyndum og aðgerðum með lyklaborði/mús, nær GPT‑5.4 nýjum hápunkti, 75,0% árangurshlutfall, langt umfram hlutfalli GPT‑5.2 sem er 47,3%, og fer fram úr mannlegri frammistöðu við 72,4%.¹

Á WebArena-Verified, sem prófar vafranotkun, nær GPT‑5.4 fremstu 67,3% árangurshlutfalli þegar bæði DOM- og skjámyndadrifin samskipti eru notuð, samanborið við 65,4% hjá GPT‑5.2. Á Online-Mind2Web, sem einnig prófar vafranotkun, nær GPT‑5.4 92,8% árangurshlutfalli með því einu að nota athuganir byggðar á skjámyndum, sem bætir áreiðanleika miðað við Agent Mode í ChatGPT Atlas, sem nær 70,9% árangurshlutfalli.

Verkfæraskil eru þegar aðstoðarmaður skilar til að bíða eftir svörum frá verkfærum. Ef 3 verkfæri eru kölluð á samsíða, og síðan 3 verkfæri til viðbótar kölluð á samsíða, væri fjöldi skila 2. Verkfæraskil eru betri staðgengill fyrir staðgengill en verkfæraköll vegna þess að þau endurspegla ávinninginn af samsíða keyrslu.

GPT‑5.4 túlkar skjámyndir af vafraviðmóti og hefur samskipti við notendaviðmótseiningar með hnitmiðuðum smellum til að senda tölvupósta og skipuleggja dagatalsviðburð.

Bætt tölvunotkun GPT‑5.4 byggir á bættri almennri sjónrænni skynjunargetu líkansins. Á MMMU-Pro, prófi á sjónrænum skilningi og rökum, nær GPT‑5.4 81,2% árangurshlutfalli án notkunar verkfæra, sem er bæting miðað við GPT‑5.2 með 79,5%. Bætt sjónskynjun þýðir einnig betri getu til að greina skjöl. Á OmniDocBench nær GPT‑5.4 án raka að meðaltali villu (mælt með staðlaðri ritfjarlægð milli spár líkansins og grunnsannleika) upp á 0,109, bætt frá 0,140 hjá GPT‑5.2.

MMMUPro var keyrt með rök stillt á xhigh. OmniDocBench var keyrt með rök stillt á none, til að endurspegla afköst með lágum kostnaði og lágum biðtíma.

Við erum einnig að bæta sjónrænan skilning á þéttum, háupplausnarmyndum þar sem full nákvæmni skiptir máli. Frá og með GPT‑5.4 erum við að kynna stig fyrir original inntaksupplýsingar⁠(opnast í nýjum glugga) upprunalegrar myndar sem styður fulla nákvæmni í skynjun allt að 10,24 milljón heildarpixlum eða 6000-pixla hámarksstærð, hvort sem er lægra; háa myndinntaksnákvæmni stigið styður nú allt að 2,56 milljón heildarpixla eða 2048-pixla hámarksstærð. Í frumprófunum með API-notendum tókum við eftir miklum framförum í staðfærslugetu, myndskilningi og smellinákvæmni þegar upprunaleg eða mikil smáatriði voru notuð.

„Í matsprófunum okkar sem mæla frammistöðu í tölvunotkun í ~30K HOA- og fasteignaskattagáttum náði GPT-5.4 95% árangurshlutfalli í fyrstu tilraun og 100% innan þriggja tilrauna, samanborið við ~73–79% með eldri CUA-líkönum. Það kláraði einnig lotur um það bil ~3x hraðar á meðan það notaði ~70% færri tóka sem bætti áreiðanleika og kostnaðarhagkvæmni í stórum stíl verulega.

— Dod Fraser, forstjóri hjá Mainstay

Í API geta forritarar nálgast þessa eiginleika með uppfærða tölvuverkfærinu. Skoðaðu uppfærðu skjölin okkar⁠(opnast í nýjum glugga) fyrir ráðlagðar bestu starfsvenjur.

Kóðun

GPT‑5.4 sameinar kóðunarstyrkleika GPT‑5.3‑Codex við leiðandi hæfni í þekkingarvinnu og tölvunotkun, sem skiptir mestu máli í langvarandi verkefnum þar sem líkanið getur notað verkfæri, ítrekað og ýtt verkinu lengra með minni handvirkri íhlutun. Það jafnast á við eða stendur sig betur en GPT‑5.3‑Codex á SWE-Bench Pro, á sama tíma og það er með minni biðtíma yfir rök.

Við metum biðtíma með því að skoða hegðun líkananna okkar í framleiðslu og herma þetta án nettengingar. Áætlun um biðtíma tekur mið af lengd verkfærakalls (keyrslutíma kóða), sýnatökutókum og inntakstókum. Raunverulegur biðtími getur verið verulega breytilegur og fer eftir mörgum þáttum sem ekki koma fram í hermun okkar. Rök var aukin frá none upp í xhigh.

Þegar kveikt er á þessu skilar /fast mode í Codex allt að 1,5x hraðari tókum með GPT‑5.4. Þetta er sama líkanið og sama greindin, bara hraðar. Það þýðir að notendur geta farið í gegnum kóðunarverkefni, endurtekningar og villuleit á meðan þeir halda áfram í flæði. Forritarar geta fengið aðgang að GPT‑5.4 á sama mikla hraða í gegnum API með því að nota forgangsvinnslu⁠(opnast í nýjum glugga).

Í mati og innri prófunum komumst við að því að GPT‑5.4 skarar fram úr í flóknum framendaverkefnum, með áberandi fagurfræðilegri og virkari niðurstöðum en nokkur líkön sem við höfum gefið út áður.

Sem sýnidæmi um bætta hæfni líkansins í tölvunotkun og kóðun sem vinna saman í einfaldri röð, erum við einnig að gefa út tilraunakennda Codex sem kallast „Playwright (Interactive)⁠(opnast í nýjum glugga)“. Þetta gerir Codex kleift að gera sjónræna villuleit á vef- og Electron-öppum; það er jafnvel hægt að nota það til að prófa app sem það er að smíða, á meðan það er að smíða það.

Skemmtigarðshermileikur gerður með GPT‑5.4 út frá einni lauslega skilgreindri kvaðningu, með Playwright Interactive fyrir leikjaprófanir í vafra og myndun mynda fyrir ísómetrískt eignasafn. Hermunin felur í sér reitaskipta lagningu stíga, byggingu tækja og skreytinga, leiðarleit gesta, biðraðamyndun og ferla tækja, á meðan garðmælikvarðar eins og peningar, fjöldi gesta, hamingja, hreinlæti og einkunn hækka eða lækka eftir því hvernig skipulagið stendur sig og hvernig gestir bregðast við því. Playwright var notað til að sjálfvirknivæða vafraleikprófanir með því að byggja og stækka garðinn, leggja og fjarlægja stíga og aðdráttarafl, athuga leiðsögn myndavélar og staðfesta að gestir, biðraðir, stöður ferða og mælikvarðar notendaviðmótsins uppfærðust rétt yfir nokkrar umferðir leiks.

Kvaðning: Notaðu $playwright-interactive og $imagegen. Búðu til gagnvirkan ísómetrískan skemmtigarðahermileik sem ég get byggt og flakkað um í vafranum. Notaðu imagegen til að móta heildarsjónræna sýn og búa til eignir leiksins, þar á meðal tæki, stíga, landslag, tré, vatn, matarstalla, skreytingar, byggingar, tákn og myndskreytingar fyrir notendaviðmót. Heimurinn ætti að virka samhangandi, fágaður og sjónrænt ríkur, með vandaðri listrænni stefnu sem virkar vel frá ísómetrískri sýn. Leyfðu mér að leggja og fjarlægja stíga, bæta við afþreyingartækjum, staðsetja umhverfishluti og hreyfa mig mjúklega um garðinn á meðan ég fylgist með virkni gesta, stöðu tækja og vexti garðsins. Hafðu trúverðuga hreyfingu gesta, einföld garðstjórnunarkerfi eins og peninga, hreinlæti, biðraðir og hamingju, og láttu upplifunina vera leikandi, skýra og fullmótaða frekar en eins og grófa frumgerð. Settu sjarma, læsileika og sterka leiktilfinningu í forgang fram yfir raunsæi.

Við leikjaprófanir skaltu gæta þess að byggja og stækka garð í gegnum nokkrar umferðir af spilun, staðfesta að staðsetning og leiðsögn virki hnökralaust, staðfesta að gestir bregðist við skipulagi garðsins og afþreyingum, og tryggja að myndefni, notendaviðmót og samskipti virki stöðugt og heildstætt.

„Verkfræðingar okkar komast að því að GPT-5.4 er náttúrulegra og ákveðnari en fyrri líkön. Það vinnur í gegnum óljós vandamál án þess að efast um sjálft sig, og það er fyrirbyggjandi við að vinna samhliða til að halda hlutunum á hreyfingu.”

— Lee Robinson, varaforseti fræðslu fyrir forritara hjá Cursor

Notkun verkfæra

Með GPT‑5.4, höfum við verulega bætt hvernig líkön vinna með ytri verkfærum. Fulltrúar geta nú starfað yfir stærri vistkerfi verkfæra, valið réttu verkfærin á áreiðanlegri hátt og lokið fjölþrepa verkflæðum með lægri kostnaði og biðtíma.

Verkfæraleit

Í API kynnir GPT‑5.4 verkfæraleit⁠(opnast í nýjum glugga), sem gerir líkönum kleift að vinna skilvirkt þegar þeim eru gefin mörg verkfæri.

Áður fyrr, þegar líkani voru gefin verkfæri, voru allar verkfæraskilgreiningar innifaldar í kvaðningunni fyrirfram. Fyrir kerfi með mörgum verkfærum gæti þetta bætt þúsundum—eða jafnvel tugþúsundum—af tókum við hverja beiðni, aukið kostnað, hægt á svörum og troðið samhengið af upplýsingum sem líkanið gæti aldrei notað.

Með verkfæraleit fær GPT‑5.4 í staðinn einfaldan lista yfir tiltæk verkfæri ásamt möguleika á að leita að verkfærum. Þegar líkanið þarf að nota verkfæri getur það flett upp skilgreiningu þess og bætt henni við samtalið á þeim tímapunkti.

Þessi nálgun dregur verulega úr fjölda tóka sem þarf fyrir verkfæraþung vinnuflæði og varðveitir skyndiminnið, sem gerir beiðnir hraðari og ódýrari. Það gerir fulltrúum einnig kleift að vinna á áreiðanlegan hátt með mun stærri vistkerfum verkfæra. Fyrir MCP-netþjóna sem kunna að innihalda tugþúsundir tóka af verkfæraskilgreiningum geta skilvirkniaukningarnar verið verulegar.

Til að sýna fram á skilvirkniaukningu mátum við 250 verkefni úr viðmiði Scale’s MCP Atlas⁠(opnast í nýjum glugga) með alla 36 MCP-netþjóna virkjaða í tveimur stillingum: (1) að birta hvert MCP-fall beint í samhengi líkansins og (2) að setja alla MCP-netþjóna á bak við verkfæraleit. Stilling verkfæraleitar minnkaði heildarnotkun tóka um 47% á sama tíma og hún náði sömu nákvæmni.

Dæmi um tóka eru fengin með því að taka meðaltal 250 verkefna í opinbera MCP-Atlas gagnasafninu.

Verkfæraköllun fulltrúa

GPT‑5.4 bætir einnig verkfæraköllun, sem gerir hana nákvæmari og skilvirkari þegar ákveðið er hvenær og hvernig á að nota verkfæri við rök, sérstaklega í API. Miðað við GPT‑5.2 nær það meiri nákvæmni í færri umferðum á Toolathlon, viðmiðunarprófi sem prófar hversu vel gervigreindarfulltrúar geta notað raunveruleg verkfæri og API til að ljúka fjölþrepa verkefnum. Til dæmis þarf fulltrúi að lesa tölvupósta, draga út viðhengi með verkefnum, hlaða þeim upp, gefa þeim einkunn og skrá niðurstöður í töflureikni.

Fyrir notkunartilvik sem eru viðkvæm fyrir biðtíma þar sem rök upp á None er æskilegt, bætir GPT‑5.4 sig enn frekar miðað við forvera sína.

Í τ2-bench⁠(opnast í nýjum glugga) þarf líkan að nota verkfæri til að leysa verkefni í þjónustu við viðskiptavini, þar sem mögulega er til staðar hermdur notandi sem getur átt samskipti og gripið til aðgerða í stöðu heimsins. Átak raka var stillt á None.

Bætt vefleit

GPT‑5.4 er betra í sjálfráðri vefleit. Á BrowseComp, mælikvarða á hversu vel gervigreindarfulltrúar geta með þrautseigju vafrað um vefinn til að finna upplýsingar sem erfitt er að finna, stekkur GPT‑5.4 17%_abs fram úr GPT‑5.2, og GPT‑5.4 Pro og setur nýtt met með 89,3%.

Í reynd þýðir þetta að GPT‑5.4 Thinking er betra í að svara spurningum sem krefjast þess að draga saman upplýsingar úr mörgum heimildum á vefnum. Það getur leitað með þrautseigjum hætti yfir margar umferðir til að bera kennsl á viðeigandi heimildir, sérstaklega fyrir „leita að saumnál í heystakki“ spurningar, og samþætt þær í skýrt, vel rökstutt svar.

Í BrowseComp notuðum við leitarbannlista sem útilokaði vefsíður með svör við viðmiðum úr matinu til að koma í veg fyrir mengun og tryggja sanngjarnt mat á frammistöðu. GPT‑5.4 var mælt á síðari degi en GPT‑5.2. Þannig endurspegla stig breytingar á líkaninu, leitarkerfinu okkar og ástandi internetsins. GPT‑5.4 var prófað með lengri, uppfærðum bannlista. Líkön nota ChatGPT‑leitarverkfærið, sem getur haft smávægilegan mun frá API-leit.

„GPT-5.4 xhigh nær nýju stigi tækninnar í fjölþrepa verkfæranotkun. Zapier keyrir sum ströngustu viðmið í greininni fyrir notkun verkfæra og prófar líkön í hundruðum háþróaðra raunverulegra verkflæða. GPT-5.4 kláraði verkið þar sem fyrri líkön gáfust upp - þrautseigasta líkanið hingað til.”

— Wade, forstjóri hjá Zapier

Stýrihæfni

Á svipaðan hátt og Codex lýsir nálgun sinni þegar það byrjar að vinna mun GPT‑5.4 Thinking í ChatGPT nú útlista vinnu sína með inngangi fyrir lengri og flóknari fyrirspurnir. Þú getur líka bætt við leiðbeiningum eða breytt stefnu þess í miðju svari. Þetta gerir það auðveldara að leiða líkanið að nákvæmlega þeirri niðurstöðu sem þú vilt án þess að þurfa að byrja upp á nýtt eða krefjast margra viðbótarskipta. Þessi eiginleiki er nú fáanlegur á chatgpt.com⁠(opnast í nýjum glugga) og í Android-appinu, væntanlegur fljótlega í iOS-appinu.

Líkanið getur einnig hugsað lengur um erfið verkefni á meðan það viðheldur sterkari meðvitund um fyrri skref í samtalinu. Þetta gerir því kleift að takast á við lengri verkflæði og flóknari kvaðningar, á sama tíma og svörin haldast samfelld og viðeigandi allan tímann.

Þessu myndbandi hefur verið hraðað til útskýringar.

Öryggi

Undanfarna mánuði höfum við haldið áfram að bæta öryggisráðstafanirnar sem við kynntum með GPT‑5.3‑Codex á sama tíma og við undirbúum GPT‑5.4 fyrir innleiðingu. Svipað og með GPT‑5.3‑Codex, erum við að meðhöndla GPT‑5.4 sem með háa netgetu samkvæmt undirbúningsramma okkar, og við erum að innleiða það með samsvarandi verndarráðstöfunum eins og skjalfest er í kerfiskortinu⁠. Þetta felur í sér útvíkkaðan netöryggisstafla, þar á meðal vöktunarkerfi, Trusted Access-aðgangsstýringar og ósamstillta lokun fyrir beiðnir með meiri áhættu fyrir viðskiptavini á engin gögn varðveitt (ZDR) yfirborðum, samhliða áframhaldandi fjárfestingu í víðara öryggisvistkerfinu.

Þar sem netöryggisgeta er í eðli sínu tvíþætt notum við varúðarnálgun við innleiðingu á meðan við höldum áfram að stilla stefnur okkar og flokkunarkerfi. Fyrir tiltekna viðskiptavini á ZDR-viðmótum er lokun á beiðnistigi enn hluti af netáhættuminnkunarstafla okkar; þar sem flokkarar eru enn að batna geta komið upp nokkur röng jákvæð tilvik á meðan við höldum áfram að betrumbæta þessar öryggisráðstafanir. Þessar uppfærslur miða að því að bæta hvernig öryggisráðstafanir virka í reynd, þar á meðal að draga úr óþarfa neitunum og svörum með of miklum fyrirvörum, um leið og sterkar varnir gegn misnotkun eru varðveittar.

Við höfum haldið áfram öryggisrannsóknum okkar á eftirlitsgetu hugsanakeðju (CoT) til að skilja betur hvernig líkön rökstyðja og hjálpa til við að greina mögulega slæma hegðun. Sem hluta af þessari vinnu kynnum við nýtt opið mat, stýranleika CoT⁠, sem mælir hvort líkön geti viljandi hulið rök sín til að komast hjá vöktun. Við komumst að því að geta GPT‑5.4 Thinking til að stjórna CoT sínu er lítil, sem er jákvæður eiginleiki fyrir öryggi, sem bendir til þess að líkanið skorti getu til að fela rök sín og að CoT-eftirlit sé áfram áhrifaríkt öryggistæki.

Aðgengi og verð

GPT‑5.4 er að koma út smám saman í dag í ChatGPT og Codex. Í API, GPT‑5.4 er nú fáanlegt sem gpt-5.4. GPT‑5.4 Pro er einnig fáanlegt í API sem gpt-5.4-pro fyrir forritara sem þurfa hámarksframmistöðu í flóknustu verkefnunum.

Í ChatGPT, GPT‑5.4 Thinking er í boði frá og með deginum í dag fyrir ChatGPT Plus-, Team- og Pro-notendur og kemur í stað GPT‑5.2 Thinking. GPT‑5.2 Thinking verður áfram aðgengilegt í þrjá mánuði fyrir greidda notendur í líkanavalmyndinni undir hlutanum Eldri líkön, eftir það verður það lagt niður 5. júní 2026. Þeir sem eru á Enterprise- og Edu-áætlunum geta virkjað snemmbúinn aðgang í stjórnandastillingum. GPT‑5.4 Pro er fáanlegt í Pro- og Enterprise-áætlunum. Samhengisgluggar⁠(opnast í nýjum glugga) í ChatGPT fyrir GPT‑5.4 Thinking haldast óbreyttir frá GPT‑5.2 Thinking.

GPT‑5.4 er fyrsta aðalröð rakalíkanið okkar sem innlimar framarlega kóðunargetu GPT‑5.3‑codex og það er að koma út í ChatGPT, API og Codex. Við köllum það GPT‑5.4 til að endurspegla þetta stökk og til að einfalda valið á milli líkana þegar Codex er notað. Með tímanum máttu búast við að Instant-líkönin okkar og Thinking-líkönin þróist á mismunandi hraða.

GPT‑5.4 í Codex inniheldur tilraunakenndan stuðning við 1 milljón samhengisgluggann. Forritarar geta prófað þetta með því að stilla model_context_window og model_auto_compact_token_limit. Beiðnir sem fara yfir staðlaðan 272 þús. samhengisglugga teljast með í notkunartakmörkunum á tvöföldum hraða miðað við venjulegan.

Í API er GPT‑5.4 verðlagt hærra á hvern tóka en GPT‑5.2 til að endurspegla bætta getu þess, á meðan meiri tókahagkvæmni þess hjálpar til við að draga úr þeim heildarfjölda tóka sem þarf fyrir mörg verkefni. Verðlagning fyrir Batch og Flex er í boði á helmingi staðlaðs API-verðs, en forgangsvinnsla er í boði á tvöföldum stöðluðu API-verði.

API-líkan	Inntaksverð	Verð á skyndiminnisinntaki	Úttaksverð
gpt-5.2	1,75 USD / milljón tókar	0,175 USD / milljón tókar	14 USD / milljón tókar
gpt-5.4	2,50 USD / milljón tókar	0,25 USD / milljón tókar	15 USD / milljón tókar
gpt-5.2-pro	21 USD / milljón tókar	-	168 USD / milljón tókar
gpt-5.4-pro	30 USD / milljón tókar	-	180 USD / milljón tókar

Möt

Faglegur

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	—
Verkefni í líkanagerð fyrir fjárfestingabanka (innri)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	—	65,1%	63,1%	—

Kóðun

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7%	—	56,8%	55,6%	—
Terminal-Bench 2.0	75,1%	—	77,3%	62,2%	—

Notkun á tölvu og sýn

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	—	74,0%	47,3%	—
MMMU Pro (án verkfæra)	81,2%	—	—	79,5%	—
MMMU Pro (með verkfærum)	82,1%	—	—	80,4%	—

Notkun verkfæra

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3%	77,3%	65,8%	77,9%
MCP Atlas	67,2%	—	—	60,6%	—
Toolathlon	54,6%	—	51,9%	45,7%	—
Tau2-bench Telecom	98,9%	—	—	98,7%	—

Akademískt

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Frontier Science Research	33,0%	36,7%	—	25,2%	—
FrontierMath stig 1–3	47,6%	—	—	40,7%	—
FrontierMath stig 4	27,1%	38,0%	—	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Humanity's Last Exam (engin verkfæri)	39,8%	42,7%	—	34,5%	36,6%
Humanity's Last Exam (með verkfærum)	52,1%	58,7%	—	45,5%	50,0%

Langt samhengi

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0 þús.–128 þús.	93,0%	—	—	94,0%	—
Graphwalks BFS 256 þús.–1 milljón	21,4%	—	—	—	—
Graphwalks parents 0–128 þús. (nákvæmni)	89,8%	—	—	89,0%	—
Graphwalks parents 256 þús.–1 milljón (nákvæmni)	32,4%	—	—	—	—
OpenAI MRCR v2 8-needle 4 þús.–8 þús.	97,3%	—	—	98,2%	—
OpenAI MRCR v2 8-needle 8 þús.–16 þús.	91,4%	—	—	89,3%	—
OpenAI MRCR v2 8-needle 16 þús.–32 þús.	97,2%	—	—	95,3%	—
OpenAI MRCR v2 8-needle 32 þús.–64 þús.	90,5%	—	—	92,0%	—
OpenAI MRCR v2 8-needle 64 þús.–128 þús.	86,0%	—	—	85,6%	—
OpenAI MRCR v2 8-needle 128 þús.–256 þús.	79,3%	—	—	77,0%	—
OpenAI MRCR v2 8-needle 256 þús.–512 þús.	57,5%	—	—	—	—
OpenAI MRCR v2 8-needle 512 þús.–1 milljón	36,6%	—	—	—	—

Abstrakt hugsun

Mat	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGG-1 (Verified)	93,7%	94,5%	—	86,2%	90,5%
ARC-AGG-2 (Verified)	73,3%	83,3%	—	52,9%	54,2% (mikið)

Mat án raka

Mat	GPT‑5.4 (ekkert)	GPT‑5.2 (ekkert)	GPT‑4.1
OmniDocBench (stöðluð breytifjarlægð)	0,109	0,140	—
Tau2-bench Telecom	64,3%	57,2%	43,6%

Evals voru keyrð með átaki raka stilltu á xhigh, nema þar sem annað er tilgreint. Viðmiðanir voru framkvæmdar í rannsóknarumhverfi, sem gætu í sumum tilfellum veitt örlítið frábrugðið frálag frá framleiðsluútgáfu ChatGPT.