Ma kiadjuk a GPT‑5.4 modellt a ChatGPT‑ben (GPT‑5.4 Thinking néven), az API-ban és a Codexben. Ez a legjobb képességű és leghatékonyabb élvonalbeli modellünk professzionális munkához. Emellett a GPT‑5.4 Pro modellt is kiadjuk a ChatGPT‑ben és az API-ban azoknak, akiknek az összetett feladatokhoz a lehető legnagyobb teljesítményre van szükségük.
A GPT‑5.4 egyetlen élvonalbeli modellben egyesíti a közelmúltbeli érvelési, kódolási és ügynöki munkafolyamatok terén elért legjobb eredményeinket. Magában foglalja a GPT‑5.3‑Codex iparágvezető kódolási képességeit, miközben javítja a modell működését az eszközökön, szoftverkörnyezeteken és a táblázatokat, prezentációkat és dokumentumokat érintő professzionális feladatokban. Az eredmény egy olyan modell, amely pontosan, hatékonyan és eredményesen végzi el az összetett, valós munkafeladatokat—vagyis kevesebb oda-vissza egyeztetéssel azt nyújtja, amit kértél.
A ChatGPT‑ben a GPT‑5.4 Thinking most már előre meg tudja mutatni a gondolkodásának tervét, így munka közben a válasz generálása alatt is módosíthatod az irányt miközben dolgozik, és további körök nélkül olyan végső kimenetet kaphatsz, amely jobban igazodik ahhoz, amire szükséged van. GPT‑5.4 Thinking a mély webes kutatást is javítja, különösen a nagyon specifikus lekérdezések esetén, miközben a kontextust is jobban megőrzi a hosszabb gondolkodást igénylő kérdéseknél. Ezek a fejlesztések együttesen jobb minőségű, gyorsabban megérkező válaszokat jelentenek, amelyek továbbra is relevánsak maradnak az adott feladat szempontjából.
A Codexben és az API-ban a GPT‑5.4 az első általános célú modellünk, amelyet natív, élvonalbeli számítógép-használati képességekkel bocsátottunk ki, lehetővé téve, hogy az ügynökök számítógépeket működtessenek, és összetett munkafolyamatokat hajtsanak végre alkalmazásokban. Akár 1 millió tokennyi kontextust is támogat, ami lehetővé teszi, hogy az ügynökök hosszú távú feladatokat tervezzenek meg, hajtsanak végre és ellenőrizzenek. A GPT‑5.4 az eszközök és csatlakozók nagy méretű ökoszisztémáiban is javítja a modellek működését az eszközkereséssel, segítve az ügynököket, hogy az intelligencia csorbulása nélkül, hatékonyabb módon találják meg és használják a megfelelő eszközöket. Végül a GPT‑5.4 az eddigi leginkább tokenhatékony érvelési modellünk , amely a GPT‑5.2‑höz képest lényegesen kevesebb tokent használ a problémák megoldásához – ami alacsonyabb tokenfelhasználást és gyorsabb működést jelent.
Az általános érvelés, a kódolás és a professzionális tudásmunkák terén elért előrelépésekkel együtt a GPT‑5.4 megbízhatóbb ügynököket, gyorsabb fejlesztői munkafolyamatokat és jobb minőségű kimeneteket tesz lehetővé a ChatGPT‑ben, az API-ban és a Codexben.
GPT‑5.4 | A GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (győzelmek vagy döntetlenek) | 83.0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57.7% | 56,8% | 55,6% |
OSWorld-Verified | 75.0% | 74.0%* | 47,3% |
Toolathlon | 54,6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77,3% | 65.8% |
*Korábban 64,7%-os értékként szerepelt. A GPT‑5.3‑Codex 74,0%-ot ér el egy újonnan bevezetett API-paraméter használatával, amely megőrzi az eredeti képfelbontást.
A GPT‑5.2 általános érvelési képességeire építve a GPT‑5.4 még következetesebb és kiforrottabb eredményeket nyújt a szakemberek számára fontos valós feladatokban.
A GDPval benchmarkon, amely 44 foglalkozásban teszteli az ügynökök jól meghatározott tudásalapú munkavégzésre való képességét, a GPT‑5.4 új szintre emeli a legkorszerűbb eredményt, az összehasonlítások 83,0% -ában elérve vagy meghaladva az iparági szakemberek teljesítményét, szemben a GPT‑5.2 71,0% -ával.
A GDPval-ban a modellek jól meghatározott tudásalapú munkát próbálnak megvalósítani, amely 44 foglalkozást ölel fel az USA GDP-jéhez leginkább hozzájáruló 9 iparágból. A feladatok valós munkatermékeket igényelnek, például értékesítési prezentációkat, könyvelési táblázatokat, sürgősségi ellátási ütemterveket, gyártási diagramokat vagy rövid videókat. Az érvelési erőfeszítés a GPT‑5.4 esetében xhigh, a GPT‑5.2 esetében pedig heavy értékre volt állítva (egy kicsit alacsonyabb szint a ChatGPT‑ben).
„A GPT-5.4 a legjobb modell, amit valaha kipróbáltunk. Most már a ranglista élén áll az APEX-Agents benchmarkunkon, amely modellteljesítményt mér a professzionális szolgáltatási munkákhoz. Kiemelkedően alkalmas hosszú távú kimenetek, például prezentációk, pénzügyi modellek és jogi elemzések készítésére, csúcsteljesítményt nyújt, miközben gyorsabban fut, illetve alacsonyabb költséggel működik, mint a versenytárs élvonalbeli modellek.”
Különös hangsúlyt fektettünk a GPT‑5.4 képességének javítására a táblázatok, prezentációk és dokumentumok létrehozásában és szerkesztésében. A junior befektetési banki elemzők által végezhető táblázatkezelési modellezési feladatok belső mérőszámunk szerinti benchmarkján a GPT‑5.4 átlagos pontszáma 87.5%, szemben a GPT‑5.2 68.4%-os eredményével. Egy prezentációértékelő utasításokból álló feladatsoron az emberi kiértékelők az esetek 68.0%-ában a fejlettebb esztétika, a nagyobb vizuális változatosság és a képgenerálás hatékonyabb használata miatt a GPT‑5.4 prezentációit részesítették előnyben a GPT‑5.2 prezentációival szemben.

A dokumentumok extra magas értékre állított érvelési erőfeszítéssel készültek
Ezeket a képességeket kipróbálhatod a ChatGPT‑ben a GPT‑5.4 Thinking vagy Pro használatával. Ha vállalati ügyfél vagy, javasoljuk, hogy használd az újonnan kiadott ChatGPT for Excel és Google Sheets bővítményeinket(új ablakban nyílik meg), amelyeket szintén ma indítottunk. A Codexben és az API-ban elérhető táblázatkezelési(új ablakban nyílik meg) és prezentációs készségeinket(új ablakban nyílik meg) is frissítettük.
Annak érdekében, hogy a GPT‑5.4 jobban teljesítsen a valós feladatokban, folytattuk a hallucinációk és hibák csökkentését célzó fejlesztéseket. A GPT‑5.4 az eddigi legtényszerűbb modellünk: olyan anonimizált utasítások esetén, ahol a felhasználók tényszerű hibákat jelöltek meg, a GPT‑5.4 egyedi állításai 33%-kal kisebb valószínűséggel hamisak, a teljes válaszai pedig 18%-kal kisebb valószínűséggel tartalmaznak bármilyen hibát a GPT‑5.2‑höz képest.
„A GPT-5.4 új mércét állít a dokumentumoktól terhes jogi munkában. A BigLaw Bench értékelésünkön 91%-ot ért el. Más modellekkel összehasonlítva a GPT-5.4 jelenleg jobb a komplex tranzakciós elemzések strukturálásában, a pontosság fenntartásában hosszú szerződések esetén, valamint abban, hogy a jogi szakemberek által megkövetelt magas részletességi szintet nyújtsa.”
A GPT‑5.4 az első általános célú modellünk, amely natív számítógép-használati képességekkel rendelkezik, és jelentős előrelépést jelent mind a fejlesztők, mind az ügynökök számára. Jelenleg ez a legjobb elérhető modell azoknak a fejlesztőknek, akik webhelyeken és szoftverrendszerekben valós feladatot végző ügynököket építésével foglalkoznak.
A GPT‑5.4 modellt úgy terveztük, hogy a számítógép-használati feladatok széles körében nyújtson jó teljesítményt. Kiváló a számítógépek Playwrighthoz hasonló könyvtárak segítségével való vezérléséhez szükséges kód megírásában, és a képernyőképekre reagáló egér- és billentyűparancsok kiadásában. A viselkedése fejlesztői üzenetekkel irányítható, ami azt jelenti, hogy a fejlesztők az adott felhasználási esethez igazíthatják a működését. A fejlesztők egyedi megerősítési szabályok megadásával akár a modell különböző kockázattűrési szintekhez igazított biztonsági viselkedését is beállíthatják.
A modell teljesítménye és rugalmassága a számítógép-használatot különböző környezetekben tesztelő benchmarkokban is megmutatkozik. Az OSWorld-Verified benchmarkon, amely azt méri, hogy a modell mennyire képes képernyőképek és billentyűzet-/egérműveletek segítségével navigálni egy asztali környezetben, a GPT‑5.4 kiváló 75.0% sikerességi arányt ért el, messze meghaladva a GPT‑5.2 47.3% értékét, és felülmúlva az emberi teljesítményt, ami 72.4% volt.1
A böngészőhasználatot tesztelő WebArena-Verified benchmarkon a DOM-alapú és képernyőkép-alapú interakciót egyaránt használó GPT‑5.4 67,3% -os sikerességi aránnyal vezet, szemben a GPT‑5.2 65,4%-os eredményével. A szintén a böngészőhasználatot tesztelő Online-Mind2Web benchmarkon a GPT‑5.4 92,8% -os sikerességi arányt ér el kizárólag képernyőkép-alapú megfigyelésekkel, felülmúlva a ChatGPT Atlas Agent Mode-ját, amely 70,9%-os sikerességi arányt ér el.
Az eszközátadás az, amikor egy asszisztens átadja a vezérlést, hogy megvárja az eszközválaszokat. Ha 3 eszközt hívunk meg párhuzamosan, majd ezt 3 további, párhuzamosan meghívott eszköz követi, a yieldek száma 2 lenne. Az eszköz-yieldek jobb közelítést adnak a késleltetésre, mint az eszközhívások, mivel tükrözik a párhuzamosítás előnyeit.
A GPT‑5.4 értelmezi a böngészőfelület képernyőképeit, és koordinátaalapú kattintással interakcióba lép a felhasználói felület elemeivel, hogy e-maileket küldjön és ütemezzen egy naptáreseményt.
A GPT‑5.4 továbbfejlesztett számítógép-használata a modell továbbfejlesztett általános vizuális észlelési képességeire épül. A MMMU-Pro benchmarkon, amely a modell vizuális megértését és érvelését teszteli, a GPT‑5.4 eszközhasználat nélkül 81,2% -os sikerességi arányt ér el, a GPT‑5.2 79.5% javulásához képest. A fejlesztett vizuális észlelés jobb dokumentumfeldolgozási képességeket is eredményez. Az OmniDocBench benchmarkon a GPT‑5.4 érvelési erőfeszítés nélkül 0,109-es átlagos hibát ér el (a modell előrejelzése és a referenciaérték, azaz ground truth közötti normalizált szerkesztési távolsággal mérve), ami javulás a GPT‑5.2 0,140-es értékéhez képest.
Az MMMUPro futtatása extra magas értékre állított érveléssel történt. Az OmniDocBench-et az érvelési erőfeszítést nulla értékre állítva futtatták, hogy alacsony költségű és alacsony késleltetésű teljesítményt tükrözzön.
A részletgazdag, nagy felbontású képek vizuális megértését is fejlesztjük, ahol fontos a teljes képhűség megőrzése. A GPT‑5.4‑gyel kezdve, bevezetünk egy eredeti képbemeneti részletességi(új ablakban nyílik meg) szintet, amely akár 10.24M összesített pixelig vagy 6000 pixeles maximális dimenzióig támogatja a teljes részletgazdagságú észlelést, amelyik alacsonyabb; a magas képbemeneti részletességi szint most már akár 2,56M összesített pixelig vagy 2048 pixeles maximális dimenzióig támogatott. Az API-felhasználókkal végzett korai tesztelés során azt tapasztaltuk, hogy az eredeti vagy a magas részletességi szint használatakor jelentős javulás érhető el a lokalizációs képességben, a képmegértésben és a kattintási pontosságban.
„Az értékeléseink során, amelyek a számítógépes használati teljesítményt mérték mintegy 30 000 HOA- és ingatlanadó-portálon, a GPT-5.4 már az első próbálkozásra 95%-os sikerarányt ért el, és három próbálkozáson belül 100%-ot. Ez jelentős előrelépés a korábbi CUA-modellek ~73–79%-os eredményeihez képest. Emellett a munkameneteket ~3x gyorsabban végezte, miközben ~70%-kal kevesebb tokent használt, ami érdemben javította a megbízhatóságot és a költséghatékonyságot nagy léptékben."
Az API-ban a fejlesztők ezekhez a képességekhez a frissített számítógép eszköz használatával férhetnek hozzá. Az ajánlott legjobb gyakorlatokért tekintse meg frissített dokumentációnkat(új ablakban nyílik meg).
A GPT‑5.4 a GPT‑5.3‑Codex kódolási erősségeit ötvözi a vezető tudásmunka- és számítógép-használati képességekkel, amelyek különösen fontosak a hosszabb ideig futó feladatoknál, ahol a modell eszközöket használhat, iterálhat, és kevesebb manuális beavatkozással viheti tovább a munkát. A SWE-Bench Pro teszten eléri vagy felülmúlja a GPT‑5.3‑Codex teljesítményét, miközben az érvelési folyamatok során alacsonyabb késleltetést biztosít.
A késleltetést úgy becsüljük meg, hogy megnézzük a modelljeink éles környezetben mutatott működését, majd ezt offline szimuláljuk. A késleltetés becslése során figyelembe vesszük az eszközhívások időtartamát (kódfuttatási idő), a mintavételezett tokeneket és a bemeneti tokeneket. A valós környezetben tapasztalt késleltetés jelentősen eltérhet, és számos olyan tényezőtől függ, amelyeket a szimulációnk nem vesz figyelembe. Az érvelési erőfeszítéseket mulláról extra magasra emeltük.
Bekapcsolt állapotban a Codex /fast mode-ja akár 1,5x gyorsabb token sebességet biztosít aGPT‑5.4‑gyel. Ugyanaz a modell és ugyanaz az intelligencia, csak gyorsabban. Ez azt jelenti, hogy a felhasználók gördülékenyen haladhatnak a kódolási feladatokkal, az iterációval és a hibakereséssel a zökkenőmentes munkavégzés során. A fejlesztők az API-n keresztül ugyanolyan gyorsan érhetik el a GPT‑5.4‑et az elsőbbségi feldolgozás(új ablakban nyílik meg) használatával.
Az értékelések és a belső tesztelés során azt találtuk, hogy a GPT‑5.4 kiemelkedően teljesít az összetett frontend feladatokban, és észrevehetően esztétikusabb és funkcionálisabb eredményeket ad, mint bármely korábban kiadott modellünk.
A modell továbbfejlesztett számítógép-használati és kódolási képességeinek együttműködését bemutatandó kiadtunk egy kísérleti Codex-készséget is „Playwright (Interactive)(új ablakban nyílik meg)” néven. Ez lehetővé teszi, hogy a Codex vizuális hibakeresést végezzen a webes és Electron-alapú alkalmazásokban; sőt akár arra is használható, hogy egy alkalmazást annak építése közben teszteljen.
GPT‑5.4‑gyel készült vidámpark-szimulációs játék egyetlen, lazán megadott utasításból, a böngészős játékteszteléshez a Playwright Interactive használatával, valamint a képgenerálás alkalmazásával az izometrikus eszközkészlethez. A szimuláció magában foglalja a rács alapú útelhelyezést, a játékok és környezeti elemek építését, a vendégek útkeresését, sorban állását és a játékok működési ciklusait, miközben a park mutatói – például a pénz, a vendégek száma, a boldogság, a tisztaság és az értékelés – nőnek vagy csökkennek attól függően, hogyan teljesít a park elrendezése és hogyan reagálnak rá a vendégek. A böngészős játéktesztelések automatizálásához a Playwright került felhasználásra, beleértve a park építését és bővítését, az utak és látványosságok elhelyezését és eltávolítását, a kamera navigációjának ellenőrzését, valamint annak ellenőrzését, hogy a vendégek, a sorok, a játékállapotok és a felhasználói felület mutatói több játékkörön keresztül megfelelően frissültek.
Utasítás: Használd a $playwright-interactive és $imagegen eszközöket. Hozz létre egy interaktív, izometrikus nézetű vidámpark-szimulációs játékot, amelyet a böngészőben építhetek és navigálhatok. Az imagegen segítségével alakítsd ki a játék vizuális világát, és generáld a szükséges eszközöket, beleértve a játékokat, utakat, terepet, fákat, vizet, büféket, dekorációkat, épületeket, ikonokat és a felhasználói felület illusztrációit.A világ legyen koherens, kidolgozott és vizuálisan gazdag, prémium művészi stílusban, amely jól működik izometrikus nézetből. Engedd, hogy az utakat elhelyezhessem és eltávolíthassam, attrakciókat adhassak hozzá, díszleteket pozícionálhassak, és simán mozoghassak a parkban, miközben figyelemmel kísérem a vendégek mozgását, a játékok állapotát és a park növekedését.Tartsd szem előtt a hihető vendégmozgást, egyszerű parkmenedzsment rendszereket, mint a pénz, tisztaság, sorban állás és boldogság, és tedd az élményt játékosnak, áttekinthetőnek és teljesnek, ne pedig egy nyers prototípusnak érezhetővé. Előnyben részesítsd a bájt, az olvashatóságot és az erős játékélményt a realizmus helyett.
Játéktesztelés közben mindenképp építs és bővíts egy parkot több játékkörön keresztül, ellenőrizd, hogy az elhelyezés és a navigáció zökkenőmentesen legyen, erősítsd meg, hogy a vendégek reagálnak a park elrendezésére és a látványosságokra, és győződj meg róla, hogy a vizuális elemek, a felhasználói felület és az interakciók stabilak és egységesek.
„Mérnökeink szerint a GPT-5.4 természetesebb és határozottabb a korábbi modelleknél. Képes végighaladni a bizonytalan vagy többértelmű problémákon anélkül, hogy folyamatosan felülbírálná saját döntéseit, és proaktívan párhuzamosítja a feladatokat annak érdekében, hogy a munkafolyamat folyamatosan haladjon.”
A GPT‑5.4‑gyel jelentősen javítottuk azt, ahogyan a modellek külső eszközökkel működnek együtt. Az ügynökök mostantól nagyobb eszköz-ökoszisztémákban is működhetnek, megbízhatóbban választják ki a megfelelő eszközöket, és alacsonyabb költséggel valamint késleltetéssel képesek több lépésből álló munkafolyamatok végrehajtására.
Az API-ban a GPT‑5.4 bevezeti az eszközkeresés(új ablakban nyílik meg) funkciót, amely lehetővé teszi, hogy a modellek hatékonyan működjenek sok megadott eszköz esetén is.
Korábban, amikor egy modell eszközöket kapott, az összes eszközdefiníció már az utasításban szerepelt az elején. Sok eszközt használó rendszereknél ez minden kéréshez több ezer – vagy akár több tízezer – tokent is hozzáadhatott, ami növelte a költséget, lassította a válaszokat, és olyan információkkal zsúfolta tele a kontextust, amelyeket a modell lehet, hogy soha nem is használ.
Az eszközkeresés használatával a GPT‑5.4 ehelyett egy egyszerűsített listát kap az elérhető eszközökről, valamint egy eszközkeresési képességet. Amikor a modellnek egy eszközt kell használnia, megkeresheti az adott eszköz definícióját, és abban a pillanatban hozzáfűzheti a beszélgetéshez.
Ez a megközelítés drámaian csökkenti az eszközigényes munkafolyamatokhoz szükséges tokenek számát, és megőrzi a gyorsítótárat, így a kérések gyorsabbak és olcsóbbak lesznek. Emellett lehetővé teszi, hogy az ügynökök megbízhatóan dolgozzanak az eszközök jóval nagyobb ökoszisztémáival. Az olyan MCP-kiszolgálók esetében, amelyek több tízezer tokennyi eszközdefiníciót tartalmazhatnak, a hatékonyságnövekedés jelentős lehet.
A hatékonyságbeli javulás bemutatásához a Scale MCP Atlas(új ablakban nyílik meg) benchmarkjából 250 feladatot értékeltünk ki, miközben mind a 36 MCP szerver két módban volt engedélyezve: (1) minden MCP funkció közvetlenül elérhető volt a modell kontextusában, és (2) az összes MCP szerver eszközkeresés mögé került. Az eszközkeresési konfiguráció 47%-kal csökkentette az összes tokenfelhasználást, miközben ugyanazt a pontosságot érte el.
A tokenek száma az MCP-Atlas nyilvános adatkészletében szereplő 250 feladat átlagolásából származik.
A GPT‑5.4 az eszközhívást is javítja, pontosabbá és hatékonyabbá téve azt, amikor az érvelés során arról dönt, mikor és hogyan használjon eszközöket, különösen az API-ban. A GPT‑5.2‑höz képest kevesebb kör alatt ér el magasabb pontosságot a Toolathlon benchmarkon, amely azt teszteli, hogy az AI-ügynökök mennyire tudják hatékonyan használni a valós eszközöket és API-kat több lépésből álló feladatok elvégzéséhez. Például egy ügynöknek el kell olvasnia az e-maileket, ki kell nyernie a feladatmellékleteket, fel kell töltenie azokat, osztályoznia kell őket, és az eredményeket egy táblázatban kell rögzítenie.
Az eszközátadás az, amikor egy asszisztens átadja a vezérlést, hogy megvárja az eszközválaszokat. Ha 3 eszközt hívunk meg párhuzamosan, majd ezt 3 további, párhuzamosan meghívott eszköz követi, a yieldek száma 2 lenne. Az eszköz-yieldek jobb közelítést adnak a késleltetésre, mint az eszközhívások, mivel tükrözik a párhuzamosítás előnyeit.
Azoknál a késleltetésre érzékeny felhasználási eseteknél, ahol az érvelési erőfeszítés None (Nincs) értéket kap, a GPT‑5.4 továbbfejlesztett az elődjeihez képest.
A τ2-bench -ben(új ablakban nyílik meg) egy modellnek eszközöket kell használnia egy ügyfélszolgálati feladat elvégzéséhez, ahol lehet egy szimulált felhasználó, aki kommunikálhat és műveleteket végezhet a világállapot alapján. Az érvelés értéke „Nincs” értékre volt beállítva.
A GPT‑5.4 jobban teljesít az ügynöki webes keresésben. A BrowseComp benchmarkon – amely azt méri, hogy az AI-ügynökök mennyire képesek kitartóan böngészni a weben nehezen megtalálható információk felkutatásához – a GPT‑5.4 17%abs értékű javulást ér el a GPT‑5.2 modellhez képest, a GPT‑5.4 Pro pedig kimagaslónak mondható új eredményt állít fel 89,3%-kal.
A gyakorlatban ez azt jelenti, hogy a GPT‑5.4 Thinking erősebb az olyan kérdések megválaszolásában, amelyeknél sok különböző webes forrásból kell információkat összegyűjteni és összekapcsolni. Több körön át is képes kitartóbban keresni, hogy azonosítsa a legrelevánsabb forrásokat, különösen a “tű a szénakazalban” jellegű kérdéseknél, és ezeket egy világos, jól megalapozott válaszban foglalja össze.
A BrowseCompban egy keresési tiltólistát használtunk, amely kizárta a benchmark válaszokat tartalmazó webhelyeket a kiértékelésből, hogy megelőzzük a szennyeződést és biztosítsuk a teljesítmény korrekt mérését. A GPT‑5.4 modellt későbbi időpontban mérték, mint a GPT‑5.2 modellt, így a pontszámok tükrözik a modellben, a keresőrendszerünkben és az internet állapotában bekövetkezett változásokat. A GPT‑5.4 modellt egy hosszabb, frissített tiltólistával teszteltük. A modellek a ChatGPT keresőeszközt használják, amely az API-kereséshez képest tartalmazhat eltéréseket.
“A GPT-5.4 xhigh új csúcsteljesítmény a több lépésből álló eszközhasználat terén. A Zapier az iparág legszigorúbb eszközhasználati benchmarkjai közül néhányat futtat, és több száz fejlett, valós munkafolyamatban teszteli a modelleket. A GPT-5.4 elvégezte a munkát ott is, ahol a korábbi modellek feladták - a mai napig a legkitartóbb modell.”
Hasonlóan ahhoz, ahogy a Codex felvázolja a megközelítését, amikor elkezd dolgozni, a GPT‑5.4 Thinking a ChatGPT‑ben mostantól egy bevezetővel vázolja fel a munkáját hosszabb, összetettebb lekérdezések esetén. Válasz közben is adhatsz neki további utasításokat, vagy módosíthatod az irányát. Ez megkönnyíti, hogy a modellt pontosan a kívánt eredmény felé tereld anélkül, hogy elölről kellene kezdened, vagy több további körre lenne szükség. Ez a funkció már elérhető a chatgpt.com(új ablakban nyílik meg) oldalon és az Android alkalmazásban, illetve hamarosan érkezik az iOS alkalmazásba is.
A modell a nehezebb feladatokon hosszabb ideig is képes gondolkodni, miközben jobban megőrzi a beszélgetés korábbi lépéseinek kontextusát. Ez lehetővé teszi, hogy hosszabb munkafolyamatokat és összetettebb utasításokat is kezeljen, miközben a válaszok végig koherensek és relevánsak maradnak.
A videót szemléltetés céljára felgyorsítottuk.
Az elmúlt hónapokban tovább javítottuk azokat a védelmi mechanizmusokat, amelyeket a GPT‑5.3‑Codexszel vezettünk be, miközben a GPT‑5.4 modellt bevezetését készítettük elő. A GPT‑5.3‑Codexhez hasonlóan a GPT‑5.4‑et is magas kiberképességű modellként kezeljük a felkészülési keretrendszer szerint, és a rendszerkártyában dokumentált megfelelő védelmekkel vezetjük be. Ezek közé tartozik egy kibővített kiberbiztonsági védelmi csomag, amely magában foglalja a monitorozó rendszereket, a megbízható hozzáférés-kezelési megoldásokat, valamint a magasabb kockázatú kérések aszinkron blokkolását a zéró adatmegőrzés (ZDR) felületeken lévő ügyfelek számára, továbbá a szélesebb biztonsági ökoszisztémába történő folyamatos befektetéseket.
Mivel a kiberbiztonsági képességek természetüknél fogva kettős felhasználásúak, elővigyázatos megközelítést alkalmazunk a bevezetés során, miközben folyamatosan finomhangoljuk a szabályzatainkat és az osztályozóinkat. Bizonyos ügyfelek esetében a ZDR surfaces felületeken a kérésszintű blokkolás továbbra is része a kiberkockázat-csökkentési védelmi rendszerünknek; mivel az osztályozók még folyamatosan fejlődnek, a védelmi mechanizmusok finomítása közben előfordulhatnak téves pozitív találatok. Ezek a frissítések azt célozzák, hogy a védelmi mechanizmusok a gyakorlatban hatékonyabban működjenek – például csökkentsék a felesleges elutasításokat és a túlzottan óvatos, sok feltételt tartalmazó válaszokat – miközben továbbra is erős védelmet biztosítanak a visszaélések ellen.
Folytattuk a gondolatmenet (CoT) monitorozhatóságával kapcsolatos biztonsági kutatásainkat, hogy jobban megértsük, hogyan érvelnek a modellek, és segítsünk az esetleges helytelen viselkedés észlelésében. Ennek a munkának a részeként bemutatunk egy új nyílt forráskódú értékelést, a CoT controllability benchmarkot, amely azt méri, hogy a megfigyelés elkerülése érdekében a modellek képesek-e szándékosan elrejteni az érvelésüket. Úgy találjuk, hogy a GPT‑5.4 Thinking CoT-kontroll képessége alacsony, ami biztonsági szempontból kedvező tulajdonság: arra utal, hogy a modell nem képes elrejteni az érvelési folyamatát, így a CoT-megfigyelés továbbra is hatékony biztonsági eszköz marad.
A GPT‑5.4 mától fokozatosan elérhetővé válik a ChatGPT‑ben és a Codexben. Az API-ban a GPT‑5.4 mostantól gpt-5.4 néven érhető el. A GPT‑5.4 Pro szintén elréhető az API-ban gpt-5.4-pro néven azoknak a fejlesztőknek, akiknek a legösszetettebb feladatokhoz maximális teljesítményre van szükségük.
A ChatGPT‑ben a GPT‑5.4 Thinking mától elérhető a ChatGPT Plus, Team és Pro felhasználók számára, felváltva a GPT‑5.2 Thinkinget. A GPT‑5.2 Thinking három hónapig továbbra is elérhető marad a fizetős felhasználók számára a modellválasztóban, az Örökölt modellek szakasz alatt, ezt követően pedig 2026. június 5-én kivezetésre kerül. Az Enterprise és Edu csomagban lévő felhasználók az admin beállításokban tudják bekapcsolni a korai hozzáférést. A GPT‑5.4 Pro a Pro és az Enterprise csomagokban érhető el. Kontextusablakok(új ablakban nyílik meg) a ChatGPT‑ben a GPT‑5.4‑hez A Thinking változatlan marad a GPT‑5.2 Thinkingből.
A GPT‑5.4 az első fővonalbeli érvelési modellünk, amely magában foglalja a GPT‑5.3‑codex élvonalbeli kódolási képességeit, és fokozatosan elérhetővé válik a ChatGPT‑ben, az API-ban és a Codexben. Azért nevezzük GPT‑5.4‑nek, hogy tükrözze ezt az ugrást, és hogy egyszerűbbé tegye a választást a modellek között a Codex használatakor. Idővel várható, hogy az Instant modellek és a Thinking modellek eltérő sebességgel fejlődnek majd.
A Codexben a GPT‑5.4 kísérleti támogatást tartalmaz az 1M kontextusablakhoz. A fejlesztők ezt a model_context_window és a model_auto_compact_token_limit konfigurálásával próbálhatják ki. A standard 272K kontextusablakot meghaladó kérések a használati korlátokba a normál díj kétszeresével számítanak bele.
Az API-ban a GPT‑5.4 tokenenkénti ára magasabb a GPT‑5.2‑höz képest, ami a fejlettebb képességeit tükrözi, miközben a jobb tokenhatékonyság sok feladatnál csökkenti a szükséges tokenek teljes számát. A Batch és a Flex árazás a standard API-díj feléért érhető el, míg a Priority feldolgozás a standard API-díj kétszereséért.
API-modell | Bemeneti ár | Gyorsítótárazott bemeneti ár | Kimeneti ár |
gpt-5.2 | 1,75 $/millió token | 0,175 $/millió token | 14 $/millió token |
gpt-5.4 | 2,5 $/millió token | 0,25 $/millió token | 15 $/millió token |
gpt-5.2-pro | 21 $/millió token | - | 168 $/millió token |
gpt-5.4-pro | 30 $/millió token | - | 180 $/millió token |
Professzionális
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | — |
Befektetési banki modellezési feladatok (Belső) | 87,3% | 836% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Kódolás
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57.7% | — | 56,8% | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77,3% | 62,2% | — |
Számítógép-használat és látás
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74,0% | 47,3% | — |
MMMU Pro (eszközök nélkül) | 81,2% | — | — | 79,5% | — |
MMMU Pro (eszközökkel) | 82,1% | — | — | 80,4% | — |
Eszközhasználat
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89,3% | 77,3% | 65.8% | 77,9% |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51.9% | 45,7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Tudományos
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Frontier tudományos kutatás | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath 1–3. szint | 47,6% | — | — | 40,7% | — |
FrontierMath 4. szint | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Humanity's Last Exam (eszközök nélkül) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Humanity's Last Exam (eszközökkel) | 52,1% | 58,7% | — | 45,5% | 50,0% |
Hosszú kontextus
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | — | — | 94,0% | — |
Graphwalks BFS 256K–1M | 21,4% | — | — | — | — |
Graphwalks szülők 0–128K (pontosság) | 89,8% | — | — | 89,0% | — |
Graphwalks szülők 256K–1 millió (pontosság) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36,6% | — | — | — | — |
Absztrakt indoklás
Értékelés | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (igazolt) | 93,7% | 94,5% | — | 86,2% | 90,5% |
ARC-AGI-2 (igazolt) | 73,3% | 83,3% | — | 52,9% | 54,2% (magas) |
Evals érvelés nélkül
Értékelés | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalizált szerkesztési távolság) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
A kiértékeléseket extra magas értékre állított érvelési erőfeszítéssel futtattuk, kivéve, ahol másként van megadva. A benchmarkokat kutatási környezetben végezték, ami bizonyos esetekben kissé eltérő eredményeket adhat, mint a ChatGPT termelési verziója.
Szerző
Lábjegyzetek
1 Az emberi teljesítményről az OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(új ablakban nyílik meg) című tanulmány számol be.


