Bemutatunk egy új modellt, amely még többet hoz ki abból, amire a Codex képes: a GPT‑5.3‑Codexet, az eddigi legfejlettebb ügynöki kódolási modellt. A modell mind a GPT‑5.2‑Codex élvonalbeli kódolási teljesítményét, mind a GPT‑5.2 érvelési és szakmai tudásbeli képességeit egyesíti egyetlen modellben, és ráadásul 25%-kal gyorsabb. Ez lehetővé teszi, hogy hosszú távú feladatokat vállaljon, amelyek kutatást, eszközhasználatot és összetett végrehajtást igényelnek. Akárcsak egy kollégával, munka közben is irányíthatod és interakcióba léphetsz a GPT‑5.3‑Codexszel, anélkül, hogy elveszítenéd a kontextust.
A GPT‑5.3‑Codex az első olyan modellünk, amely kulcsszerepet játszott a saját maga létrehozásában. A Codex csapata korai verziókat használt arra, hogy hibakeresést végezzen a saját tanításán, kezelje a saját telepítését, valamint elemezze a teszteredményeket és értékeléseket — a csapatunkat lenyűgözte, mennyire felgyorsította a Codex a saját fejlesztését.
A GPT‑5.3‑Codexszel a Codex egy olyan ügynökből, amely képes kódot írni és felülvizsgálni, olyan ügynökké válik, amely szinte bármit meg tud tenni, amit a fejlesztők és a szakemberek képesek elvégezni egy számítógépen.
A GPT‑5.3‑Codex új iparági csúcsot állít fel a SWE-Bench Pro és a Terminal-Bench teszteken, és erős teljesítményt mutat az OSWorld és a GDPval benchmarkokon, amelyeket a kódolási, ügynöki és valós világbeli képességek mérésére használunk.
A GPT‑5.3‑Codex csúcsteljesítményt ér el a SWE-Bench Pro teszten, amely a valós szoftvermérnöki feladatok szigorú értékelése. Míg az SWE‑bench Verified csak Python nyelven tesztel, a SWE‑Bench Pro négy nyelvet fed le, és ellenállóbb a szennyeződéssel szemben, nagyobb kihívást jelent, változatosabb és ipari szempontból relevánsabb. Emellett messze meghaladja a korábbi csúcsteljesítményt a Terminal-Bench 2.0 teszten, amely a Codexhez hasonló kódoló ügynökök számára szükséges terminálkészségeket méri. A GPT‑5.3‑Codex kiemelkedően kevesebb tokent használ, mint bármely korábbi modell, lehetővé téve a felhasználók számára, hogy még többet építhessenek.
Az élvonalbeli kódolási képességek, az esztétikai fejlesztések és a tömörítés kombinációja egy olyan modellt eredményez, amely lenyűgöző munkát végez, és napok alatt képes a semmiből rendkívül funkcionális, összetett játékokat és alkalmazásokat létrehozni. A modell webfejlesztési és hosszú ideig futó, ügynökszerű képességeinek teszteléséhez megkértük a GPT‑5.3‑Codexet, hogy készítsen nekünk két játékot: a Codex app launch autóversenyzős játékának második verzióját, valamint egy búvárjátékot. A webes játékfejlesztési készség és az előre kiválasztott, általános követő utasítások, mint például "javítsd ki a hibát" vagy "fejleszd a játékot", használatával a GPT‑5.3‑Codex önállóan iterált a játékokon több millió tokenen keresztül. Nézd meg az előzeteseket és játssz a játékokkal, hogy megtudd, mire képes a Codex.
Autóverseny játék, amely különböző versenyzőket, nyolc pályát és a szóköz billentyűvel használható tárgyakat tartalmaz. Próbáld ki magad itt(új ablakban nyílik meg)!
Egy búvárjáték, ahol különféle zátonyokat fedezel fel, összegyűjtesz mindent, hogy teljessé tedd a hal-kódexedet, miközben az oxigént, a nyomást és a veszélyeket is kezelned kell. Próbáld ki magad itt(új ablakban nyílik meg)!
A GPT‑5.3‑Codex emellett jobban érti a szándékodat, amikor napi használatú weboldalak készítésére kéred, a GPT‑5.2‑Codexhez képest. Az egyszerű vagy nem kellően meghatározott utasítások mostantól alapértelmezés szerint több funkcióval és ésszerű alapbeállításokkal rendelkező oldalakat hoznak létre, így erősebb kiindulópontot adnak az ötleteid megvalósításához.
Például megkértük a GPT‑5.3‑Codexet és a GPT‑5.2‑Codexet, hogy készítsenek el két lenti landing oldalt. A GPT‑5.3‑Codex automatikusan a éves csomagot jelenítette meg kedvezményes havi áron, így a kedvezmény egyértelműnek és szándékosnak tűnt, ahelyett, hogy egyszerűen megszorozta volna az éves díjat. Emellett készített egy automatikusan váltó ajánlás-karusszelt három különálló felhasználói idézettel az egy helyett, emiatt az oldal alapértelmezetten teljesebbnek és éles használatra késznek tűnik.
Utasítás: Építs egy landing oldalt a Quiet KPI számára – egy alapítókra szabott, heti metrikaösszefoglalóhoz. Esztétikai szempontból legyen lágy SaaS, üvegszerű kártyák, levendulától kékig tartó színátmenet, finom elmosódás. Szekciók: kiemelt nyitórész e-mail-feliratkozással, mintajelentés-kártyák rácsa, integrációk sora, ajánlások, karusszel, árazás havi/éves kapcsolóval, GYIK, lábléc.
- Satoshi betűtípus vagy hasonló geometrikus talpatlan betűtípus.
- Gombok lekerekített sarkokkal, 14 px sugárral, erős fókusszal.
- Adj hozzá egy ízléses, görgetéshez kötött felfedő animációt.
A szoftvermérnökök, tervezők, termékmenedzserek és adattudósok sokkal többet tesznek az egyszerű kódírásnál. A GPT‑5.3‑Codex úgy készült, hogy támogassa a szoftverfejlesztési életciklus minden munkafolyamatát—hibakeresést, üzembe helyezést, monitorozást, PRD-k írását, szövegek szerkesztését, felhasználói kutatást, teszteket, metrikákat és még sok mást. Ügynöki képességei túlmutatnak a szoftveren, segítve bármilyen projekt megvalósítását—legyen az prezentációkészítés vagy adatelemzés táblázatokban.
A korábbi GDPval-eredményeinkhez használt egyéni készségekhez hasonlóan a GPT‑5.3‑Codex is erős teljesítményt mutat a GDPval által mért professzionális tudásmunkában, és felveszi a versenyt a GPT‑5.2‑vel. A GDPval olyan értékelés, amelyet az OpenAI 2025-ben adott ki, és amely a modell teljesítményét méri jól meghatározott tudásalapú munkafeladatokban, 44 foglalkozásra kiterjedően. Ezek a feladatok olyan tevékenységeket foglalnak magukban, mint a prezentációk készítése, táblázatok létrehozása és más termékek előállítása.
Az alábbiakban néhány példa látható az ügynök által végzett munkára.
Utasítás + feladat kontextus
GPT-5.3-Codex output

Az OSWorld egy ügynök-alapú számítógép-használati benchmark, ahol az ügynöknek termelékenységi feladatokat kell teljesítenie vizuális asztali számítógépes környezetben. A GPT‑5.3‑Codex sokkal erősebb számítógép-használati képességeket mutat, mint a korábbi GPT modellek.
Az OSWorld-Verifiedben a modellek látásukat használják különféle számítógépes feladatok elvégzésére. A humán pontszám körülbelül 72%.
Ezek az eredmények a kódolás, a frontend, valamint a számítógép-használati és valós feladatok terén azt mutatják, hogy a GPT‑5.3‑Codex nemcsak az egyes feladatokban jobb, hanem lépés az egyetlen, általános célú olyan ügynök felé, amely képes érvelni, építeni és végrehajtani a valós technikai munka teljes spektrumát.
Ahogy a modellek képességei egyre erősebbé válnak, a különbség már nem az ügynökök képességeiben rejlik, hanem abban, mennyire könnyen tudnak az emberek párhuzamosan dolgozó ügynökökkel interakcióba lépni, irányítani és felügyelni őket. A Codex alkalmazás megkönnyíti az ügynökök kezelését és irányítását, és most a GPT‑5.3‑Codex segítségével még interaktívabb. Az új modellel a Codex gyakori frissítéseket biztosít, így mindig naprakész lehetsz a kulcsfontosságú döntésekről és a haladásról, miközben a rendszer dolgozik. Ahelyett, hogy a végső eredményre várnál, valós időben is interakcióba léphetsz—kérdéseket tehetsz fel, megvitathatod a megközelítéseket, és a megoldás felé terelheted a folyamatot. A GPT‑5.3‑Codex elmagyarázza, mit csinál, reagál a visszajelzésekre, és az elejétől a végéig tájékoztat.
Engedélyezd a kormányzást, amíg a modell az alkalmazásban dolgozik a Beállítások > Általános > Utókövetési viselkedés menüpontban.
A Codex legutóbbi gyors fejlesztései olyan kutatási projektek eredményeire építenek, amelyek hónapokon vagy éveken át zajlottak az OpenAI egészében. Ezeket a kutatási projekteket a Codex gyorsítja fel, és számos OpenAI-nál dolgozó kutató és mérnök azt mondja, hogy a mai munkájuk alapvetően különbözik attól, ami két hónappal ezelőtt volt. Már a GPT‑5.3‑Codex korai verziói is kivételes képességeket mutattak, lehetővé téve csapatunk számára, hogy a korábbi verziókkal dolgozzon a képzés fejlesztése és a későbbi verziók bevezetésének támogatása érdekében.
A Codex rendkívül széles körű feladatokra hasznos, ezért nehéz teljes körűen felsorolni, hogyan segíti a csapatainkat. Például a kutatócsoport a Codexet használta a kiadás betanítási futásának monitorozására és hibakeresésére. A kutatást a hibakeresési infrastruktúra problémáin túl is felgyorsította: segített nyomon követni a mintázatokat a teljes tanítási folyamat során, mély elemzést nyújtott az interakció minőségéről, javítási javaslatokat tett, és gazdag alkalmazásokat épített a kutatók számára, hogy pontosan megértsék, hogyan tér el a modell viselkedése a korábbi modellekhez képest.
A mérnöki csapat a Codexet használta a GPT‑5.3‑Codex hevederének optimalizálására és adaptálására. Amikor furcsa, szélsőséges eseteket észleltünk, amelyek a felhasználókat érintették, a csapattagok a Codex-et használták a kontextusmegjelenítési hibák azonosítására és az alacsony gyorsítótár-találati arányok okának feltárására. A GPT‑5.3‑Codex a bevezetés során továbbra is segíti a csapatot azzal, hogy dinamikusan skálázza a GPU-klasztereket a forgalmi kiugrásokhoz való alkalmazkodás érdekében, és stabilan tartja a késleltetést.
Az alfa tesztelés során egy kutató azt szerette volna megérteni, mennyivel több munkát végzett el a GPT‑5.3‑Codex egy-egy lépés alatt, és ez milyen különbséget jelentett a termelékenységben. A GPT‑5.3‑Codex több egyszerű regex osztályozót dolgozott ki a tisztázások, a pozitív és negatív felhasználói válaszok, valamint a feladaton elért előrehaladás gyakoriságának becslésére, majd ezeket skálázható módon lefuttatta az összes munkamenetnaplón, és készített egy jelentést a következtetéssel. A Codex-szel dolgozó személyek boldogabbak voltak, mivel az ügynök jobban megértette a szándékukat, és körönként nagyobb előrehaladást értek el, kevesebb tisztázó kérdéssel.
Mivel a GPT‑5.3‑Codex annyira eltér az elődeitől, az alfa tesztelésből származó adatok számos szokatlan és ellentmondásos eredményt mutattak. A csapat egyik adatelemzője a GPT‑5.3‑Codexszel dolgozott, hogy új adatfolyamatokat építsen, és az eredményeket sokkal gazdagabban vizualizálja, mint amire a szokásos dashboardkészítő eszközeink lehetőséget adtak. Az eredményeket a Codex-szel közösen elemezték, amely tömören összefoglalta a legfontosabb felismeréseket több ezer adatpont alapján kevesebb, mint három perc alatt.
Minden egyes feladat érdekes példa arra, hogyan segíthet a Codex a kutatóknak és a termékfejlesztőknek. Ezeket együttesen nézve azt találtuk, hogy ezek az új képességek erőteljesen felgyorsították a kutatási, mérnöki és termékcsapataink munkáját.
Az elmúlt hónapokban jelentős javulást tapasztaltunk a modellek teljesítményében a kiberbiztonsági feladatok terén, ami mind a fejlesztők, mind a biztonsági szakemberek számára előnyös. Ezzel párhuzamosan megerősített kiberbiztonsági intézkedéseket készítünk elő a védekező célú felhasználás támogatására és a szélesebb ökoszisztéma ellenálló képességének növelésére.
A GPT‑5.3‑Codex az első modell, amelyet a kiberbiztonsággal kapcsolatos feladatokhoz magas képességűnek minősítünk a Felkészültségi keretrendszer keretében, és az első, amelyet közvetlenül a szoftveres sebezhetőségek azonosítására képeztünk ki. Bár nincs egyértelmű bizonyíték arra, hogy képes lenne teljes körűen automatizálni a kibertámadásokat, elővigyázatossági megközelítést alkalmazunk, és bevetjük eddigi legteljesebb kiberbiztonsági védelmi rendszerünket. A kockázatcsökkentő intézkedéseink közé tartozik a biztonsági képzés, az automatizált felügyelet, a megbízható hozzáférés a fejlett képességekhez, valamint a végrehajtási folyamatok, beleértve a fenyegetésfelderítést.
Mivel a kiberbiztonság természeténél fogva kettős felhasználású, bizonyítékokra épülő, iteratív megközelítést alkalmazunk, amely gyorsítja a védelmezők képességét a sebezhetőségek felderítésére és javítására, miközben lassítja a visszaéléseket. Ennek részeként elindítjuk a Trusted Access for Cyber programot, a kibervédelmi kutatás felgyorsítására irányuló kísérleti programot.
Befektetünk az ökoszisztéma védelmébe, például a Aardvark privát bétájának bővítésével, a biztonsági kutatóügynökünkkel, amely a Codex Security termék- és eszközkészletünk első ajánlata, valamint együttműködünk open-source karbantartókkal, hogy ingyenes kódbázis-ellenőrzést biztosítsunk széles körben használt projektekhez, például a Next.js-hez—ahol egy biztonsági kutató a Codex segítségével találta meg a múlt héten nyilvánosságra hozott(új ablakban nyílik meg) sebezhetőségeket.
A 2023-ban indított 1 millió dolláros Kiberbiztonsági Támogatási Programunkra építve most 10 millió dollárnyi API-jóváírást biztosítunk, hogy felgyorsítsuk a kibervédelmet a legfejlettebb modelljeink segítségével, különösen az open source szoftverek és a kritikus infrastruktúrák védelmében. A jóhiszemű biztonsági kutatást végző szervezetek API-kreditekre és támogatásra pályázhatnak a Kiberbiztonsági Támogatási Programunk keretében.
A GPT‑5.3‑Codex a fizetős ChatGPT csomagokkal érhető el mindenhol, ahol a Codexet használhatod: az alkalmazásban, a CLI-ben, az IDE-bővítményben és a weben. Igyekszünk, hogy hamarosan biztonságosan elérhetővé tegyük az API-hozzáférést.
Ezzel a frissítéssel most már a GPT‑5.3‑Codexet is a Codex felhasználóknak 25%-kal gyorsabban futtatjuk, köszönhetően az infrastruktúránk és az inferenciális rendszerünk fejlesztéseinek, ami gyorsabb interakciókat és gyorsabb eredményeket eredményez.
A GPT‑5.3‑Codexet az NVIDIA GB200 NVL72 rendszerekre tervezték, azokon képezték ki, és azokon futtatják. Hálásak vagyunk az NVIDIA-nak a partnerségért.
A GPT‑5.3‑Codexszel a Codex túllép a kódíráson, és eszközként használja a számítógép működtetésére és a munka teljes körű elvégzésére. Azáltal, hogy kitoljuk annak a határait, mire képes egy kódoló ügynök, új lehetőségeket nyitunk a tudásalapú munkák terén—a szoftverek fejlesztésétől és telepítésétől kezdve a kutatáson és elemzésen át egészen a bonyolult feladatok végrehajtásáig. A kezdetben csupán a legjobb kódoló ügynök megalkotására fókuszáló projekt mára egy általános számítógépes munkatárssá nőtte ki magát, lehetővé téve több ember számára a fejlesztést, és kibővítve, mi minden valósítható meg a Codex segítségével.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8% | 56,4% | 55,6% |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (győzelmek vagy döntetlenek) | 70,9% | - | 70,9% (high) |
Kiberbiztonsági Capture the Flag kihívások | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


