Ugrás a fő tartalomra
OpenAI

2025. november 19.

TermékKiadás

Építs többet a GPT‑5.1‑Codex‑Max segítségével

Betöltés…

Bevezetés

Bemutatjuk a GPT‑5.1‑Codex‑Maxot, az új, élvonalbeli, ügynöki működésű kódolási modellünket, amely ma elérhető a Codexben.  A GPT‑5.1‑Codex‑Max egy frissítésre épül az alapvető gondolkodási modellünkre, amelyet ügynöki feladatokra képeztek ki a szoftverfejlesztés, matematika, kutatás és más területeken. A GPT‑5.1‑Codex‑Max gyorsabb, intelligensebb és tokenhatékonyabb a fejlesztési ciklus minden szakaszában – és egy új lépés afelé, hogy megbízható kódolópartnerré váljon.

A GPT‑5.1‑Codex‑Max hosszú távú, részletes munkavégzésre készült. Ez az első modellünk, amelyet natívan képeztünk ki arra, hogy több kontextusablakon működjön egy kompaktálásnak nevezett folyamaton keresztül, amely egyetlen feladaton belül több millió tokenen dolgozik koherensen. Ez lehetővé teszi a projektszintű refaktorálásokat, mély hibakeresési munkameneteket és többórás ügynökciklusokat.

A GPT‑5.1‑Codex‑Max ma elérhető a Codexben CLI, IDE kiterjesztés, felhő- és kódfelülvizsgálat céljára, és hamarosan elérhető lesz az API hozzáférés is.

Úttörő kódolási képességek

A GPT‑5.1‑Codex‑Maxot valós szoftvermérnöki feladatokra képezték ki, mint például PR-készítés, kódáttekintés, frontend fejlesztés és kérdés-válasz (Q&A) feladatok, és sok élvonalbeli kódolási értékelésben felülmúlta korábbi modelljeinket. A modell benchmarkokon elért eredményei a valós használatban is javulást hoznak: a GPT‑5.1‑Codex‑Max az első modell, amelyet Windows környezetekben való működésre betanítása, és a modell betanítása most olyan feladatokat is tartalmaz, amelyek célja, hogy jobb együttműködő legyen a Codex CLI-ben.

* Minden kiértékelést extra nagy gondolkodási ráfordítással, tömörítés engedélyezése mellett végeztünk.
* A Terminal-Bench2.0 a Codex CLI-vel futott a
Laude Institute Harbor környezetben(új ablakban nyílik meg)

Sebesség és költség

A GPT‑5.1‑Codex‑Max jelentős javulást mutat a tokenhatékonyságban a hatékonyabb érvelésnek köszönhetően. Az SWE-bench által igazolt verzión a GPT‑5.1‑Codex‑Max „közepes” érvelési erőfeszítéssel jobb teljesítményt ér el, mint a GPT‑5.1‑Codex ugyanazzal az érvelési erőfeszítéssel, miközben 30%-kal kevesebb gondolkodási tokent használ. A nem késésérzékeny feladatokhoz bevezetünk egy új Extra High ('xhigh') gondolkodási szintet is, amely még hosszabb ideig gondolkodik a jobb válasz érdekében. A legtöbb feladathoz továbbra is napi használatra a közepes szintet ajánljuk.

Arra számítunk, hogy a token hatékonyságának javítása valós megtakarításokat fog eredményezni a fejlesztők számára.

Például a GPT‑5.1‑Codex‑Max képes kiváló minőségű frontend dizájnokat készíteni hasonló funkcionalitással és esztétikával, de sokkal alacsonyabb költséggel, mint a GPT‑5.1‑Codex.

Utasítás: Készíts egy önálló, egyfájlos böngészőalkalmazást, amely megjelenít egy interaktív CartPole RL környezetet vászongrafikával, egy apró policy-gradient alapú vezérlővel, mérőszámokkal és egy SVG-alapú hálózatvizualizálóval.

Jellemzők

  • Képesnek kell lennie ténylegesen betanítani egy policy-t, hogy a modell jobb legyen a cart-pole feladatban.
  • Aktivációk/súlyok vizualizálója, amikor a modell betanít vagy következtetést végez.
  • Lépések az epizódban, jutalmak ebben az epizódban
  • Utolsó túlélési idő és legjobb túlélési idő lépésekben

Mentés az index.html fájlba

Hosszú ideig tartó feladatok

Az engedélyezés lehetővé teszi, hogy a GPT‑5.1‑Codex‑Max olyan feladatokat hajtson végre, amelyek korábban a kontextusablak-korlátok miatt kudarcot vallottak volna, mint például a bonyolult refaktorálások és a hosszú lefutású ügynöki ciklusok, azáltal, hogy az előzményeket megnyesi, miközben a legfontosabb kontextust hosszú távon megőrzi. A Codex alkalmazásokban a GPT‑5.1‑Codex‑Max automatikusan tömöríti a munkamenetét, amikor közeledik a kontextusablak korlátjához, új kontextusablakot biztosítva neki. Ezt a folyamatot addig ismétli, amíg a feladat el nem készül.

A hosszú távú, koherens munka fenntartás AI-rendszerek felé vezető úton. GPT‑5.1‑Codex‑Max Képes órákon át önállóan dolgozni. Belső értékeléseink során megfigyeltük a GPT‑5.1‑Codex‑Max több mint 24 órán át dolgozz a feladatokon. Folyamatosan iterál a megvalósításán, kijavítja a teszthibákat, és végül sikeres eredményt ér el.

Ebben a példában a GPT‑5.1‑Codex‑Max önállóan refaktorálja a Codex CLI nyílt forráskódú adattárat.

Ahogy a munkamenet hossza közelít a modell kontextusablakához, automatikusan tömöríti a munkamenetet, hogy helyet szabadítson fel a feladat folytatásához anélkül, hogy a haladás elveszne.

A videót megvágtuk és felgyorsítottuk az egyértelműség érdekében.

Biztonságos és megbízható AI-ügynökök létrehozása

A GPT‑5.1‑Codex‑Max jelentősen jobban teljesít azokon az értékeléseken, amelyek tartós, hosszú távú érvelést igényelnek. Mivel képes koherensen működni több kontextusablakon keresztül tömörítés alkalmazásával, a modell javított eredményeket nyújt olyan területeken, mint a hosszú távú kódolás és a kiberbiztonság kihívásai. Elemeztük ennek a modellnek a teljesítményét az első és harmadik fél általi értékeléseken a GPT‑5.1‑Codex‑Max rendszerkártya keretében.

A GPT‑5.1‑Codex‑Max nem éri el a magas szintű kiberbiztonsági képességet a Felkészültségi Keretrendszerünkben , de ez a legképzettebb kiberbiztonsági modell, amelyet eddig bevezettünk, és az ügynökségi kiberbiztonsági képességek gyorsan fejlődnek. Ennek eredményeként lépéseket teszünk a kiberbiztonság magas szintű képességeire való felkészülés érdekében, fokozzuk a kiberbiztonsági védelmi intézkedéseinket, és azon dolgozunk, hogy a védők élvezhessék ezekből a továbbfejlesztett képességekből származó előnyöket az olyan programok révén, mint az Aardvark.

Amikor elindítottuk a GPT‑5‑Codexet, dedikált kiberbiztonsági monitorozást vezettünk be a rosszindulatú tevékenységek észlelésére és megzavarására. Bár nem tapasztaltunk érdemi növekedést a méretezett visszaélések terén, további enyhítő intézkedéseket készítünk elő a fejlett képességekhez. Csapataink már meghiúsították a modelljeinkkel való visszaélésre irányuló kiberműveleteket, és a gyanús tevékenységeket a szabályzatfigyelő rendszereinken keresztül felülvizsgálatra irányítjuk.

A Codex alapértelmezett szerint biztonságos sandboxban fut: a fájlírás korlátozott a munkaterületén, és a hálózati hozzáférés le van tiltva, hacsak egy fejlesztő nem engedélyezi azt. Javasoljuk, hogy a Codex ebben a korlátozott hozzáférésű módban maradjon, mivel az internetes vagy webes keresés engedélyezése utasítás-befecskendezés kockázatokat vezethet be bizalmatlan tartalomból.

Ahogy a Codex egyre alkalmasabbá válik a hosszú távú feladatokra, egyre fontosabbá válik a fejlesztők számára, hogy áttekintsék az ügynök munkáját, mielőtt módosításokat végeznének vagy éles környezetbe telepítenék. Ennek elősegítésére a Codex terminálnaplókat készít, és megadja az eszközhívásait és teszteredményeit. Miközben a kódellenőrzések csökkentik a modell vagy ember által okozott hibák éles környezetbe való telepítésének kockázatát, a Codexet további felülvizsgálóként kell kezelni, nem pedig az emberi ellenőrzések helyettesítőjeként.

A kiberbiztonsági képességek védekezésre és támadásra egyaránt használhatók, ezért iteratív telepítési megközelítést alkalmazunk: tanulunk a valós felhasználási körülményekből, frissítjük a védelmi intézkedéseket, és megőrizzük a fontos védelmi eszközöket, mint például az automatikus sebezhetőség-ellenőrzést és a javítási segítséget.

Elérhetőség

A GPT‑5.1‑Codex‑Max elérhető a Codexben a ChatGPT Plus, Pro, Business, Edu és Enterprise tervekben. A tervedre vonatkozó használati korlátok működéséről részleteket a dokumentációnkban(új ablakban nyílik meg) olvashatsz.

Azoknak a fejlesztőknek, akik API-kulcson keresztül használják a Codex CLI-t, tervezzük, hogy elérhetővé tesszük a GPT‑5.1‑Codex‑Maxot, ami hamarosan elérhető lesz az API-ban.

Mától a GPT‑5.1‑Codex‑Max váltja fel a GPT‑5.1‑Codexet alapértelmezett modellként a Codex felületeken. A GPT‑5.1‑től eltérően, amely egy általános célú modell, javasoljuk a GPT‑5.1‑Codex‑Max használatát és a Codex modellcsaládot csak ügynöki kódolási feladatokhoz használják Codex vagy Codex-szerű környezetekben.

Következtetés

A GPT‑5.1‑Codex‑Max megmutatja, hogy a modellek milyen messzire jutottak a hosszú távú kódolási feladatok fenntartásában, a komplex munkafolyamatok kezelésében, és a kevesebb tokennel történő, magas minőségű implementációk előállításában. Láttuk, hogy a modell a CLI, az IDE-bővítmény, a felhőintegráció és a kódellenőrző eszközök folyamatos fejlesztéseivel kombinálva rendkívüli mérnöki termelékenységet eredményez: belsőleg az OpenAI mérnökeinek 95%-a hetente használja a Codexet, és ezek a mérnökök körülbelül 70%-kal több pull requestet adnak le a Codex bevezetése óta. Ahogy az ügynökök képességeinek határait feszegetjük, izgatottan várjuk, hogy mit fogsz velük építeni.

Függelék: Modellértékelések

GPT‑5.1‑Codex (magas)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Ellenőrzött (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Szerző

OpenAI