Pristatome „GPT‑5.1‑Codex‑Max“, mūsų naująjį pažangų agentinį kodavimo modelį, jau šiandien prieinamą „Codex“ aplinkoje. „GPT‑5.1‑Codex‑Max“ sukurtas atnaujinus mūsų bazinį samprotavimo modelį, mokytą atlikti agentines užduotis programų inžinerijos, matematikos, tyrimų ir kitose srityse. „GPT‑5.1‑Codex‑Max“ veikia greičiau, yra pažangesnis ir taupiau naudoja prieigos raktus visuose kūrimo ciklo etapuose – tai naujas žingsnis tampant patikimu kodavimo partneriu.
„GPT‑5.1‑Codex‑Max“ sukurtas ilgai trunkantiems, detaliems darbams. Tai pirmasis mūsų modelis, iš esmės išmokytas veikti per kelis konteksto langus naudojant procesą, vadinamą glaudinimu, ir gebantis nuosekliai apdoroti milijonus prieigos raktų vienoje užduotyje. Tai leidžia atlikti projekto masto pertvarkymus, gilius klaidų taisymo seansus ir vykdyti kelias valandas trunkančius agentų ciklus.
„GPT‑5.1‑Codex‑Max“ jau šiandien prieinamas „Codex“ ir gali būti naudojamas CLI, IDE plėtinyje, debesyje bei kodo peržiūrai, o netrukus bus suteikta ir prieiga per API.
„GPT‑5.1‑Codex‑Max“ buvo mokomas atliekant realias programų inžinerijos užduotis, pavyzdžiui, kuriant PR, peržiūrint kodą, programuojant naudotojo sąsają bei atsakant į klausimus, todėl daugelyje pažangių kodavimo vertinimų lenkia ankstesnius mūsų modelius. Modelio pasiekimai lyginamosiose analizėse lemia geresnį pritaikymą realioje veikloje: „GPT‑5.1‑Codex‑Max“ yra pirmasis modelis, kurį išmokėme veikti „Windows“ aplinkoje, o į modelio mokymą dabar įtrauktos užduotys, skirtos pagerinti bendradarbiavimą „Codex“ CLI.
* Visi vertinimai atlikti įjungus glaudinimą ir pasirinkus ypač dideles samprotavimo pastangas
* „Terminal-Bench 2.0“ veikė su „Codex“ CLI „Laude Institute Harbor“ sistemoje(atsidaro naujame lange)
„GPT‑5.1‑Codex‑Max“ demonstruoja ženkliai didesnį prieigos raktų naudojimo efektyvumą dėl veiksmingesnio samprotavimo. „SWE-bench Verified“ teste „GPT‑5.1‑Codex‑Max“ su „medium“ samprotavimo pastangomis pasiekia geresnių rezultatų nei „GPT‑5.1‑Codex“ dedant tiek pat pastangų, tačiau sunaudojant 30 proc. mažiau galvojimo prieigos raktų. Užduotims, kurioms delsos laikas nėra svarbus, taip pat pristatome naują ypač didelių („xhigh“) samprotavimo pastangų lygį – tuomet atsakymo ieškoma dar ilgiau, siekiant geresnio rezultato. Kasdieniam daugumos užduočių atlikimui vis tiek rekomenduojame rinktis „medium“ lygį.
Tikimės, kad padidėjęs prieigos raktų efektyvumas programuotojams padės realiai sutaupyti.
Pavyzdžiui, „GPT‑5.1‑Codex‑Max“ gali sukurti aukštos kokybės naudotojo sąsajos projektus su panašiu funkcionalumu ir estetika, tačiau daug mažesnėmis sąnaudomis nei „GPT‑5.1‑Codex“.
Raginimas: sukurk vieną savarankišką naršyklės programą, atvaizduojančią interaktyvią „CartPole“ RL „sandbox“ aplinką su „canvas“ grafika, mažu politikos gradiento valdikliu, metrika ir SVG tinklo vizualizavimo priemone.
Funkcijos
Turi būti įmanoma iš tikrųjų mokyti politiką, kad modelis geriau valdytų „CartPole“Aktyvavimų / svorių vizualizavimo priemonė modeliui mokantis arba modelio vykdymo metuSerijos žingsniai, šios serijos atlygisPaskutinis išgyvenimo laikas ir geriausias išgyvenimo laikas žingsniais
Įrašyti į „index.html“
Dėl glaudinimo „GPT‑5.1‑Codex‑Max“ gali atlikti užduotis, kurios anksčiau būtų nepavykusios dėl konteksto lango apribojimų, pavyzdžiui, sudėtingus pertvarkymus ir ilgus agentų ciklus, nes istorija apkarpoma išsaugant svarbiausią kontekstą ilgais laikotarpiais. „Codex“ programose „GPT‑5.1‑Codex‑Max“ automatiškai suglaudina seansą artėjant prie konteksto lango ribos, taip suteikdamas naują konteksto langą. Šis procesas kartojamas, kol užduotis atliekama.
Gebėjimas išlaikyti nuoseklų darbą ilgą laiką yra bazinė savybė, vedanti link bendresnių, patikimų DI sistemų. GPT‑5.1‑Codex‑Max gali savarankiškai dirbti kelias valandas be pertraukos. Atlikdami vidaus vertinimus stebėjome, kaip „GPT‑5.1‑Codex‑Max“ dirba su užduotimis ilgiau nei 24 valandas. Jis nuolat kartoja įgyvendinimo veiksmus, taiso testų nesėkmes ir galiausiai pateikia sėkmingą rezultatą.
Šiame pavyzdyje „GPT‑5.1‑Codex‑Max“ savarankiškai pertvarko „Codex“ CLI atvirojo kodo saugyklą.
Seanso trukmei artėjant prie modelio konteksto lango ribos, seansas automatiškai suglaudinamas, kad atsilaisvintų vietos užduočiai tęsti neprarandant eigos.
Vaizdo įrašas apkirptas ir pagreitintas dėl aiškumo.
„GPT‑5.1‑Codex‑Max“ rezultatai žymiai geresni vertinimuose, kuriuose reikia tvaraus, ilgalaikio samprotavimo. Kadangi naudojant glaudinimą modelis gali nuosekliai veikti per kelis konteksto langus, pasiekiami geresni rezultatai tokiose srityse kaip ilgalaikis kodavimas ir kibernetinis saugumas. Šio modelio veikimo rezultatus pirmosios ir trečiosios šalies vertinimuose išanalizavome „GPT‑5.1‑Codex‑Max“ sistemos kortelėje.
„GPT‑5.1‑Codex‑Max“ nepasiekia „High“ (didelio) pajėgumo kibernetinio saugumo srityje pagal mūsų Pasirengimo sistemą, tačiau tai yra pajėgiausias iki šiol mūsų įdiegtas kibernetinio saugumo modelis, o agentinės kibernetinio saugumo galimybės sparčiai vystosi. Dėl to imamės veiksmų pasiruošti „High“ pajėgumui kibernetinio saugumo srityje, stipriname apsaugos priemones kibernetinėje erdvėje ir siekiame užtikrinti, kad gynėjai galėtų pasinaudoti šiomis patobulintomis galimybėmis per tokias programas kaip „Aardvark“.
Paleidę „GPT‑5‑Codex“, įdiegėme specialią kibernetinio saugumo stebėseną kenkėjiškai veiklai aptikti ir nutraukti. Nors nepastebėjome reikšmingo piktnaudžiavimo masto padidėjimo, rengiame papildomas priemones pažangioms galimybėms suvaldyti. Mūsų komandos jau nutraukė kibernetines operacijas, kuriomis bandyta piktnaudžiauti mūsų modeliais, o įtartina veikla nukreipiama peržiūrai per mūsų politikos stebėsenos sistemas.
„Codex“ modelis sukurtas veikti saugioje izoliuotoje aplinkoje: failų įrašymas ribojamas tik darbo vietoje, o tinklo prieiga išjungta, nebent programuotojas ją įjungia. Rekomenduojame palikti „Codex“ šiame ribotos prieigos režime, nes įjungus internetą ar žiniatinklio paiešką gali kilti raginimo įterpimo iš nepatikimo turinio rizika.
„Codex“ tampant vis pajėgesniam atlikti ilgai trunkančias užduotis, programuotojams vis svarbiau peržiūrėti agento darbą prieš atliekant pakeitimus ar diegiant į gamybą. Tam „Codex“ pateikia terminalo žurnalus ir cituoja savo įrankių iškvietimus bei testų rezultatus. Nors kodo peržiūros mažina riziką į gamybą įdiegti modelio arba žmogaus padarytas klaidas, „Codex“ turėtų būti vertinamas kaip papildomas tikrintojas, o ne žmogaus atliekamos peržiūros pakaitalas.
Kibernetinio saugumo galimybės gali būti naudojamos tiek gynybai, tiek puolimui, todėl taikome iteracinį diegimo metodą: mokomės iš realaus naudojimo, atnaujiname apsaugos priemones ir išsaugome svarbius gynybos įrankius, tokius kaip automatinis pažeidžiamumų nuskaitymas ir pagalba šalinant problemas.
„GPT‑5.1‑Codex‑Max“ prieinamas „Codex“ su „ChatGPT Plus“, „Pro“, „Business“, „Edu“ ir „Enterprise“ planais. Daugiau informacijos apie jūsų planui taikomus naudojimo apribojimus rasite mūsų dokumentuose(atsidaro naujame lange).
Programuotojams, naudojantiems „Codex“ CLI su API raktu, planuojame netrukus suteikti „GPT‑5.1‑Codex‑Max“ per API.
Nuo šiandien „Codex“ aplinkose „GPT‑5.1‑Codex‑Max“ pakeis „GPT‑5.1‑Codex“ ir taps numatytuoju modeliu. Skirtingai nei bendrosios paskirties modelį „GPT‑5.1“, „GPT‑5.1‑Codex‑Max“ ir „Codex“ grupės modelius rekomenduojame naudoti tik agentinėms kodavimo užduotims „Codex“ arba į „Codex“ panašiose aplinkose.
„GPT‑5.1‑Codex‑Max“ parodo, kiek pažengė modeliai vykdydami ilgalaikes kodavimo užduotis, valdydami sudėtingus darbo srautus ir kurdami aukštos kokybės įgyvendinimus su daug mažiau prieigos raktų. Pastebėjome, kad modelis kartu su nuolatiniais CLI, IDE plėtinio, debesies integracijos ir kodo peržiūros įrankių atnaujinimais labai padidino inžinerijos našumą: įmonės viduje 95 proc. „OpenAI“ inžinierių naudoja „Codex“ kas savaitę, o pradėję naudoti „Codex“ šie inžinieriai pateikia maždaug 70 proc. daugiau išsiuntimo užklausų. Mums plečiant agentų galimybių ribas, nekantraujame pamatyti, ką su jais sukursite.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


