Tutvustame GPT‑5.1‑Codex‑Maxi, meie uut tipptasemel agentset kodeerimismudelit, mis on Codexis täna saadaval. GPT‑5.1‑Codex‑Max on loodud meie põhiloogika mudeli uuendusele, mida on treenitud agentpõhiste ülesannetega tarkvaratehnikat, matemaatika, teadusuuringute jms valdkonnas. GPT‑5.1‑Codex‑Max on arendustsükli igas etapis kiirem, intelligentsem ja tokenitõhusam – ning see on uus samm usaldusväärseks kodeerimispartneriks saamisel.
GPT‑5.1‑Codex‑Max on loodud pikaajaliseks ja üksikasjalikuks tööks. Tegemist on meie esimese mudeliga, mis on baasõpet saanud mitmes kontekstiaknas tegutsemiseks. See toimub tihendamise teel, mis võimaldab mudelil töötada ühe ülesande piires sidusalt miljonite tokenitega.. See avab võimalused projektitasandi refaktoreerimiseks, põhjalikeks silumiseanssideks ja mitmetunnisteks agentpõhisteks tsükliteks.
GPT‑5.1‑Codex‑Max on Codexi platvormil juba täna kättesaadav kasutamiseks käsureal (CLI), arenduskeskkonna (IDE) laiendusena, pilveteenustes ja koodide ülevaatamiseks; ligipääsu API kaudu on oodata varsti.
GPT‑5.1‑Codex‑Maxi treeniti reaalsete tarkvaraarendustööde käigus (nt PRi loomine, koodiretsenseerimine, front-end-kodeerimine ja K&V) ning on paljudes eesrindlikes kodeerimistestides meie varasematest mudelitest parem. Mudeli paremad tulemused võrdlustestides parandavad ka selle kasutust igapäevases töös: GPT‑5.1‑Codex‑Max on esimene Windowsi keskkondade jaoks treenitud mudel ning selle väljaõpe sisaldab nüüd ülesandeid, mis teevad sellest parema koostööpartneri Codexi CLI-s.
* Kõik hindamised viidi läbi sisselülitatud tihendamisega ja „eriti kõrge“ (Extra High) arutluspingutusega
* Terminal-Bench2.0 käivitati Codex CLI abil Laude Instituudi Harbori testraamistikus(avaneb uues aknas)
GPT‑5.1‑Codex‑Max on märkimisväärselt tõhusam tokenite kasutamisel tänu paremale arutlusvõimele. Võrdlusnäitajal SWE-bench Verified näitas GPT‑5.1‑Codex‑Max keskmise arutlustasemega GPT‑5.1‑Codexist paremat sooritusvõimet, kasutades sealjuures 30% vähem analüüsitokeneid. Ülesannete puhul, kus viivitus ei ole kriitiline tegur, võtame kasutusele ka uut Extra High ('xhigh') arutluspüüdluse, mis pikendab mõtlemisaega parema vastuse saamiseks.. Enamiku tööülesannete jaoks soovitame põhirežiimina siiski keskmist seadistust.
Tokeni ökonoomia paranemine peaks meie hinnangul tooma arendajatele praktilist rahalist kokkuhoidu.
Näiteks suudab GPT‑5.1‑Codex‑Max luua sarnase funktsionaalsuse ja visuaalse esteetikaga tippkvaliteediga front-end-lahendusi, tehes seda tunduvalt odavamalt kui GPT‑5.1‑Codex.
Viip: loo üks iseseisev brauserirakendus, mis visualiseerib interaktiivse CartPole RLi liivakasti, kasutades canvas-graafikat, väikest poliitika-gradiendi kontrollerit, mõõdikuid ja SVG-võrgu visualiseerijat.
Funktsioonid
Rakendus peab suutma poliitikat treenida nii, et mudel CartPole'i tasakaalustamise ülesannet paremini täidaks.Visualiseerimisvahend, mis näitab aktivatsioone ja kaalusid mudeli treeningu või kasutamise ajal.Sammud episoodis, tasu selles episoodisViimane ellujäämisaeg ja parim ellujäämisaeg sammude kaupa
Salvesta index.html-i
Tihendamine võimaldab GPT‑5.1‑Codex‑Maxil täita ülesandeid, mis oleksid varem kontekstiakna piirangute tõttu ebaõnnestunud (nt keerulised refaktoreerimised ja pikaajalised agentpõhised tsüklid), kärpides ajalugu ja säilitades samal ajal olulise konteksti pika aja vältel. Codexi rakendustes tihendab GPT‑5.1‑Codex‑Max oma seansi automaatselt, kui see läheneb kontekstiakna piirile, andes talle uue kontekstiakna. See kordab seda protsessi, kuni ülesanne on lõpule viidud.
Võime säilitada sidusat tööd pikkade ajahorisontide jooksul on fundamentaalne võimekus teel üldisemate ja usaldusväärsemate AI süsteemide poole. GPT‑5.1‑Codex‑Max võib tundide kaupa iseseisvalt töötada. Meie sisehindamiste käigus täheldasime, et GPT‑5.1‑Codex‑Max töötas ühe ülesande kallal kauem kui 24 tundi. Mudel tegeleb püsivalt oma implementatsiooni iteratsiooniga, korrigeerib testi ebaõnnestumisi ja saavutab lõpuks eduka tulemi.
Selles näites refaktoreerib GPT‑5.1‑Codex‑Max iseseisvalt Codex CLI avatud lähtekoodiga repositooriumi.
Kui sessiooni pikkus läheneb mudeli kontekstiakna piirile, tihendab see automaatselt sessiooni, et vabastada ruumi ülesande jätkamiseks ilma senist progressi kaotamata.
Selguse huvides on videot lühendatud ja kiirendatud.
GPT‑5.1‑Codex‑Max saavutab tunduvalt paremaid tulemusi hindamistes, mis nõuavad püsivat ja pikaajalist arutlusvõimet. Kuna mudel suudab tänu tihendamisele töötada sidusalt üle mitme kontekstiakna, pakub see paremaid lahendusi sellistes väljakutsetes nagu mahukad programmeerimisülesanded ja küberturvalisus. Analüüsisime selle mudeli sooritust nii enda kui ka kolmandate osapoolte poolt läbi viidud hindamistes, mis puudutasid GPT‑5.1‑Codex‑Maxi. süsteemikaart.
Meie valmisolekuraamistiku kohaselt ei saavuta GPT‑5.1‑Codex‑Max küberturvalisuses küll veel „kõrget“ taset, kuid tegemist on siiski kõige võimekama küberturbemudeliga, mille oleme seni avaldanud, ning agentsed võimed selles vallas arenevad kiiresti. Seetõttu teeme ettevalmistusi „kõrge“ võimekuse tasemeks, tõhustades kaitsemeetmeid küberruumis ja töötades selle nimel, et kaitsjad saaksid neist täiustatud võimalustest kasu selliste programmide nagu Aardvark kaudu.
GPT‑5‑Codexi turuletoomisel rakendasime spetsiaalset küberturbe seiret, et tuvastada ja tõkestada pahatahtlikku tegevust. Kuigi me ei ole täheldanud mastaapse kuritarvitamise märkimisväärset kasvu, valmistame ette täiendavaid kaitsemeetmeid seoses mudeli arenenumate võimetega. Meie meeskonnad on juba tõkestanud küberoperatsioone, mille käigus püüti meie mudeleid väärkasutada, ning kahtlane tegevus suunatakse kontrollimiseks meie reeglite seiresüsteemidesse.
Codex on loodud töötama vaikimisi turvalises liivakastis: failide kirjutamine on piiratud vaid selle tööalaga ning võrgujuurdepääs on keelatud, kui arendaja seda ise sisse ei lülita. Soovitame hoida Codexi selles piiratud režiimis, kuna interneti- või veebiotsingu lubamine võib endaga kaasa tuua ebausaldusväärsest sisust tingitud viipasüstimise riske.
Kuna Codex muutub pikaajaliste ülesannete täitmisel üha võimekamaks, on äärmiselt oluline, et arendajad vaataksid agendi töö üle enne muudatuste tegemist või lahenduse tootmisse viimist. Selle hõlbustamiseks genereerib Codex terminalilogisid ning viitab tehtud tööriistakutsetele ja testitulemustele. Kuigi selle teostatud koodiülevaatused vähendavad riski, et tootmisse satuvad mudeli või inimese tekitatud vead, tuleks Codexisse suhtuda kui täiendavasse ülevaatajasse, mitte kui inimkontrolli asendajasse.
Kuna küberturbe võimekusi saab kasutada nii kaitseks kui ka ründeks, läheneme me kasutuselevõtule iteratiivselt: õpime reaalsest kasutusest, ajakohastame turvameetmeid ning säilitame olulised kaitsevahendid, nagu automaatne haavatavuste skannimine ja abi nende kõrvaldamisel.
GPT‑5.1‑Codex‑Max on Codexis saadaval pakettidega ChatGPT Plus, Pro, Business, Edu ja Enterprise. Täpsemat teavet teie paketile kehtivate kasutuspiirangute kohta leiate meie dokumentatsioonist(avaneb uues aknas).
Arendajatele, kes kasutavad Codex CLI-d API võtmega, plaanime GPT‑5.1‑Codex‑Maxi peagi API kaudu kättesaadavaks teha.
Alates tänasest asendab GPT‑5.1‑Codex‑Max Codexi keskkondades vaikimisi mudelina senise GPT‑5.1‑Codexi. Erinevalt GPT‑5.1‑st, mis on üldotstarbeline mudel, soovitame GPT‑5.1‑Codex‑Maxi ja Codexi mudelite perekonda kasutada vaid agentseteks programmeerimisülesanneteks Codexis või sellega sarnastes keskkondades.
GPT‑5.1‑Codex‑Max näitab ilmekalt, kui kaugele on mudelid arenenud pikaajaliste programmeerimisülesannete täitmisel, keerukate töövoogude haldamisel ja kvaliteetsete lahenduste loomisel, kasutades seejuures tunduvalt vähem märke (tokeneid). Oleme näinud, kuidas see mudel koos meie käsurea (CLI), arenduskeskkonna (IDE) laienduste, pilveintegratsiooni ja koodiülevaatuse tööriistade pideva uuendamisega on inseneride tootlikkust hüppeliselt tõstnud: meie ettevõttes kasutab Codexi iganädalaselt 95% inseneridest ja pärast Codexi kasutuselevõttu esitavad nad ligikaudu 70% rohkem tõmbepäringuid (pull requests). Nihutades agentide võimekuse piire, ootame põnevusega, mida te nende abil loote.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-benchi kinnitatud (n=500) | 73,7% | 77,9% |
SWE-Lancer IC SWE | 66,3% | 79,9% |
Terminal-Bench 2.0 | 52,8% | 58,1% |


