Մենք ներկայացնում ենք GPT‑5.1‑Codex‑Max‑ը, մեր նոր առաջատար գործակալական կոդավորման մոդելը, որը հասանելի է Codex-ում այսօր։ GPT‑5.1‑Codex‑Max‑ը կառուցված է մեր հիմնարար դատողության մոդելի թարմացման վրա, որը պատրաստված է ծրագրային ապահովման ճարտարագիտության, մաթեմատիկայի, հետազոտության և այլ ոլորտներում գործակալական առաջադրանքների վրա։ GPT‑5.1‑Codex‑Max‑ը ավելի արագ է, ավելի խելացի և ավելի արդյունավետ token-ների օգտագործման առումով մշակման ցիկլի յուրաքանչյուր փուլում՝ և նոր քայլ դեպի հուսալի կոդավորման գործընկեր դառնալու ուղղությամբ։
GPT‑5.1‑Codex‑Max‑ը նախատեսված է երկարատև, մանրամասն աշխատանքի համար։ Սա մեր առաջին մոդելն է, որը բնիկ կերպով մարզվել է աշխատելու բազմաթիվ համատեքստային պատուհանների միջով՝ սեղմում կոչվող գործընթացի միջոցով, որը համահունչ կերպով աշխատում է միլիոնավոր տոկենների վրա մեկ առաջադրանքի շրջանակներում։ Սա հնարավորություն է տալիս նախագծի մասշտաբի վերափոխումներ, խորը աշխատանքաշրջաններ և բազմաժամյա ագենտի ցիկլեր։
GPT‑5.1‑Codex‑Max‑ը Codex-ում հասանելի է այսօր՝ CLI-ում, IDE ընդլայնման, ամպային տեխնոլոգիաների և կոդի վերանայման համար, իսկ API-ի հասանելիությունը շուտով հասանելի կլինի։
GPT‑5.1‑Codex‑Max‑ը վերապատրաստվել է իրական աշխարհի ծրագրային ապահովման ինժեներիայի առաջադրանքների վրա, ինչպիսիք են PR ստեղծումը, կոդի վերանայումը, առջևի մասի կոդավորումը և հարց ու պատասխանը, և գերազանցում է մեր նախորդ մոդելներին բազմաթիվ առաջադեմ կոդավորման գնահատումներում։ GPT‑5.1‑Codex‑Max‑ը առաջին մոդելն է, որը մենք ուսուցանել ենք Windows միջավայրում աշխատելու համար, և մոդելի ուսուցումը այժմ ներառում է առաջադրանքներ, որոնք նախատեսված են Codex CLI-ում ավելի լավ գործընկեր դարձնելու համար։
* Բոլոր գնահատումները կատարվել են սեղմումը միացված Extra High դատողականության ջանքերով
* Terminal-Bench2.0-ը գործարկվեց Codex CLI-ով Laude Institute Harbor ամրագոտում(բացվում է նոր պատուհանում)
GPT‑5.1‑Codex‑Max‑ը ցույց է տալիս token-ների արդյունավետության զգալի բարելավումներ՝ ավելի արդյունավետ հիմնավորումների շնորհիվ։ SWE-bench Verified-ում «միջին» դատողականության ջանքով GPT‑5.1‑Codex‑Max‑ը ավելի լավ արդյունք է ցույց տալիս, քան նույն դատողականության ջանքով GPT‑5.1‑Codex‑ը, միաժամանակ օգտագործելով 30%-ով պակաս մտածողության տոկեններ։ Հապաղման նկատմամբ զգայուն չլինող առաջադրանքների համար մենք նաև ներդնում ենք նոր՝ «Շատ բարձր» («xhigh») դատողականության ջանք, որը ավելի երկար ժամանակ է մտածում՝ ավելի լավ պատասխան ստանալու համար։ Մենք դեռ խորհուրդ ենք տալիս միջին տարբերակը որպես ամենօրյա օգտագործման հիմնական տարբերակ առաջադրանքների մեծ մասի համար։
Մենք ակնկալում ենք, որ token-ի արդյունավետության բարելավումները կվերածվեն ծրագրավորողների համար իրական խնայողությունների։
Օրինակ՝ GPT‑5.1‑Codex‑Max‑ը կարող է ստեղծել բարձրորակ frontend դիզայն՝ նմանատիպ ֆունկցիոնալությամբ և գեղագիտությամբ, բայց շատ ավելի ցածր գնով, քան GPT‑5.1‑Codex‑ը։
Հարցում․ գեներացնել մեկ ինքնուրույն դիտարկիչի հավելված, որը ներկայացնում է ինտերակտիվ CartPole RL սանդբոքս canvas գրաֆիկայով, քաղաքականության գրադիենտի փոքրիկ վերահսկիչով, չափիչներով և SVG ցանցի վիզուալիզատորով:
Գործառույթներ
Պետք է կարողանա իրականում վարժեցնել քաղաքականություն՝ մոդելը ավելի լավը դարձնելու համար cart pole-ում։Ակտիվացումների/կշիռների վիզուալիզատոր, երբ մոդելը ուսուցման կամ եզրակացության փուլում է։Քայլերը դրվագում, պարգևներ այս դրվագումՎերջին գոյատևման ժամանակը և լավագույն գոյատևման ժամանակը քայլերի մեջ
Պահել index.html ֆայլում
Սեղմումը թույլ է տալիս GPT‑5.1‑Codex‑Max‑ին կատարել այնպիսի առաջադրանքներ, որոնք նախկինում կձախողվեին համատեքստային պատուհանի սահմանափակումների պատճառով, ինչպիսիք են բարդ վերափոխումները և երկարատև գործող agentne8i ցիկլերը՝ կրճատելով դրա պատմությունը՝ միաժամանակ պահպանելով ամենակարևոր համատեքստը երկար հորիզոններում։ Codex հավելվածներում՝ GPT‑5.1‑Codex‑Max‑ը ավտոմատ կերպով սեղմում է իր աշխատանքաշրջանը, երբ այն մոտենում է համատեքստային պատուհանի սահմանին, տալով նրան թարմ համատեքստային պատուհան։ Այն կրկնում է այս գործընթացը մինչև առաջադրանքը ավարտվի։
Երկար հորիզոններում հետևողական աշխատանք պահպանելու կարողությունը հիմնարար կարողություն է ավելի ընդհանուր, հուսալի արհեստական բանականության համակարգերի ստեղծման ճանապարհին։ GPT‑5.1‑Codex‑Max կարող է ժամերով ինքնուրույն աշխատել։ Մեր ներքին գնահատումների ընթացքում մենք նկատել ենք, որ GPT‑5.1‑Codex‑Max‑ը առաջադրանքների վրա աշխատում է ավելի քան 24 ժամ։ Այն անընդհատ կկրկնի իր իրականացումը, կուղղի թեստային ձախողումները և, ի վերջո, կապահովի հաջող արդյունք։
Այս օրինակում GPT‑5.1‑Codex‑Max‑ը ինքնուրույն վերափոխում է Codex CLI բաց կոդով պահոցը։
Երբ աշխատաշրջանի տևողությունը մոտենում է մոդելի համատեքստային պատուհանին, այն ավտոմատ կերպով սեղմում է աշխատաշրջանը՝ ազատելով տարածք՝ առաջադրանքը շարունակելու համար՝ առանց առաջընթացը կորցնելու։
Տեսանյութը կրճատվել և արագացվել է՝ հստակության համար։
GPT‑5.1‑Codex‑Max‑ը զգալիորեն ավելի լավ է կատարում այն գնահատումները, որոնք պահանջում են կայուն, երկարաժամկետ դատողություն։ Քանի որ այն կարող է համահունչ աշխատել բազմաթիվ համատեքստային պատուհանների միջև՝ օգտագործելով սեղմում, մոդելը բարելավված արդյունքներ է տալիս այնպիսի ոլորտներում մարտահրավերների դեպքում, ինչպիսիք են երկարաժամկետ կոդավորումը և կիբերանվտանգությունը։ Մենք վերլուծել ենք այս մոդելի աշխատանքի արդյունքները GPT‑5.1‑Codex‑Max համակարգի քարտի առաջին և երրորդ կողմի գնահատումների հիման վրա։
GPT‑5.1‑Codex‑Max‑ը մեր Պատրաստվածության űրջանակում չի հասնում կիբերանվտանգության բարձր հնարավորությունների, սակայն դա մինչ օրս մեր կողմից ներդրված ամենաարդյունավետ կիբերանվտանգության մոդելն է, և գործակալական կիբերանվտանգության հնարավորությունները արագ զարգանում են։ Արդյունքում, մենք քայլեր ենք ձեռնարկում կիբերանվտանգության բարձր կարողություններին պատրաստվելու համար և բարելավում ենք մեր պաշտպանությունը կիբերտիրույթում, ինչպես նաև աշխատում ենք ապահովել, որ պաշտպանները կարողանան օգտվել այս բարելավված հնարավորություններից՝ Aardvark-ի նման ծրագրերի միջոցով։
Երբ մենք գործարկեցինք GPT‑5‑Codex‑ը, մենք ներդրեցինք կիբերանվտանգությանը նվիրված մոնիթորինգ՝ չարամիտ գործունեությունը հայտնաբերելու և խափանելու համար։ Չնայած մենք չենք նկատել մասշտաբային չարաշահման էական աճ, մենք նախապատրաստում ենք լրացուցիչ մեղմացնող միջոցառումներ առաջադեմ հնարավորությունների համար։ Մեր թիմերն արդեն խափանել են կիբեռգործողությունները, որոնք փորձում էին չարաշահել մեր մոդելները, և կասկածելի գործունեությունը ուղղորդվում է վերանայման մեր քաղաքականության մոնիթորինգի համակարգերի միջոցով։
Codex-ը նախատեսված է աշխատելու անվտանգ սենդբոքսում կանխադրված կարգավիճակում. ֆայլերի գրառումները սահմանափակվում են իր աշխատատարածքով, և ցանցի հասանելիությունը անջատված է, եթե ծրագրավորողը չմիացնի այն։ Մենք խորհուրդ ենք տալիս Codex-ը պահել սահմանափակ մուտքի ռեժիմում, քանի որ ինտերնետում կամ վեբ որոնումը միացնելը կարող է առաջացնել անվստահելի բովանդակությունից հարցման ներարկման ռիսկեր։
Քանի որ Codex-ը դառնում է ավելի կարող երկարաժամկետ առաջադրանքներ կատարել, մշակողների համար ավելի ու ավելի կարևոր է դառնում վերանայել գործակալի աշխատանքը՝ փոփոխություններ կատարելուց կամ արտադրության մեջ տեղակայելուց առաջ։ Այս հարցում օգնելու համար Codex-ը ստեղծում է տերմինալների գրանցամատյաններ և մեջբերում է իր գործիքների կանչերն ու թեստերի արդյունքները։ Թեև դրա կոդի վերանայումները նվազեցնում են մոդելի կամ մարդու կողմից ստեղծված սխալների արտադրության մեջ տեղակայման ռիսկը, Codex-ը պետք է դիտարկվի որպես լրացուցիչ վերանայող, այլ ոչ թե որպես մարդկային վերանայումների փոխարինող։
Կիբերանվտանգության հնարավորությունները կարող են օգտագործվել ինչպես պաշտպանության, այնպես էլ հարձակման համար, ուստի մենք կիրառում ենք իտերատիվ տեղակայման մոտեցում՝ սովորելով իրական աշխարհի օգտագործումից, թարմացնելով պաշտպանական միջոցները և պահպանելով կարևոր պաշտպանական գործիքներ, ինչպիսիք են ավտոմատացված խոցելիությունների սկանավորումը և վերականգնման աջակցությունը։
GPT‑5.1‑Codex‑Max‑ը հասանելի է Codex-ում՝ ChatGPT Plus, Pro, Business, Edu և Enterprise պլաններով։ Ձեր պլանի օգտագործման սահմանափակումների վերաբերյալ մանրամասների համար, խնդրում ենք տեսնել մեր փաստաթղթերը(բացվում է նոր պատուհանում)։
API բանալիի միջոցով Codex CLI օգտագործող ծրագրավորողների համար մենք շուտով նախատեսում ենք GPT‑5.1‑Codex‑Max‑ը հասանելի դարձնել API-ում։
Այսօրվանից սկսած, GPT‑5.1‑Codex‑Max‑ը կփոխարինի GPT‑5.1‑Codex‑ին՝ որպես Codex մակերեսների կանխադրված մոդել։ Ի տարբերություն GPT‑5.1-ի, որը ընդհանուր նշանակության մոդել է, մենք խորհուրդ ենք տալիս օգտագործել GPT‑5.1‑Codex‑Max‑ը և Codex մոդելների ընտանիքը միայն Codex-ում կամ Codex-անման միջավայրերում գործակալական կոդավորման առաջադրանքների համար։
GPT‑5.1‑Codex‑Max‑ը ցույց է տալիս, թե որքան առաջ են գնացել մոդելները երկարաժամկետ կոդավորման առաջադրանքները կատարելու, բարդ աշխատանքային հոսքերը կառավարելու և շատ ավելի քիչ տոկեններով բարձրորակ իրականացումներ ստեղծելու գործում։ Մենք նկատել ենք, որ մոդելը, համակցված CLI-ի, IDE ընդլայնման, ամպային ինտեգրման և կոդի վերանայման գործիքակազմի կայուն թարմացումներով, հանգեցնում է ինժեներական արտադրողականության զգալի աճի. ներքին օգտագործման համար OpenAI-ի ինժեներների 95%-ը շաբաթական օգտագործում է Codex-ը, և այս ինժեներները Codex-ի ներդրումից ի վեր ուղարկում են մոտ 70%-ով ավելի շատ pull հարցումներ։ Քանի որ մենք ընդլայնում ենք ագենտների կարողությունների սահմանները, մենք անհամբեր սպասում ենք տեսնելու, թե ինչ կստեղծեք նրանց միջոցով։
GPT‑5.1‑Codex (բարձր) | GPT‑5.1‑Codex‑Max (շատ բարձր) | |
SWE-bench Verified (n=500) | 73,7% | 77,9% |
SWE-Lancer IC SWE | 66,3% | 79,9% |
Terminal-Bench 2.0 | 52,8% | 58,1% |


