Бүгін Codex-та қолжетімді жаңа озық агенттік кодтау моделіміз GPT‑5.1‑Codex‑Max‑пен таныстырамыз. GPT‑5.1‑Codex‑Max бағдарламалық инженерия, математика, зерттеу және т.б. салалардағы агенттік тапсырмаларға үйретілген іргелі ойлайтын модельіміздің жаңартуына негізделген. GPT‑5.1‑Codex‑Max әзірлеу циклінің әр кезеңінде жылдамырақ, ақылдырақ және токендерді тиімдірек пайдаланады және сенімді кодтау серіктесіне айналу жолындағы жаңа қадам болып табылады.
GPT‑5.1‑Codex‑Max ұзаққа созылатын, егжей-тегжейлі жұмысқа арналған. Бұл — compaction деп аталатын үдеріс арқылы бірнеше контекст терезесінде табиғи түрде жұмыс істеуге үйретілген алғашқы моделіміз; ол бір тапсырма аясында миллиондаған токен бойынша үйлесімді жұмыс істейді. Бұл жоба ауқымындағы рефакторлауды, терең жөндеу сессияларын және бірнеше сағаттық агент циклдерін мүмкін етеді.
GPT‑5.1‑Codex‑Max бүгінде Codex-та CLI, IDE кеңейтімі, бұлт, код шолуы үшін қолжетімді, ал API қолжетімділігі жақында келеді.
GPT‑5.1‑Codex‑Max PR жасау, код шолу, frontend кодтау және Q&A сияқты нақты әлемдегі бағдарламалық инженерия тапсырмаларына үйретілді және көптеген озық кодтау бағалауларында алдыңғы модельдерімізден озады. Бенчмарктердегі жетістіктер модельді шынайы қолдануда да жақсартулармен қатар жүреді: GPT‑5.1‑Codex‑Max — Windows орталарында жұмыс істеуге үйреткен алғашқы моделіміз, ал модельді үйрету енді оны Codex CLI ішінде жақсырақ серіктес етуге арналған тапсырмаларды қамтиды.
* Барлық бағалаулар Extra High ой қорыту күші кезінде compaction қосылып орындалды
* Terminal-Bench2.0 Codex CLI арқылы Laude Institute Harbor harness(жаңа терезеде ашылады) ішінде орындалды
GPT‑5.1‑Codex‑Max неғұрлым тиімді ой қорытуының арқасында токен тиімділігінде елеулі жақсартулар көрсетеді. SWE-bench Verified бойынша ‘medium’ ой қорыту күшімен GPT‑5.1‑Codex‑Max дәл сондай ой қорыту күші бар GPT‑5.1‑Codex‑тен жақсырақ нәтиже көрсетеді, сонымен бірге 30% аз ойлау токенін пайдаланады. Кідіріс аса маңызды емес тапсырмалар үшін біз жаңа Extra High (‘xhigh’) ой қорыту күшін де енгізіп жатырмыз, ол жақсырақ жауап үшін одан да ұзақ ойлайды. Көпшілік тапсырмалар үшін күнделікті негізгі таңдау ретінде medium-ды әлі де ұсынамыз.
Токен тиімділігіндегі бұл жақсартулар әзірлеушілер үшін нақты үнемге айналады деп күтеміз.
Мысалы, GPT‑5.1‑Codex‑Max GPT‑5.1‑Codex‑пен салыстырғанда әлдеқайда төмен құнмен ұқсас функциялары мен эстетикасы бар жоғары сапалы frontend дизайндарын жасай алады.
Көмексөз: Canvas графикасы, шағын policy-gradient контроллері, метрикалар және SVG желі визуализаторы бар интерактивті CartPole RL құмсалғышын көрсететін бір ғана дербес браузер қолданбасын жаса.
Мүмкіндіктер
Саясатты шынымен үйретіп, модельді cart pole-де жақсырақ ете алуы керекМодель үйретіліп жатқанда немесе inference кезінде белсендірулер/салмақтар визуализаторыЭпизодтағы қадамдар, осы эпизодтағы марапаттарСоңғы өмір сүру уақыты және қадамдармен есептелген ең жақсы өмір сүру уақыты
index.html файлына сақта
Compaction GPT‑5.1‑Codex‑Max‑қа бұрын контекст терезесі шектеулеріне байланысты орындалмай қалатын тапсырмаларды, мысалы, күрделі рефакторлауды және ұзаққа созылатын агент циклдерін, ұзақ уақыт аралығында ең маңызды контексті сақтай отырып, тарихын қысқарту арқылы аяқтауға мүмкіндік береді. Codex қолданбаларында GPT‑5.1‑Codex‑Max контекст терезесінің шегіне жақындағанда сессиясын автоматты түрде ықшамдап, жаңа контекст терезесін алады. Бұл үдерісті тапсырма аяқталғанша қайталайды.
Ұзақ уақыт көкжиегінде үйлесімді жұмысты сақтай алу қабілеті — неғұрлым жалпы әрі сенімді AI жүйелеріне апарар жолдағы іргелі мүмкіндік. GPT‑5.1‑Codex‑Max сағаттап өз бетінше жұмыс істей алады. Ішкі бағалауларымызда GPT‑5.1‑Codex‑Max‑тың тапсырмаларда 24 сағаттан астам жұмыс істегенін байқадық. Ол іске асыруын табанды түрде қайталап жетілдіреді, тест сәтсіздіктерін түзетеді және ақырында сәтті нәтиже береді.
Бұл мысалда GPT‑5.1‑Codex‑Max Codex CLI ашық бастапқы код репозиторийін өз бетінше рефакторлап жатыр.
Сессия ұзындығы модельдің контекст терезесіне жақындағанда, ол ілгерілеуді жоғалтпай тапсырманы жалғастыру үшін орынды босатып, сессияны автоматты түрде ықшамдайды.
Бейне анықтығы үшін қысқартылып, жеделдетілген.
GPT‑5.1‑Codex‑Max ұзақ мерзімді ой қорыту талап ететін бағалауларда айтарлықтай жақсы нәтиже көрсетеді. Ол compaction арқылы бірнеше контекст терезесі бойымен үйлесімді жұмыс істей алатындықтан, модель ұзақ көкжиекті кодтау мен киберқауіпсіздік сияқты салалардағы тапсырмаларда жақсырақ нәтижелер береді. Біз бұл модельдің бірінші және үшінші тарап бағалауларындағы нәтижелерін GPT‑5.1‑Codex‑Max жүйе картасында талдадық.
GPT‑5.1‑Codex‑Max біздің Дайындық шеңбері бойынша Киберқауіпсіздік санатында High деңгейіне жетпейді, бірақ бұл — біз осы уақытқа дейін енгізген киберқауіпсіздікке ең қабілетті модель, әрі агенттік киберқауіпсіздік мүмкіндіктері жылдам дамып келеді. Соның нәтижесінде біз Киберқауіпсіздікте High деңгейіне дайындалу қадамдарын жасап жатырмыз, кибер доменіндегі қорғаныс шараларымызды күшейтіп жатырмыз және қорғаушылар бұл жақсартылған мүмкіндіктердің пайдасын Aardvark сияқты бағдарламалар арқылы көре алуын қамтамасыз етуге жұмыс істеп жатырмыз.
GPT‑5‑Codex‑ті іске қосқанда, біз зиянды әрекетті анықтап, бұзуға арналған арнайы киберқауіпсіздік мониторингін енгіздік. Ауқымды теріс пайдаланудың елеулі өсуін байқамағанымызбен, жетілдірілген мүмкіндіктер үшін қосымша жұмсарту шараларын дайындап жатырмыз. Командаларымыз модельдерімізді теріс пайдалануға тырысқан кибероперацияларды бұзды, ал күмәнді белсенділік саясат мониторингі жүйелеріміз арқылы тексеруге жіберіледі.
Codex әдепкі бойынша қауіпсіз құмсалғышта жұмыс істеуге арналған: файл жазу оның жұмыс кеңістігімен шектелген, ал әзірлеуші қоспайынша желіге қатынас өшірілген. Codex-ті осы шектеулі қатынас режимінде ұстауды ұсынамыз, өйткені интернетті немесе веб-іздеуді қосу сенімсіз мазмұннан туындайтын көмексөз-инъекциясы тәуекелдерін енгізуі мүмкін.
Codex ұзаққа созылатын тапсырмаларға неғұрлым қабілетті болған сайын, әзірлеушілер үшін өзгерістер енгізбес бұрын немесе production-ға жібермес бұрын агенттің жұмысын тексеру барған сайын маңызды бола түседі. Бұған көмектесу үшін Codex терминал журналдарын шығарады және өз құрал шақырулары мен тест нәтижелеріне сілтеме жасайды. Оның код шолулары production-ға модель немесе адам жасаған қателерді енгізу тәуекелін азайтқанымен, Codex-ке адам шолуын алмастыратын құрал емес, қосымша шолушы ретінде қарау керек.
Киберқауіпсіздік мүмкіндіктері қорғанысқа да, шабуылға да қолданылуы мүмкін, сондықтан біз итеративті енгізу тәсілін ұстанамыз: нақты қолданудан үйрену, қорғаныс шараларын жаңарту және осалдықтарды автоматты сканерлеу мен түзетуге көмектесу сияқты маңызды қорғаныс құралдарын сақтау.
GPT‑5.1‑Codex‑Max Codex-та ChatGPT Plus, Pro, Business, Edu және Enterprise жоспарларымен қолжетімді. Жоспарыңыздағы пайдалану шектеулері қалай жұмыс істейтіні туралы толық ақпарат үшін біздің құжаттаманы(жаңа терезеде ашылады) қараңыз.
API кілті арқылы Codex CLI қолданатын әзірлеушілер үшін GPT‑5.1‑Codex‑Max‑ты жақын арада API-де қолжетімді етуді жоспарлап отырмыз.
Бүгіннен бастап GPT‑5.1‑Codex‑Max Codex беттерінде әдепкі модель ретінде GPT‑5.1‑Codex‑ті алмастырады. Жалпы мақсаттағы модель болып табылатын GPT‑5.1-ден айырмашылығы, GPT‑5.1‑Codex‑Max пен Codex модельдер отбасын тек Codex немесе Codex-ке ұқсас орталардағы агенттік кодтау тапсырмалары үшін пайдалануды ұсынамыз.
GPT‑5.1‑Codex‑Max модельдердің ұзақ көкжиекті кодтау тапсырмаларын тұрақты орындауда, күрделі жұмыс ағындарын басқаруда және әлдеқайда аз токенмен жоғары сапалы іске асырулар жасауда қаншалықты ілгерілегенін көрсетеді. Біздің CLI, IDE кеңейтімі, бұлт интеграциясы және код шолу құралдарындағы тұрақты жаңартулармен біріктірілген бұл модель инженерлік өнімділікті айтарлықтай арттырғанын көрдік: OpenAI инженерлерінің 95%-ы Codex-ті апта сайын қолданады, ал бұл инженерлер Codex-ті қабылдағаннан бері шамамен 70% көбірек өзгеріс сұранысын жібереді. Агенттердің не істей алатынының озық шегін кеңейте берген сайын, олардың көмегімен не құратыныңызды көруге қуаныштымыз.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


