Tunatanguliza GPT‑5.1‑Codex‑Max, muundo wetu mpya wa usimbaji wa kisasa wa frontier, unaopatikana katika Codex leo. GPT‑5.1‑Codex‑Max imejengwa juu ya sasisho la muundo wetu wa msingi wa hoja, ambao umefunzwa kwenye shughuli za kiwakala katika uhandisi wa programu, hisabati, utafiti na zaidi. GPT‑5.1‑Codex‑Max ni ya haraka zaidi, yenye akili zaidi, na yenye ufanisi zaidi wa tokeni katika kila hatua ya mzunguko wa maendeleo–na ni hatua mpya kuelekea kuwa mshirika anayetegemewa wa usimbaji.
GPT‑5.1‑Codex‑Max imeundwa kwa kazi ya muda mrefu na ya kina. Ni muundo wetu wa kwanza uliofunzwa asili kufanya kazi katika madirisha mengi ya muktadha kupitia mchakato unaoitwa compaction, ukifanya kazi kwa upatanifu juu ya mamilioni ya token katika shughuli moja. Hii inafungua urekebishaji wa kiwango cha mradi, vikao vya kina vya utatuzi wa hitilafu, na vitanzi vya wakala vya saa nyingi.
GPT‑5.1‑Codex‑Max inapatikana katika Codex leo kwa matumizi katika CLI, kiendelezi cha IDE, wingu, ukaguzi wa msimbo na ufikiaji wa API unakuja hivi karibuni.
GPT‑5.1‑Codex‑Max ilifundishwa kwenye shughuli halisi za uhandisi wa programu, kama uundaji wa PR, ukaguzi wa msimbo, usimbaji wa mbele, na Maswali na Majibu, na inazidi miundo yetu ya awali katika tathmini nyingi za usimbaji wa mipaka. Faida za muundo kwenye vigezo pia huja na maboresho ya matumizi ya ulimwengu halisi: GPT‑5.1‑Codex‑Max ni muundo wa kwanza ambao tumefunza kufanya kazi katika mazingira ya Windows, na mafunzo ya muundo sasa yanajumuisha shughuli zilizoundwa ili kuifanya kuwa mshirika bora katika Codex CLI.
* Tathmini zote ziliendeshwa na kubana washa kwa juhudi za ziada za hoja za Juu
* Terminal-Bench2.0 iliendeshwa na Codex CLI katika harness ya Bandari ya Taasisi ya Laude(fungua katika dirisha jipya)
GPT‑5.1‑Codex‑Max inaonyesha maboresho makubwa katika ufanisi wa tokeni kutokana na sababu za kiufanisi zaidi. Katika SWE-bench Thibitishwa, GPT‑5.1‑Codex‑Max yenye juhudi ya 'kati' ya kufikiria inapata utendakazi bora kuliko GPT‑5.1‑Codex. kwa juhudi sawa za hoja, huku ukitumia tokeni 30% chache za kufikiria. Kwa shughuli zisizo nyeti kwa ufichwaji, pia tunaanzisha juhudi mpya ya uwazaji ya Ziada ya Juu ('xhigh'), ambayo inawaza kwa muda mrefu zaidi ili kutoa jibu bora. Bado tunapendekeza kiwango cha kati kama kiendeshaji cha kila siku kwa shughuli nyingi.
Tunatarajia maboresho ya ufanisi wa token kutafsiri katika akiba halisi kwa wasanidi programu.
Kwa mfano, GPT‑5.1‑Codex‑Max inaweza kutoa miundo ya ubora wa juu ya mbele yenye utendakazi na urembo sawa, lakini kwa gharama ya chini sana kuliko GPT‑5.1‑Codex.
dokeza: Tengeneza programu moja ya kivinjari kilicho na kibinafsi ambacho kinatoa sanduku la sandpole la CARTPOLE RL na picha za turubai, mtawala mdogo wa gradient, metriki na taswira ya mtandao wa SVG.
Vipengele
Lazima uweze kujifunze sera ili kufanya muundo kuwa bora zaidi katika mchezo wa cart poleKionyeshi cha uanzishaji/uzito wakati muundo unafunzwa au katika utambuzi.Hatua katika kipindi, zawadi za kipindi hikiMuda wa mwisho wa kuishi na muda bora wa kuishi kwa hatua.
Hifadhi kwenye index.html
Ufinyizaji unawasha GPT‑5.1‑Codex‑Max kukamilisha shughuli ambazo hapo awali zingeshindwa kutokana na mipaka ya dirisha la muktadha, kama vile marekebisho changamano na mizunguko mirefu ya wakala kwa kupunguza historia yake huku ikihifadhi muktadha muhimu zaidi kwa muda mrefu. Katika programu za Codex, GPT‑5.1‑Codex‑Max hupunguza kikao chake kiotomatiki inapokaribia kikomo cha dirisha la muktadha wake na kuipa dirisha jipya la muktadha. Inarudia mchakato huu hadi shughuli itakapokamilika.
Uwezo wa kuendeleza kazi thabiti na yenye mshikamano katika upeo wa muda mrefu ni uwezo wa msingi katika njia kuelekea mifumo ya AI iliyo ya jumla na ya kuaminika. GPT‑5.1‑Codex‑Max inaweza kufanya kazi kwa kujitegemea kwa saa nyingi mfululizo. Katika tathmini zetu za ndani, tumeona GPT‑5.1‑Codex‑Max fanya kazi kwenye shughuli kwa zaidi ya saa 24. Itaendelea kurudia utekelezaji wake mara kwa mara, kurekebisha makosa ya majaribio, na hatimaye kutoa matokeo yenye mafanikio.
Katika mfano huu, GPT‑5.1‑Codex‑Max inarekebisha kwa kujitegemea hazina ya chanzo huria ya Codex CLI.
Kadiri urefu wa kikao unavyokaribia dirisha la muktadha wa muundo, hujipanga kiotomatiki ili kutoa nafasi ya kuendelea na shughuli bila kupoteza maendeleo.
Video imekatwa na kuharakishwa ili iwe wazi zaidi.
GPT‑5.1‑Codex‑Max hufanya vizuri zaidi kwenye tathmini zinazohitaji mawazo endelevu na ya muda mrefu. Kwa sababu inaweza kufanya kazi kwa uthabiti katika madirisha mengi ya muktadha kwa kutumia ubanaji, muundo huo hutoa matokeo bora katika changamoto za maeneo kama vile usimbaji wa upeo mrefu na usalama wa mtandao. Tulichanganua matokeo ya utendakazi wa muundo huu kwenye tathmini za mtu wa kwanza na mhusika mwingine katika GPT‑5.1‑Codex‑Max Kadi ya Mfumo.
GPT‑5.1‑Codex‑Max haifikii uwezo wa Juu wa Usalama Mtandaoni chini ya Mfumo wetu wa Maandalizi lakini ndiyo muundo wenye uwezo zaidi wa usalama wa mtandao ambao tumeweka hadi sasa na uwezo wa usalama wa mtandao wa kiwakala unabadilika kwa kasi. Kwa hivyo, tunachukua hatua kujiandaa kwa Uwezo wa Juu katika Usalama wa Mtandaoni na tunaimarisha ulinzi wetu katika kikoa cha mtandao na tunafanya kazi kuhakikisha kwamba watetezi wanaweza kufaidika kutokana na uwezo huu ulioboreshwa kupitia programu kama Aardvark.
Tulipozindua GPT‑5‑Codex, tulitekeleza ufuatiliaji maalum wa usalama wa mtandao ili kugundua na kuzuia shughuli hasidi. Ingawa hatujaona ongezeko la maana la unyanyasaji uliokithiri, tunatayarisha hatua za ziada za kupunguza kwa uwezo wa hali ya juu. Timu zetu tayari zimevuruga shughuli za mtandao zinazojaribu kutumia vibaya miundo yetu, na shughuli za kutiliwa shaka zinaelekezwa kukaguliwa kupitia mifumo yetu ya ufuatiliaji wa sera.
Codex imeundwa kuendeshwa katika kisanduku cha mchanga salama kwa chaguomsingi: uandishi wa faili umewekewa kikomo kwa eneo lake la kazi, na ufikiaji wa mtandao umezimwa isipokuwa msanidi programu auiwashe. Tunapendekeza uweke Codex katika hali hii ya ufikiaji wenye vikwazo, kwani kuwasha mtandao au utafutaji wa wavuti kunaweza kuanzisha hatari za sindano ya dokezo kutoka kwa maudhui yasiyoaminika.
Kadiri Codex inavyozidi kuwa na uwezo wa kufanya shughuli za muda mrefu, inazidi kuwa muhimu kwa wasanidi programu kukagua kazi ya wakala kabla ya kufanya mabadiliko au kupeleka kwenye uzalishaji. Ili kusaidia katika hili, Codex hutoa kumbukumbu za terminali na kutaja simu zake za zana na matokeo ya majaribio. Ingawa ukaguzi wa misimbo yake hupunguza hatari ya kupeleka hitilafu za muundo au zinazozalishwa na binadamu kwa uzalishaji, Codex inapaswa kuzingatiwa kama mkaguzi wa ziada na si mbadala wa ukaguzi wa kibinadamu.
Uwezo wa usalama wa mtandao unaweza kutumika kwa ulinzi na shambulio, kwa hivyo tunachukua mbinu ya kupelekwa kwa kurudiarudia: kujifunza kutoka kwa matumizi ya ulimwengu halisi, kusasisha hatua za ulinzi, na kuhifadhi zana muhimu za ulinzi kama vile uchanganuzi wa hatari kiotomatiki na usaidizi wa marekebisho.
GPT‑5.1‑Codex‑Max inapatikana katika Codex pamoja na mipango ya ChatGPT Plus, Pro, Business, Edu na Enterprise. Kwa maelezo kuhusu jinsi vizuizi vya matumizi vinavyofanya kazi kwa mpango wako, tafadhali angalia hati(fungua katika dirisha jipya) zetu.
Kwa wasanidi programu wanaotumia Codex CLI kupitia Kitufe cha API, tunapanga kufanya GPT‑5.1‑Codex‑Max ipatikane itapatikana katika API hivi karibuni.
Kuanzia leo, GPT‑5.1‑Codex‑Max itachukua nafasi ya GPT‑5.1‑Codex kama muundo chaguomsingi katika sehemu za Codex. Tofauti na GPT‑5.1, ambayo ni muundo wa matumizi ya jumla, tunapendekeza kutumia GPT‑5.1‑Codex‑Max. na familia ya miundo ya Codex tu kwa shughuli za usimbuaji wa wakala katika mazingira ya Codex au yanayofanana na Codex.
GPT‑5.1‑Codex‑Max inaonyesha jinsi miundo imepiga hatua kubwa katika kuendeleza kazi za usimbaji za muda mrefu, kudhibiti michakato changamano, na kutoa utekelezaji wa ubora wa juu kwa kutumia tokeni chache zaidi. Tumeona muundo huo ukiunganishwa na uboreshaji thabiti wa CLI, kiendelezi cha IDE, ujumuishaji wa wingu, na zana za kukagua msimbo ukisababisha tija kubwa ya uhandisi: ndani, 95% ya wahandisi wa OpenAI hutumia Codex kila wiki, na wahandisi hawa husafirisha takriban 70% zaidi ya maombi ya kuvuta tangu kuanza kutumia Codex. Tunaposukuma mipaka ya kile mawakala wanaweza kufanya, tunafurahi kuona mtakachojenga nao.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Thibitishwa (n=500) | 73.7% | 77.9% |
SWE-Lancer IC SWE | 66.3% | 79.9% |
Terminal-Bench 2.0 | 52.8% | 58.1% |


