Fara beint í aðalefni
OpenAI

19. nóvember 2025

VaraSlepping

Að byggja meira með GPT‑5.1‑Codex‑Max

Hleður inn...

Inngangur

Við kynnum GPT‑5.1‑Codex‑Max, nýja frontier-fulltrúakóðunarlíkanið okkar, fáanlegt í Codex í dag.  GPT‑5.1‑Codex‑Max er byggt á uppfærslu á grunnröksemdafærslulíkani okkar, sem er þjálfað í fulltrúaverkefnum á sviðum eins og hugbúnaðarverkfræði, stærðfræði, rannsóknum og fleiru. GPT‑5.1‑Codex‑Max er hraðari, greindari og skilvirkari með tákn á hverju stigi þróunarferlisins – og nýtt skref í átt að því að verða áreiðanlegur samstarfsaðili í forritun.

GPT‑5.1‑Codex‑Max er hannað fyrir langvarandi og ítarlega vinnu. Þetta er fyrsta líkanið okkar sem er innbyggt þjálfað til að starfa yfir mörgum samhengisgluggum í gegnum ferli sem kallast þjöppun, og vinnur samfellt yfir milljónir tákna í einu verkefni. Þetta opnar fyrir endurgerð á verkefnastigi, djúpar villuleitarlotur og margra klukkustunda fulltrúalotur.

GPT‑5.1‑Codex‑Max er í boði í Codex í dag til notkunar í CLI, IDE-viðbót, skýinu og kóðaskoðun og aðgangur að API er væntanlegur.

Frontier-kóðunargeta

GPT‑5.1‑Codex‑Max var þjálfað í raunverulegum hugbúnaðarverkefnum, eins og PR-gerð, kóðaskoðun, framvinnsluforritun og spurningum og svörum, og skarar fram úr fyrri líkönum okkar í mörgum fremstu forritunarmötum. Framfarir líkansins á viðmiðum fylgja einnig framförum í raunverulegri notkun: GPT‑5.1‑Codex‑Max er fyrsta líkanið sem við höfum þjálfað til að starfa í Windows-umhverfum, og þjálfun líkansins inniheldur nú verkefni sem eru hönnuð til að gera það að betri samstarfsaðila í Codex CLI.

* Öll möt voru keyrð með þjöppun virkjaðri við mjög hátt röksemdafærsluátak.
* Terminal-Bench2.0 var keyrt með Codex CLI í
Laude Institute Harbor harness(opnast í nýjum glugga)

Hraði og kostnaður

GPT‑5.1‑Codex‑Max sýnir verulegar framfarir í nýtni tákna vegna áhrifaríkari röksemdafærslu. Á SWE-bench Verified, nær GPT‑5.1‑Codex‑Max með „miðlungs“ röksemdafærslu betri frammistöðu en GPT‑5.1‑Codex með sömu röksemdafærsluátaki, en notar 30% færri tákn. Fyrir verkefni sem ekki eru viðkvæm fyrir biðtíma, erum við einnig að kynna nýtt Extra High ('xhigh') röksemdafærsluátak, sem hugsar í enn lengri tíma til að fá betra svar. Við mælum enn með miðlungs sem daglegum valkosti fyrir flest verkefni.

Við búumst við að bætt táknaskilvirkni muni leiða til raunverulegs sparnaðar fyrir forritara.

Til dæmis getur GPT‑5.1‑Codex‑Max búið til hágæða framvinnsluhönnun með svipaðri virkni og fagurfræði, en á mun lægra verði en GPT‑5.1‑Codex.

Kvaðning: Búðu til eitt sjálfstætt vafraforrit sem birtir gagnvirkan CartPole RL-sandkassa með grafík fyrir striga, lítilli stefnustigulstýringu, mælikvörðum og SVG-netsjónrænum hugbúnaði.

Eiginleikar

  • Verður að geta raunverulega þjálfað stefnu til að gera líkanið betra í cart pole.
  • Sjónrænn hugbúnaður fyrir virkjun/vægi þegar líkanið er í þjálfun eða við ályktun
  • Skref í þættinum, verðlaun í þessum þætti
  • Síðasti endingartími og besti endingartími í skrefum

Vista í index.html

Langvarandi verkefni

Þjöppun virkjar GPT‑5.1‑Codex‑Max til að ljúka verkefnum sem áður hefðu mistekist vegna takmarkana á samhengisglugga, eins og flóknum endurgerðum og langvarandi fulltrúahringjum, með því að klippa ferils þess á meðan það varðveitir mikilvægustu samhengin yfir langan tíma. Í Codex þjappar GPT‑5.1‑Codex‑Max sjálfkrafa lotunni þegar hún nálgast samhengisgluggamörk sín, sem gefur henni nýjan samhengisglugga. Það endurtekur þetta ferli þar til verkefninu er lokið.

Hæfnin til að viðhalda samhangandi vinnu yfir langan tíma er grundvallarhæfni í átt að almennari og áreiðanlegri gervigreindarkerfum. GPT‑5.1‑Codex‑Max getur unnið sjálfstætt í marga klukkutíma í senn. Í innri mati okkar höfum við tekið eftir GPT‑5.1‑Codex‑Max vinnur að verkefnum í meira en 24 klukkustundir. Það mun stöðugt endurtaka framkvæmd sína, laga prófunargalla og að lokum skila árangursríkri niðurstöðu.

Í þessu dæmi endurhannar GPT‑5.1‑Codex‑Max sjálfstætt Codex CLI geymsluna með opnum hugbúnaði.

Þegar lengd lotunnar nálgast samhengisglugga líkansins, þjappar það henni sjálfkrafa saman til að losa um pláss og halda áfram verkefninu án þess að tapa framvindu.

Myndbandið hefur verið klippt og hraðað til að bæta skýrleika.

Að byggja örugga og áreiðanlega gervigreindarfulltrúa

GPT‑5.1‑Codex‑Max skilar mun betri árangri í prófunum sem krefjast viðvarandi, langtímaröksemdafærslu. Þar sem líkanið getur unnið samhangandi yfir marga samhengisglugga með þjöppun, skilar það betri árangri í áskorunum á sviðum eins og langtíma kóðun og netöryggi. Við greindum niðurstöður af frammistöðu þessa líkans í mati fyrsta og þriðja aðila í GPT‑5.1‑Codex‑Max kerfiskorti.

GPT‑5.1‑Codex‑Max nær ekki hárri getu í netöryggi undir viðbúnaðarramma okkar, en það er hæfasta netöryggislíkanið sem við höfum innleitt hingað til og sjálfvirkar netöryggisgetur eru að þróast hratt. Þess vegna erum við að taka skref til að undirbúa okkur fyrir hágetu í netöryggi og erum að efla öryggisráðstafanir okkar í netléninu og vinna að því að tryggja að varnaraðilar geti notið góðs af þessum bættum hæfileikum með forritum eins og Aardvark.

Þegar við kynntum GPT‑5‑Codex, innleiddum við sérstaka netöryggisvöktun til að greina og stöðva skaðlega starfsemi. Þó að við höfum ekki orðið vör við marktæka aukningu í umfangsmikilli misnotkun, erum við að undirbúa frekari mótvægisaðgerðir fyrir háþróaða getu. Teymin okkar hafa þegar truflað netaðgerðir sem reyndu að misnota líkön okkar, og grunsamleg virkni er send til skoðunar í gegnum eftirlitskerfi stefnu okkar.

Codex er hannað til að keyra í öruggum sandkassa sjálfgefið: skráarskrif eru takmörkuð við vinnusvæðið þess, og netaðgangur er slökktur nema forritari kveiki á honum. Við mælum með að halda Codex í þessum takmarkaða aðgangsham, þar sem að virkja internet- eða vefleit getur skapað kvaðningarsáningu áhættu vegna óáreiðanlegs efnis.

Eftir því sem Codex verður hæfara í að sinna langvarandi verkefnum, verður sífellt mikilvægara fyrir forritara að yfirfara vinnu fulltrúans áður en breytingar eru gerðar eða settar í framleiðslu. Til að aðstoða við þetta býr Codex til skráningar úr stöðinni og vitnar í verkfæraköll sín og niðurstöður prófana. Þó að kóðayfirferðir Codex dragi úr hættu á að setja villur, sem eru framleiddar af líkani eða mönnum, í framleiðslu, ætti að líta á Codex sem viðbótaryfirfaranda en ekki sem staðgengil fyrir mannlega yfirferð.

Netöryggisgeta getur verið notuð bæði til varnar og sóknar, svo við notum ítrekaða innleiðingaraðferð: lærum af raunverulegri notkun, uppfærum öryggisráðstafanir og varðveitum mikilvæg varnarverkfæri eins og sjálfvirka veikleikaskönnun og aðstoð við úrbætur.

Aðgengi

GPT‑5.1‑Codex‑Max er fáanlegt í Codex með ChatGPT Plus-, Pro-, Business-, Edu- og Enterprise-áætlunum. Frekari upplýsingar um hvernig notkunarmörk virka fyrir áætlunina þína er að finna í skjölum(opnast í nýjum glugga) okkar.

Fyrir forritara sem nota Codex CLI með API-lykli ætlum við að gera GPT‑5.1‑Codex‑Max fljótlega fáanlegt í API.

Frá og með deginum í dag mun GPT‑5.1‑Codex‑Max koma í stað GPT‑5.1‑Codex sem sjálfgefið líkan í Codex-viðmótum. Ólíkt GPT‑5.1, sem er almennt líkan, mælum við með að nota GPT‑5.1‑Codex‑Max og Codex-fjölskylduna af líkönum aðeins fyrir fulltrúakóðunarverkefni í Codex eða Codex-líku umhverfi.

Niðurstaða

GPT‑5.1‑Codex‑Max sýnir hversu langt líkön hafa komist í að viðhalda kóðunarverkefnum til lengri tíma, stjórna flóknum verkferlum og framleiða hágæða útfærslur með mun færri táknum. Við höfum séð líkanið ásamt stöðugum uppfærslum á CLI okkar, IDE-viðbótinni, skýjasamþættingu og kóðaúttektarverkfærum leiða til stórbættrar framleiðni í verkfræði: Innanhúss nota 95% af verkfræðingum OpenAI Codex vikulega, og þessir verkfræðingar senda um það bil 70% fleiri pull-beiðnir síðan þeir tóku upp Codex. Þegar við færum mörkin á því hvað fulltrúar geta gert, erum við spennt að sjá hvað þú munt byggja með þeim.

Viðauki: Mat á líkönum

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Höfundur

OpenAI