Vi introduserer GPT‑5.1‑Codex‑Max, vår nye agentiske kodingsmodell Frontier, tilgjengelig i Codex i dag. GPT‑5.1‑Codex‑Max er bygget på en oppdatering av vår grunnleggende resonneringsmodell, som er trent på agentoppgaver innen programvareutvikling, matematikk, forskning og mer. GPT‑5.1‑Codex‑Max er raskere, mer intelligent og mer token-effektiv i alle trinn av utviklingssyklusen – og et nytt skritt mot å bli en pålitelig kodepartner.
GPT‑5.1‑Codex‑Max er laget for langvarig, detaljert arbeid. Det er vår første modell som er trent til å operere over flere kontekster gjennom en prosess kalt kompaktering, og som arbeider sammenhengende over millioner av tokens i én enkelt oppgave. Dette åpner for refaktoriseringer i prosjektskala, dype feilsøkingsøkter og agentsløyfer som varer i flere timer.
GPT‑5.1‑Codex‑Max er tilgjengelig i Codex i dag for bruk i CLI, IDE-utvidelsen, nettskyen og kodegjennomgang, og API-tilgang kommer snart.
GPT‑5.1‑Codex‑Max ble trent på virkelige programvareutviklingsoppgaver, som PR-opprettelse, kodegjennomgang, frontend-koding og spørsmål/svar, og overgår våre tidligere modeller i mange avanserte kodeevalueringer. Modellens fremgang på sammenligningsgrunnlag kommer også med forbedringer i praktisk bruk: GPT‑5.1‑Codex‑Max er den første modellen vi har trent til å operere i Windows-miljøer, og modellens opplæring inkluderer nå oppgaver designet for å gjøre den til en bedre samarbeidspartner i Codex CLI.
* Alle evalueringer ble utført med kompaktering aktivert ved ekstra høy resonnementsevne
* Terminal-Bench2.0 kjørte med Codex CLI i Laude Institute Harbor-harnesset(åpnes i et nytt vindu)
GPT‑5.1‑Codex‑Max viser betydelige forbedringer i token-effektivitet på grunn av mer effektiv resonnering. På SWE-bench Verified oppnår GPT‑5.1‑Codex‑Max med «medium» resonneringsevne bedre ytelse enn GPT‑5.1‑Codex med samme resonnementsinnsats, mens du bruker 30 % færre token. For oppgaver som ikke er følsomme for forsinkelse, introduserer vi også en ny Extra High («xhigh») resonnementstilnærming, som tenker enda lenger for å gi et bedre svar. Vi anbefaler fortsatt medium som daglig driver for de fleste oppgaver.
Vi forventer at forbedringene i token-effektivitet vil føre til reelle besparelser for utviklere.
GPT‑5.1‑Codex‑Max kan for eksempel produsere frontend-design av høy kvalitet med lignende funksjonalitet og estetikk, men til en mye lavere kostnad enn GPT‑5.1‑Codex.
Kommando: Generer én enkelt, selvstendig nettleserapp som viser en interaktiv CartPole RL-sandkasse med canvas-grafikk, en liten policy-gradient-kontroller, målinger og en SVG-nettverksvisualisering.
Funksjoner
Må faktisk kunne lære opp en policy for å gjøre modellen bedre på cart pole.Visualisering av aktiveringer/vekter når modellen er i opplæring eller ved inferensSteg i episoden, belønninger i denne episodenSiste overlevelsestid og best overlevelsestid i steg
Lagre til index.html
Kompaktering aktiverer GPT‑5.1‑Codex‑Max til å fullføre oppgaver som tidligere ville ha mislyktes på grunn av begrensninger i kontekstvinduet, som komplekse refaktoreringer og langvarige agentsløyfer, ved å beskjære historikken samtidig som den viktigste konteksten bevares over lange tidsperioder. I Codex-applikasjoner komprimerer GPT‑5.1‑Codex‑Max økten automatisk når den nærmer seg grensen for kontekstvinduet, og gir den et nytt kontekstvindu. Den gjentar denne prosessen til oppgaven er ferdig.
Evnen til å opprettholde sammenhengende arbeid over lange tidsperioder er en grunnleggende evne på veien mot mer generelle og pålitelige KI-systemer. GPT‑5.1‑Codex‑Max kan jobbe selvstendig i flere timer om gangen. I våre interne evalueringer har vi observert at GPT‑5.1‑Codex‑Max har arbeidet med oppgaver i mer enn 24 timer. Den vil vedvarende iterere på implementeringen, rette testfeil og til slutt levere et vellykket resultat.
I dette eksemplet refaktorerer GPT‑5.1‑Codex‑Max det åpne kildekode-arkivet Codex CLI på egen hånd.
Når øktlengden nærmer seg modellens kontekstvindu, komprimerer den automatisk økten for å frigjøre plass slik at oppgaven kan fortsette uten å miste fremdrift.
Videoen har blitt trimmet og hastigheten er økt for klarhet.
GPT‑5.1‑Codex‑Max yter betydelig bedre på evalueringer som krever vedvarende, langsiktig resonnering. Da den kan arbeide sammenhengende på tvers av flere kontekstvinduer ved hjelp av komprimering, leverer modellen forbedrede resultater på utfordringer innen områder som langhorisontkoding og nettsikkerhet. Vi analyserte resultatene av denne modellens ytelse på førsteparts- og tredjepartsevalueringer i GPT‑5.1‑Codex‑Max systemkort.
GPT‑5.1‑Codex‑Max oppnår ikke høy kapasitet på nettsikkerhet under vårt beredskapsrammeverk , men det er nettsikkerhetsmodellen med størst kapasitet som vi har distribuert til nå, og agentiske nettsikkerhetskapasiteter utvikler seg raskt. Som et resultat tar vi skritt for å forberede oss på høy kapasitet innen nettsikkerhet, og vi forbedrer våre sikkerhetstiltak i nettdomene. Vi jobber for å sikre at forsvarere kan dra nytte av disse forbedrede kapasiteter gjennom programmer som Aardvark.
Da vi lanserte GPT‑5‑Codex, implementerte vi dedikert overvåking spesifikt for nettsikkerhet for å påvise og avbryte skadelig aktivitet. Selv om vi ikke har observert noen meningsfull økning i skalert misbruk, forbereder vi ytterligere tiltak for avanserte funksjoner. Våre team har allerede forstyrret nettoperasjoner som forsøkte å misbruke modellene våre, og mistenkelig aktivitet blir sendt til gjennomgang gjennom våre policyovervåkingssystemer.
Codex er designet for å kjøre i en sikker sandkasse som standard: filskriving er begrenset til arbeidsområdet, og nettverkstilgang er deaktivert med mindre en utvikler aktiverer den. Vi anbefaler å holde Codex i denne begrensede tilgangsmodusen, siden aktivering av internett- eller nettsøk kan medføre meldingsinjeksjonsrisiko fra upålitelig innhold.
Etter hvert som Codex blir mer kapabel til å håndtere langvarige oppgaver, blir det stadig viktigere for utviklere å gjennomgå agentens arbeid før de gjør endringer eller distribuerer til produksjon. For å hjelpe til med dette, produserer Codex terminallogger og refererer til verktøykallene og testresultatene. Selv om kodegjennomgangene reduserer risikoen for å distribuere modell- eller menneskeskapte feil til produksjon, bør Codex behandles som en ekstra gjennomgangspartner og ikke som en erstatning for menneskelige vurderinger.
Nettsikkerhetsfunksjoner kan brukes til både forsvar og angrep, så vi tar en iterativ distribusjonsmetode: vi lærer av bruk i den virkelige verden, oppdaterer sikkerhetstiltak, og bevarer viktige defensive verktøy som automatisert sårbarhetsskanning og utbedringshjelp.
GPT‑5.1‑Codex‑Max er tilgjengelig i Codex med ChatGPT Plus-, Pro-, Business-, Edu- og Enterprise-planer. For detaljer om hvordan bruksgrenser fungerer for planen din, se våre dokumenter(åpnes i et nytt vindu).
For utviklere som bruker Codex CLI via API-nøkkel, planlegger vi å gjøre GPT‑5.1‑Codex‑Max tilgjengelig i API-et snart.
Fra og med i dag vil GPT‑5.1‑Codex‑Max erstatte GPT‑5.1‑Codex som standardmodell i Codex-grensesnitt. I motsetning til GPT‑5.1, som er en generell modell, anbefaler vi å bruke GPT‑5.1‑Codex‑Max. og Codex-familien av modeller kun for agentiske kodingsoppgaver i Codex eller Codex-lignende miljøer.
GPT‑5.1‑Codex‑Max viser hvor langt modellene har kommet i å opprettholde langsiktige kodeoppgaver, administrere komplekse arbeidsflyter og produsere implementeringer av høy kvalitet med langt færre tokens. Vi har sett at modellen, kombinert med jevnlige oppgraderinger av vår CLI, IDE-utvidelse, skyintegrasjon og verktøy for kodegjennomgang, har resultert i superladet ingeniørproduktivitet: internt bruker 95 % av OpenAI-ingeniører Codex ukentlig, og disse ingeniørene sender omtrent 70 % flere pull-forespørsler siden de tok i bruk Codex. Etter hvert som vi utvider grensene for hva agenter kan gjøre, gleder vi oss til å se hva du vil bygge med dem.
GPT‑5.1‑Codex (høy) | GPT‑5.1‑Codex‑Max (xhøy) | |
SWE-bench verifisert (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


