Vi introducerer GPT‑5.1‑Codex‑Max, vores nye banebrydende agentiske kodningsmodel, tilgængelig i Codex i dag. GPT‑5.1‑Codex‑Max er baseret på en opdatering af vores grundlæggende ræsonneringsmodel, som er trænet på agentiske opgaver inden for softwareudvikling, matematik, forskning og mere. GPT‑5.1‑Codex‑Max er hurtigere, mere intelligent og mere token-effektiv i alle faser af udviklingscyklussen – og et nyt skridt mod at blive en pålidelig kodningspartner.
GPT‑5.1‑Codex‑Max er designet til langvarigt, detaljeret arbejde. Det er vores første model, der er trænet til at fungere på tværs af flere kontekstvinduer gennem en proces kaldet komprimering, der arbejder sammenhængende med millioner af tokens i en enkelt opgave. Dette muliggør refaktoreringer i projektstørrelse, dybtgående fejlfindingssessioner og flere timers agentloops.
GPT‑5.1‑Codex‑Max er tilgængelig i Codex i dag til brug i CLI, IDE-udvidelse, cloud og kodegennemgang, og API-adgang kommer snart.
GPT‑5.1‑Codex‑Max blev trænet i softwareudviklingsopgaver fra den virkelige verden, såsom PR-oprettelse, kodegennemgang, frontend-kodning og spørgsmål og svar, og overgår vores tidligere modeller i mange evalueringer af frontier coding. Modellens forbedringer i forhold til benchmarks kommer også med forbedringer i den virkelige verden: GPT‑5.1‑Codex‑Max er den første model, vi har trænet til at fungere i Windows-miljøer, og modellens træning inkluderer nu opgaver, der er designet til at gøre den til en bedre samarbejdspartner i Codex CLI.
* Alle evalueringer blev kørt med komprimering aktiveret ved ekstra høj avanceret tænkning
* Terminal-Bench2.0 kørte med Codex CLI i Laude Institute Harbor-rammen(åbner i et nyt vindue)
GPT‑5.1‑Codex‑Max viser betydelige forbedringer i token-effektivitet på grund af mere effektiv avanceret tænkning. På SWE-bench Verified opnår GPT‑5.1‑Codex‑Max med 'medium' avanceret tænkning bedre ydeevne end GPT‑5.1‑Codex med samme avanceret tænkning, med 30 % færre tokens. For opgaver, der ikke er følsomme over for latens, introducerer vi også en ny Extra High ('xhigh') ræsonneringsindsats, som tænker i endnu længere tid for at give et bedre svar. Vi anbefaler stadig medium som den daglige løsning til de fleste opgaver.
Vi forventer, at forbedringerne i token-effektiviteten vil føre til reelle besparelser for udviklere.
For eksempel kan GPT‑5.1‑Codex‑Max producere frontend-designs af høj kvalitet med lignende funktionalitet og æstetik, men til en meget lavere pris end GPT‑5.1‑Codex.
Forespørgsel: Generér en enkelt selvstændig browserapp, der gengiver en interaktiv CartPole RL-sandkasse med canvas-grafik, en lille policy-gradient controller, målinger og en SVG-netværksvisualisering.
Funktioner
Skal rent faktisk kunne træne en politik for at gøre modellen bedre til cartpoleVisualisering af aktiveringer/vægte, når modellen er i træning eller er i inferensTrin i episoden, belønner denne episodeSidste overlevelsestid og bedste overlevelsestid i skridt
Gem til index.html
Komprimering gør det muligt for GPT‑5.1‑Codex‑Max at udføre opgaver, der tidligere ville være mislykket på grund af begrænsninger i kontekstvinduet, såsom komplekse refaktoreringer og langvarige agentloops, ved at beskære dens historik, samtidig med at den vigtigste kontekst bevares over lange horisonter. I Codex-anvendelser komprimerer GPT‑5.1‑Codex‑Max automatisk sin session, når den nærmer sig grænsen for kontekstvinduet, hvilket giver den et nyt kontekstvindue. Den gentager denne proces, indtil opgaven er afsluttet.
Evnen til at opretholde sammenhængende arbejde over lange perioder er en grundlæggende kapacitet på vejen mod mere generelle, pålidelige AI-systemer. GPT‑5.1‑Codex‑Max kan arbejde selvstændigt i flere timer ad gangen. I vores interne evalueringer har vi observeret GPT‑5.1‑Codex‑Max arbejde på opgaver i mere end 24 timer. Den vil vedvarende iterere på sin implementering, rette testfejl og til sidst levere et vellykket resultat.
I dette eksempel refaktorerer GPT‑5.1‑Codex‑Max uafhængigt Codex CLI open source-repositoriet.
Når sessionslængden nærmer sig modellens kontekstvindue, komprimerer den automatisk sessionen for at frigøre plads til at fortsætte opgaven uden at miste fremdrift.
Videoen er blevet klippet og fremskyndet for klarhed.
GPT‑5.1‑Codex‑Max klarer sig betydeligt bedre i evalueringer, der kræver vedvarende, langsigtet avanceret tænkning. Fordi modellen kan fungere sammenhængende på tværs af flere kontekstvinduer ved hjælp af komprimering, leverer den forbedrede resultater på udfordringer inden for områder som langsigtet kodning og cybersikkerhed. Vi analyserede resultaterne af denne models præstation i første- og tredjepartsevalueringer i GPT‑5.1‑Codex‑Max‑ systemkort.
GPT‑5.1‑Codex‑Max opnår ikke høj kapacitet inden for cybersikkerhed under vores beredskabsramme , men det er den mest kapable cybersikkerhedsmodel, vi hidtil har implementeret, og agentiske cybersikkerhedskapaciteter udvikler sig hurtigt. Som følge heraf tager vi skridt til at forberede os på høj kapacitet inden for cybersikkerhed og forbedrer vores sikkerhedsforanstaltninger inden for cyberområdet og arbejder på at sikre, at forsvarere kan drage fordel af disse forbedrede kapaciteter gennem programmer som Aardvark.
Da vi lancerede GPT‑5‑Codex, implementerede vi dedikeret cybersikkerhedsspecifik overvågning for at opdage og afbryde ondsindede aktiviteter. Selvom vi ikke har observeret en betydelig stigning i skaleret misbrug, forbereder vi yderligere afbødninger for avancerede funktioner. Vores teams har allerede afbrudt cyberoperationer, der forsøgte at misbruge vores modeller, og mistænkelig aktivitet sendes til gennemgang via vores politikovervågningssystemer.
Codex er som standard designet til at køre i en sikker sandkasse: filskrivninger er begrænset til dets arbejdsområde, og netværksadgang er deaktiveret, medmindre en udvikler aktiverer den. Vi anbefaler at holde Codex i denne tilstand med begrænset adgang, da aktivering af internet- eller websøgning kan medføre risici "prompt injection" fra utroværdigt indhold.
Efterhånden som Codex bliver mere i stand til at håndtere langvarige opgaver, bliver det stadig vigtigere for udviklere at gennemgå agentens arbejde, før de foretager ændringer eller udruller til produktion. For at hjælpe med dette genererer Codex terminaludskrifter og angiver sine værktøjskald og testresultater. Selvom Codex' kodegennemgange reducerer risikoen for at implementere model- eller menneskeskabte fejl i produktionen, bør Codex behandles som en ekstra korrekturlæser og ikke som en erstatning for menneskelige gennemgange.
Cybersikkerhedsfunktioner kan bruges til både forsvar og offensiv, så vi anvender en iterativ implementeringstilgang: Vi lærer af brug i den virkelige verden, opdaterer sikkerhedsforanstaltninger og bevarer vigtige forsvarsværktøjer såsom automatiseret scanning af sårbarheder og afhjælpningshjælp.
GPT‑5.1‑Codex‑Max er tilgængelig i Codex med ChatGPT Plus-, Pro-, Business-, Edu- og Enterprise-planer. Du kan få oplysninger om, hvordan forbrugsgrænser fungerer for din plan, i vores dokumentation(åbner i et nyt vindue).
For udviklere, der bruger Codex CLI via API-nøgle, planlægger vi snart at gøre GPT‑5.1‑Codex‑Max tilgængelig i API'en.
Fra i dag vil GPT‑5.1‑Codex‑Max erstatte GPT‑5.1‑Codex som standardmodel i Codex-overflader. I modsætning til GPT‑5.1, som er en generel model, anbefaler vi kun at bruge GPT‑5.1‑Codex‑Max og Codex-familien af modeller til agent-baserede kodningsopgaver i Codex eller Codex-lignende miljøer.
GPT‑5.1‑Codex‑Max viser, hvor langt modellerne er kommet med hensyn til at opretholde langsigtede kodningsopgaver, styre komplekse arbejdsgange og producere implementeringer af høj kvalitet med langt færre tokens. Vi har set modellen kombineret med stabile opgraderinger af vores CLI, IDE-udvidelse, cloudintegration og kodegennemgangsværktøjer resultere i en markant øget produktivitet inden for ingeniørarbejde: Internt bruger 95 % af OpenAI-ingeniører Codex ugentligt, og disse ingeniører sender cirka 70 % flere pull requests siden de indførte Codex. Mens vi udvider grænserne for, hvad agenter kan gøre, glæder vi os til at se, hvad du vil bygge med dem.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench verificeret (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


