Gå direkt till huvudinnehåll
OpenAI

19 november 2025

ProduktLansering

Bygg mer med GPT‑5.1‑Codex‑Max

Laddar …

Introduktion

Vi introducerar GPT‑5.1‑Codex‑Max, vår nya agentiska kodningsmodell som finns tillgänglig i Codex idag.  GPT‑5.1‑Codex‑Max bygger på en uppdatering av vår grundläggande resonemangsmodell som är tränad på agentiska uppgifter inom mjukvaruutveckling, matematik, forskning med mer. GPT‑5.1‑Codex‑Max är snabbare, effektivare med tokens och mer intelligent i varje steg av utvecklingscykeln och ett nytt steg mot att bli en pålitlig kodpartner.

GPT‑5.1‑Codex‑Max är skapad för långvarigt, detaljerat arbete. Det är vår första modell som är nativt tränad att fungera över flera kontextfönster genom en process som kallas kompaktering och som koherent arbetar över miljontals token i en enda uppgift. Detta låser upp refaktoreringar i projektskala, djupa felsökningssessioner och flera timmar långa agentloopar.

GPT‑5.1‑Codex‑Max är tillgänglig i Codex idag för användning i CLI, IDE-tillägg, moln och kodgranskning, dessutom kommer API-åtkomst snart.

Banbrytande kodningsfunktioner

GPT‑5.1‑Codex‑Max har tränats på verkliga uppgifter inom programvaruteknik såsom PR-skapande, kodgranskning, frontendkodning och Q&A, och överträffar våra tidigare modeller i många avancerade kodutvärderingar. Modellens vinster över riktmärken kommer även med förbättringar för verklig användning: GPT‑5.1‑Codex‑Max är den första modellen vi har tränat för att fungera i Windows-miljöer och modellens träning inkluderar nu uppgifter utformade för att göra den till en bättre samarbetspartner i Codex CLI.

* Alla utvärderingar kördes med kompaktering aktiverad och extra hög resonemangsförmåga
* Terminal-Bench2.0 kördes med Codex CLI i
Laude Institute Harbor harness(öppnas i ett nytt fönster)

Hastighet och kostnad

GPT‑5.1‑Codex‑Max är mer effektiv med tokens tack vare ett mer effektivt resonemang. På SWE-bench Verified presterar GPT‑5.1‑Codex‑Max med en resonemangsinsats på 'medel' bättre än GPT‑5.1‑Codex med samma resonemangsinsats samtidigt som den använder 30 % färre tänkande token. För uppgifter som inte är känsliga för latens introducerar vi även en ny extra hög ('xhigh') resonemangsnivå som tänker ännu längre för ett bättre svar. Vi rekommenderar fortfarande 'medel' som standard för de flesta uppgifter.

Vi förväntar oss att ökad effektivitet med tokens kommer leda till stora besparingar för utvecklare.

Till exempel kan GPT‑5.1‑Codex‑Max skapa högkvalitativa frontend-designer med liknande funktionalitet och estetik men till en mycket lägre kostnad än GPT‑5.1‑Codex.

Prompt: Generera en fristående webbläsarapp som renderar en interaktiv CartPole RL-sandlåda med canvasgrafik, en liten kontroll för policy, mätvärden och en SVG-nätverksvisualiserare.

Funktioner

  • Måste kunna träna en policy för att förbättra modellen i cart pole
  • Visualiserare för aktiveringar/vikter när modellen tränas eller vid inferens
  • Steg i avsnittet, belöningar i detta avsnitt
  • Senaste överlevnadstiden och bästa överlevnadstiden i steg

Spara till index.html

Långvariga uppgifter

Kompaktering aktiverar GPT‑5.1‑Codex‑Max för slutförande av uppgifter som tidigare skulle ha misslyckats på grund av begränsningar i kontextfönstret såsom komplexa refaktoriseringar och långvariga agentloopar genom att beskära dess historik samtidigt som den viktigaste kontexten bevaras över långa tidsperioder. I Codex-applikationer komprimerar GPT‑5.1‑Codex‑Max automatiskt sin session när den närmar sig sin kontextfönstergräns vilket ger den ett nytt kontextfönster. Den upprepar denna process tills uppgiften är klar.

Förmågan att upprätthålla sammanhängande arbete över långa tidsperioder är en grundläggande förmåga på vägen mot mer generella och pålitliga AI-system. GPT‑5.1‑Codex‑Max kan arbeta självständigt i timmar i sträck. Vi har observerat i våra interna utvärderingar GPT‑5.1‑Codex‑Max arbeta med uppgifter i mer än 24 timmar. Den kommer att iterera kontinuerligt på sin implementering, åtgärda testfel och slutligen leverera ett lyckat resultat.

I det här exemplet refaktorerar GPT‑5.1‑Codex‑Max självständigt det öppna källkodsarkivet Codex CLI.

När sessionslängden närmar sig modellens kontextfönster komprimeras sessionen automatiskt för att frigöra utrymme så att du kan fortsätta med uppgiften utan att förlora framsteg.

Videon har klippts och snabbats upp för tydlighet.

Skapa säkra och tillförlitliga AI-agenter

GPT‑5.1‑Codex‑Max presterar avsevärt bättre på utvärderingar som kräver ihållande resonemang på lång sikt. Eftersom den kan arbeta sammanhängande över flera kontextfönster med hjälp av komprimering levererar modellen bättre resultat på utmaningar inom områden såsom långsiktig kodning och cybersäkerhet. Vi analyserade resultaten av denna modells prestation vid utvärderingar från första och tredje part i GPT‑5.1‑Codex‑Max systemkort.

GPT‑5.1‑Codex‑Max uppnår inte hög kapacitet inom cybersäkerhet under vårt Preparedness Framework men det är den mest kapabla cybersäkerhetsmodellen vi har distribuerat hittills och agentiska cybersäkerhetsfunktioner utvecklas snabbt. Som ett resultat vidtar vi åtgärder för att förbereda oss på hög kapacitet inom cybersäkerhet och förbättrar våra skyddsåtgärder inom cyberdomänen samt arbetar för att säkerställa att försvarare kan dra nytta av dessa förbättrade förmågor i program såsom Aardvark.

När vi lanserade GPT‑5‑Codex implementerade vi särskild övervakning för cybersäkerhet och för att upptäcka och avbryta skadlig aktivitet. Även om vi inte har sett någon betydande ökning av missbruk förbereder vi ytterligare åtgärder för avancerade funktioner. Våra team har redan stört cyberoperationer som försökt missbruka våra modeller och misstänkt aktivitet skickas vidare för granskning av våra policyövervakningssystem.

Codex är utformad för att köras i en säker sandlåda som standard: filskrivningar är begränsade till dess arbetsyta och nätverksåtkomst är inaktiverad om inte en utvecklare aktiverar den. Vi rekommenderar att du behåller Codex i detta läge med begränsad åtkomst eftersom aktivering av internet- eller webbsökning kan medföra risk för omedelbara injektioner från opålitligt innehåll.

I takt med att Codex blir allt mer kapabel att hantera långvariga uppgifter blir det allt viktigare för utvecklare att granska agentens arbete innan de gör ändringar eller distribuerar till produktion. För att underlätta detta genererar Codex terminalloggar och refererar till sina verktygsanrop och testresultat. Även om dess kodgranskningar minskar risken för distribution av modell- eller människoskapade buggar till produktion bör Codex behandlas som en extra granskare och inte som en ersättning för mänskliga granskningar.

Cybersäkerhetsfunktioner kan användas för både skydd och offensivt så vi använder en iterativ distributionsmetod: vi lär oss av verklig användning, uppdaterar skyddsåtgärder och bevarar viktiga defensiva verktyg såsom automatiserad sårbarhetsskanning och hjälp med åtgärder.

Tillgänglighet

GPT‑5.1‑Codex‑Max är tillgänglig i Codex med ChatGPT Plus-, Pro-, Business-, Edu- och Enterprise-abonnemang. För information om hur användningsgränser fungerar för ditt abonnemang, se våra dokument(öppnas i ett nytt fönster).

För utvecklare som använder Codex CLI via API-nyckel planerar vi att göra GPT‑5.1‑Codex‑Max tillgänglig i API:n snart.

Från och med idag kommer GPT‑5.1‑Codex‑Max att ersätta GPT‑5.1‑Codex som standardmodell i Codex-gränssnitt. Till skillnad från GPT‑5.1, som är en modell för generellt bruk, rekommenderar vi att endast använda GPT‑5.1‑Codex‑Max och Codex-familjen av modeller för agentkodningsuppgifter i Codex- eller Codex-liknande miljöer.

Slutsats

GPT‑5.1‑Codex‑Max visar hur långt modeller har kommit i att upprätthålla långsiktiga kodningsuppgifter, hantera komplexa arbetsflöden och producera högkvalitativa implementationer med betydligt färre tokens. Vi har sett att modellen i kombination med stadiga uppgraderingar av vårt CLI, IDE-tillägg, molnintegration och kodgranskningsverktyg resulterar i en kraftigt ökad produktivitet i ingenjörsarbete: internt använder 95 % av OpenAI-ingenjörerna Codex varje vecka och dessa ingenjörer skickar ungefär 70 % fler pull-begäranden sedan de började använda Codex. Vi ser fram emot att se vad du kommer att skapa med agenterna i takt med att vi flyttar gränsen för vad agenterna kan göra.

Bilaga: Utvärdering av modeller

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verifierad (n=500)

73,7 %

77,9 %

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Författare

OpenAI