18 december 2025

Vi presenterar GPT‑5.2‑Codex

Den mest avancerade agentmodellen för professionell mjukvaruutveckling och defensiv cybersäkerhet.

I dag släpper vi GPT‑5.2‑Codex, den mest avancerade agentiska kodningsmodellen hittills för komplex och verklig programvaruutveckling. GPT‑5.2‑Codex är en version av GPT‑5.2⁠ som är ytterligare optimerad för agentkodning i Codex, inklusive förbättringar för långsiktigt arbete genom kontextkomprimering, bättre prestanda vid stora kodändringar såsom omstruktureringar och migrationer, förbättrad prestanda i Windows-miljöer och betydligt starkare cybersäkerhetsförmågor.

I takt med att våra modeller fortsätter att utvecklas på intelligensfronten har vi observerat att dessa förbättringar även leder till kapacitetsökningar inom specialiserade områden såsom cybersäkerhet⁠. Förra veckan till exempel använde en säkerhetsforskare GPT‑5.1‑Codex‑Max tillsammans med Codex CLI och upptäckte⁠(öppnas i ett nytt fönster) en sårbarhet i React som kan leda till exponering av källkod.

GPT‑5.2‑Codex har starkare cybersäkerhetsfunktioner än alla andra modeller vi släppt hittills. Dessa framsteg kan hjälpa till att stärka cybersäkerheten i stor skala men medför även nya risker för dubbelanvändning som kräver noggrann driftsättning. Även om GPT‑5.2‑Codex inte når en ”hög” nivå av cyberkapacitet enligt vårt beredskapsramverk utformar vi vår driftsättningsstrategi⁠ med framtida kapacitetsökning i åtanke.

Vi släpper idag GPT‑5.2‑Codex på alla Codex-ytor för betalande ChatGPT‑användare, och vi arbetar mot att erbjuda säker åtkomst till GPT‑5.2‑Codex för API-användare under de kommande veckorna. Parallellt testar vi inbjudningsbaserad betrodd åtkomst till kommande funktioner och mer tillåtande modeller för granskade yrkesverksamma och organisationer som fokuserar på defensivt cybersäkerhetsarbete. Vi tror att detta tillvägagångssätt för distribution kommer att balansera tillgänglighet och säkerhet.

Vi flyttar fram gränserna för verklig programvaruutveckling

GPT‑5.2‑Codex bygger vidare på GPT‑5.2:s styrkor⁠ inom professionellt kunskapsarbete och GPT‑5.1‑Codex‑Maxs⁠ banbrytande agentkodning och funktioner för terminalanvändning. GPT‑5.2‑Codex är nu bättre på att förstå lång kontext, tillförlitliga verktygsanrop, förbättrad faktamässig korrekthet och inbyggd kompaktering vilket gör den till en mer pålitlig partner för långvariga kodningsuppgifter samtidigt som den förblir token-effektiv i sitt resonemang.

GPT‑5.2‑Codex har presterat mycket bra på SWE-Bench Pro och Terminal-Bench 2.0, två riktmärken utformade för att testa agentprestanda på en mängd olika uppgifter i realistiska terminalmiljöer. Den är även mycket mer effektivt och pålitligt vid agentisk kodning i inhemska Windows-miljöer och bygger vidare på funktionerna som introducerades i GPT‑5.1‑Codex‑Max.

Med dessa förbättringar är Codex mer kapabel att arbeta i stora arkiv under längre sessioner med hela kontexten intakt. Den kan slutföra komplexa uppgifter mer tillförlitligt, till exempel stora refaktoriseringar, kodmigreringar och funktionsbyggen – och fortsätter att iterera utan att tappa bort sig, även när planer ändras eller försök misslyckas.

I SWE-Bench Pro⁠⁠⁠⁠ får en modell ett kodarkiv och måste generera en patch för att lösa en realistisk uppgift inom mjukvaruutveckling. Terminal-Bench 2.0 är ett riktmärke för att testa AI-agenter i verkliga terminalmiljöer. Uppgifter inkluderar att kompilera kod, träning av modeller och konfiguration av servrar.

GPT‑5.2‑Codex har starkare visuell prestanda som låter den mer exakt tolka skärmdumpar, tekniska diagram, diagram och användargränssnitt som delas under kodningssessioner.

Codex kan ta designskisser och snabbt omvandla dem till funktionella prototyper, och du kan samarbeta med Codex för att ta dessa prototyper till produktion.

Designmockup

Prototyp genererad av GPT‑5.2‑Codex

Framsteg inom cybersäkerhet

När vi kartlägger prestandan i en av våra centrala cybersäkerhetsutvärderingar över tid ser vi en kraftig ökning i kapacitet som börjar med GPT‑5‑Codex, ett till stort hopp med GPT‑5.1‑Codex‑Max och nu ett tredje hopp med GPT‑5.2‑Codex. Vi förväntar oss att framtida AI-modeller kommer att fortsätta på denna bana. Som förberedelse planerar och utvärderar vi som om varje ny modell skulle kunna nå ”hög” nivå av cybersäkerhetskapacitet som mäts enligt vårt Preparedness Framework⁠(öppnas i ett nytt fönster). Även om GPT‑5.2‑Codex ännu inte nått ”hög” nivå av cyberkapacitet förbereder vi oss för framtida modeller som passerar den tröskeln. På grund av de ökade cyberfunktionerna har vi lagt till ytterligare skyddsåtgärder i modellen och produkten som beskrivs i systemkortet⁠.

Professional Capture-the-Flag (CTF) mäter hur ofta modellen kan lösa avancerade, flerstegsutmaningar från verkligheten (som kräver professionella cybersäkerhetsfärdigheter) i en Linux-miljö.

Cyberfunktioner i den verkliga världen

Det moderna samhället drivs av programvara och dess tillförlitlighet är starkt beroende av cybersäkerhet som håller kritiska system inom banker, sjukvård, kommunikation och viktiga tjänster online, skyddar känslig data och säkerställer att folk kan lita på den programvara de använder varje dag. Sårbarheter kan existera länge innan någon upptäcker dem och att hitta, validera och åtgärda dem kräver ofta ingenjörer och oberoende säkerhetsforskare med rätt verktyg.

Den 11 december 2025 publicerade React-teamet tre säkerhetsbrister som påverkar appar byggda med React Server Components. Det som gjorde denna upptäckt anmärkningsvärd var inte bara sårbarheterna i sig utan även hur de upptäcktes.

Andrew MacPherson, en säkerhetstekniker på Privy (ett Stripe-företag) använde GPT‑5.1‑Codex‑Max med Codex CLI och andra agenter för att reproducera och studera en annan kritisk React-sårbarhet känd som React2Shell⁠(öppnas i ett nytt fönster) (CVE-2025-55182⁠(öppnas i ett nytt fönster)) som upptäcktes veckan före. Hans mål var att utvärdera hur väl modellen kan hjälpa till med forskning om sårbarheter ute i verkligheten.

Han gjorde först flera zero-shot-analyser, vilket fick modellen att granska patchen och identifiera sårbarheten den åtgärdade. När det inte gav resultat övergick han till en metod med högre volym och iterativa uppmaningar. När detta inte lyckades guidade han Codex genom standardarbetsflöden för defensiv cybersäkerhet, satte upp en lokal testmiljö, resonerade om potentiella attackytor och använda fuzzing för att skicka felaktiga indata till systemet. När vi försökte återskapa det ursprungliga React2Shell-problemet visade Codex oväntade beteenden som krävde djupare undersökning. Detta pågick under en vecka och ledde till upptäckten av tidigare okända sårbarheter som rapporterades till React-teamet.

Flödesschema med titeln ”Vulnerability Discovery with Codex: CVE-2025-55183" som visar ett arbetsflöde som börjar med ett Git-arkiv och Codex som söker igenom koden efter sårbarheter. Ett zero-shot-försök misslyckas, följt av en expertledd process som undersöker kodbasen, identifierar möjliga mål, bygger en testmiljö och utför fuzz-testning mot en exempelapp med revalidering. Resultaten verifieras för att skapa ett koncept, vilket leder till ansvarsfullt avslöjande och en patch som appliceras tillbaka till arkivet.

Detta visar hur avancerade AI-system kan påskynda defensivt säkerhetsarbete i allmänt använda programvaror i den verkliga världen. Samtidigt kan funktioner som hjälper säkerhetsteam att agera snabbare missbrukas av illvilliga aktörer.

I takt med att agentiska system blir alltmer kapabla inom cybersäkerhetsrelevanta uppgifter kommer vi göra det till en kärnprioritet att säkerställa att dessa framsteg implementeras ansvarsfullt. Varje ökning i kapacitet kommer kombineras med starkare skyddsåtgärder, stramare åtkomstkontroller och kontinuerligt samarbete med säkerhetsexperter.

Stärkt cyberförsvar genom betrodd åtkomst

Säkerhetsteam kan stöta på begränsningar när de försöker efterlikna hotaktörer, analysera skadlig kod för att stödja åtgärder eller stresstesta kritisk infrastruktur. Vi utvecklar ett betrott pilotprogram för åtkomst för att ta bort friktionen för kvalificerade användare och organisationer vilket gör det möjligt för betrodda personer att använda avancerade AI-cyberfunktioner för att stärka cyberförsvaret.

Inledningsvis kommer pilotprogrammet endast att vara för inbjudna säkerhetsexperter med en meritlista av ansvarsfull sårbarhetsrapportering och organisationer med ett tydligt användningsfall inom cybersäkerhet. Kvalificerade deltagare får åtkomst till våra mest kapabla modeller för defensiv användning för att aktivera legitimt dubbelanvändningsarbete.

Om du är en säkerhetsexpert eller en del av en organisation som utför etiskt säkerhetsarbete såsom sårbarhetsforskning eller auktoriserad red-teaming bjuder vi in dig att anmäla ditt intresse att gå med och dela med dig av feedback om vad du skulle vilja se från programmet här⁠(öppnas i ett nytt fönster).

Slutsats

GPT‑5.2‑Codex representerar ett steg framåt i hur avancerad AI kan stödja verklig mjukvaruutveckling och specialiserade domäner samt hjälpa utvecklare och säkerhetsteam att hantera komplexa, långsiktiga utmaningar och förbättra tillgängliga verktyg för ansvarsfull säkerhetsforskning.

Genom att rulla ut GPT‑5.2‑Codex gradvis, kombinera driftsättning med skyddsåtgärder och arbeta tillsammans med säkerhetsexperter strävar vi efter att maximera den defensiva påverkan och samtidigt minska risken för missbruk. Vad vi lär oss från denna lansering kommer att avgöra hur vi kommer utöka åtkomsten över tid i takt med att programvaran och cybersäkerheten fortsätter att utvecklas.

Författare

OpenAI

Fortsätt läsa

Visa alla

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Företag29 juli 2026

Så förenar GPT-5.6 banbrytande intelligens och effektivitet

Teknik29 juli 2026

How AI is expanding what we do at work > Cover image

How AI is expanding what people do at work

Företag27 juli 2026