18. desember 2025

Vi introduserer GPT‑5.2‑Codex

Den mest avanserte agentiske kodemodellen for profesjonell programvareutvikling og defensiv cybersikkerhet.

I dag lanserer vi GPT‑5.2‑Codex, den mest avanserte agentiske modellen hittil for kompleks, programvareutvikling for den virkelige verden. GPT‑5.2‑Codex er en versjon av GPT‑5.2⁠ som er ytterligere optimalisert for agentkoding i Codex, inkludert forbedringer for arbeid med lang tidshorisont gjennom kontekstkomprimering, sterkere ytelse på store kodeendringer som refaktoriseringer og migrasjoner, forbedret ytelse i Windows-miljøer, og betydelig sterkere cybersikkerhetsegenskaper.

Etter hvert som modellene våre fortsetter å utvikle seg langs den teknologiske frontlinjen for intelligens, har vi observert at disse forbedringene også fører til kapasitetsøkninger i spesialiserte domener som cybersikkerhet⁠. I forrige uke fant for eksempel en sikkerhetsforsker som brukte GPT‑5.1‑Codex‑Max sammen med Codex CLI, en sårbarhet i React som kunne føre til eksponering av kildekode, og avslørte det⁠(åpnes i et nytt vindu) på en ansvarsfull måte.

GPT‑5.2‑Codex har sterkere cybersikkerhetsegenskaper enn noen modell vi har lansert så langt. Disse fremskrittene kan bidra til å styrke cybersikkerhet i stor skala, men de reiser også nye risikoer for tosidig bruk som krever nøye implementering. Selv om GPT‑5.2‑Codex ikke når et «Høyt» nivå av cyberkapabilitet i henhold til vårt beredskapsrammeverk, utformer vi vår implementeringstilnærming⁠ med tanke på fremtidig kapabilitetsvekst.

Vi lanserer GPT‑5.2‑Codex i dag på alle Codex-grensesnitt for betalende ChatGPT‑brukere, og vi jobber for å muliggjøre tilgang til GPT‑5.2‑Codex for API-brukere i løpet av de kommende ukene på en trygg måte. Samtidig tester vi ut invitasjonsbasert, pålitelig tilgang til kommende funksjoner og modeller med færre begrensninger for godkjente fagpersoner og organisasjoner som fokuserer på defensivt cybersikkerhetsarbeid. Vi mener at denne tilnærmingen til utrulling vil balansere tilgjengelighet med sikkerhet.

Vi utvider grensene for programvareutvikling i den virkelige verden

GPT‑5.2‑Codex bygger på GPT‑5.2s sterke sider⁠ innen profesjonelt kunnskapsarbeid og GPT‑5.1‑Codex‑Max⁠s banebrytende agentkodeferdigheter og terminalbruksegenskaper. GPT‑5.2‑Codex er nå bedre på forståelse av lange kontekster, pålitelig verktøyoppkalling, forbedret faktuell nøyaktighet og innebygd komprimering, noe som gjør den til en mer pålitelig partner for langvarige kodingsoppgaver, samtidig som den forblir token-effektiv i sin resonnering.

GPT‑5.2‑Codex oppnår toppmoderne ytelse på SWE-Bench Pro og Terminal-Bench 2.0, benchmarks designet for å teste agentisk ytelse på et bredt spekter av oppgaver i realistiske terminalmiljøer. Det er også mye mer effektivt og pålitelig ved agentkoding i native Windows-miljøer, og bygger på funksjoner introdusert i GPT‑5.1‑Codex‑Max.

Med disse forbedringene er Codex mer i stand til å arbeide i store arkiver over lengre økter med full kontekst intakt. Den kan fullføre komplekse oppgaver som store refaktoreringer, kodemigreringer og funksjonsbygging på en pålitelig måte – og fortsette å iterere uten å miste oversikten, selv når planer endres eller forsøk mislykkes.

I SWE-Bench Pro⁠⁠⁠⁠ får en modell et kodearkiv, og må generere en kodeendring for å løse en realistisk programvareingeniøroppgave. Terminal-Bench 2.0 er et sammenligningsgrunnlag for testing av KI-agenter i ekte terminalmiljøer. Oppgavene inkluderer kompilering av kode, opplæring av modeller og oppsett av servere.

Sterkere visuell ytelse aktiverer GPT‑5.2‑Codex til å tolke skjermbilder, tekniske diagrammer, grafer og brukergrensesnitt mer nøyaktig under kodeøkter.

Codex kan foreta designutkast og raskt oversette dem til funksjonelle prototyper, og du kan samarbeide med Codex for å ta disse prototypene til produksjon.

Designutkast

Prototype generert av GPT‑5.2‑Codex

Gjøre fremskritt på frontlinjen til internett

Når vi kartlegger ytelsen i én av våre kjerneevalueringer for cybersikkerhet over tid, ser vi et markant sprang i kapasitet som begynner med GPT‑5‑Codex, et nytt stort sprang med GPT‑5.1‑Codex‑Max og nå et tredje sprang med GPT‑5.2‑Codex. Vi forventer at fremtidige KI-modeller vil fortsette i denne retningen. I forberedelsene planlegger og evaluerer vi som om hver ny modell kan nå «høye» nivåer av cybersikkerhetskapasitet, målt etter vårt beredskapsrammeverk⁠(åpnes i et nytt vindu). Selv om GPT‑5.2‑Codex ennå ikke har nådd et «høyt» nivå av cyberkapasitet, forbereder vi oss på fremtidige modeller som vil krysse denne terskelen. På grunn av de økte cyberkapabilitetene har vi lagt til ekstra sikkerhetstiltak i modellen og i produktet, som er beskrevet i systemkortet⁠.

Evalueringen Professional Capture-the-Flag (CTF) måler hvor ofte modellen kan løse avanserte flertrinnsutfordringer fra virkeligheten (som krever profesjonelle ferdigheter innen cybersikkerhet) i et Linux-miljø.

Cyberkapasiteter i den virkelige verden

Det moderne samfunnet drives av programvare, og påliteligheten avhenger av sterk cybersikkerhet—å holde kritiske systemer innen bank, helsevesen, kommunikasjon og essensielle tjenester online, beskytte sensitiv data, og sikre at folk kan stole på programvaren de bruker hver dag. Sårbarheter kan eksistere lenge før noen vet om dem, og det å finne, validere og fikse dem avhenger ofte av et fellesskap av ingeniører og uavhengige sikkerhetsforskere som har de riktige verktøyene.

Den 11. desember 2025 publiserte React-teamet tre sikkerhetssårbarheter som påvirker apper bygget med React Server Components. Det som gjorde denne avsløringen bemerkelsesverdig, var ikke bare sårbarhetene i seg selv, men også hvordan de ble avdekket.

Andrew MacPherson, ledende sikkerhetstekniker hos Privy (et Stripe-selskap), brukte GPT‑5.1‑Codex‑Max med Codex CLI og andre kodeagenter for å gjenskape og studere en annen kritisk React-sårbarhet som ble avslørt uken før, kjent som React2Shell⁠(åpnes i et nytt vindu) (CVE-2025-55182⁠(åpnes i et nytt vindu)). Hans mål var å evaluere hvor godt modellen kunne hjelpe til med sårbarhetsforskning i den virkelige verden.

Han forsøkte først flere zero-shot-analyser, og ba modellen om å undersøke oppdateringen og identifisere sårbarheten den løste. Da dette ikke ga resultater, gikk han over til en mer omfattende, gjentakende meldingstilnærming. Når disse tilnærmingene ikke lyktes, veiledet han Codex gjennom standard arbeidsflyter for defensiv sikkerhet–oppsett av et lokalt testmiljø, resonnering gjennom potensielle angrepsflater, og bruk av fuzzing for å teste systemet med inndata i feil format. Når vi forsøkte å reprodusere det opprinnelige React2Shell-problemet, avdekket Codex uventede atferder som krevde en grundigere undersøkelse. I løpet av én uke førte denne prosessen til oppdagelsen av tidligere ukjente sårbarheter, som ble ansvarlig rapportert til React-teamet.

Flytdiagram med tittelen «Vulnerability Discovery with Codex: CVE-2025-55183» som viser en arbeidsflyt som starter med et Git-arkiv og Codex som skanner kode for sårbarheter. Et zero-shot-forsøk mislykkes, etterfulgt av en ekspertveiledet prosess som undersøker kodebasen, identifiserer mulige mål, bygger en testmiljø og utfører fuzz-testing mot en eksempel-app med revalidering. Resultatene verifiseres for å opprettelse et konseptbevis, som fører til ansvarlig offentliggjøring og en oppdatering som legges tilbake i arkivet.

Dette viser hvordan avanserte KI-systemer kan akselerere defensivt sikkerhetsarbeid i mye brukt programvare i vesentlig grad i den virkelige verden. Samtidig kan funksjoner som hjelper forsvarere med å bevege seg raskere, også misbrukes av ondsinnede aktører.

Etter hvert som agentiske systemer blir mer kapable til oppgaver relevante for nettsikkerhet, gjør vi det til en kjerneprioritet å sikre at disse fremskrittene blir implementert ansvarlig—ved å kombinere hver økning i kapasitet med sterkere sikkerhetstiltak, strammere tilgangskontroller og kontinuerlig samarbeid med sikkerhetsmiljøet.

Styrker cyberforsvaret gjennom pålitelig tilgang

Sikkerhetsteam kan møte restriksjoner når de forsøker å etterligne trusselaktører, analysere skadelig programvare for å støtte utbedring, eller stressteste kritisk infrastruktur. Vi utvikler et pilotprosjekt for pålitelig tilgang for å fjerne friksjonen for kvalifiserte brukere og organisasjoner, og tilrettelegge for at betrodde forsvarere kan bruke banebrytende KI-cyberkapasiteter for å akselerere cyberforsvaret.

Til å begynne med vil pilotprogrammet kun være invitasjonsbasert for godkjente sikkerhetsfagfolk med en dokumentert historikk for ansvarlig avsløring av sårbarheter og organisasjoner med et tydelig profesjonelt bruksområde for cybersikkerhet. Kvalifiserte deltakere vil få tilgang til våre mest kapable modeller for defensive bruksområder for å aktivere legitimt tosidig arbeid.

Hvis du er en sikkerhetsfagperson, eller en del av en organisasjon som driver med etisk sikkerhetsarbeid som sårbarhetsforskning eller autorisert red-teaming, inviterer vi deg til å registrere din interesse for å delta og gi innspill på hva du vil se fra programmet her⁠(åpnes i et nytt vindu).

Konklusjon

GPT‑5.2‑Codex representerer et fremskritt for hvordan avansert KI kan støtte praktisk programvareutvikling og spesialiserte domener som cybersikkerhet–det hjelper utviklere og forsvarere med å håndtere komplekse, langsiktige oppgaver, og styrker verktøyene som er tilgjengelige for ansvarlig sikkerhetsforskning.

Ved å rulle ut GPT‑5.2‑Codex gradvis, kombinere distribusjon med sikkerhetstiltak, og jobbe tett med sikkerhetsmiljøer, sikter vi på å maksimere den defensive påvirkningen, samtidig som vi reduserer risikoen for misbruk. Det vi lærer fra denne utgivelsen vil direkte påvirke hvordan vi utvider tilgangen over tid, ettersom programvare- og cyberfrontene fortsetter sin utvikling.

Forfatter

OpenAI

Les videre

Se alle

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 er nå foretrukket modell i Microsoft 365 Copilot

Produkt9. juli 2026

ChatGPT er nå en partner for det mest ambisiøse arbeidet ditt

Produkt9. juli 2026

GPT-5.6: Banebrytende intelligens som skalerer med ambisjonene dine

Produkt9. juli 2026