18. december 2025

Vi introducerer GPT‑5.2‑Codex

Den mest avancerede agentbaserede kodningsmodel til professionel softwareudvikling og defensiv cybersikkerhed.

I dag lancerer vi GPT‑5.2‑Codex, den mest avancerede agentbaserede kodningsmodel til komplekse, virkelighedsnære softwareudviklingsopgaver. GPT‑5.2‑Codex er en version af GPT‑5.2⁠, der er yderligere optimeret til agentbaseret kodning i Codex, herunder forbedringer i arbejde med lange tidshorisonter gennem kontekstkomprimering, stærkere præstationer ved store kodeændringer som refaktoriseringer og migrationer, forbedret ydeevne i Windows-miljøer og betydeligt stærkere cybersikkerhedskapaciteter.

Efterhånden som vores modeller fortsætter med at udvikle sig inden for intelligensområdet, har vi observeret, at disse forbedringer også fører til kapacitetsspring i specialiserede domæner såsom cybersikkerhed⁠. Så sent som i sidste uge fandt og rapporterede en forsker inden for sikkerhed på ansvarlig vis en sårbarhed i React, der kunne føre til eksponering af kildekode, ved at anvende GPT‑5.1‑Codex‑Max.⁠(åbner i et nyt vindue)

GPT‑5.2‑Codex har stærkere cybersikkerhedskapaciteter end nogen model, vi har udgivet indtil nu. Disse fremskridt kan hjælpe med at styrke cybersikkerhed i stor skala, men de rejser også nye risici ved dobbeltanvendelse, der kræver omhyggelig implementering. Selvom GPT‑5.2‑Codex ikke når et "Højt" niveau af cyberkapacitet under vores beredskabsramme, designer vi vores udrulningsstrategi⁠ med fremtidig kapacitetsvækst for øje.

Vi lancerer GPT‑5.2‑Codex i dag på alle Codex-overflader for betalende ChatGPT‑brugere, og vi arbejder på at gøre adgang til GPT‑5.2‑Codex sikkert tilgængelig for API-brugere i de kommende uger. Parallelt kører vi en pilot med betroet adgang kun for inviterede til kommende kapaciteter og mere tilladende modeller for godkendte professionelle og organisationer, der fokuserer på defensivt cybersikkerhedsarbejde. Vi tror på, at denne tilgang til implementering vil afbalancere tilgængelighed og sikkerhed.

Skubber grænserne for softwareudvikling i den virkelige verden

GPT‑5.2‑Codex bygger på GPT‑5.2’s styrker⁠ inden for professionelt videnarbejde og GPT‑5.1‑Codex‑Max⁠’s banebrydende agentbaserede kodnings- og terminalanvendelsesfunktioner. GPT‑5.2‑Codex er nu bedre til at forstå lange sammenhænge, pålidelig værktøjsopkald, forbedret fakticitet og indbygget komprimering, hvilket gør det til en mere pålidelig partner til langvarige kodningsopgaver, samtidig med at det forbliver token-effektivt i sin avancerede tænkning.

GPT‑5.2‑Codex opnår banebrydende ydeevne på SWE-Bench Pro og Terminal-Bench 2.0, benchmarks designet til at teste agentbaseret ydeevne på en bred vifte af opgaver i realistiske terminalmiljøer. Det er også meget mere effektivt og pålideligt til agentbaseret kodning i native Windows-miljøer, baseret på de kapaciteter, der blev introduceret i GPT‑5.1‑Codex‑Max.

Med disse forbedringer er Codex bedre i stand til at arbejde i store kodelagre over længere sessioner, mens den fulde kontekst bevares. Den kan mere pålideligt fuldføre komplekse opgaver som store refaktoreringer, kodemigreringer og funktionsopbygninger – og fortsætter med at iterere uden at miste overblikket, selv når planer ændrer sig eller forsøg mislykkes.

I SWE-Bench Pro⁠⁠⁠⁠ får en model et kodelager og skal generere en patch for at løse en realistisk softwareudviklingsopgave. Terminal-Bench 2.0 er en benchmark til at teste AI-agenter i ægte terminalmiljøer. Opgaverne omfatter kompilering af kode, træning af modeller og opsætning af servere.

Stærkere visuel ydeevne gør det muligt for GPT‑5.2‑Codex at fortolke skærmbilleder, tekniske diagrammer, grafer og brugerflader mere præcist, når de deles under en session.

Codex kan tage designmockups og hurtigt omdanne dem til funktionelle prototyper, og du kan samarbejde med Codex for at føre disse prototyper til produktion.

Designmockup-

prototype genereret af GPT‑5.2‑Codex

Fremskridt inden for cybersikkerhed

Når vi kortlægger ydeevnen i en af vores centrale cybersikkerhedsevalueringer over tid, ser vi et markant spring i kapaciteten, der starter med GPT‑5‑Codex, endnu et stort spring med GPT‑5.1‑Codex‑Max og nu et tredje spring med GPT‑5.2‑Codex. Vi forventer, at kommende AI-modeller vil fortsætte på denne udviklingsvej. Som forberedelse planlægger og evaluerer vi, som om hver ny model kunne nå et "Højt" niveau af cybersikkerhedskapacitet, målt efter vores beredskabsramme⁠⁠(åbner i et nyt vindue). Selvom GPT‑5.2‑Codex endnu ikke har nået "Højt" niveau af cyberkapacitet, forbereder vi os på fremtidige modeller, der krydser denne tærskel. På grund af de øgede cyberkapaciteter har vi tilføjet ekstra sikkerhedsforanstaltninger i modellen og produktet, som er beskrevet i systemkortet⁠.

Den professionelle Capture-the-Flag (CTF)-evaluering måler, hvor ofte modellen kan løse avancerede, flerstrengede udfordringer fra den virkelige verden (der kræver professionelle cybersikkerhedsevner) i et Linux-miljø.

Cyber-kapacitet i den virkelige verden

Det moderne samfund er afhængigt af software, og dets pålidelighed afhænger af stærk cybersikkerhed – der holder kritiske systemer inden for bankvæsen, sundhedsvæsen, kommunikation og vigtige tjenester online, beskytter følsomme data og sikrer, at mennesker kan stole på den software, de bruger hver dag. Sårbarheder kan eksistere længe før nogen kender til dem, og det er ofte op til et fællesskab af ingeniører og uafhængige sikkerhedsforskere, der er udstyret med de rette værktøjer, at finde, validere og rette dem.

Den 11. december 2025 offentliggjorde React-holdet tre sikkerhedssårbarheder, der påvirker apps bygget med React Server Components. Det, der gjorde denne afsløring bemærkelsesværdig, var ikke kun sårbarhederne i sig selv, men også hvordan de blev opdaget.

Andrew MacPherson, sikkerhedschef hos Privy (et Stripe-selskab), brugte GPT‑5.1‑Codex‑Max med Codex CLI og andre kodeagenter til at reproducere og studere en anden kritisk React-sårbarhed, der blev afsløret ugen før, kendt som React2Shell⁠(åbner i et nyt vindue) (CVE-2025-55182⁠(åbner i et nyt vindue)). Hans mål var at evaluere, hvor godt modellen kunne assistere med forskning i sårbarheder i den virkelige verden.

Han forsøgte sig først med flere zero-shot-analyser, hvor han fik modellen til at undersøge patchen og identificere den sårbarhed, den adresserede. Da det ikke gav resultater, skiftede han til en højere volumen, iterativ forespørgselstilgang. Da disse tilgange ikke lykkedes, guidede han Codex gennem standard defensive sikkerhedsarbejdsgange – oprettelse af et lokalt testmiljø, overvejelse af potentielle angrebsflader og brug af fuzzing til at teste systemet med fejlbehæftede input. Mens vi forsøgte at reproducere det oprindelige React2Shell-problem, viste Codex uventede adfærd, som krævede en dybere undersøgelse. I løbet af en enkelt uge førte denne proces til opdagelsen af hidtil ukendte sårbarheder, som blev ansvarligt videregivet til React-holdet.

Flowdiagram med titlen “Vulnerability Discovery with Codex: CVE-2025-55183”, der viser en arbejdsgang, der starter med et Git-repositorium, og Codex scanner koden for sårbarheder. Et zero-shot-forsøg mislykkes, efterfulgt af en ekspertstyret proces, der undersøger kodebasen, identificerer mulige mål, bygger en testmiljø og udfører fuzz-testning mod en eksempelapp med revalidering. Resultaterne verificeres for at skabe et proof of concept, hvilket fører til ansvarlig offentliggørelse og en programrettelse, der anvendes tilbage til kodelageret.

Dette viser, hvordan avancerede AI-systemer væsentligt kan fremskynde defensivt sikkerhedsarbejde i udbredt, virkelighedsnær software. Samtidig kan funktioner, der hjælper forsvarere med at reagere hurtigere, også misbruges af ondsindede aktører.

I takt med at agentiske systemer bliver mere kompetente inden for cybersikkerhedsrelaterede opgaver, prioriterer vi at sikre, at disse fremskridt implementeres på en ansvarlig måde – ved at kombinere hver eneste forbedring i kapacitet med stærkere sikkerhedsforanstaltninger, strengere adgangskontrol og løbende samarbejde med sikkerhedssamfundet.

Styrk cyberforsvaret gennem betroet adgang

Sikkerhedsteams kan støde på begrænsninger, når de forsøger at efterligne trusselsaktører, analysere malware for at understøttelse af afhjælpning eller stressteste kritisk infrastruktur. Vi udvikler et betroet adgangspilotprojekt for at fjerne friktionen for kvalificerede brugere og organisationer og aktivere betroede forsvarere til at bruge banebrydende AI-cyberfunktioner til at accelerere cyberforsvar.

I første omgang vil pilotprogrammet kun være for inviterede sikkerhedsprofessionelle med dokumenteret erfaring inden for ansvarlig offentliggørelse af sårbarheder og organisationer med en klar professionel use case inden for cybersikkerhed. Kvalificerede deltagere får adgang til vores mest avancerede modeller til defensive anvendelsesformål, så de kan udføre legitimt arbejde med dobbelt anvendelse.

Hvis du er sikkerhedsekspert eller en del af en organisation, der udfører etisk sikkerhedsarbejde, såsom sårbarhedsforskning eller autoriseret red-teaming, inviterer vi dig til at tilkendegive din interesse for at deltage og dele feedback om, hvad du gerne vil se i programmet her⁠(åbner i et nyt vindue).

Konklusion

GPT‑5.2‑Codex repræsenterer et skridt fremad inden for, hvordan avanceret AI kan understøtte softwareudvikling i den virkelige verden og specialiserede områder som cybersikkerhed – ved at hjælpe udviklere og forsvarere med at tackle komplekse opgaver med lang tidshorisont og styrke de værktøjer, der er tilgængelige for ansvarlig sikkerhedsforskning.

Ved at lancere GPT‑5.2‑Codex gradvist og parre det med sikkerhedsforanstaltninger samt arbejde tæt sammen med sikkerhedsfællesskabet sigter vi mod at maksimere den defensive effekt og samtidig reducere risikoen for misbrug. Det, vi lærer af denne udgivelse, vil direkte påvirke, hvordan vi udvider adgangen over tid, i takt med at både software og cybergrænser fortsætter med at fortsæt udvikle sig.

Skrevet af

OpenAI

Læs videre

Se alle

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Virksomhed29. jul. 2026

GPT-5.6 forener banebrydende intelligens og effektivitet

Ingeniørarbejde29. jul. 2026

How AI is expanding what we do at work > Cover image

Sådan udvider AI det, mennesker gør på jobbet

Virksomhed27. jul. 2026