Vi lanserer en ny modell som frigjør enda mer av potensialet til Codex: GPT‑5.3‑Codex, den mest avanserte agentiske kodingsmodellen hittil. Modellen forbedrer både den banebrytende kodeytelsen til GPT‑5.2‑Codex og resonnerings- og profesjonelle kunnskapsevner til GPT‑5.2, samlet i én modell, som også er 25 % raskere. Dette gjør at den kan ta på seg langvarige oppgaver som innebærer forskning, bruk av verktøy og kompleks utførelse. Akkurat som med en kollega kan du styre og samhandle med GPT‑5.3‑Codex mens den jobber, uten å miste konteksten.
GPT‑5.3‑Codex er vår første modell som var avgjørende i å skape seg selv. Codex-teamet brukte tidlige versjoner til å feilsøke sin egen opplæring, administrere sin egen utrulling og diagnostisere testresultater og evalueringer—teamet vårt ble helt overveldet av hvor mye Codex klarte å akselerere sin egen utvikling.
Med GPT‑5.3‑Codex, Codex går fra å være en agent som kan skrive og gjennomgå kode til å bli en agent som kan gjøre nesten alt utviklere og fagfolk kan gjøre på en datamaskin.
GPT‑5.3‑Codex setter en ny bransjestandard på SWE-Bench Pro og Terminal-Bench, og viser sterk ytelse på OSWorld og GDPval, fire referanser vi bruker for å måle kode-, agentiske og virkelighetsnære evner.
GPT‑5.3‑Codex oppnår toppmoderne ytelse på SWE-Bench Pro, en grundig evaluering av ekte programvareutvikling. Der SWE‑bench Verified kun tester Python, dekker SWE‑Bench Pro fire språk og er mer motstandsdyktig mot forurensning, utfordrende, mangfoldig og relevant for industrien. Den overgår også langt den tidligere toppmoderne ytelsen på Terminal-Bench 2.0, som måler terminalferdighetene en kodeagent som Codex trenger. Merkelig nok, GPT‑5.3‑Codex gjør det med færre tokens enn noen tidligere modell, slik at brukerne kan bygge mer.
Ved å kombinere banebrytende kodeferdigheter, forbedringer i estetikk og komprimering, resulterer det i en modell som kan utføre slående arbeid, og bygge svært funksjonelle, komplekse spill og apper fra bunnen av i løpet av dager. For å teste modellens webutviklings- og langvarige agentiske evner, ba vi GPT‑5.3‑Codex om å lage to spill for oss: versjon to av racingspillet fra Codex app-lansering, og et dykkespill. Ved å bruke webspillutviklingsferdigheten og forhåndsvalgte, generiske oppfølgingsprompt som "fiks feilen" eller "forbedre spillet", GPT‑5.3‑Codex itererte på spillene autonomt over millioner av tokens. Se trailerne og spill spillene selv for å se hva Codex kan gjøre.
Et racingspill, komplett med ulike førere, åtte kart og til og med gjenstander som kan brukes med mellomromstasten. Spill det selv her(åpnes i et nytt vindu)!
Et dykkespill der du utforsker ulike rev, samler dem alle for å fullføre fiskekodeksen din, samtidig som du håndterer oksygen, trykk og farer. Spill det selv her(åpnes i et nytt vindu)!
GPT‑5.3‑Codex forstår også bedre intensjonen din når du ber den lage daglige nettsteder, sammenlignet med GPT‑5.2‑Codex. Enkle eller underspesifiserte prompter bruker nå som standard nettsteder med mer funksjonalitet og fornuftige standardinnstillinger, noe som gir deg et sterkere utgangspunkt for å realisere ideene dine.
For eksempel ba vi GPT‑5.3‑Codex og GPT‑5.2‑Codex om å lage to landingssider nedenfor. GPT‑5.3‑Codex viste automatisk årsplanen som en rabattert månedspris, slik at rabatten virket tydelig og bevisst, i stedet for å multiplisere årstotalen. Den laget også en automatisk overgangsattestkarusell med tre forskjellige brukersitater i stedet for ett, noe som resulterte i en side som føles mer komplett og produksjonsklar som standard.
Prompt: Bygg en landingsside for Quiet KPI, et ukentlig metrikksammendrag som er vennlig for grunnleggere. Estetikken er myk SaaS, glassaktige kort, lavendel til blå gradient, subtil uskarphet. Seksjoner, hero med e-postinnsamling, rutenett med eksempelrapportkort, integrasjonsrad, attestasjonskarusell, bryter for pris månedlig årlig, vanlige spørsmål, bunntekst.
- Skrifttype Satoshi eller lignende geometrisk sans.
- Knapper med myke hjørner, 14px radius, sterke fokus-tilstander.
- Legg til én smakfull avsløring basert på scrolling.
Programvareingeniører, designere, produktledere og dataforskere gjør langt mer enn å skrive kode. GPT‑5.3‑Codex er bygget for å støtte alt arbeidet i programvarelivssyklusen—feilsøking, utrulling, overvåking, skriving av PRD-er, redigering av tekst, brukerundersøkelser, tester, målinger og mer. Dens agentiske evner går utover programvare og hjelper deg med å bygge hva du enn vil—enten det er lysbildefremvisninger eller å analysere data i regneark.
Med tilpassede ferdigheter som ligner på de som ble brukt for våre tidligere GDPval-resultater, viser GPT‑5.3‑Codex også sterk ytelse innen profesjonelt kunnskapsarbeid, målt ved GDPval, på nivå med GPT‑5.2. GDPval er en evaluering som OpenAI lanserte i 2025, og som måler en modells ytelse på velspesifiserte kunnskapsarbeidsoppgaver på tvers av 44 yrker. Disse oppgavene inkluderer ting som å lage presentasjoner, regneark og andre arbeidsprodukter.
Nedenfor er noen eksempler på arbeidet som agenten har utført.
Melding + oppgavekontekst
GPT-5.3-Codex output

OSWorld er en agentisk referansemåling for databruk hvor agenten må fullføre produktivitetsoppgaver i et visuelt skrivebordsmiljø på en datamaskin. GPT‑5.3‑Codex viser langt sterkere evner i databruk enn tidligere GPT‑modeller.
I OSWorld-Verified bruker modeller visjon for å fullføre ulike dataoppgaver. Mennesker har en poengsum på ~72%.
Sammen viser disse resultatene på tvers av koding, frontend, databruk og oppgaver i den virkelige verden at GPT‑5.3‑Codex er ikke bare bedre til individuelle oppgaver, men markerer et skritt mot en enkelt, generell agent som kan resonere, bygge og utføre på tvers av hele spekteret av teknisk arbeid i den virkelige verden.
Etter hvert som modellkapabilitetene blir kraftigere, flytter gapet seg fra hva agenter er i stand til å gjøre til hvor enkelt folk kan samhandle med, styre og føre tilsyn med mange av dem som jobber parallelt. Codex-appen gjør det mye enklere å administrere og styre agenter, og nå med GPT‑5.3‑Codex. det er mer interaktivt. Med den nye modellen gir Codex hyppige oppdateringer slik at du holder deg orientert om viktige beslutninger og fremdrift mens den arbeider. I stedet for å vente på et endelig resultat, kan du samhandle i sanntid—stille spørsmål, diskutere tilnærminger og styre mot løsningen. GPT‑5.3‑Codex forklarer hva den gjør, svarer på tilbakemeldinger, og holder deg oppdatert fra start til slutt.
Aktiver styring mens modellen jobber i appen under Innstillinger > Generelt > Oppfølgingsatferd.
De siste raske Codex-forbedringene bygger på resultatene av forskningsprosjekter som har pågått i måneder eller år over hele OpenAI. Disse forskningsprosjektene blir akselerert av Codex, med mange forskere og ingeniører hos OpenAI som beskriver jobben sin i dag som fundamentalt forskjellig fra hva den var for bare to måneder siden. Selv tidlige versjoner av GPT‑5.3‑Codex demonstrerte eksepsjonelle evner, noe som gjorde det mulig for teamet vårt å jobbe med de tidligere versjonene for å forbedre opplæringen og støtte utrullingen av senere versjoner.
Codex er nyttig for et svært bredt spekter av oppgaver, noe som gjør det vanskelig å fullt ut liste opp måtene det hjelper teamene våre på. Som noen eksempler brukte forskerteamet Codex til å overvåke og feilsøke treningskjøringen for denne utgivelsen. Det akselererte forskningen utover feilsøking av infrastrukturproblemer: det hjalp til med å spore mønstre gjennom hele treningsforløpet, ga en dyp analyse av interaksjonskvalitet, foreslo forbedringer og bygde rike applikasjoner for at menneskelige forskere presist kunne forstå hvordan modellens atferd skilte seg fra tidligere modeller.
Ingeniørteamet brukte Codex til å optimalisere og tilpasse seleutstyret for GPT‑5.3‑Codex. Da vi begynte å se merkelige kanttilfeller som påvirket brukerne, brukte teammedlemmene Codex til å identifisere feil i kontekstgjengivelsen og finne rotårsaken til lav treffrate i hurtigbufferen. GPT‑5.3‑Codex fortsetter å hjelpe teamet gjennom lanseringen ved dynamisk å skalere GPU-klynger for å tilpasse seg trafikkøkninger og holde latensen stabil.
Under alfa-testing ønsket en forsker å forstå hvor mye ekstra arbeid GPT‑5.3‑Codex fikk gjort per omgang og den tilhørende forskjellen i produktivitet. GPT‑5.3‑Codex utviklet flere enkle regex-klassifikatorer for å estimere frekvensen av avklaringer, positive og negative brukerresponser, fremdrift på oppgaven, og kjørte dem deretter skalerbart over alle øktlogger og utarbeidet en rapport med konklusjonen. Folk som bygde med Codex var gladere fordi agenten forsto intensjonen deres bedre og gjorde mer fremgang per tur, med færre avklarende spørsmål.
På grunn av at GPT‑5.3‑Codex er så forskjellig fra sine forgjengere, viste dataene fra alfa-testing mange uvanlige og kontraintuitive resultater. En dataforsker på teamet jobbet med GPT‑5.3‑Codex for å bygge nye datapipelines og visualisere resultatene mye mer detaljert enn våre standard dashbordverktøy tillot. Resultatene ble sam-analysert med Codex, som kortfattet oppsummerte nøkkelinnsikt fra tusenvis av datapunkter på under tre minutter.
Hver for seg er alle disse oppgavene interessante eksempler på hvordan Codex kan hjelpe forskere og produktutviklere. Samlet sett fant vi at disse nye funksjonene førte til en betydelig akselerasjon av forsknings-, ingeniør- og produktteamene våre.
I løpet av de siste månedene har vi sett betydelige forbedringer i modellens ytelse på cybersikkerhetsoppgaver, noe som har vært til fordel for både utviklere og sikkerhetsfagfolk. Parallelt har vi forberedt styrkede cybersikkerhetstiltak for å støtte defensiv bruk og økt robusthet i det bredere økosystemet.
GPT‑5.3‑Codex er den første modellen vi klassifiserer som Høy kapasitet for cybersikkerhetsrelaterte oppgaver under vårt Preparedness Framework, og den første vi har trent direkte til å identifisere programvaresårbarheter. Selv om vi ikke har avgjørende bevis for at den kan automatisere cyberangrep fra ende til ende, tar vi en forsiktig tilnærming og implementerer vår mest omfattende sikkerhetsstabel for cybersikkerhet til dags dato. Våre risikoreduserende tiltak inkluderer sikkerhetsopplæring, automatisert overvåking, betrodd tilgang til avanserte funksjoner og håndhevingsprosesser, inkludert trusselintelligens.
Fordi cybersikkerhet i sin natur er tosidig, tar vi en evidensbasert, iterativ tilnærming som akselererer forsvarernes evne til å finne og fikse sårbarheter, samtidig som vi bremser misbruk. Som en del av dette lanserer vi Trusted Access for Cyber, et pilotprogram for å akselerere forskning på cyberforsvar.
Vi investerer i økosystembeskyttelser som å utvide den private betaen av Aardvark, vår sikkerhetsforskningsagent, som det første tilbudet i vår pakke med Codex Security-produkter og -verktøy, og samarbeider med vedlikeholdere av åpen kildekode for å tilby gratis skanning av kodebaser for mye brukte prosjekter som Next.js—der en sikkerhetsforsker brukte Codex til å finne sårbarheter som ble offentliggjort(åpnes i et nytt vindu) i forrige uke.
Med utgangspunkt i vårt $1M Cybersecurity Grant Program som ble lansert i 2023, forplikter vi oss også til $10M i API-kreditter for å akselerere cyberforsvaret med våre mest kapable modeller, spesielt for programvare med åpen kildekode og kritiske infrastruktursystemer. Organisasjoner som driver med sikkerhetsforskning i god tro kan søke om API-kreditter og støtte gjennom vårt Cybersecurity Grant Program.
GPT‑5.3‑Codex er tilgjengelig med betalte ChatGPT‑abonnementer, overalt der du kan bruke Codex: appen, CLI, IDE-utvidelsen og web. Vi jobber med å trygt muliggjøre API-tilgang snart.
Med denne oppdateringen kjører vi nå også GPT‑5.3‑Codex. 25 % raskere for Codex-brukere, takket være forbedringer i vår infrastruktur og inferensstabel, noe som gir raskere interaksjoner og raskere resultater.
GPT‑5.3‑Codex ble samutviklet for, trent med og levert på NVIDIA GB200 NVL72-systemer. Vi er takknemlige for NVIDIA for deres partnerskap.
Med GPT‑5.3‑Codex, Codex går fra å skrive kode til å bruke den som et verktøy for å betjene en datamaskin og fullføre arbeid fra start til slutt. Ved å utvide grensene for hva en agent kan gjøre, åpner vi også opp for en bredere klasse av kunnskapsarbeid—fra å bygge og distribuere programvare til å forske, analysere og utføre komplekse oppgaver. Det som begynte som et fokus på å være den beste kodeagent, har blitt grunnlaget for en mer generell samarbeidspartner på datamaskinen, som utvider både hvem som kan bygge og hva som er mulig med Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8 % | 56,4% | 55,6 % |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2 % |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (seier eller uavgjort) | 70,9 % | – | 70,9 % (høy) |
Cybersikkerhet og Capture The Flag-utfordringer | 77,6 % | 67,4% | 67,7 % |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


