Presentem GPT‑5.3‑Codex
Ampliant Codex a tot l’espectre del treball professional amb ordinador.
Presentem un nou model que amplia encara més tot el que Codex pot fer: GPT‑5.3‑Codex, el model de codificació agentic més capaç fins ara. El model impulsa tant el rendiment de codificació d'avantguarda de GPT‑5.2‑Codex com les capacitats de raonament i coneixement professional de GPT‑5.2, tot en un sol model, que a més és un 25% més ràpid. Això li permet assumir tasques de llarga durada que impliquen recerca, ús d’eines i execució complexa. Igual que un company, pots orientar i interactuar amb GPT‑5.3‑Codex mentre treballa, sense perdre context.
GPT‑5.3‑Codex és el nostre primer model que ha estat clau per crear-se a si mateix. L’equip de Codex va fer servir versions primerenques per depurar el seu propi entrenament, gestionar el seu propi desplegament i diagnosticar resultats de proves i avaluacions; l’equip va quedar bocabadat de fins a quin punt Codex va poder accelerar el seu propi desenvolupament.
Amb GPT‑5.3‑Codex, Codex passa de ser un agent que pot escriure i revisar codi a un agent que pot fer gairebé qualsevol cosa que desenvolupadors i professionals poden fer en un ordinador.
GPT‑5.3‑Codex estableix un nou màxim del sector a SWE-Bench Pro i Terminal-Bench, i mostra un rendiment sòlid a OSWorld i GDPval, quatre benchmarks que fem servir per mesurar capacitats de codificació, agentic i del món real.
GPT‑5.3‑Codex assoleix un rendiment d’última generació a SWE-Bench Pro, una avaluació rigorosa d’enginyeria del programari del món real. Mentre que SWE‑bench Verified només prova Python, SWE‑Bench Pro abasta quatre llenguatges i és més resistent a la contaminació, exigent, divers i rellevant per a la indústria. També supera àmpliament l’anterior millor rendiment a Terminal-Bench 2.0, que mesura les habilitats de terminal que necessita un agent de codificació com Codex. Cal destacar que GPT‑5.3‑Codex ho fa amb menys segments que qualsevol model anterior, cosa que permet als usuaris construir més.
La combinació de capacitats de codificació d'avantguarda, millores estètiques i compactació dona com a resultat un model capaç de fer treballs sorprenents, construint jocs i aplicacions complexes altament funcionals des de zero al llarg de dies. Per provar les capacitats de desenvolupament web i les capacitats agentic de llarga durada del model, vam demanar a GPT‑5.3‑Codex que ens construís dos jocs: la versió dos del joc de carreres del llançament de l’app Codex i un joc de submarinisme. Amb l’habilitat develop web game i indicacions de seguiment genèriques preseleccionades com «arregla l’error» o «millora el joc», GPT‑5.3‑Codex va iterar sobre els jocs de manera autònoma al llarg de milions de segments. Mira els tràilers i prova els jocs tu mateix per veure què pot fer Codex.
Un joc de carreres, amb diferents corredors, vuit mapes i fins i tot objectes per fer servir amb la barra espaiadora. Prova’l tu mateix aquí(s'obre en una finestra nova)!
Un joc de submarinisme on explores diversos esculls i els col·lecciones tots per completar el teu còdex de peixos, tot gestionant l’oxigen, la pressió i els perills. Prova’l tu mateix aquí(s'obre en una finestra nova)!
GPT‑5.3‑Codex també entén millor la teva intenció quan li demanes que faci llocs web del dia a dia, en comparació amb GPT‑5.2‑Codex. Les indicacions simples o poc especificades ara generen per defecte llocs amb més funcionalitat i valors per defecte sensats, cosa que et dona una base inicial més sòlida per fer realitat les teves idees.
Per exemple, vam demanar a GPT‑5.3‑Codex i GPT‑5.2‑Codex que construïssin les dues landing pages de sota. GPT‑5.3‑Codex va mostrar automàticament el pla anual com un preu mensual amb descompte, fent que el descompte semblés clar i intencionat, en lloc de multiplicar el total anual. També va crear un carrusel de testimonis amb transició automàtica i tres cites d’usuaris diferenciades en lloc d’una, fet que dona com a resultat una pàgina que per defecte sembla més completa i llesta per producció.
Indicació: Crea una landing page per a Quiet KPI, un resum setmanal de mètriques pensat per a fundadors. L’estètica ha de ser de SaaS suau, targetes amb efecte vidre, degradat de lavanda a blau, desenfocament subtil. Seccions: hero amb captació de correu, graella de targetes d’informes de mostra, fila d’integracions, carrusel de testimonis, selector de preus mensual/anual, PMF, peu de pàgina.
- Tipografia Satoshi o una sans geomètrica similar.
- Botons amb cantonades suaus, radi de 14 px i estats de focus marcats.
- Afegeix una animació de revelació amb el desplaçament, elegant.
Els enginyers de programari, dissenyadors, responsables de producte i científics de dades fan molt més que generar codi. GPT‑5.3‑Codex està dissenyat per donar suport a tota la feina del cicle de vida del programari: depuració, desplegament, monitoratge, redacció de PRD, edició de textos, recerca d’usuaris, proves, mètriques i més. Les seves capacitats agentic van més enllà del programari i t’ajuden a construir el que vulguis, ja siguin presentacions o anàlisi de dades en fulls de càlcul.
Amb habilitats personalitzades similars a les que vam fer servir per als nostres resultats anteriors de GDPval, GPT‑5.3‑Codex també mostra un rendiment sòlid en treball professional de coneixement segons es mesura a GDPval, igualant GPT‑5.2. GDPval és una avaluació que OpenAI va publicar el 2025 que mesura el rendiment d’un model en tasques de treball de coneixement ben especificades en 44 ocupacions. Aquestes tasques inclouen coses com fer presentacions, fulls de càlcul i altres productes de treball.
A continuació tens alguns exemples del treball que l’agent va produir.
Indicació + context de la tasca
GPT-5.3-Codex output

OSWorld és un benchmark d’ús d’ordinador agentic on l’agent ha de completar tasques de productivitat en un entorn visual d’ordinador d’escriptori. GPT‑5.3‑Codex demostra capacitats d’ús d’ordinador molt més fortes que els models GPT anteriors.
A OSWorld-Verified, els models fan servir visió per completar tasques informàtiques diverses. Els humans obtenen ~72%.
En conjunt, aquests resultats en codificació, frontend, ús d’ordinador i tasques del món real mostren que GPT‑5.3‑Codex no només és millor en tasques individuals, sinó que marca un canvi de nivell cap a un únic agent de propòsit general que pot raonar, construir i executar en tot l’espectre del treball tècnic real.
A mesura que les capacitats dels models esdevenen més potents, la distància deixa de ser què són capaços de fer els agents i passa a ser com de fàcil és per als humans interactuar amb molts d’ells, dirigir-los i supervisar-los treballant en paral·lel. L’app Codex facilita molt la gestió i direcció dels agents, i ara amb GPT‑5.3‑Codex és més interactiva. Amb el nou model, Codex ofereix actualitzacions freqüents perquè estiguis al corrent de les decisions clau i del progrés mentre treballa. En lloc d’esperar un resultat final, pots interactuar en temps real: fer preguntes, debatre enfocaments i orientar cap a la solució. GPT‑5.3‑Codex explica el que està fent, respon als comentaris i et manté informat de principi a fi.
Activa l’orientació mentre el model treballa a l’app a Configuració > General > Comportament de seguiment.
Les recents millores ràpides de Codex es basen en el fruit de projectes de recerca que han durat mesos o anys a tot OpenAI. Aquests projectes de recerca s’estan accelerant gràcies a Codex, i molts investigadors i enginyers d’OpenAI descriuen la seva feina avui com a fonamentalment diferent de la de fa només dos mesos. Fins i tot les primeres versions de GPT‑5.3‑Codex ja demostraven capacitats excepcionals, i van permetre al nostre equip treballar amb aquelles versions anteriors per millorar l’entrenament i donar suport al desplegament de versions posteriors.
Codex és útil per a una gamma molt àmplia de tasques, fet que dificulta enumerar completament totes les maneres en què ajuda els nostres equips. Com a exemples, l’equip de recerca va fer servir Codex per monitorar i depurar l’execució d’entrenament d’aquesta versió. Va accelerar la recerca més enllà de la depuració de problemes d’infraestructura: va ajudar a seguir patrons al llarg de l’entrenament, va proporcionar una anàlisi profunda de la qualitat de la interacció, va proposar solucions i va construir aplicacions riques perquè els investigadors humans entenguessin amb precisió com es diferenciava el comportament del model respecte dels models anteriors.
L’equip d’enginyeria va fer servir Codex per optimitzar i adaptar el harness per a GPT‑5.3‑Codex. Quan vam començar a veure casos límit estranys que afectaven els usuaris, membres de l’equip van fer servir Codex per identificar errors de renderització del context i trobar la causa arrel de taxes baixes d’encert de memòria cau. GPT‑5.3‑Codex continua ajudant l’equip durant el llançament escalant dinàmicament clústers de GPU per ajustar-se als pics de trànsit i mantenir la latència estable.
Durant les proves alfa, un investigador volia entendre quanta feina addicional GPT‑5.3‑Codex estava fent per torn i la diferència de productivitat associada. GPT‑5.3‑Codex va idear diversos classificadors regex senzills per estimar la freqüència de clarificacions, les respostes positives i negatives dels usuaris, el progrés de la tasca, i després els va executar de manera escalable sobre tots els registres de sessió i va produir un informe amb la seva conclusió. Les persones que construïen amb Codex estaven més satisfetes perquè l’agent entenia millor la seva intenció i avançava més per torn, amb menys preguntes de clarificació.
A causa del fet que GPT‑5.3‑Codex és tan diferent dels seus predecessors, les dades de les proves alfa mostraven nombrosos resultats inusuals i contraintuïtius. Una científica de dades de l’equip va treballar amb GPT‑5.3‑Codex per construir noves canonades de dades i visualitzar els resultats amb molta més riquesa del que permetien les nostres eines estàndard de taulers. Els resultats es van coanalitzar amb Codex, que va resumir de manera concisa les idees clau sobre milers de punts de dades en menys de tres minuts.
Individualment, totes aquestes tasques són exemples interessants de com Codex pot ajudar investigadors i creadors de producte. Preses en conjunt, vam trobar que aquestes noves capacitats van donar lloc a una poderosa acceleració dels nostres equips de recerca, enginyeria i producte.
Durant els darrers mesos, hem vist millores significatives en el rendiment dels models en tasques de ciberseguretat, beneficiant tant desenvolupadors com professionals de seguretat. En paral·lel, hem estat preparant salvaguardes cibernètiques reforçades per donar suport a l’ús defensiu i a una resiliència més gran de l’ecosistema.
GPT‑5.3‑Codex és el primer model que classifiquem com de capacitat alta per a tasques relacionades amb la ciberseguretat dins del nostre Entorn de treball de preparació, i el primer que hem entrenat directament per identificar vulnerabilitats de programari. Tot i que no tenim proves definitives que pugui automatitzar atacs cibernètics d’extrem a extrem, estem adoptant un enfocament de precaució i desplegant la nostra pila de seguretat de ciberseguretat més completa fins ara. Les nostres mitigacions inclouen entrenament de seguretat, monitoratge automatitzat, accés de confiança per a capacitats avançades i canonades d’aplicació, inclosa la intel·ligència d’amenaces.
Com que la ciberseguretat és intrínsecament de doble ús, estem adoptant un enfocament iteratiu basat en evidències que accelera la capacitat dels defensors per trobar i corregir vulnerabilitats alhora que frena l’ús indegut. Com a part d’això, llancem Trusted Access for Cyber, un programa pilot per accelerar la recerca en defensa cibernètica.
Per ajudar a prevenir l’ús indegut, algunes sol·licituds que els nostres sistemes detectin com de risc cibernètic elevat poden ser redirigides automàticament de GPT‑5.3‑Codex a GPT‑5.2. Continuem refinant aquestes salvaguardes. Els desenvolupadors que duguin a terme recerca de seguretat o que creguin que les seves sol·licituds s’han classificat erròniament poden sol·licitar accés complet a través del nostre programa Trusted Access for Cyber o informar del problema amb l’ordre /feedback.
Estem invertint en salvaguardes de l’ecosistema, com ara ampliar la beta privada d’Aardvark, el nostre agent de recerca de seguretat, com a primera oferta del nostre conjunt de productes i eines Codex Security, i col·laborant amb mantenidors de codi obert per oferir escaneig gratuït de bases de codi per a projectes molt utilitzats com Next.js, on un investigador de seguretat va fer servir Codex per trobar vulnerabilitats revelades(s'obre en una finestra nova) la setmana passada.
Sobre la base del nostre Programa de Subvencions de Ciberseguretat d’1 M$ llançat el 2023, també comprometem 10 M$ en crèdits d’API per accelerar la defensa cibernètica amb els nostres models més capaços, especialment per al programari de codi obert i els sistemes d’infraestructura crítica. Les organitzacions implicades en recerca de seguretat de bona fe poden sol·licitar crèdits d’API i suport a través del nostre Programa de Subvencions de Ciberseguretat.
GPT‑5.3‑Codex està disponible amb plans de pagament de ChatGPT, a tot arreu on pots fer servir Codex: l’app, la CLI, l’extensió per a l’IDE i el web. Estem treballant per habilitar aviat l’accés a l’API de manera segura.
Amb aquesta actualització, ara també executem GPT‑5.3‑Codex un 25% més ràpid per als usuaris de Codex, gràcies a millores en la nostra infraestructura i pila d’inferència, cosa que es tradueix en interaccions més ràpides i resultats més ràpids.
GPT‑5.3‑Codex es va co-dissenyar per a sistemes NVIDIA GB200 NVL72, es va entrenar amb ells i s’hi serveix. Agraïm a NVIDIA la seva col·laboració.
Amb GPT‑5.3‑Codex, Codex va més enllà d’escriure codi i el fa servir com a eina per operar un ordinador i completar feina d’extrem a extrem. En ampliar la frontera del que pot fer un agent de codificació, també desbloquegem una classe més àmplia de treball de coneixement: des de construir i desplegar programari fins a investigar, analitzar i executar tasques complexes. El que va començar com un enfocament per ser el millor agent de codificació s’ha convertit en el fonament d’un col·laborador més general a l’ordinador, ampliant tant qui pot construir com què és possible amb Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Públic) | 56.8% | 56.4% | 55.6% |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
OSWorld-Verified | 64.7% | 38.2% | 37.9% |
GDPval (victòries o empats) | 70.9% | - | 70.9% (high) |
Cybersecurity Capture The Flag Challenges | 77.6% | 67.4% | 67.7% |
SWE-Lancer IC Diamond | 81.4% | 76.0% | 74.6% |


