18 de desembre del 2025

Presentem GPT‑5.2‑Codex

El model de codificació agentic més avançat per a enginyeria de programari professional i ciberseguretat defensiva.

Avui llancem GPT‑5.2‑Codex, el model de codificació agentic més avançat fins ara per a l'enginyeria de programari complexa del món real. GPT‑5.2‑Codex és una versió de GPT‑5.2⁠ encara més optimitzada per a la codificació agentic a Codex, incloent-hi millores en el treball a llarg termini mitjançant la compactació de context, un rendiment superior en grans canvis de codi com ara refactoritzacions i migracions, un millor rendiment en entorns Windows i capacitats de ciberseguretat significativament més potents.

A mesura que els nostres models continuen avançant a la frontera de la intel·ligència, hem observat que aquestes millores també es tradueixen en salts de capacitat en dominis especialitzats com la ciberseguretat⁠. Per exemple, just la setmana passada, un investigador de seguretat que utilitzava GPT‑5.1‑Codex‑Max amb Codex CLI va trobar i va divulgar de manera responsable⁠(s'obre en una finestra nova) una vulnerabilitat a React que podia provocar l'exposició del codi font.

GPT‑5.2‑Codex té capacitats de ciberseguretat més potents que qualsevol model que hàgim llançat fins ara. Aquests avenços poden ajudar a reforçar la ciberseguretat a gran escala, però també plantegen nous riscos de doble ús que requereixen un desplegament acurat. Tot i que GPT‑5.2‑Codex no arriba a un nivell «Alt» de capacitat cibernètica segons el nostre Entorn de treball de preparació, estem dissenyant el nostre enfocament de desplegament⁠ pensant en el creixement futur de les capacitats.

Avui llancem GPT‑5.2‑Codex a totes les superfícies de Codex per als usuaris de pagament de ChatGPT, i treballem per habilitar de manera segura l'accés a GPT‑5.2‑Codex per als usuaris de l'API en les properes setmanes. En paral·lel, estem pilotant un accés de confiança només per invitació a properes capacitats i models més permissius per a professionals i organitzacions verificats centrats en el treball defensiu de ciberseguretat. Creiem que aquest enfocament de desplegament equilibrarà l'accessibilitat amb la seguretat.

Impulsant la frontera de l'enginyeria de programari del món real

GPT‑5.2‑Codex es basa en els punts forts de GPT‑5.2⁠ en el treball de coneixement professional i en les capacitats d'avantguarda de codificació agentic i ús del terminal de GPT‑5.1‑Codex‑Max⁠. GPT‑5.2‑Codex ara és millor en la comprensió de contextos llargs, la invocació fiable d'eines, la millora de la factualitat i la compactació nativa, cosa que el converteix en un soci més fiable per a tasques de codificació de llarga durada, mentre es manté eficient en segments en el seu raonament.

GPT‑5.2‑Codex aconsegueix un rendiment capdavanter a SWE-Bench Pro i Terminal-Bench 2.0, benchmarks dissenyats per provar el rendiment agentic en una àmplia varietat de tasques en entorns realistes de terminal. També és molt més eficaç i fiable en la codificació agentic en entorns Windows natius, basant-se en capacitats introduïdes a GPT‑5.1‑Codex‑Max.

Amb aquestes millores, Codex és més capaç de treballar en grans repositoris durant sessions prolongades amb tot el context intacte. Pot completar de manera més fiable tasques complexes com ara grans refactoritzacions, migracions de codi i desenvolupament de funcionalitats, i continuar iterant sense perdre el fil, fins i tot quan els plans canvien o els intents fallen.

A SWE-Bench Pro⁠⁠⁠⁠, es dona a un model un repositori de codi i ha de generar un pedaç per resoldre una tasca realista d'enginyeria de programari. Terminal-Bench 2.0 és un benchmark per provar agents d'IA en entorns reals de terminal. Les tasques inclouen compilar codi, entrenar models i configurar servidors.

Un rendiment de visió més potent permet a GPT‑5.2‑Codex interpretar amb més precisió captures de pantalla, diagrames tècnics, gràfics i interfícies d'usuari compartides durant les sessions de codificació.

Codex pot agafar maquetes de disseny i traduir-les ràpidament en prototips funcionals, i pots treballar amb Codex per portar aquests prototips a producció.

Maqueta de disseny

Prototip generat per GPT‑5.2‑Codex

Avançant la frontera cibernètica

Quan representem gràficament el rendiment al llarg del temps en una de les nostres avaluacions bàsiques de ciberseguretat, veiem un fort salt de capacitat a partir de GPT‑5‑Codex, un altre gran salt amb GPT‑5.1‑Codex‑Max i ara un tercer salt amb GPT‑5.2‑Codex. Esperem que els pròxims models d'IA continuïn en aquesta trajectòria. Per preparar-nos, estem planificant i avaluant com si cada model nou pogués arribar a nivells «Alts» de capacitat de ciberseguretat, tal com es mesura amb el nostre Preparedness Framework⁠⁠(s'obre en una finestra nova). Tot i que GPT‑5.2‑Codex encara no ha arribat a un nivell «Alt» de capacitat cibernètica, ens estem preparant per a futurs models que superin aquest llindar. A causa de l'augment de les capacitats cibernètiques, hem afegit salvaguardes addicionals al model i al producte, que s'exposen a la fitxa del model⁠.

L'avaluació Professional Capture-the-Flag (CTF) mesura amb quina freqüència el model pot resoldre reptes avançats del món real de diversos passos (que requereixen habilitats professionals de ciberseguretat) en un entorn Linux.

Capacitats cibernètiques del món real

La societat moderna funciona amb programari, i la seva fiabilitat depèn d'una ciberseguretat sòlida: mantenir en línia sistemes crítics de banca, salut, comunicacions i serveis essencials, protegir dades sensibles i garantir que la gent pugui confiar en el programari del qual depèn cada dia. Les vulnerabilitats poden existir molt abans que ningú en tingui coneixement, i trobar-les, validar-les i corregir-les sovint depèn d'una comunitat d'enginyers i investigadors de seguretat independents equipats amb les eines adequades.

L'11 de desembre de 2025, l'equip de React va publicar tres vulnerabilitats de seguretat que afectaven aplicacions construïdes amb React Server Components. El que va fer destacable aquesta divulgació no van ser només les vulnerabilitats en si, sinó també com es van descobrir.

Andrew MacPherson, enginyer principal de seguretat a Privy (una empresa de Stripe), utilitzava GPT‑5.1‑Codex‑Max amb Codex CLI i altres agents de codificació per reproduir i estudiar una altra vulnerabilitat crítica de React divulgada la setmana anterior, coneguda com a React2Shell⁠(s'obre en una finestra nova) (CVE-2025-55182⁠(s'obre en una finestra nova)). El seu objectiu era avaluar fins a quin punt el model podia ajudar en la recerca de vulnerabilitats del món real.

Inicialment va intentar diverses anàlisis sense exemples, demanant al model que examinés el pedaç i identifiqués la vulnerabilitat que resolia. Quan això no va donar resultats, va passar a un enfocament iteratiu d'indicacions de més volum. Quan aquests enfocaments tampoc no van tenir èxit, va guiar Codex a través de fluxos de treball estàndard de seguretat defensiva: configuració d'un entorn local de proves, raonament sobre possibles superfícies d'atac i ús de fuzzing per sondejar el sistema amb entrades malformades. Mentre intentava reproduir el problema original de React2Shell, Codex va detectar comportaments inesperats que justificaven una investigació més profunda. Al llarg d'una sola setmana, aquest procés va conduir al descobriment de vulnerabilitats desconegudes fins aleshores, que es van divulgar de manera responsable a l'equip de React.

Diagrama de flux titulat «Vulnerability Discovery with Codex: CVE-2025-55183» que mostra un flux de treball que comença amb un repositori Git i Codex escanejant codi per trobar vulnerabilitats. Un intent sense exemples falla, seguit d'un procés guiat per experts que examina la base de codi, identifica possibles objectius, construeix un harness i fa proves de fuzzing contra una aplicació d'exemple amb revalidació. Els resultats es verifiquen per crear una prova de concepte, fet que porta a una divulgació responsable i a un pedaç que s'aplica de nou al repositori.

Això demostra com els sistemes avançats d'IA poden accelerar de manera material el treball de seguretat defensiva en programari del món real àmpliament utilitzat. Alhora, les capacitats que ajuden els defensors a avançar més ràpid també poden ser utilitzades indegudament per actors maliciosos.

A mesura que els sistemes agentic esdevenen més capaços en tasques rellevants per a la ciberseguretat, estem convertint en una prioritat central garantir que aquests avenços es despleguin de manera responsable, combinant cada guany de capacitat amb salvaguardes més fortes, controls d'accés més estrictes i una col·laboració continuada amb la comunitat de seguretat.

Impulsar la ciberdefensa mitjançant un accés de confiança

Els equips de seguretat es poden trobar amb restriccions quan intenten emular actors d'amenaça, analitzar programari maliciós per donar suport a la remediació o sotmetre infraestructures crítiques a proves d'estrès. Estem desenvolupant un pilot d'accés de confiança per eliminar aquesta fricció per a usuaris i organitzacions que compleixin els requisits i permetre que defensors de confiança utilitzin capacitats cibernètiques d'IA d'avantguarda per accelerar la ciberdefensa.

Inicialment, el programa pilot serà només per invitació per a professionals de seguretat verificats amb un historial de divulgació responsable de vulnerabilitats i organitzacions amb un cas d'ús professional clar de ciberseguretat. Els participants que compleixin els requisits tindran accés als nostres models més capaços per a casos d'ús defensius, amb l'objectiu de permetre treball legítim de doble ús.

Si ets un professional de la seguretat o formes part d'una organització que fa treball de seguretat ètic, com ara recerca de vulnerabilitats o red teaming autoritzat, et convidem a mostrar interès per unir-t'hi i compartir comentaris sobre què t'agradaria veure al programa aquí⁠(s'obre en una finestra nova).

Conclusió

GPT‑5.2‑Codex representa un pas endavant en la manera com la IA avançada pot donar suport a l'enginyeria de programari del món real i a dominis especialitzats com la ciberseguretat, ajudant desenvolupadors i defensors a abordar treball complex a llarg termini i reforçant les eines disponibles per a una recerca de seguretat responsable.

Desplegant GPT‑5.2‑Codex de manera gradual, combinant el desplegament amb salvaguardes i treballant estretament amb la comunitat de seguretat, pretenem maximitzar l'impacte defensiu alhora que reduïm el risc d'ús indegut. El que aprenguem d'aquest llançament informarà directament com ampliarem l'accés amb el temps a mesura que les fronteres del programari i de la ciberseguretat continuïn avançant.

Autor

OpenAI

Continuar llegint

Veure-ho tot

A scorecard for the AI age

Empresa17 de jul. del 2026

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 ja és el model preferit a Microsoft 365 Copilot

Producte9 de jul. del 2026

GPT-5.6: Intel·ligència d’avantguarda que escala amb la teva ambició

Producte9 de jul. del 2026