Salta al contingut principal
OpenAI

19 de novembre del 2025

ProductePublicació

Crear més amb GPT‑5.1‑Codex‑Max

S'està carregant…

Introducció

Presentem GPT‑5.1‑Codex‑Max, el nostre nou model de codificació agentic d'avantguarda, disponible avui a Codex. GPT‑5.1‑Codex‑Max es basa en una actualització del nostre model de raonament fonamental, entrenat amb tasques agentic en enginyeria de programari, matemàtiques, recerca i més. GPT‑5.1‑Codex‑Max és més ràpid, més intel·ligent i més eficient en segments a cada etapa del cicle de desenvolupament, i representa un nou pas cap a un soci de codificació fiable.

GPT‑5.1‑Codex‑Max està pensat per a treballs llargs i detallats. És el nostre primer model entrenat de manera nativa per operar a través de múltiples finestres de context mitjançant un procés anomenat compactació, treballant de manera coherent amb milions de segments en una sola tasca. Això permet refactoritzacions a escala de projecte, sessions de depuració profundes i bucles d'agent de diverses hores.

GPT‑5.1‑Codex‑Max ja està disponible a Codex per utilitzar-lo a la CLI, l'extensió d'IDE, el núvol i la revisió de codi, i l'accés per API arribarà aviat.

Capacitats de codificació d'avantguarda

GPT‑5.1‑Codex‑Max es va entrenar amb tasques reals d'enginyeria de programari, com ara la creació de PR, la revisió de codi, la codificació frontend i les preguntes i respostes, i supera els nostres models anteriors en moltes avaluacions de codificació d'avantguarda. Les millores del model en els benchmarks també van acompanyades de millores en l'ús real: GPT‑5.1‑Codex‑Max és el primer model que hem entrenat perquè funcioni en entorns Windows, i l'entrenament del model ara inclou tasques dissenyades per convertir-lo en un millor col·laborador a la Codex CLI.

* Totes les avaluacions es van executar amb la compactació activada en el nivell d'esforç de raonament Extra High
* Terminal-Bench2.0 es va executar amb Codex CLI al
harness Harbor de Laude Institute(s'obre en una finestra nova)

Velocitat i cost

GPT‑5.1‑Codex‑Max mostra millores significatives en l'eficiència de segments gràcies a un raonament més efectiu. A SWE-bench Verified, GPT‑5.1‑Codex‑Max amb un esforç de raonament «medium» aconsegueix un millor rendiment que GPT‑5.1‑Codex amb el mateix esforç de raonament, tot utilitzant un 30% menys de segments de pensament. Per a tasques no sensibles a la latència, també presentem un nou esforç de raonament Extra High («xhigh»), que pensa durant encara més temps per oferir una resposta millor. Tot i així, continuem recomanant medium com a opció quotidiana per a la majoria de tasques.

Esperem que les millores en l'eficiència de segments es tradueixin en estalvis reals per als desenvolupadors.

Per exemple, GPT‑5.1‑Codex‑Max és capaç de produir dissenys frontend d'alta qualitat amb una funcionalitat i una estètica similars, però amb un cost molt inferior al de GPT‑5.1‑Codex.

Indicació: Genera una única aplicació de navegador autocontinguda que mostri un entorn RL interactiu de CartPole amb gràfics en canvas, un petit controlador de gradient de política, mètriques i un visualitzador de xarxa SVG.

Funcionalitats

  • Ha de poder entrenar realment una política per millorar el model a cart pole
  • Visualitzador de les activacions/pesos quan el model s'està entrenant o durant la inferència
  • Passos de l'episodi, recompenses d'aquest episodi
  • Últim temps de supervivència i millor temps de supervivència en passos

Desa-ho a index.html

Tasques de llarga durada

La compactació permet a GPT‑5.1‑Codex‑Max completar tasques que abans haurien fallat per les limitacions de la finestra de context, com ara refactoritzacions complexes i bucles d'agent de llarga durada, podant l'historial mentre preserva el context més important al llarg de períodes extensos. A les aplicacions de Codex, GPT‑5.1‑Codex‑Max compacta automàticament la sessió quan s'acosta al límit de la seva finestra de context, donant-li una nova finestra de context. Repeteix aquest procés fins que la tasca es completa.

La capacitat de mantenir un treball coherent al llarg de períodes extensos és una capacitat fonamental en el camí cap a sistemes d'IA més generals i fiables. GPT‑5.1‑Codex‑Max pot treballar de manera independent durant hores. A les nostres avaluacions internes, hem observat GPT‑5.1‑Codex‑Max treballant en tasques durant més de 24 hores. Iterarà persistentment sobre la seva implementació, corregirà errors a les proves i finalment oferirà un resultat satisfactori.

En aquest exemple, GPT‑5.1‑Codex‑Max està refactoritzant de manera independent el repositori de codi obert Codex CLI.

A mesura que la longitud de la sessió s'acosta a la finestra de context del model, compacta automàticament la sessió per alliberar espai i continuar la tasca sense perdre el progrés.

El vídeo s'ha retallat i accelerat per a més claredat.

Crear agents d'IA segurs i fiables

GPT‑5.1‑Codex‑Max funciona molt millor en avaluacions que requereixen un raonament sostingut i de llarg abast. Com que pot treballar de manera coherent a través de múltiples finestres de context mitjançant la compactació, el model ofereix millors resultats en reptes d'àrees com la codificació de llarg abast i la ciberseguretat. Vam analitzar els resultats del rendiment d'aquest model en avaluacions de primeres i terceres parts a la fitxa del model de GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max no arriba a capacitat High en Ciberseguretat segons el nostre Entorn de treball de preparació però és el model de ciberseguretat més capaç que hem desplegat fins ara i les capacitats de ciberseguretat agentic evolucionen ràpidament. Com a resultat, estem prenent mesures per preparar-nos per a una capacitat High en Ciberseguretat i estem reforçant les nostres salvaguardes en l'àmbit cibernètic, alhora que treballem perquè els defensors puguin beneficiar-se d'aquestes capacitats millorades mitjançant programes com Aardvark.

Quan vam llançar GPT‑5‑Codex, vam implementar una monitorització específica de ciberseguretat per detectar i interrompre activitat maliciosa. Tot i que no hem observat un augment significatiu d'abús a escala, estem preparant mitigacions addicionals per a capacitats avançades. Els nostres equips ja han interromput operacions cibernètiques que intentaven fer un ús indegut dels nostres models, i l'activitat sospitosa es deriva a revisió mitjançant els nostres sistemes de monitorització de polítiques.

Codex està dissenyat per executar-se en un entorn aïllat segur per defecte: les escriptures de fitxers es limiten al seu espai de treball, i l'accés a la xarxa està desactivat tret que un desenvolupador l'activi. Recomanem mantenir Codex en aquest mode d'accés restringit, ja que habilitar internet o la cerca web pot introduir riscos d'injecció d'indicacions procedents de contingut no fiable.

A mesura que Codex esdevé més capaç de fer tasques de llarga durada, és cada cop més important que els desenvolupadors revisin el treball de l'agent abans de fer canvis o desplegar a producció. Per ajudar-hi, Codex genera registres de terminal i cita les seves crides d'eina i els resultats de les proves. Tot i que les seves revisions de codi redueixen el risc de desplegar a producció errors produïts pel model o per humans, Codex s'ha de tractar com un revisor addicional i no com un substitut de les revisions humanes.

Les capacitats de ciberseguretat es poden utilitzar tant per a la defensa com per a l'atac, així que adoptem un enfocament de desplegament iteratiu: aprenem de l'ús en el món real, actualitzem les salvaguardes i preservem eines defensives importants com l'escaneig automatitzat de vulnerabilitats i l'assistència en la remediació.

Disponibilitat

GPT‑5.1‑Codex‑Max està disponible a Codex amb els plans ChatGPT Plus, Pro, Business, Edu i Enterprise. Per obtenir informació detallada sobre com funcionen els límits d'ús del vostre pla, consulteu la nostra documentació(s'obre en una finestra nova).

Per als desenvolupadors que utilitzen Codex CLI mitjançant una clau d'API, tenim previst posar GPT‑5.1‑Codex‑Max a disposició a l'API ben aviat.

A partir d'avui, GPT‑5.1‑Codex‑Max substituirà GPT‑5.1‑Codex com a model predeterminat a les superfícies de Codex. A diferència de GPT‑5.1, que és un model d'ús general, recomanem utilitzar GPT‑5.1‑Codex‑Max i la família de models Codex només per a tasques de codificació agentic a Codex o en entorns similars a Codex.

Conclusió

GPT‑5.1‑Codex‑Max mostra fins a quin punt han avançat els models per sostenir tasques de codificació de llarg abast, gestionar fluxos de treball complexos i produir implementacions d'alta qualitat amb molts menys segments. Hem vist que el model, combinat amb millores constants a la nostra CLI, extensió d'IDE, integració amb el núvol i eines de revisió de codi, dona com a resultat una productivitat d'enginyeria supercarregada: internament, el 95% dels enginyers d'OpenAI utilitzen Codex setmanalment, i aquests enginyers envien aproximadament un 70% més de sol·licituds d'extracció des que van adoptar Codex. A mesura que empenyem la frontera del que els agents poden fer, ens fa il·lusió veure què hi construireu.

Apèndix: Avaluacions del model

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

Autor

OpenAI