19 noiembrie 2025

Construiește mai mult cu GPT‑5.1‑Codex‑Max

Se încarcă…

Introducere

Îți prezentăm GPT‑5.1‑Codex‑Max, noul nostru model de frontieră pentru programare agentică, disponibil astăzi în Codex. GPT‑5.1‑Codex‑Max este construit pe baza unei actualizări a modelului nostru fundamental de raționament, care este instruit pe baza sarcinilor agentice din ingineria de software, matematică, cercetare și multe altele. GPT‑5.1‑Codex‑Max este mai rapid, mai inteligent și mai eficient din punct de vedere al tokenurilor în fiecare etapă a ciclului de dezvoltare – și reprezintă un nou pas către a deveni un partener de programare fiabil.

GPT‑5.1‑Codex‑Max este conceput pentru activități detaliate și de lungă durată. Este primul nostru model instruit în mod nativ pentru a lucra în mai multe ferestre contextuale printr-un proces numit compactare, care funcționează coerent cu milioane de tokenuri într-o singură sarcină. Acest lucru permite refactorizări la scară de proiect, sesiuni de depanare aprofundate și bucle de agenți de mai multe ore.

GPT‑5.1‑Codex‑Max este disponibil astăzi în Codex pentru utilizare în CLI, extensia IDE, cloud și revizuirea de cod, iar accesul în API va fi disponibil în curând.

Capacități de programare de frontieră

GPT‑5.1‑Codex‑Max a fost instruit pe baza unor sarcini reale de inginerie de software, precum crearea de PR, revizuirea de cod, programarea frontend și întrebări și răspunsuri și ne-a depășit modelele anterioare în multe evaluări de programare de frontieră. Câștigurile modelului în privința testelor de performanță sunt însoțite și de îmbunătățiri ale utilizării în lumea reală: GPT‑5.1‑Codex‑Max este primul model pe care l-am instruit să funcționeze în medii Windows, iar instruirea modelului include acum sarcini concepute pentru a-l face un colaborator mai bun în Codex CLI.

Toate evaluările au fost efectuate cu compactarea activată la un efort de raționament Extra High
Terminal-Bench2.0 a rulat cu Codex CLI în Laude Institute Harbor harness⁠(se deschide într-o fereastră nouă)

Viteza și costul

GPT‑5.1‑Codex‑Max prezintă îmbunătățiri semnificative în privința utilizării eficiente a tokenurilor datorită raționamentului mai eficient. Verificat pe SWE-bench, GPT‑5.1‑Codex‑Max cu un efort de raționament „mediu” obține performanțe mai bune decât GPT‑5.1‑Codex, cu același efort de raționament, folosind cu 30% mai puține tokenuri de gândire. Pentru sarcinile care nu sunt sensibile la latență, introducem și un nou efort de raționament Extra High („xhigh”), care se gândește pentru o perioadă și mai lungă de timp pentru un răspuns mai bun. Recomandăm în continuare efortul mediu pentru majoritatea sarcinilor zilnice.

Ne așteptăm ca îmbunătățirile aduse eficienței utilizării tokenurilor să genereze economii reale pentru dezvoltatori.

De exemplu, GPT‑5.1‑Codex‑Max este capabil să producă designuri frontend de înaltă calitate, cu funcționalități și estetică similare, dar la un cost mult mai mic decât GPT‑5.1‑Codex.

Solicitare: Generează o singură aplicație de browser autonomă care redă un sandbox CartPole RL interactiv cu grafică canvas, un mic controler de gradient de politici, măsurători și un vizualizator de rețea SVG.

Funcționalități

Trebuie să fie capabil să instruiască efectiv o politică pentru a îmbunătăți modelul la cart pole
Vizualizator pentru activări/ponderi atunci când modelul este în curs de instruire sau în faza de inferență
Pașii din episod, recompensele din acest episod
Ultima durată de supraviețuire și cea mai bună durată de supraviețuire în pași

Salvează în index.html

Sarcini de lungă durată

Compactarea permite ca GPT‑5.1‑Codex‑Max să finalizeze sarcini care nu ar fi reușit înainte din cauza limitelor ferestrei de context, cum ar fi refactorizări complexe și bucle de agenți de lungă durată, prin restrângerea istoricului său, păstrând totodată contextul cel mai important pe termen lung. În aplicațiile Codex, GPT‑5.1‑Codex‑Max compactează automat sesiunea când se apropie de limita ferestrei de context, oferindu-i o fereastră de context nouă. Repetă acest proces până când sarcina este finalizată.

Capacitatea de a susține o activitate coerentă pe termen lung este o abilitate fundamentală pentru realizarea unor sisteme de inteligență artificială mai generale și mai fiabile. GPT‑5.1‑Codex‑Max poate lucra independent ore la rând. În evaluările noastre interne, am observat că GPT‑5.1‑Codex‑Max poate efectua sarcini timp de peste 24 de ore. Iterează continuu implementarea, remediază eșecurile testelor și, în cele din urmă, livrează un rezultat de succes.

În acest exemplu, GPT‑5.1‑Codex‑Max refactorizează în mod independent depozitul open source Codex CLI.

Pe măsură ce durata sesiunii se apropie de fereastra de context a modelului, acesta o compactează automat pentru a elibera spațiu și a continua sarcina fără a pierde progresul.

Videoclipul a fost decupat și accelerat pentru claritate.

Construirea unor agenți de inteligență artificială siguri și fiabili

GPT‑5.1‑Codex‑Max are performanțe semnificativ mai bune la evaluările care necesită un raționament susținut, pe termen lung. Deoarece poate funcționa în mod coerent în mai multe ferestre contextuale utilizând compactarea, modelul oferă rezultate îmbunătățite în domenii precum programarea pe termen lung și securitatea cibernetică. Am analizat rezultatele performanței acestui model în evaluările efectuate de noi și de terți în fișa de sistem⁠ a GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max nu atinge un nivel ridicat de capacitate în privința securității cibernetice în conformitate cu Cadrul nostru de pregătire ⁠, dar este cel mai performant model de securitate cibernetică pe care l-am implementat până în prezent, iar capacitățile agentice de securitate cibernetică evoluează rapid. Ca urmare, luăm măsuri pentru a ne pregăti pentru o capacitate ridicată în materie de securitate cibernetică, îmbunătățim măsurile de protecție în domeniul cibernetic și ne străduim să garantăm că responsabilii cu apărarea pot beneficia de aceste capacități îmbunătățite prin programe precum Aardvark⁠.

Când am lansat GPT‑5‑Codex, am implementat o monitorizare dedicată securității cibernetice pentru a detecta și întrerupe activitățile rău intenționate. Deși nu am observat o creștere semnificativă a abuzurilor la scară largă, pregătim măsuri suplimentare de atenuare pentru capacități avansate. Echipele noastre au perturbat deja operațiunile cibernetice⁠ care încercau să ne utilizeze în mod abuziv modelele, iar activitatea suspectă este direcționată spre revizuire prin intermediul sistemelor noastre de monitorizare a politicilor.

Codex este conceput să ruleze într-un sandbox securizat în mod implicit: scrierea fișierelor este limitată la spațiul său de lucru, iar accesul la rețea este dezactivat, cu excepția cazului în care un dezvoltator îl activează. Îți recomandăm să păstrezi Codex în acest mod de acces restricționat, deoarece activarea căutării pe internet sau pe web poate introduce riscuri de injectare de solicitări⁠ de la conținutul neautorizat.

Pe măsură ce Codex devine mai capabil să execute sarcini de lungă durată, devine tot mai important ca dezvoltatorii să revizuiască activitatea agentului înainte de a efectua modificări sau de a implementa în producție. În acest scop, Codex generează jurnale de terminal și își menționează apelările de instrumente și rezultatele testelor. Cu toate că revizuirea de cod reduce riscul implementării în producție a erorilor generate de modele sau de oameni, Codex trebuie tratat ca un evaluator suplimentar și nu ca un înlocuitor al revizuirilor efectuate de oameni.

Capacitățile de securitate cibernetică pot fi utilizate atât pentru apărare, cât și pentru atac, așa că adoptăm o abordare iterativă de implementare: învățăm din utilizarea în lumea reală, actualizăm măsurile de protecție și păstrăm instrumente defensive importante, cum ar fi scanarea automată a vulnerabilităților și asistența pentru remediere.

Disponibilitate

GPT‑5.1‑Codex‑Max este disponibil în Codex cu abonamentele ChatGPT Plus, Pro, Business, Edu și Enterprise. Pentru mai multe detalii despre limitele de utilizare ale planului tău, consultă-ne documentația⁠(se deschide într-o fereastră nouă).

Pentru dezvoltatorii care folosesc Codex CLI prin cheia API, intenționăm să punem la dispoziție GPT‑5.1‑Codex‑Max în API în curând.

Începând de astăzi, GPT‑5.1‑Codex‑Max va înlocui GPT‑5.1‑Codex ca model implicit în suprafețele Codex. Spre deosebire de GPT‑5.1, care este un model de uz general, recomandăm utilizarea GPT‑5.1‑Codex‑Max și a familiei de modele Codex doar pentru sarcini de programare agentică în medii Codex sau similare acestuia.

Concluzie

GPT‑5.1‑Codex‑Max demonstrează cât de mult au avansat modelele în susținerea sarcinilor de programare pe termen lung, gestionarea fluxurilor de lucru complexe și producerea de implementări de înaltă calitate cu mult mai puține tokenuri. Am constatat că acest model, în combinație cu actualizările constante ale CLI, extensiei IDE, integrării în cloud și instrumentelor de revizuire de cod, a determinat o creștere extraordinară a productivității inginerilor: la nivel intern, 95% dintre inginerii OpenAI utilizează Codex săptămânal, iar aceștia trimit cu aproximativ 70% mai multe solicitări de extragere de date de când au adoptat Codex. Pe măsură ce extindem limitele capacităților agenților, suntem nerăbdători să vedem ce vei crea cu ajutorul lor.

Anexă: Evaluări ale modelelor

	GPT‑5.1‑Codex (high)	GPT‑5.1‑Codex‑Max (xhigh)
SWE-bench Verified (n=500)	73,7%	77,9%
SWE-Lancer IC SWE	66,3%	79,9%
Terminal-Bench 2.0	52,8%	58,1%

Autor

OpenAI

Continuă să citești

Vezi toate

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 este acum modelul preferat în Microsoft 365 Copilot

Produs9 iul. 2026

GPT-5.6: inteligență de vârf care crește odată cu ambiția ta

Produs9 iul. 2026

ChatGPT este acum un partener pentru munca ta cea mai ambițioasă

Produs9 iul. 2026