Îți prezentăm un nou model care dezvăluie și mai multe dintre posibilitățile Codex: GPT‑5.3‑Codex, cel mai performant model de programare agentică de până acum. Modelul îmbunătățește atât performanța de programare de vârf a GPT‑5.2‑Codex, cât și capacitățile de raționament și cunoștințele profesionale ale GPT‑5.2, într-un singur model, care este, de asemenea, cu 25% mai rapid. Acest lucru îi permite să preia sarcini de lungă durată care implică cercetare, utilizarea de instrumente și executarea complexă. La fel ca și un coleg, îl poți ghida și poți interacționa cu GPT‑5.3‑Codex în timp ce lucrează, fără a pierde contextul.
GPT‑5.3‑Codex este primul nostru model care a jucat un rol esențial în propria sa creare. Echipa Codex a utilizat versiunile inițiale pentru a-și depana propriul proces de instruire, pentru a-și gestiona propria implementare și pentru a diagnostica rezultatele testelor și evaluările. Echipa noastră a fost impresionată de cât de mult a reușit Codex să-și accelereze propria dezvoltare.
Cu GPT‑5.3‑Codex, Codex se transformă dintr-un agent care poate scrie și revizui cod într-unul care poate face aproape tot ce pot face dezvoltatorii și profesioniștii cu un computer.
GPT‑5.3‑Codex stabilește un nou record în domeniu în ceea ce privește SWE-Bench Pro și Terminal-Bench și demonstrează performanțe solide în OSWorld și GDPval, patru teste de performanță pe care le utilizăm pentru a măsura capacitățile de programare, agentice și de utilizare în condiții reale.
GPT‑5.3‑Codex atinge performanțe de ultimă generație pe SWE-Bench Pro, o evaluare riguroasă a ingineriei software reale. Spre deosebire de SWE‑bench Verified, care testează doar Python, SWE‑Bench Pro cuprinde patru limbaje și este mai rezistent la contaminare, mai complex, mai diversificat și mai relevant pentru domeniu. De asemenea, depășește cu mult performanța de ultimă generație anterioară în cazul Terminal-Bench 2.0, care măsoară abilitățile terminale de care are nevoie un agent de programare precum Codex. De remarcat GPT‑5.3‑Codex face acest lucru cu mai puține tokenuri decât orice model anterior, permițându-le utilizatorilor să construiască mai mult.
Combinând capacități de programare de vârf, îmbunătățiri estetice și compactare, acest model poate realiza sarcini impresionante, creând jocuri și aplicații complexe și extrem de funcționale de la zero în doar câteva zile. Pentru a testa capacitățile modelului de dezvoltare web și agentice pe termen lung, i-am cerut lui GPT‑5.3‑Codex să ne creeze două jocuri: a doua versiune a jocului de curse din lansarea aplicației Codex și un joc de scufundări. Folosind abilitatea de dezvoltare a jocurilor web și instrucțiuni generice preselectate, precum „remediază bugul” sau „îmbunătățește jocul”, GPT‑5.3‑Codex a iterat autonom asupra jocurilor de-a lungul a milioane de tokenuri. Urmărește trailerele și încearcă jocurile ca să vezi ce poate face Codex.
Un joc de curse, cu diferiți piloți, opt hărți și chiar obiecte care pot fi folosite cu bara de spațiu. Joacă-l chiar aici(se deschide într-o fereastră nouă)!
Un joc de scufundări în care explorezi diverse recife, le colecționezi pe toate pentru a-ți completa codexul de pești, gestionând în același timp oxigenul, presiunea și pericolele. Joacă-l chiar aici(se deschide într-o fereastră nouă)!
GPT‑5.3‑Codex îți înțelege mai bine intenția atunci când îi ceri să creeze site-uri web de uz cotidian, în comparație cu GPT‑5.2‑Codex. Solicitările simple sau neclare sunt acum setate implicit pe site-uri cu mai multe funcționalități și setări implicite utile, oferindu-ți o bază mai solidă pentru a-ți pune ideile în practică.
De exemplu, le-am solicitat modelelor GPT‑5.3‑Codex și GPT‑5.2‑Codex să construiască cele două pagini de destinație de mai jos. GPT‑5.3‑Codex a afișat automat planul anual cu un preț lunar redus, astfel încât reducerea să fie clară și intenționată, în loc să înmulțească totalul anual. De asemenea, a creat un carusel de mărturii cu trecere automată, cu trei citate distincte ale utilizatorilor, în loc de unul singur, rezultând o pagină care pare mai completă și gata de producție în mod implicit.
Solicitare: Creează o pagină de destinație pentru Quiet KPI, un rezumat săptămânal de indicatori prietenos pentru fondatori. Aspectul este unul de tip SaaS simplu, cu carduri transparente, cu gradient de lavandă spre albastru și un efect subtil de estompare. Secțiuni, erou cu captură de e-mail, grilă de exemple de fișe de evaluare, rând de integrări, carusel de mărturii, comutator de prețuri lunar/anual, întrebări frecvente, subsol.
- Fontul Satoshi sau un font geometric sans similar.
- Butoane cu colțuri rotunjite, rază de 14px, stări de focalizare puternice.
- Adaugă o dezvăluire plăcută bazată pe derulare.
Inginerii software, designerii, managerii de produs și specialiștii în știința datelor nu se limitează la generarea de cod. GPT‑5.3‑Codex este conceput pentru a sprijini toate etapele ciclului de viață al software-ului: depanare, implementare, monitorizare, scrierea PRD-urilor, editarea textelor, cercetarea comportamentului utilizatorilor, teste, indicatori și multe altele. Capacitățile sale agentice depășesc sfera software-ului, permițându-ți să creezi orice dorești, fie că este vorba de prezentări sau de analizarea datelor din foi de calcul.
Având abilități personalizate similare celor folosite pentru rezultatele noastre anterioare GDPval, GPT‑5.3‑Codex demonstrează și o performanță puternică în activitatea profesională intelectuală, conform GDPval, la fel ca GPT‑5.2. GDPval este o evaluare lansată de OpenAI în 2025, care măsoară performanța unui model în sarcini de muncă intelectuală, precis specificate, din 44 de profesii. Aceste sarcini includ activități precum realizarea de prezentări, foi de calcul și alte produse de lucru.
Mai jos sunt câteva exemple ale activității agentului.
Solicitarea + contextul sarcinii
GPT-5.3-Codex output

OSWorld este un test de performanță pentru utilizarea computerului, în care agentul trebuie să îndeplinească sarcini de productivitate într-un mediu vizual de computer desktop. GPT‑5.3‑Codex demonstrează capacități de utilizare a computerului mult mai avansate decât modelele GPT anterioare.
În OSWorld-Verified, modelele utilizează viziunea pentru a finaliza diverse sarcini pe computer. Oamenii obțin un scor de ~72%.
Împreună, aceste rezultate din programare, frontend, utilizarea computerului și sarcini reale arată că GPT‑5.3‑Codex nu excelează doar în sarcini individuale, ci marchează o schimbare radicală către un agent unic, cu scop general, care poate dezvolta raționamente, construi și executa toate tipurile de sarcini tehnice din realitate.
Pe măsură ce capacitățile modelelor devin mai puternice, diferența este dată de capacitatea agenților de a acționa și de ușurința cu care oamenii pot interacționa, conduce și supraveghea numeroși agenți lucrând în paralel. Aplicația Codex facilitează gestionarea și coordonarea agenților, iar acum, cu GPT‑5.3‑Codex procesul este mai interactiv. Cu noul model, Codex oferă actualizări frecvente, ca să fii la curent cu deciziile cheie și evoluția proiectului pe măsură ce se desfășoară. În loc să aștepți rezultatul final, poți interacționa în timp real – poți pune întrebări, discuta strategii și găsi soluții. GPT‑5.3‑Codex explică ce face, răspunde la feedback și te ține la curent de la început până la sfârșit.
Activează funcția de ghidare în timp ce modelul funcționează în aplicație, în Setări > General > Comportament de urmărire.
Îmbunătățirile rapide recente ale Codex se bazează pe rezultatele proiectelor de cercetare care s-au desfășurat pe parcursul a luni sau ani în cadrul OpenAI. Aceste proiecte de cercetare sunt accelerate de Codex, mulți cercetători și ingineri de la OpenAI descriindu-și activitatea actuală ca fiind fundamental diferită de cea de acum două luni. Chiar și versiunile inițiale ale GPT‑5.3‑Codex au demonstrat capacități excepționale, permițându-i echipei noastre să lucreze cu acele versiuni anterioare pentru a îmbunătăți instruirea și susține implementarea versiunilor ulterioare.
Codex este util pentru o gamă foarte largă de sarcini, ceea ce face dificilă enumerarea completă a modurilor în care ne ajută echipele. De exemplu, echipa de cercetare a utilizat Codex pentru a monitoriza și depana procesul de instruire pentru această versiune. A accelerat cercetarea, depășind problemele de depanare a infrastructurii: a facilitat urmărirea tendințelor pe parcursul instruirii, a oferit o analiză aprofundată a calității interacțiunii, a propus soluții și a creat aplicații complexe pentru ca cercetătorii umani să înțeleagă cu precizie modul în care comportamentul modelului diferea față de modelele anterioare.
Echipa de ingineri a utilizat Codex pentru a optimiza și adapta sistemul pentru GPT‑5.3‑Codex. Când am început să observăm cazuri limită ciudate care afectau utilizatorii, membrii echipei au folosit Codex pentru a identifica buguri de randare a contextului și cauzele principale ale ratelor scăzute de accesare a cache-ului. GPT‑5.3‑Codex continuă să ajute echipa pe parcursul lansării, scalând dinamic clusterele GPU pentru a se adapta la creșterile de trafic și menținând latența stabilă.
În timpul testării alfa, un cercetător a dorit să înțeleagă cât efort suplimentar depunea GPT‑5.3‑Codex în fiecare rundă și care era diferența asociată în materie de productivitate. GPT‑5.3‑Codex a creat mai multe clasificatori regex simpli pentru a estima frecvența clarificărilor, răspunsurile pozitive și negative ale utilizatorilor, progresul în îndeplinirea sarcinii, apoi i-a rulat în mod scalabil pe toate jurnalele de sesiune și a generat un raport cu concluziile sale. Utilizatorii Codex au fost mai mulțumiți, deoarece agentul le-a înțeles mai bine intențiile și a înregistrat progrese mai mari la fiecare rundă, cu mai puține întrebări de clarificare.
Datorită faptului că GPT‑5.3‑Codex este atât de diferit de predecesorii săi, datele din testarea alfa au prezentat numeroase rezultate neobișnuite și contraintuitive. Un specialist în știința datelor din echipă a colaborat cu GPT‑5.3‑Codex pentru a crea noi fluxuri de date și a vizualiza rezultatele într-un mod mult mai bogat decât ne permiteau instrumentele noastre standard de creare a tablourilor de bord. Rezultatele au fost analizate împreună cu Codex, care a sintetizat concis informațiile cheie din mii de puncte de date în mai puțin de trei minute.
Luate individual, toate aceste sarcini sunt exemple interesante ale modului în care Codex poate ajuta cercetătorii și dezvoltatorii de produs. În ansamblu, am constatat că aceste noi capacități au dus la o accelerare puternică a activității echipelor noastre de cercetare, inginerie și produs.
În ultimele luni, am observat îmbunătățiri semnificative ale performanței modelului în sarcinile de securitate cibernetică, ceea ce a adus beneficii atât dezvoltatorilor, cât și profesioniștilor din domeniul securității. În paralel, am pregătit măsuri de protecție cibernetică consolidate pentru a sprijini utilizarea defensivă și reziliența ecosistemului în sens larg.
GPT‑5.3‑Codex este primul model pe care îl clasificăm ca având capacitate ridicată pentru sarcini legate de securitatea cibernetică în Cadrul de pregătire și primul pe care l-am instruit direct să identifice vulnerabilitățile de software. Deși nu avem dovezi definitive că poate automatiza atacurile cibernetice de la un capăt la altul, adoptăm o abordare preventivă și implementăm cea mai cuprinzătoare suită de măsuri de securitate cibernetică de până acum. Măsurile noastre de atenuare includ instruire în materie de siguranță, monitorizare automată, acces de încredere pentru capacități avansate și canale de aplicare, inclusiv informații privind amenințările.
Deoarece securitatea cibernetică are în mod inerent o dublă utilizare, adoptăm o abordare iterativă, bazată pe dovezi, care accelerează capacitatea apărătorilor de a identifica și remedia vulnerabilitățile, reducând simultan utilizarea abuzivă. În acest context, lansăm Accesul de încredere pentru domeniul cibernetic, un program pilot menit să accelereze cercetarea în domeniul apărării cibernetice.
Investim în măsuri de protecție a ecosistemului, cum ar fi extinderea versiunii beta private a Aardvark, agentul nostru de cercetare în domeniul securității, ca primă ofertă din suita noastră de produse și instrumente Codex Security și colaborăm cu administratorii open-source pentru a oferi scanarea gratuită a bazei de cod pentru proiecte utilizate pe scară largă, precum Next.js — în care un cercetător în domeniul securității a folosit Codex pentru a găsi vulnerabilități dezvăluite(se deschide într-o fereastră nouă) săptămâna trecută.
Pe baza Programului nostru de granturi pentru securitate cibernetică în valoare de 1 milion USD lansat în 2023, ne angajăm să alocăm 10 milioane USD în credite API pentru a accelera apărarea cibernetică cu ajutorul celor mai performante modele ale noastre, în special pentru software-ul open source și sistemele de infrastructură critice. Organizațiile care desfășoară cercetări de securitate cu bună-credință pot solicita credite API și sprijin prin Programul nostru de granturi pentru securitate cibernetică.
GPT‑5.3‑Codex este disponibil în planurile ChatGPT cu plată, oriunde poți utiliza Codex: în aplicație, CLI, extensia IDE și pe web. În curând vom permite accesul API în condiții de siguranță.
Prin această actualizări, rulăm acum GPT‑5.3‑Codex cu 25% mai repede pentru utilizatorii Codex, datorită îmbunătățirilor aduse infrastructurii și stivei de inferență, ceea ce duce la interacțiuni și rezultate mai rapide.
GPT‑5.3‑Codex a fost proiectat în colaborare, instruit și utilizat pe sistemele NVIDIA GB200 NVL72. Îi mulțumim companiei NVIDIA pentru parteneriatul încheiat cu noi.
Cu GPT‑5.3‑Codex, Codex depășește simpla scriere de cod, utilizându-l ca instrument pentru operarea unui computer și realizarea de sarcini de la un capăt la altul. Extinzând limitele capacităților unui agent de programare, facilităm și o categorie mai largă de activități intelectuale, de la crearea și implementarea de software până la cercetarea, analiza și executarea de sarcini complexe. Ceea ce era inițial un obiectiv de a crea cel mai bun agent de programare a devenit temelia unui colaborator mai general pe computer, extinzând atât posibilitățile de creare, cât și funcționalitățile Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8% | 56,4% | 55,6% |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (wins or ties) | 70,9% | - | 70,9% (high) |
Provocări de securitate cibernetică de tip Capture The Flag | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


