Sari la conținutul principal
OpenAI

12 februarie 2026

ProdusLansareCompanie

Îți prezentăm GPT‑5.3‑Codex‑Spark

Un model ultra-rapid pentru codare în timp real în Codex.

Se încarcă…

Astăzi, lansăm o previzualizare de cercetare a GPT‑5.3‑Codex‑Spark, o versiune mai mică a GPT‑5.3‑Codex, și primul nostru model conceput pentru programare în timp real. Codex-Spark este optimizat pentru a fi aproape instantaneu - oferind viteze de generare de 15 ori mai mari, rămânând în același timp extrem de capabil pentru sarcini de codare din lumea reală.

Codex-Spark marchează primul reper în parteneriatul nostru cu Cerebras, pe care l-am anunțat în ianuarie. Distribuim Codex-Spark ca o previzualizare de cercetare pentru utilizatorii ChatGPT Pro, astfel încât dezvoltatorii să poată începe să experimenteze din timp, în timp ce lucrăm cu Cerebras pentru a crește capacitatea centrului de date, a consolida experiența end-to-end și a implementa modelul nostru mai mare de vârf.

Cele mai recente modele de vârf ale noastre au demonstrat puncte forte deosebite în capacitatea lor de a efectua sarcini de lungă durată, funcționând autonom ore, zile sau săptămâni fără intervenție. Codex-Spark este primul nostru model conceput special pentru a lucra cu Codex în timp real — făcând editări țintite, remodelând logica sau rafinând interfețele și vizualizând rezultatele imediat. Cu Codex-Spark, familia Codex acceptă acum atât sarcini ambițioase, de lungă durată, cât și finalizarea activităților pe moment. Sperăm să învățăm din felul în care îl folosesc dezvoltatorii și să integrăm feedbackul pe măsură ce continuăm să extindem accesul.

La lansare, Codex-Spark are o fereastră de context de 128k și este doar text. În perioada de previzualizare pentru cercetare, Codex-Spark va avea propriile limite de rată, iar utilizarea nu va fi luată în calcul în limitele de rată standard. Totuși, când cererea este mare, s-ar putea să observi un acces mai lent sau o coadă temporară, pe măsură ce echilibrăm fiabilitatea între utilizatori.

Viteză și inteligență

Codex-Spark este optimizat pentru munca interactivă, unde latența contează la fel de mult ca inteligența. Poți lucra cu modelul la fel ca un colaborator în timp real - îl poți întrerupe sau redirecționa în timp ce funcționează și îl poți itera rapid fără a aștepta finalizarea implementării. Deoarece este optimizat pentru viteză, Codex-Spark își păstrează stilul de lucru implicit, ușor: face editări minime și precise și nu rulează automat teste decât dacă îi ceri tu acest lucru.

Programare

Codex-Spark este un model mic extrem de capabil, optimizat pentru inferență rapidă. Pe SWE-Bench Pro și Terminal-Bench 2.0, două teste de performanță care evaluează capacitatea de inginerie software agentivă, GPT‑5.3‑Codex‑Spark are performanțe mai slabe decât GPT‑5.3‑Codex, dar poate să îndeplinească sarcina într-o fracțiune din timp.

Durata este estimată ca suma dintre (1) timpul de generare a ieșirii (tokenuri de ieșire ÷ viteza de eșantionare), (2) timpul de pre-umplere (tokenuri de pre-umplere ÷ viteza de pre-umplere), (3) timpul total de execuție a instrumentului și (4) supraîncărcarea totală a rețelei.

Îmbunătățiri ale latenței pentru toate modelele

Pe măsură ce am antrenat Codex-Spark, a devenit clar că viteza modelului era doar o parte a ecuației pentru colaborarea în timp real — mai trebuia să reducem și latența pe întregul flux solicitare-răspuns. Am implementat îmbunătățiri ale latenței de la un capăt la altul în sistemul nostru, care aduc beneficii tuturor modelelor. Sub capotă, am optimizat fluxul de răspunsuri de la client la server și înapoi, am rescris părți esențiale ale stackului nostru de inferență și am reconfigurat inițializarea sesiunilor pentru ca primul token vizibil să apară mai rapid și Codex să rămână receptiv pe măsură ce iterezi. Prin introducerea unei conexiuni WebSocket persistente și a unor optimizări țintite în cadrul API-ului Responses, am redus costul suplimentar per tură client/server cu 80%, costul suplimentar per token cu 30% și timpul până la primul token cu 50%. Indiferent de modelul pe care îl alegi, vei experimenta o buclă mai strânsă pe parcursul întregii experiențe Codex.

Susținut de Cerebras

Codex-Spark rulează pe Wafer Scale Engine 3(se deschide într-o fereastră nouă)de la Cerebras — un accelerator AI special conceput pentru inferență de mare viteză, oferind Codex un nivel de servire axat pe latență. Am colaborat cu Cerebras pentru a adăuga acest traseu cu latență redusă la același stack de servire în producție ca restul flotei noastre, astfel încât să funcționeze perfect în Codex și să ne pregătească pentru a susține modele viitoare.

„Ceea ce ne entuziasmează cel mai mult la GPT-5.3-Codex-Spark este parteneriatul cu OpenAI și comunitatea dezvoltatorilor pentru a descoperi ce face posibilă inferența rapidă - noi modele de interacțiune, noi cazuri de utilizare și o experiență fundamental diferită a modelului. Această previzualizare este doar începutul.”
— Sean Lie, Director Tehnic și Cofondator al Cerebras

GPU-urile rămân esențiale în procesele noastre de instruire și inferență și oferă cele mai rentabile tokenuri pentru utilizare extinsă. Cerebras completează această fundație prin excelența în fluxurile de lucru care necesită o latență extrem de scăzută, strângând bucla de la un capăt la altul, astfel încât Codex să fie mai receptiv pe măsură ce iterezi.

Disponibilitate și detalii

Codex-Spark se lansează astăzi ca previzualizare de cercetare pentru toți utilizatorii ChatGPT Pro în cele mai recente versiuni ale aplicației Codex, CLI și extensiei VS Code. Pentru că rulează pe hardware specializat cu latență redusă, utilizarea este guvernată de o limită de rată separată, care se poate ajusta în funcție de cerere în timpul previzualizării de cercetare. În plus, punem Codex-Spark la dispoziție în API pentru un grup restrâns de parteneri de design, ca să înțelegem cum vor dezvoltatorii să integreze Codex-Spark în produsele lor. Vom extinde accesul în săptămânile următoare, pe măsură ce continuăm să ajustăm integrarea noastră în condiții reale de lucru.

Codex-Spark este în prezent doar text, cu o fereastră contextuală de 128k și este primul dintr-o familie de modele ultra-rapide. Pe măsură ce învățăm mai multe împreună cu comunitatea de dezvoltatori despre unde excelează modelele rapide pentru programare, vom introduce și mai multe capabilități, inclusiv modele mai mari, lungimi de context mai mari și intrare multimodală.

Codex-Spark include aceeași instruire de siguranță ca modelele noastre principale, inclusiv instruire relevantă pentru domeniul cibernetic. Am evaluat Codex-Spark ca parte a procesului nostru standard de implementare, care include evaluări de bază pentru capacități cibernetice și alte capacități, și am stabilit că nu are o șansă plauzibilă de a atinge pragul din Cadrul nostru de pregătire pentru un nivel ridicat de capacitate în securitatea cibernetică.

Ce urmează

Codex-Spark este primul pas către un Codex cu două moduri complementare: raționament și execuție pe termen lung și colaborare în timp real pentru iterații rapide. În timp, modurile se vor combina - Codex te poate menține într-o buclă interactivă strânsă, delegând în același timp sarcini mai lungi către subagenți în fundal sau distribuind sarcini către mai multe modele în paralel atunci când dorești o gamă largă de funcții și viteză, astfel încât să nu fie nevoie să alegi un singur mod de la început.

Pe măsură ce modelele devin mai capabile, viteza de interacțiune devine un blocaj clar. Inferența ultra-rapidă strânge acea buclă, făcând Codex să pară mai natural de utilizat și extinzând posibilitățile pentru oricine transformă o idee în software funcțional.

Autor

OpenAI