Danas objavljujemo istraživački pregled GPT‑5.3‑Codex‑Spark‑a, manje verzije GPT‑5.3‑Codex‑a, i naš prvi model dizajniran za kodiranje u realnom vremenu. Codex-Spark predstavlja prvu prekretnicu u našem partnerstvu sa kompanijom Cerebras, koje smo najavili u januaru. Codex-Spark je optimizovan da deluje gotovo trenutno kada se isporučuje na hardveru sa ultra-niskom latencijom — isporučujući više od 1000 tokena u sekundi, uz zadržavanje visokih sposobnosti za stvarne zadatke kodiranja.
Delimo Codex-Spark na Cerebras-u kao istraživački pregled za korisnike ChatGPT Pro kako bi programeri mogli rano da počnu sa eksperimentisanjem dok sa kompanijom Cerebras radimo na povećanju kapaciteta data centra, unapređenju celokupnog korisničkog iskustva i uvođenju naših većih graničnih modela.
Naši najnoviji granični modeli pokazali su naročite prednosti u sposobnosti da obavljaju dugotrajne zadatke, radeći autonomno satima, danima ili nedeljama bez intervencije. Codex-Spark je naš prvi model dizajniran posebno za rad sa Codex-om u realnom vremenu — za ciljane izmene, preoblikovanje logike ili usavršavanje interfejsa i trenutno sagledavanje rezultata. Sa Codex-Spark-om, Codex sada podržava i dugotrajne, ambiciozne zadatke i obavljanje posla u trenutku. Nadamo se da ćemo učiti iz načina na koji ga programeri koriste i uključivati povratne informacije dok nastavljamo da širimo pristup.
Pri lansiranju, Codex-Spark ima kontekstni prozor od 128k i podržava samo tekst. Tokom istraživačkog pregleda, Codex-Spark će imati sopstvena ograničenja brzine, a upotreba se neće računati u standardna ograničenja. Međutim, kada je potražnja velika, možda ćete videti ograničen pristup ili privremeno čekanje u redu dok balansiramo pouzdanost za sve korisnike.
Codex-Spark je optimizovan za interaktivan rad gde je latencija jednako važna kao i inteligencija. Možete da sarađujete sa modelom u realnom vremenu, prekidajući ga ili preusmeravajući dok radi, i brzo iterirate uz gotovo trenutne odgovore. Pošto je podešen za brzinu, podrazumevani stil rada Codex-Spark-a ostaje lagan: pravi minimalne, ciljane izmene i ne pokreće automatski testove osim ako to ne zatražite.
Codex-Spark je veoma sposoban mali model optimizovan za brzu inferenciju. Na SWE-Bench Pro i Terminal-Bench 2.0, dva benchmark-a koja procenjuju sposobnost agentnog softverskog inženjeringa, GPT‑5.3‑Codex‑Spark pokazuje snažne performanse dok zadatke izvršava za delić vremena u poređenju sa GPT‑5.3‑Codex‑om.
Trajanje se procenjuje kao zbir (1) vremena generisanja izlaza (izlazni tokeni ÷ brzina uzorkovanja), (2) vremena popunjavanja prefiksa (prefill tokeni ÷ brzina prefill-a), (3) ukupnog vremena izvršavanja alata i (4) ukupnog mrežnog opterećenja.
Dok smo trenirali Codex-Spark, postalo je očigledno da je brzina modela samo deo jednačine za saradnju u realnom vremenu — morali smo i da smanjimo latenciju kroz ceo tok od zahteva do odgovora. Uveli smo sveobuhvatna poboljšanja latencije u našoj infrastrukturi koja će koristiti svim modelima. Ispod haube, pojednostavili smo način na koji odgovori strimuju od klijenta do servera i nazad, prepisali ključne delove našeg steka za inferenciju i preradili način na koji se sesije inicijalizuju kako bi se prvi vidljivi token pojavio ranije i Codex ostao responzivan dok iterirate. Uvođenjem trajne WebSocket veze i ciljanim optimizacijama unutar Responses API-ja, smanjili smo opterećenje po klijent/server povratnom ciklusu za 80%, opterećenje po tokenu za 30% i vreme do prvog tokena za 50%. WebSocket putanja je podrazumevano omogućena za Codex-Spark i uskoro će postati podrazumevana za sve modele.
Codex-Spark radi na Cerebras-ovom Wafer Scale Engine 3(отвара се у новом прозору) — namenski napravljenom AI akceleratoru za inferenciju velike brzine koji Codex-u daje sloj isporuke usmeren na latenciju. Udružili smo se sa kompanijom Cerebras da ovaj put sa niskom latencijom dodamo u isti produkcioni stek za isporuku kao i ostatak naše flote, tako da besprekorno radi kroz Codex i priprema nas da podržimo buduće modele.
„Ono što nas najviše uzbuđuje kod GPT-5.3-Codex-Spark jeste partnerstvo sa OpenAI i zajednicom programera kako bismo otkrili šta brza inferencija omogućava — nove obrasce interakcije, nove slučajeve upotrebe i suštinski drugačije iskustvo sa modelom. Ovaj pregled je tek početak.“
GPU-ovi ostaju temelj našeg treninga i inferencijskih tokova i isporučuju najisplativije tokene za široku upotrebu. Cerebras dopunjuje taj temelj time što se ističe u tokovima rada koji zahtevaju izuzetno nisku latenciju, skraćujući kompletan ciklus tako da Codex deluje responzivnije dok iterirate. GPU-ovi i Cerebras mogu se kombinovati za pojedinačna opterećenja kako bi se postigle najbolje performanse.
Codex-Spark se od danas uvodi kao istraživački pregled za korisnike ChatGPT Pro u najnovijim verzijama aplikacije Codex, CLI-ja i proširenja za VS Code. Pošto radi na specijalizovanom hardveru sa niskom latencijom, upotreba je regulisana posebnim ograničenjem brzine koje se može prilagođavati na osnovu potražnje tokom istraživačkog pregleda. Pored toga, činimo Codex-Spark dostupnim u API-ju malom broju dizajnerskih partnera kako bismo razumeli kako programeri žele da integrišu Codex-Spark u svoje proizvode. Proširićemo pristup tokom narednih nedelja dok nastavljamo da podešavamo našu integraciju pod stvarnim opterećenjima.
Codex-Spark trenutno podržava samo tekst uz kontekstni prozor od 128k i prvi je u porodici ultra-brzih modela. Kako budemo više učili sa zajednicom programera o tome gde brzi modeli dolaze do izražaja u kodiranju, uvodićemo još više mogućnosti — uključujući veće modele, duže dužine konteksta i multimodalni unos.
Codex-Spark uključuje istu bezbednosnu obuku kao i naši glavni modeli, uključujući obuku relevantnu za sajber domen. Procijenili smo Codex-Spark kao deo našeg standardnog procesa uvođenja, koji uključuje osnovne procene za sajber i druge sposobnosti, i utvrdili da nema verovatnu šansu da dostigne prag našeg Оквир спремности za visoku sposobnost u sajber bezbednosti ili biologiji.
Codex-Spark je prvi korak ka Codex-u sa dva komplementarna režima: dugoročnije rezonovanje i izvršavanje, i saradnja u realnom vremenu za brzo iteriranje. Vremenom će se ovi režimi spojiti — Codex može da vas zadrži u tesnoj interaktivnoj petlji dok duži posao delegira podagentima u pozadini, ili raspodeljuje zadatke na više modela paralelno kada želite širinu i brzinu, tako da ne morate unapred da birate samo jedan režim.
Kako modeli postaju sposobniji, brzina interakcije postaje jasno usko grlo. Ultra-brza inferencija skraćuje taj ciklus, čineći da Codex deluje prirodnije za korišćenje i proširujući ono što je moguće za svakoga ko pretvara ideju u funkcionalan softver.


