Memperkenalkan GPT‑5.3‑Codex‑Spark
Model ultra-cepat untuk pengodean real time di Codex.
Hari ini, kami merilis pratinjau riset GPT‑5.3‑Codex‑Spark, versi yang lebih kecil dari GPT‑5.3‑Codex, dan model pertama kami yang dirancang untuk pengodean real time. Codex-Spark menandai tonggak pertama dalam kemitraan kami dengan Cerebras, yang kami umumkan pada Januari. Codex-Spark dioptimalkan untuk memberikan pengalaman hampir instan saat digunakan pada perangkat keras dengan latensi ultra-rendah—menghasilkan lebih dari 1000 token per detik dengan tetap sangat mumpuni untuk tugas pengodean dunia nyata.
Kami membagikan Codex-Spark di Cerebras sebagai pratinjau riset kepada pengguna ChatGPT Pro agar para pengembang dapat mulai bereksperimen lebih awal, sementara kami bekerja sama dengan Cerebras untuk meningkatkan kapasitas pusat data, memperkuat pengalaman pengguna secara menyeluruh, dan menerapkan model terdepan kami yang lebih besar.
Model terdepan terbaru kami telah menunjukkan keunggulan khusus dalam kemampuannya menjalankan tugas jangka panjang, bekerja secara mandiri selama berjam-jam, berhari-hari, atau berminggu-minggu tanpa intervensi. Codex-Spark adalah model pertama kami yang dirancang khusus untuk bekerja dengan Codex secara real time—memungkinkan pengeditan yang ditargetkan, membentuk ulang logika, atau menyempurnakan antarmuka dan melihat hasilnya secara langsung. Dengan Codex-Spark, Codex kini mendukung baik tugas-tugas ambisius yang berjalan lama maupun menyelesaikan pekerjaan saat itu juga. Kami berharap dapat belajar dari cara para pengembang menggunakannya dan menindaklanjuti masukan sembari kami terus memperluas akses.
Pada saat peluncuran, Codex-Spark memiliki jendela konteks 128k dan hanya mendukung teks. Selama pratinjau riset, Codex-Spark akan memiliki batas laju sendiri dan penggunaannya tidak akan dihitung terhadap batas laju standar. Namun, ketika permintaan tinggi, Anda mungkin mengalami akses yang terbatas atau antrean sementara ketika kami menyeimbangkan keandalan di antara pengguna.
Codex-Spark dioptimalkan untuk pekerjaan interaktif di mana latensi sama pentingnya dengan kecerdasan. Anda dapat berkolaborasi dengan model secara real time, menyela atau mengarahkannya kembali saat bekerja, dan beriterasi dengan cepat dengan respons yang hampir instan. Karena dioptimalkan untuk kecepatannya, Codex-Spark menjaga gaya kerja defaultnya tetap ringan: melakukan pengeditan minimal dan terarah, serta tidak secara otomatis menjalankan pengujian kecuali Anda memintanya.
Codex-Spark adalah model kecil yang sangat mumpuni dan dioptimalkan untuk inferensi cepat. Pada SWE-Bench Pro dan Terminal-Bench 2.0, dua tolok ukur yang mengevaluasi kemampuan rekayasa perangkat lunak agentik, GPT‑5.3‑Codex‑Spark menunjukkan kinerja yang kuat saat menyelesaikan tugas dalam waktu yang lebih singkat dibandingkan dengan GPT‑5.3‑Codex.
Durasi diperkirakan sebagai jumlah dari (1) waktu pembuatan output (token output ÷ kecepatan sampling), (2) waktu pengisian awal (token pengisian awal ÷ kecepatan pengisian awal), (3) total waktu eksekusi alat, dan (4) total overhead jaringan.
Saat kami melatih Codex-Spark, terbukti bahwa kecepatan model hanyalah salah satu aspek kolaborasi real time—kami juga perlu mengurangi latensi di seluruh pipeline permintaan-tanggapan. Kami menerapkan peningkatan latensi end-to-end dalam harness kami yang bermanfaat bagi semua model. Di balik layar, kami menyederhanakan aliran respons dari klien ke server dan sebaliknya, menulis ulang bagian-bagian penting dari tumpukan inferensi kami, dan mengatur ulang cara sesi diinisialisasi sehingga token pertama yang terlihat muncul lebih cepat dan Codex tetap responsif saat Anda melakukan iterasi. Melalui pengenalan koneksi WebSocket yang persisten dan pengoptimalan yang ditargetkan di dalam Responses API, kami mengurangi overhead per perjalanan bolak-balik klien/server sebesar 80%, overhead per token sebesar 30%, dan waktu untuk token pertama sebesar 50%. Jalur WebSocket diaktifkan untuk Codex-Spark secara default dan akan segera menjadi standar untuk semua model.
Codex-Spark diajalankan di Wafer Scale Engine 3(terbuka di jendela baru)milik Cerebras—akselerator AI yang dirancang khusus untuk inferensi berkecepatan tinggi, memberikan Codex lapisan layanan yang mengutamakan latensi. Kami bermitra dengan Cerebras untuk menambahkan jalur berlatensi rendah ini ke tumpukan layanan produksi yang sama seperti bagian lain dari armada kami, sehingga berfungsi dengan mulus di seluruh Codex dan mempersiapkan kami untuk mendukung model-model di masa depan.
“Apa yang paling membuat kami antusias tentang GPT-5.3-Codex-Spark adalah bermitra dengan OpenAI dan komunitas pengembang untuk menemukan apa yang dimungkinkan oleh inferensi cepat—pola interaksi baru, kasus penggunaan baru, dan pengalaman model yang secara fundamental berbeda. Pratinjau ini hanyalah permulaan."
GPU tetap menjadi fondasi utama di seluruh pipeline pelatihan dan inferensi kami serta memberikan token yang paling hemat biaya untuk penggunaan yang luas. Cerebras melengkapi fondasi tersebut dengan unggul dalam alur kerja yang membutuhkan latensi yang sangat rendah, mempercepat siklus interaksi end-to-end sehingga Codex terasa lebih responsif saat Anda melakukan iterasi. GPU dan Cerebras dapat dikombinasikan untuk beban kerja tunggal guna mencapai kinerja terbaik.
Codex-Spark diluncurkan hari ini sebagai pratinjau riset untuk pengguna ChatGPT Pro dalam versi terbaru dari aplikasi Codex, CLI, dan ekstensi VS Code. Karena berjalan pada perangkat keras khusus berlatensi rendah, penggunaan diatur oleh batas laju terpisah yang dapat disesuaikan berdasarkan permintaan selama pratinjau riset. Selain itu, kami menyediakan Codex-Spark di API untuk sejumlah kecil mitra desain agar dapat memahami bagaimana pengembang ingin mengintegrasikan Codex-Spark ke dalam produk mereka. Kami akan memperluas akses dalam beberapa minggu mendatang seiring kami terus menyempurnakan integrasi kami dengan beban kerja sebenarnya.
Codex-Spark saat ini hanya berupa teks pada jendela konteks 128k dan merupakan yang pertama dalam keluarga model ultra-cepat. Seiring kami belajar lebih banyak bersama komunitas pengembang tentang di mana model cepat unggul untuk pengodean, kami akan menghadirkan lebih banyak kemampuan–termasuk model yang lebih besar, panjang konteks yang lebih panjang, dan input multimodal.
Codex-Spark menyertakan pelatihan keselamatan yang sama seperti model utama kami, termasuk pelatihan yang relevan dengan dunia siber. Kami mengevaluasi Codex-Spark sebagai bagian dari proses penerapan standar kami, yang mencakup evaluasi dasar untuk kemampuan siber dan kemampuan lainnya, dan menyimpulkan bahwa Codex-Spark tidak memiliki kemungkinan realistis untuk mencapai ambang batas Kerangka Kerja Kesiapan kami untuk kapabilitas tinggi dalam keamanan siber.
Codex-Spark adalah langkah pertama menuju Codex dengan dua mode yang saling melengkapi: penalaran dan eksekusi jangka panjang, serta kolaborasi real time untuk iterasi cepat. Seiring waktu, mode-mode tersebut akan menyatu—Codex dapat menjaga Anda dalam siklus interaktif yang cepat sambil mendelegasikan pekerjaan yang lebih lama ke sub-agen di latar belakang, atau menyebarkan tugas ke banyak model secara paralel ketika Anda menginginkan cakupan yang luas dan kecepatan, sehingga Anda tidak perlu memilih satu mode di awal.
Ketika model menjadi lebih canggih, kecepatan interaksi menjadi hambatan yang jelas. Inferensi ultra-cepat mempercepat siklus interaksi tersebut, membuat Codex terasa lebih alami untuk digunakan dan memperluas kemungkinan bagi siapa pun yang ingin mengubah ide menjadi perangkat lunak yang berfungsi.


