Memperkenalkan GPT‑5.3‑Codex
Memperluas Codex ke seluruh spektrum pekerjaan profesional di komputer.
Kami memperkenalkan model baru yang memungkinkan lebih banyak lagi kemampuan Codex: GPT‑5.3‑Codex, model pengodean agentik paling canggih hingga saat ini. Model ini meningkatkan kinerja pengodean terdepan dari GPT‑5.2‑Codex serta kemampuan penalaran dan pengetahuan profesional dari GPT‑5.2, digabungkan dalam satu model, yang juga 25% lebih cepat. Ini memungkinkannya untuk menangani tugas jangka panjang yang melibatkan riset, penggunaan alat, dan eksekusi yang kompleks. Seperti rekan kerja, Anda dapat mengarahkan dan berinteraksi dengan GPT‑5.3‑Codex saat sedang bekerja, tanpa kehilangan konteks.
GPT‑5.3‑Codex adalah model pertama kami yang berperan penting dalam menciptakan dirinya sendiri. Tim Codex menggunakan versi awal untuk men-debug pelatihannya sendiri, mengelola penerapannya sendiri, dan mendiagnosis hasil tes serta evaluasi—tim kami sangat terkesan dengan seberapa besar Codex mampu mempercepat pengembangannya sendiri.
Dengan GPT‑5.3‑Codex, Codex berkembang dari agen yang dapat menulis dan meninjau kode menjadi agen yang dapat melakukan hampir semua hal yang dapat dilakukan oleh pengembang dan profesional di komputer.
GPT‑5.3‑Codex menetapkan standar tertinggi baru di industri pada SWE-Bench Pro dan Terminal-Bench, serta menunjukkan kinerja yang kuat pada OSWorld dan GDPval, empat tolok ukur yang kami gunakan untuk mengukur kemampuan pengodean, agentik, dan dunia nyata.
GPT‑5.3‑Codex mencapai kinerja mutakhir pada SWE-Bench Pro, sebuah evaluasi ketat terhadap rekayasa perangkat lunak di dunia nyata. Sementara SWE‑bench Verified hanya menguji Python, SWE‑Bench Pro mencakup empat bahasa dan lebih tahan terhadap kontaminasi, lebih menantang, lebih beragam, dan lebih relevan dengan industri. Ini juga jauh melampaui kinerja terdepan sebelumnya pada Terminal-Bench 2.0, yang mengukur keterampilan terminal yang dibutuhkan oleh agen pemrograman seperti Codex. Perlu dicatat, GPT‑5.3‑Codex melakukannya dengan lebih sedikit token daripada model sebelumnya mana pun, memungkinkan pengguna membangun lebih banyak.
Menggabungkan kemampuan pengodean terdepan, peningkatan estetika, dan pemadatan menghasilkan model yang dapat melakukan pekerjaan yang mencolok, membangun permainan dan aplikasi kompleks yang sangat fungsional dari awal dalam beberapa hari. Untuk menguji kemampuan pengembangan web dan kemampuan agentik jangka panjang model, kami meminta GPT‑5.3‑Codex untuk membuatkan kami dua permainan: versi kedua dari permainan balap dari peluncuran aplikasi Codex, dan sebuah permainan menyelam. Menggunakan kemampuan develop-web-game dan prompt tindak lanjut generik yang telah dipilih sebelumnya seperti "perbaiki bug" atau "tingkatkan permainan", GPT‑5.3‑Codex mengiterasi permainan secara mandiri dengan jutaan token. Tonton trailer dan mainkan permainan Anda sendiri untuk melihat apa yang dapat dilakukan Codex.
Sebuah permainan balap, lengkap dengan pembalap yang berbeda, delapan peta, dan bahkan item untuk digunakan dengan tombol spasi. Putar sendiri di sini(terbuka di jendela baru)!
Sebuah permainan menyelam di mana Anda dapat menjelajahi berbagai terumbu karang, mengumpulkan semuanya untuk melengkapi codex ikan Anda, sambil mengelola oksigen, tekanan, dan bahaya. Putar sendiri di sini(terbuka di jendela baru)!
GPT‑5.3‑Codex juga lebih memahami maksud Anda ketika Anda memintanya untuk membuat situs web sehari-hari, dibandingkan dengan GPT‑5.2‑Codex. Prompt yang sederhana atau kurang spesifik sekarang secara default mengarah ke situs dengan lebih banyak fungsionalitas dan pengaturan default yang masuk akal, memberikan Anda kanvas awal yang lebih kuat untuk mewujudkan ide-ide Anda.
Sebagai contoh, kami meminta GPT‑5.3‑Codex dan GPT‑5.2‑Codex untuk membuat dua halaman arahan di bawah ini. GPT‑5.3‑Codex secara otomatis menampilkan paket tahunan sebagai harga bulanan yang didiskon, membuat diskon terasa jelas dan disengaja, alih-alih mengalikan total tahunan. Ini juga membuat carousel testimoni yang bertransisi secara otomatis dengan tiga kutipan pengguna yang berbeda, bukan satu, sehingga menghasilkan halaman yang terasa lebih lengkap dan siap produksi secara default.
Prompt: Buat halaman arahan untuk Quiet KPI, ringkasan metrik mingguan yang ramah bagi para pendiri. Estetika adalah SaaS yang lembut, kartu bergaya kaca, gradasi dari lavender ke biru, dan blur yang halus. Bagian, hero dengan formulir berlangganan email, grid contoh laporan, baris integrasi, carousel testimoni, tombol alih harga bulanan/tahunan, FAQ, footer.
- Jenis huruf Satoshi atau sans geometris yang serupa.
- Tombol dengan sudut lembut, radius 14px, dan status fokus yang jelas.
- Tambahkan satu efek tampilan bergulir yang elegan.
Insinyur perangkat lunak, desainer, manajer produk, dan ilmuwan data melakukan lebih dari sekadar menghasilkan kode. GPT‑5.3‑Codex dirancang untuk mendukung semua pekerjaan dalam siklus hidup perangkat lunak—debugging, penerapan, pemantauan, penulisan PRD, pengeditan salinan, riset pengguna, pengujian, metrik, dan lainnya. Kemampuan agentiknya tidak terbatas pada perangkat lunak saja, membantu Anda membangun apa pun yang ingin Anda bangun—baik itu dek slide maupun menganalisis data di lembar kerja.
Dengan keterampilan khusus yang mirip dengan yang digunakan untuk hasil GDPval kami sebelumnya, GPT‑5.3‑Codex juga menunjukkan kinerja yang kuat dalam pekerjaan pengetahuan profesional sebagaimana diukur oleh GDPval, setara dengan GPT‑5.2. GDPval adalah evaluasi yang dirilis oleh OpenAI pada tahun 2025 yang mengukur kinerja model pada tugas-tugas pekerjaan berbasis pengetahuan yang terdefinisi dengan jelas di 44 jenis pekerjaan. Tugas-tugas ini mencakup hal-hal seperti membuat presentasi, spreadsheet, dan produk kerja lainnya.
Berikut adalah beberapa contoh pekerjaan yang dihasilkan oleh agen.
Prompt + konteks tugas
GPT-5.3-Codex output

OSWorld adalah tolok ukur penggunaan komputer berbasis agen di mana agen harus menyelesaikan tugas produktivitas dalam lingkungan komputer desktop yang visual. GPT‑5.3‑Codex menunjukkan kemampuan penggunaan komputer yang jauh lebih kuat daripada model GPT sebelumnya.
Di OSWorld-Verified, model menggunakan penglihatan untuk menyelesaikan berbagai tugas komputer. Manusia memperoleh skor ~72%.
Secara keseluruhan, hasil ini di berbagai tugas pengodean, frontend, penggunaan komputer, dan tugas dunia nyata menunjukkan bahwa GPT‑5.3‑Codex tidak hanya lebih baik dalam tugas-tugas individual, tetapi juga menandai perubahan besar menuju agen tujuan umum tunggal yang dapat bernalar, membangun, dan melaksanakan di seluruh spektrum pekerjaan teknis dunia nyata.
Seiring dengan semakin kuatnya kemampuan model, kesenjangan beralih dari apa yang dapat dilakukan oleh agen-agen tersebut menjadi sejauh mana manusia dapat berinteraksi, mengarahkan, dan mengawasi banyak agen yang bekerja secara paralel dengan mudah. Aplikasi Codex membuat pengelolaan dan pengarahan agen menjadi jauh lebih mudah, dan sekarang dengan GPT‑5.3‑Codex ini lebih interaktif. Dengan model baru ini, Codex menyediakan pembaruan yang sering sehingga Anda tetap mengetahui keputusan dan perkembangan utama saat Codex bekerja. Alih-alih menunggu hasil akhir, Anda dapat berinteraksi secara langsung—ajukan pertanyaan, diskusikan pendekatan, dan arahkan menuju solusi. GPT‑5.3‑Codex menjelaskan apa yang sedang dilakukannya, merespons masukan, dan memastikan Anda tetap mendapatkan informasi dari awal hingga akhir.
Aktifkan kemudi saat model bekerja di aplikasi di Pengaturan > Umum > Perilaku tindak lanjut.
Peningkatan pesat Codex baru-baru ini dibangun atas hasil dari proyek riset yang berlangsung selama berbulan-bulan atau bertahun-tahun di seluruh OpenAI. Proyek-proyek riset ini dipercepat oleh Codex, dengan banyak peneliti dan insinyur di OpenAI menggambarkan pekerjaan mereka saat ini sebagai sesuatu yang pada dasarnya berbeda dari dua bulan yang lalu. Bahkan versi awal dari GPT‑5.3‑Codex menunjukkan kemampuan yang luar biasa, memungkinkan tim kami untuk bekerja dengan versi-versi sebelumnya untuk meningkatkan pelatihan dan mendukung penerapan versi-versi selanjutnya.
Codex berguna untuk berbagai macam tugas yang sangat luas, sehingga sulit untuk menyebutkan secara lengkap cara Codex membantu tim kami. Sebagai beberapa contoh, tim peneliti menggunakan Codex untuk memantau dan men-debug pelaksanaan pelatihan untuk rilis ini. Ini mempercepat penelitian lebih dari sekadar men-debug masalah infrastruktur: ini membantu melacak pola sepanjang proses pelatihan, memberikan analisis mendalam tentang kualitas interaksi, mengusulkan perbaikan, dan membangun aplikasi yang kaya bagi para peneliti manusia untuk memahami secara tepat bagaimana perilaku model berbeda dibandingkan dengan model-model sebelumnya.
Tim teknik menggunakan Codex untuk mengoptimalkan dan menyesuaikan harness untuk GPT‑5.3‑Codex. Ketika kami mulai melihat kasus-kasus aneh yang berdampak pada pengguna, anggota tim menggunakan Codex untuk mengidentifikasi bug perenderan konteks dan menemukan penyebab utama dari rendahnya tingkat cache hit. GPT‑5.3‑Codex terus membantu tim selama peluncuran dengan menskalakan klaster GPU secara dinamis untuk menyesuaikan dengan lonjakan lalu lintas dan menjaga latensi tetap stabil.
Selama pengujian alfa, seorang peneliti ingin memahami seberapa banyak pekerjaan tambahan yang diselesaikan GPT‑5.3‑Codex per giliran dan perbedaan produktivitas yang terkait. GPT‑5.3‑Codex membuat beberapa pengklasifikasi regex sederhana untuk memperkirakan frekuensi klarifikasi, respons pengguna positif dan negatif, kemajuan tugas, lalu menjalankannya secara berskala pada semua log sesi dan menghasilkan laporan beserta kesimpulannya. Orang-orang yang membangun dengan Codex lebih bahagia karena agen lebih memahami maksud mereka dan membuat lebih banyak kemajuan per giliran, dengan lebih sedikit pertanyaan klarifikasi.
Karena GPT‑5.3‑Codex sangat berbeda dari pendahulunya, data dari pengujian alfa menunjukkan banyak hasil yang tidak biasa dan berlawanan dengan intuisi. Seorang ilmuwan data dalam tim bekerja dengan GPT‑5.3‑Codex untuk membangun pipeline data baru dan memvisualisasikan hasilnya dengan lebih kaya daripada yang dimungkinkan oleh alat dashboarding standar kami. Hasilnya dianalisis bersama dengan Codex, yang secara ringkas merangkum wawasan utama dari ribuan titik data dalam waktu kurang dari tiga menit.
Secara individu, semua tugas ini adalah contoh menarik tentang bagaimana Codex dapat membantu para peneliti dan pembuat produk. Secara keseluruhan, kami menemukan bahwa kemampuan baru ini memberikan percepatan yang signifikan bagi tim riset, teknik, dan produk kami.
Selama beberapa bulan terakhir, kami telah melihat peningkatan yang signifikan dalam kinerja model pada tugas keamanan siber, yang bermanfaat bagi pengembang dan profesional keamanan. Di waktu yang sama, kami telah mempersiapkan pengamanan siber yang lebih kuat untuk mendukung penggunaan defensif dan ketahanan ekosistem yang lebih luas.
GPT‑5.3‑Codex adalah model pertama yang kami klasifikasikan sebagai Kapabilitas tinggi untuk tugas terkait keamanan siber di bawah Kerangka Kerja Kesiapan kami, dan yang pertama yang kami latih secara langsung untuk mengidentifikasi kerentanan perangkat lunak. Walaupun kami tidak memiliki bukti pasti bahwa hal itu dapat mengotomatisasikan serangan siber dari awal hingga akhir, kami mengambil pendekatan pencegahan dan menerapkan tumpukan keamanan siber kami yang paling komprehensif hingga saat ini. Mitigasi kami mencakup pelatihan keselamatan, pemantauan otomatis, akses tepercaya untuk kapabilitas tingkat lanjut, serta saluran penegakan termasuk intelijen ancaman.
Karena keamanan siber pada dasarnya bersifat kegunaan ganda, kami mengambil pendekatan berbasis bukti dan iteratif yang mempercepat kemampuan para pembela untuk menemukan dan memperbaiki kerentanan sambil memperlambat penyalahgunaan. Sebagai bagian dari ini, kami meluncurkan Trusted Access for Cyber, sebuah program percontohan untuk mempercepat riset pertahanan siber.
Kami berinvestasi dalam perlindungan ekosistem seperti memperluas beta privat Aardvark, agen riset keamanan kami, sebagai penawaran pertama dalam rangkaian produk dan alat Codex Security kami, serta bermitra dengan para pemelihara sumber terbuka untuk menyediakan pemindaian codebase gratis bagi proyek yang banyak digunakan seperti Next.js—di mana seorang peneliti keamanan menggunakan Codex untuk menemukan kerentanan yang diungkapkan(terbuka di jendela baru) minggu lalu.
Berdasarkan Program Hibah Keamanan Siber $1 juta kami yang diluncurkan pada 2023, kami juga berkomitmen untuk memberikan $10 juta dalam bentuk kredit API untuk mempercepat pertahanan siber dengan model kami yang paling canggih, terutama untuk perangkat lunak sumber terbuka dan sistem infrastruktur kritis. Organisasi yang terlibat dalam penelitian keamanan dengan itikad baik dapat mengajukan kredit API dan dukungan melalui Program Hibah Keamanan Siber kami.
GPT‑5.3‑Codex tersedia untuk paket ChatGPT berbayar, di mana pun Anda dapat menggunakan Codex: aplikasi, CLI, ekstensi IDE, dan web. Kami sedang berupaya untuk segera memungkinkan akses API dengan aman.
Dengan pembaruan ini, kami juga sekarang menjalankan GPT‑5.3‑Codex 25% lebih cepat untuk pengguna Codex, berkat peningkatan pada infrastruktur dan tumpukan inferensi kami, sehingga menghasilkan interaksi yang lebih cepat dan hasil yang lebih cepat.
GPT‑5.3‑Codex dirancang bersama, dilatih dengan, dan dijalankan pada sistem NVIDIA GB200 NVL72. Kami berterima kasih kepada NVIDIA atas kerjasama yang terjalin.
Dengan GPT‑5.3‑Codex, Codex berkembang dari sekadar menulis kode menjadi menggunakannya sebagai alat untuk mengoperasikan komputer dan menyelesaikan pekerjaan secara menyeluruh. Dengan mendorong batasan kemampuan agen pengodean, kami juga membuka kelas pekerjaan berbasis pengetahuan yang lebih luas—mulai dari membangun dan menerapkan perangkat lunak hingga meneliti, menganalisis, dan melaksanakan tugas-tugas yang kompleks. Apa yang dimulai sebagai fokus untuk menjadi agen penulisan kode terbaik kini telah menjadi dasar bagi kolaborator yang lebih umum di komputer, memperluas siapa saja yang dapat membangun dan apa saja yang mungkin dilakukan dengan Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8% | 56,4% | 55,6% |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (menang atau seri) | 70,9% | - | 70,9% (tinggi) |
Tantangan Capture The Flag Keamanan Siber | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


