18 Desember 2025

Memperkenalkan GPT‑5.2‑Codex

Model pengodean agentik paling canggih untuk rekayasa perangkat lunak profesional dan keamanan siber defensif.

Hari ini, kami meluncurkan GPT‑5.2‑Codex, model pengkodean agentik paling canggih hingga saat ini untuk rekayasa perangkat lunak yang kompleks di dunia nyata. GPT‑5.2‑Codex adalah versi dari GPT‑5.2⁠ yang lebih dioptimalkan untuk pengkodean agentik di Codex, termasuk peningkatan pada pekerjaan jangka panjang melalui pemadatan konteks, kinerja yang lebih baik pada perubahan kode besar seperti refaktor dan migrasi, peningkatan kinerja di lingkungan Windows, dan kemampuan keamanan siber yang jauh lebih kuat.

Seiring dengan berkembangnya model kami di garis depan kecerdasan, kami telah mengamati bahwa peningkatan ini juga berujung pada lonjakan kemampuan di domain-domain khusus seperti keamanan siber⁠. Sebagai contoh, baru minggu lalu, seorang peneliti keamanan yang menggunakan GPT‑5.1‑Codex‑Max dengan Codex CLI menemukan dan secara bertanggung jawab mengungkapkan⁠(terbuka di jendela baru) kerentanan di React yang dapat menyebabkan terungkapnya kode sumber.

GPT‑5.2‑Codex memiliki kapabilitas keamanan siber yang lebih kuat dibandingkan model mana pun yang telah kami rilis sejauh ini. Kemajuan ini dapat membantu memperkuat keamanan siber dalam skala besar, namun juga menimbulkan risiko penggunaan ganda yang baru sehingga memerlukan penerapan yang cermat. Meskipun GPT‑5.2‑Codex tidak mencapai tingkat kapabilitas siber 'Tinggi' di bawah Kerangka Kerja Kesiapan kami, kami merancang pendekatan penerapan⁠ kami dengan mempertimbangkan pertumbuhan kapabilitas di masa depan.

Kami merilis GPT‑5.2‑Codex hari ini di semua platform Codex untuk pengguna ChatGPT berbayar, dan sedang berupaya untuk memungkinkan akses ke GPT‑5.2‑Codex secara aman bagi pengguna API dalam beberapa minggu mendatang. Secara paralel, kami sedang mencoba akses terpercaya berbasis undangan untuk kemampuan yang akan datang serta model yang lebih permisif bagi para profesional dan organisasi terverifikasi yang fokus pada pekerjaan keamanan siber defensif. Kami percaya bahwa pendekatan untuk penerapan ini akan menyeimbangkan aksesibilitas dengan keselamatan.

Mendorong batas terdepan rekayasa perangkat lunak di dunia nyata

GPT‑5.2‑Codex dibangun dari keunggulan GPT‑5.2⁠ dalam pengetahuan profesional tentang pekerjaan dan GPT‑5.1‑Codex‑Max⁠ kemampuan pengodean agentik terdepan dan kemampuan menggunakan terminal. GPT‑5.2‑Codex kini lebih baik dalam memahami konteks panjang, pemanggilan alat yang andal, peningkatan faktualitas, dan pemadatan data bawaan, menjadikannya mitra yang lebih dapat diandalkan untuk tugas pengodean jangka panjang, sekaligus tetap efisien dalam penggunaan token dalam penalarannya.

GPT‑5.2‑Codex mencapai kinerja terdepan pada SWE-Bench Pro dan Terminal-Bench 2.0, tolok ukur yang dirancang untuk menguji kinerja agenik pada berbagai tugas dalam lingkungan terminal yang realistis. Hal Ini juga jauh lebih efektif dan andal dalam pengodean agen di lingkungan Windows asli, dibangun dari kemampuan yang diperkenalkan dalam GPT‑5.1‑Codex‑Max.

Dengan peningkatan ini, Codex lebih mampu bekerja di repositori besar selama sesi yang diperpanjang dengan konteks penuh tetap utuh. Ini dapat menyelesaikan tugas-tugas kompleks seperti refaktorisasi besar, migrasi kode, dan pengembangan fitur — terus melakukan iterasi tanpa kehilangan jejak, bahkan ketika rencana berubah atau upaya gagal.

Dalam SWE-Bench Pro⁠⁠⁠⁠, sebuah model diberikan repositori kode dan harus menghasilkan patch untuk menyelesaikan masalah rekayasa perangkat lunak yang realistis. Terminal-Bench 2.0 adalah tolok ukur untuk menguji agen AI dalam lingkungan terminal yang sesungguhnya. Tugasnya termasuk mengompilasi kode, pelatihan model, dan menyiapkan server.

Kinerja visi yang lebih kuat memungkinkan GPT‑5.2‑Codex untuk menginterpretasikan tangkapan layar, diagram teknis, bagan, dan antarmuka pengguna dengan lebih akurat yang dibagikan selama sesi pengodean.

Codex dapat mengambil mock desain dan dengan cepat menerjemahkannya menjadi prototipe fungsional, dan Anda dapat bekerja sama dengan Codex untuk membawa prototipe ini ke tahap produksi.

Desain mock

Prototipe yang dibuat oleh GPT‑5.2‑Codex

Memajukan batas depan siber

Saat memetakan kinerja pada salah satu evaluasi inti keamanan siber kami dari waktu ke waktu, kami melihat lonjakan tajam dalam kemampuan yang dimulai dengan GPT‑5‑Codex, lompatan besar lainnya dengan GPT‑5.1‑Codex‑Max, dan sekarang lonjakan ketiga dengan GPT‑5.2‑Codex. Kami mengharapkan bahwa model AI yang akan datang akan melanjutkan lintasan ini. Sebagai persiapan, kami merencanakan dan mengevaluasi seolah-olah setiap model baru dapat mencapai tingkat kapabilitas keamanan siber 'Tinggi', sebagaimana diukur oleh Kerangka Kerja Kesiapan⁠⁠(terbuka di jendela baru) kami. Meskipun GPT‑5.2‑Codex belum mencapai tingkat kapabilitas siber 'Tinggi', kami sedang mempersiapkan model masa depan yang melampaui ambang batas tersebut. Karena peningkatan kapabilitas siber, kami telah menambahkan langkah-langkah perlindungan tambahan dalam model dan produk, yang diuraikan dalam kartu sistem⁠.

Evaluasi Professional Capture-the-Flag (CTF) mengukur seberapa sering model dapat menyelesaikan tantangan dunia nyata yang canggih dan multi-langkah (memerlukan keahlian keamanan siber tingkat profesional) dalam lingkungan Linux.

Kemampuan siber dunia nyata

Masyarakat modern bergantung pada perangkat lunak, dan keandalannya bergantung pada keamanan siber yang kuat—memastikan sistem penting dalam perbankan, kesehatan, komunikasi, dan layanan esensial tetap online, melindungi data sensitif, dan memastikan orang-orang dapat mempercayai perangkat lunak yang mereka andalkan setiap hari. Kerentanan sering kali sudah ada jauh sebelum terdeteksi, dan upaya untuk menemukannya, memverifikasi keberadaannya, serta memperbaikinya sangat bergantung pada komunitas insinyur dan peneliti keamanan independen yang memiliki alat yang memadai.

Pada 11 Desember 2025, tim React memublikasikan tiga kerentanan keamanan yang memengaruhi aplikasi yang dibangun dengan React Server Components. Yang membuat pengungkapan ini menonjol bukan hanya kerentanannya sendiri, tetapi juga cara mereka ditemukan.

Andrew MacPherson, seorang insinyur keamanan utama di Privy (perusahaan Stripe), sedang menggunakan GPT‑5.1‑Codex‑Max dengan Codex CLI dan agen pengodean lainnya untuk mereproduksi dan mempelajari kerentanan kritis React yang berbeda yang diungkapkan minggu sebelumnya, yang dikenal sebagai React2Shell⁠(terbuka di jendela baru) (CVE-2025-55182⁠(terbuka di jendela baru)). Tujuannya adalah untuk mengevaluasi seberapa baik model tersebut dapat membantu dalam penelitian kerentanan di dunia nyata.

Dia awalnya mencoba beberapa analisis zero-shot, mendorong model untuk memeriksa patch dan mengidentifikasi kerentanan yang diatasinya. Ketika pendekatan itu tidak membuahkan hasil, ia beralih ke metode prompting iteratif dengan volume yang lebih tinggi. Ketika pendekatan-pendekatan tersebut tidak berhasil, dia membimbing Codex melalui alur kerja keamanan defensif standar—menyiapkan lingkungan uji lokal, menalar potensi permukaan serangan, dan menggunakan fuzzing untuk menguji sistem dengan masukan yang tidak sesuai. Saat mencoba mereproduksi masalah React2Shell yang asli, Codex menunjukkan perilaku tak terduga yang memerlukan penyelidikan lebih mendalam. Selama satu minggu, proses ini mengarah pada penemuan kerentanan yang sebelumnya tidak diketahui, yang secara bertanggung jawab diungkapkan kepada tim React.

Diagram alur berjudul “Penemuan Kerentanan oleh Codex: CVE-2025-55183” menunjukkan alur kerja yang dimulai dengan repositori Git dan Codex memindai kode untuk kerentanan. Upaya zero-shot gagal, diikuti oleh proses yang dipandu oleh ahli yang memeriksa basis kode, mengidentifikasi target yang mungkin, membangun alat uji, dan melakukan pengujian fuzz terhadap aplikasi contoh dengan revalidasi. Hasil diverifikasi untuk membuat bukti konsep, yang mengarah pada pengungkapan yang bertanggung jawab dan patch yang diterapkan kembali ke repositori.

Hal Ini menunjukkan bagaimana sistem AI yang canggih dapat secara signifikan mempercepat pekerjaan keamanan defensif dalam perangkat lunak yang secara luas digunakan di dunia nyata. Pada saat yang sama, kapabilitas yang membantu pembela bergerak lebih cepat juga dapat disalahgunakan oleh pihak yang berniat jahat.

Seiring bertambahnya kemampuan sistem agentik dalam tugas-tugas yang relevan dalam keamanan siber, kami menjadikannya prioritas utama untuk memastikan kemajuan ini diterapkan secara bertanggung jawab—memadukan setiap peningkatan kemampuan dengan pengamanan yang lebih kuat, kontrol akses yang lebih ketat, dan kolaborasi berkelanjutan dengan komunitas keamanan.

Memberdayakan pertahanan siber melalui akses tepercaya

Tim keamanan dapat menghadapi pembatasan ketika mencoba meniru pelaku ancaman, menganalisis malware untuk memberikan dukungan remediasi, atau menguji ketahanan infrastruktur penting. Kami sedang mengembangkan program percontohan akses terpercaya untuk menghilangkan hambatan tersebut bagi pengguna dan organisasi yang memenuhi syarat, serta memungkinkan para pembela terpercaya menggunakan kemampuan AI frontier dalam siber untuk mempercepat pertahanan siber.

Awalnya, program percontohan ini akan hanya untuk profesional keamanan yang diundang, yang telah diverifikasi dengan rekam jejak pengungkapan kerentanan yang bertanggung jawab, serta organisasi dengan kasus penggunaan keamanan siber profesional yang jelas. Peserta yang memenuhi syarat akan mendapatkan akses ke model kami yang paling canggih untuk kasus penggunaan defensif untuk mengaktifkan pekerjaan penggunaan ganda yang sah.

Jika Anda seorang profesional keamanan atau bagian dari organisasi yang melakukan pekerjaan keamanan etis seperti penelitian kerentanan atau red-teaming yang sah, kami mengundang Anda untuk menyatakan minat bergabung dan memberikan masukan tentang apa yang ingin Anda lihat dari program ini di sini⁠(terbuka di jendela baru).

Kesimpulan

GPT‑5.2‑Codex merupakan langkah maju dalam bagaimana AI canggih dapat mendukung rekayasa perangkat lunak di dunia nyata dan bidang khusus seperti keamanan siber—membantu pengembang dan pembela menangani pekerjaan yang kompleks dan jangka panjang, serta memperkuat alat yang tersedia untuk penelitian keamanan yang bertanggung jawab.

Dengan meluncurkan GPT‑5.2‑Codex secara bertahap, menggabungkan penerapan dengan langkah-langkah pengamanan, dan bekerja sama erat dengan komunitas keamanan, kami bertujuan untuk memaksimalkan dampak pertahanan sekaligus mengurangi risiko penyalahgunaan. Apa yang kami pelajari dari rilis ini akan secara langsung memengaruhi bagaimana kami memperluas akses seiring waktu, seiring perkembangan perangkat lunak dan batas-batas keamanan siber.

Penulis

OpenAI

Terus membaca

Lihat semua

Building abundant intelligence

Perusahaan31 Jul 2026

Mendorong batas harga-kinerja dengan GPT-5.6

Produk30 Jul 2026

oai Science Academic Research Academic Research 1x1

Mempercepat penemuan ilmiah dengan ChatGPT untuk Peneliti Akademis

Perusahaan29 Jul 2026