Langsung ke konten utama
OpenAI

19 November 2025

ProdukRilis

Bangun lebih banyak dengan GPT‑5.1‑Codex‑Max

Memuat…

Pengantar

Kami memperkenalkan GPT‑5.1‑Codex‑Max, model pengodean agentik terdepan kami yang baru, tersedia di Codex hari ini.  GPT‑5.1‑Codex‑Max dibangun berdasarkan pembaruan model penalaran dasar kami, yang dilatih pada tugas-tugas agentik di bidang rekayasa perangkat lunak, matematika, riset, dan lainnya. GPT‑5.1‑Codex‑Max lebih cepat, lebih cerdas, dan lebih efisien dalam penggunaan token di setiap tahap siklus pengembangan—serta merupakan langkah baru untuk menjadi mitra pengodean yang andal.

GPT‑5.1‑Codex‑Max dirancang untuk pekerjaan terperinci yang berlangsung lama. Ini adalah model pertama kami yang dilatih dari awal untuk beroperasi di beberapa jendela konteks melalui proses yang disebut compaction, bekerja secara koheren pada jutaan token dalam satu tugas. Ini memungkinkan refaktor proyek skala besar, sesi debugging mendalam, dan proses agen yang berlangsung selama berjam-jam.

GPT‑5.1‑Codex‑Max kini tersedia di Codex untuk digunakan di CLI, ekstensi IDE, cloud, dan peninjauan kode, dengan akses API segera tersedia.

Kemampuan pengodean mutakhir

GPT‑5.1‑Codex‑Max dilatih pada tugas rekayasa perangkat lunak dunia nyata, seperti pembuatan PR, peninjauan kode, pemrograman frontend, dan tanya-jawab, serta melampaui kinerja model kami sebelumnya dalam banyak evaluasi pemrograman terdepan. Peningkatan model pada berbagai benchmark juga disertai dengan perbaikan dalam penggunaan dunia nyata: GPT‑5.1‑Codex‑Max adalah model pertama yang kami latih untuk beroperasi di lingkungan Windows, dan proses pelatihannya kini mencakup tugas-tugas yang dirancang untuk menjadikannya kolaborator yang lebih andal di Codex CLI.

* Semua evaluasi dijalankan dengan pemadatan diaktifkan pada Extra High reasoning effort
* Terminal-Bench2.0 dijalankan dengan Codex CLI di
harness Laude Institute Harbor(terbuka di jendela baru)

Kecepatan dan biaya

GPT‑5.1‑Codex‑Max menunjukkan peningkatan signifikan dalam efisiensi token berkat penalaran yang lebih efektif. Pada SWE-bench Verified, GPT‑5.1‑Codex‑Max dengan reasoning effort 'medium' mencapai kinerja yang lebih baik daripada GPT‑5.1‑Codex dengan reasoning effort yang sama, sekaligus menggunakan 30% lebih sedikit thinking token. Untuk tugas yang tidak sensitif terhadap latensi, kami juga memperkenalkan reasoning effort Extra High ('xhigh') baru, yang berpikir dalam durasi lebih panjang untuk menghasilkan jawaban yang lebih baik. Kami tetap merekomendasikan medium sebagai pilihan utama untuk sebagian besar tugas.

Kami mengharapkan peningkatan efisiensi token akan menghasilkan penghematan nyata bagi para pengembang.

Misalnya, GPT‑5.1‑Codex‑Max mampu menghasilkan desain frontend berkualitas tinggi dengan fungsionalitas dan estetika yang serupa, tetapi dengan biaya yang jauh lebih rendah daripada GPT‑5.1‑Codex.

Prompt:Buat sebuah aplikasi browser tunggal yang berdiri sendiri, yang menampilkan sandbox RL CartPole interaktif dengan grafik kanvas, pengendali kebijakan-tiny gradient, metrik, dan visualizer jaringan SVG.

Fitur

  • Harus benar-benar dapat melatih kebijakan untuk membuat model lebih baik dalam mengendalikan cart pole
  • Visualizer untuk aktivasi/bobot ketika model sedang dalam pelatihan atau dalam tahap inferensi
  • Langkah-langkah dalam episode ini, hadiah untuk episode ini
  • Waktu bertahan terakhir dan waktu bertahan terbaik dalam langkah-langkah

Simpan ke index.html

Tugas jangka panjang

Pemadatan memungkinkan GPT‑5.1‑Codex‑Max menyelesaikan tugas yang sebelumnya gagal karena batasan jendela konteks, seperti refaktor kompleks dan loop agen jangka panjang, dengan memangkas riwayatnya sambil mempertahankan konteks paling penting dalam jangka waktu yang panjang. Dalam aplikasi Codex, GPT‑5.1‑Codex‑Max secara otomatis memadatkan sesi ketika mendekati batas jendela konteks, memberikan jendela konteks baru. Proses ini diulang sampai tugas selesai.

Kemampuan untuk mempertahankan pekerjaan yang koheren dalam jangka waktu panjang adalah kemampuan dasar menuju sistem AI yang lebih umum dan andal. GPT‑5.1‑Codex‑Max dapat bekerja secara mandiri selama berjam-jam pada satu waktu. Dalam evaluasi internal kami, kami telah mengamati GPT‑5.1‑Codex‑Max mengerjakan tugas selama lebih dari 24 jam. Model ini akan terus-menerus melakukan iterasi pada implementasinya, memperbaiki kegagalan pada pengujian, dan pada akhirnya menghasilkan hasil yang sukses.

Dalam contoh ini, GPT‑5.1‑Codex‑Max secara independen melakukan refaktorisasi pada repositori open source Codex CLI.

Ketika durasi sesi mendekati jendela konteks model, sesi tersebut secara otomatis dipadatkan untuk membebaskan ruang agar tugas dapat dilanjutkan tanpa kehilangan kemajuan.

Video telah dipotong dan dipercepat untuk memperjelas.

Membangun agen AI yang aman dan tepercaya

GPT‑5.1‑Codex‑Max menunjukkan kinerja yang jauh lebih baik pada evaluasi yang membutuhkan penalaran yang berkelanjutan dan jangka panjang. Karena dapat bekerja secara koheren di berbagai jendela konteks dengan pemadatan, model ini menghasilkan hasil yang lebih baik pada tantangan di bidang seperti pengodean jangka panjang dan keamanan siber. Kami menganalisis hasil kinerja model ini pada evaluasi pihak pertama dan pihak ketiga di GPT‑5.1‑Codex‑Max kartu sistem.

GPT‑5.1‑Codex‑Max tidak mencapai kemampuan tinggi dalam Keamanan Siber di bawah Kerangka Kesiapsiagaan kami , tetapi ini adalah model keamanan siber paling mampu yang telah kami terapkan hingga saat ini, dan kemampuan keamanan siber agen berkembang pesat. Sebagai hasilnya, kami mengambil langkah-langkah untuk mempersiapkan kemampuan tinggi dalam Keamanan Siber, sekaligus memperkuat pengamanan di domain siber dan memastikan para pembela dapat memanfaatkan kemampuan yang ditingkatkan ini melalui program-program seperti Aardvark.

Ketika kami meluncurkan GPT‑5‑Codex, kami menerapkan pemantauan khusus untuk keamanan siber guna mendeteksi dan menghentikan aktivitas berbahaya. Meskipun kami belum melihat peningkatan signifikan dalam penyalahgunaan skala besar, kami sedang menyiapkan mitigasi tambahan untuk kemampuan yang lebih maju. Tim kami telah menghentikan operasi siber yang mencoba menyalahgunakan model kami, dan aktivitas mencurigakan diarahkan untuk ditinjau melalui sistem pemantauan kebijakan kami.

Codex dirancang untuk dijalankan secara default dalam sandbox yang aman: penulisan file dibatasi pada workspace-nya, dan akses jaringan dinonaktifkan kecuali diaktifkan oleh pengembang. Kami merekomendasikan untuk tetap menjalankan Codex dalam mode akses terbatas ini, karena mengaktifkan pencarian internet atau web dapat menimbulkan risiko injeksi prompt dari konten yang tidak tepercaya.

Seiring Codex menjadi lebih mampu dalam menjalankan tugas-tugas jangka panjang, semakin penting bagi para pengembang untuk meninjau pekerjaan agen sebelum melakukan perubahan atau menerapkannya ke produksi. Untuk membantu hal ini, Codex menghasilkan log terminal dan mencantumkan pemanggilan alat serta hasil tesnya. Meskipun tinjauan kode Codex mengurangi risiko penerapan bug yang dihasilkan model atau manusia ke dalam produksi, Codex sebaiknya diperlakukan sebagai peninjau tambahan dan bukan pengganti tinjauan manusia.

Kemampuan keamanan siber dapat digunakan untuk pertahanan maupun penyerangan, sehingga kami menerapkan pendekatan penerapan secara iteratif: mempelajari dari penggunaan nyata, memperbarui pengamanan, dan mempertahankan alat pertahanan penting seperti pemindaian kerentanan otomatis dan bantuan remediasi.

"Ketersediaan"

GPT‑5.1‑Codex‑Max tersedia di Codex dengan paket ChatGPT Plus, Pro, Business, Edu, dan Enterprise. Untuk detail tentang cara kerja batas penggunaan untuk paket Anda, silakan lihat dokumen(terbuka di jendela baru) kami.

Untuk pengembang yang menggunakan Codex CLI melalui kunci API, kami berencana untuk membuat GPT‑5.1‑Codex‑Max segera tersedia di API.

Mulai hari ini, GPT‑5.1‑Codex‑Max akan menggantikan GPT‑5.1‑Codex sebagai model default di antarmuka Codex. Tidak seperti GPT‑5.1, yang merupakan model tujuan umum, kami menyarankan menggunakan GPT‑5.1‑Codex‑Max dan keluarga model Codex hanya untuk tugas pengodean agentik di Codex atau lingkungan yang mirip Codex.

Kesimpulan

GPT‑5.1‑Codex‑Max menunjukkan seberapa jauh model telah berkembang dalam mempertahankan tugas pengodean jangka panjang, mengelola alur kerja yang kompleks, dan menghasilkan implementasi berkualitas tinggi dengan token yang jauh lebih sedikit. Kami telah melihat model ini, yang dikombinasikan dengan peningkatan yang stabil pada CLI, ekstensi IDE, integrasi cloud, dan alat peninjauan kode dapat menghasilkan produktivitas rekayasa yang sangat tinggi: secara internal, 95% insinyur OpenAI menggunakan Codex setiap minggu, dan para insinyur ini mengirimkan sekitar 70% lebih banyak pull request sejak mengadopsi Codex. Seiring dengan upaya kami mendorong batas kemampuan agen-agen ini, kami sangat antusias untuk melihat apa yang akan Anda bangun dengan mereka.

Lampiran: Evaluasi model

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Penulis

OpenAI