Langsung ke konten utama
OpenAI

11 Desember 2025

ProdukRilis

Memperkenalkan GPT‑5.2

Model frontier paling canggih untuk pekerjaan profesional dan agen yang berjalan terus-menerus.

Memuat…

Kami memperkenalkan GPT‑5.2, seri model yang paling canggih saat ini untuk pekerjaan pengetahuan profesional.

Sudah, rata-rata pengguna ChatGPT Enterprise mengatakan AI menghemat waktu mereka 40–60 menit sehari, dan pengguna berat mengatakan AI menghemat lebih dari 10 jam seminggu. Kami merancang GPT‑5.2 agar bisa memberikan manfaat ekonomi yang lebih besar bagi orang-orang; model ini lebih baik dalam buat spreadsheet, menyusun presentasi, menulis kode, menafsirkan gambar, memahami konteks yang panjang, menggunakan berbagai alat, dan menangani proyek multi-langkah yang rumit.

GPT‑5.2 menetapkan state of the art baru di banyak tolok ukur, termasuk GDPval, di mana model ini melampaui profesional industri dalam tugas-tugas pengetahuan yang terdefinisi dengan baik yang mencakup 44 bidang pekerjaan.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (menang atau seri)
Tugas kerja pengetahuan

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (public)
Rekayasa Perangkat Lunak

55,6%

50,8%

SWE-bench Verified
Rekayasa perangkat lunak

80,0%

76,3%

GPQA Diamond (tanpa alat)
Pertanyaan sains

92,4%

88,1%

CharXiv Reasoning (dengan Python)
Pertanyaan tentang gambar ilmiah

88,7%

80,3%

HMMT (Feb 2025)
Turnamen matematika

99,4%

96,3%

FrontierMath (Tier 1–3)
Matematika tingkat lanjut

40,3%

31,0%

ARC-AGI-1 (Verified)
Penalaran abstrak

86,2%

72,8%

ARC-AGI-2 (Verified)
Penalaran abstrak

52,9%

17,6%

Notion(terbuka di jendela baru), Box(terbuka di jendela baru), Shopify(terbuka di jendela baru), Harvey(terbuka di jendela baru) dan Zoom(terbuka di jendela baru) mengamati bahwa GPT‑5.2 menunjukkan penalaran jangka panjang dan kinerja pemanggilan alat yang yang terdepan di kelasnya. Databricks(terbuka di jendela baru), Hex(terbuka di jendela baru) dan Triple Whale(terbuka di jendela baru) menemukan bahwa GPT‑5.2 sangat unggul dalam tugas ilmu data agentik dan tugas analisis dokumen. Cognition(terbuka di jendela baru), Warp(terbuka di jendela baru), Charlie Labs(terbuka di jendela baru), JetBrains(terbuka di jendela baru) dan Augment Code(terbuka di jendela baru) menyatakan bahwa GPT‑5.2 menunjukkan kinerja pengodean agentik tercanggih, dengan peningkatan yang terukur dalam bidang seperti pengodean interaktif, tinjauan kode, dan penemuan bug.

Di ChatGPT, GPT‑5.2 Instant, Thinking, dan Pro akan mulai diluncurkan hari ini, dimulai dengan paket berbayar. Di API, model tersebut sekarang tersedia untuk semua pengembang.

Secara keseluruhan, GPT‑5.2 menghadirkan peningkatan signifikan dalam kecerdasan umum, pemahaman konteks panjang, pemanggilan alat agentik, dan visual—menjadikannya lebih unggul dalam mengeksekusi tugas-tugas kompleks di dunia nyata secara menyeluruh dibandingkan model sebelumnya.

Kinerja model

Tugas yang bernilai secara ekonomi.

GPT‑5.2 Thinking adalah model terbaik sejauh ini untuk penggunaan profesional di dunia nyata. Pada GDPval, sebuah evaluasi yang mengukur tugas-tugas pengetahuan yang terdefinisi dengan baik di 44 jenis pekerjaan, GPT‑5.2 Thinking menetapkan skor state of the art baru, dan merupakan model pertama kami yang berperforma setara atau di atas tingkat ahli manusia. Secara spesifik, GPT‑5.2 Thinking mengalahkan atau menyamai para profesional terkemuka di industri dalam 70,9% perbandingan tugas kerja pengetahuan GDPval, menurut penilaian ahli manusia. Tugas-tugas ini mencakup pembuatan presentasi, spreadsheet, dan artefak lainnya. GPT‑5.2 Thinking menghasilkan output untuk tugas GDPval dengan kecepatan >11x dan biaya <1% dari biaya profesional ahli, menunjukkan bahwa ketika dipasangkan dengan pengawasan manusia, GPT‑5.2 dapat membantu pekerjaan profesional. Perkiraan kecepatan dan biaya didasarkan pada metrik historis; kecepatan di ChatGPT dapat bervariasi.

Dalam GDPval, model berusaha melakukan pekerjaan berbasis pengetahuan yang terdefinisi dengan baik, mencakup 44 pekerjaan dari 9 industri teratas yang berkontribusi terhadap PDB AS. Tugas meminta produk kerja sesungguhnya, seperti presentasi penjualan, spreadsheet akuntansi, jadwal perawatan darurat, diagram manufaktur, atau video pendek. Di ChatGPT, GPT‑5.2 Thinking memiliki alat baru yang tidak dimiliki oleh GPT‑5 Thinking.

Saat meninjau salah satu output yang sangat baik, seorang juri GDPval berkomentar, "Ini adalah lonjakan kualitas output yang mengesankan dan terlihat jelas... [output ini] tampak dibuat oleh perusahaan profesional dengan staf, dan memiliki tata letak serta saran yang dirancang dengan sangat baik untuk kedua hasil kerja, meskipun pada salah satunya kami masih menemukan beberapa kesalahan kecil yang perlu diperbaiki."

Selain itu, pada tolok ukur internal kami untuk tugas pemodelan spreadsheet analis perbankan investasi junior—seperti menyusun model tiga laporan keuangan untuk perusahaan Fortune 500 dengan format dan kutipan yang tepat, atau membangun model leveraged buyout untuk pengambilalihan perusahaan secara privat—skor rata-rata per tugas dari GPT‑5.2 Thinking 9,3% lebih tinggi dibandingkan dengan GPT‑5.1, meningkat dari 59,1% menjadi 68,4%.

Perbandingan berdampingan menunjukkan peningkatan kecanggihan dan pemformatan dalam spreadsheet dan slide yang dibuat oleh GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Prompt: Buat model perencanaan tenaga kerja: jumlah karyawan, rencana perekrutan, atrisi, dan dampak anggaran. Sertakan departemen teknik, pemasaran, hukum, dan penjualan.

Untuk menggunakan kemampuan spreadsheet dan presentasi baru di ChatGPT, Anda harus berada pada paket berbayar dan memilih antara GPT‑5.2 Thinking atau Pro. Proses pembuatan yang kompleks dapat memerlukan waktu beberapa menit untuk bisa menghasilkan.

Pengodean

GPT‑5.2 Thinking menetapkan state of the art baru sebesar 55,6% pada SWE-bench Pro, sebuah evaluasi ketat terhadap rekayasa perangkat lunak di dunia nyata. Berbeda dengan SWE-bench Verified, yang hanya menguji Python, SWE-bench Pro menguji empat bahasa dan bertujuan untuk lebih tahan terhadap kontaminasi, menantang, beragam, dan relevan secara industri.

Di SWE-bench Pro(terbuka di jendela baru), sebuah model diberikan repositori kode dan harus membuat patch untuk menyelesaikan tugas rekayasa perangkat lunak yang realistis.

Pada SWE-bench Verified (tidak diplot), GPT‑5.2 Thinking meraih skor tertinggi baru kami yaitu sebesar 80%.

Untuk penggunaan profesional sehari-hari, hal ini diterjemahkan menjadi model yang dapat lebih andal dalam men-debug kode produksi, mengimplementasikan permintaan fitur, merefaktorisasi basis kode besar, dan mengirimkan perbaikan secara menyeluruh dengan intervensi manual yang lebih sedikit.

GPT‑5.2 Thinking juga lebih unggul dalam rekayasa perangkat lunak front-end dibandingkan dengan GPT‑5.1 Thinking. Penguji awal menemukan bahwa model ini secara signifikan lebih kuat dalam pengembangan front-end dan pekerjaan UI yang kompleks atau tidak konvensional—terutama yang melibatkan  elemen 3D—menjadikannya mitra harian yang tangguh bagi para insinyur di seluruh lapisan. Lihat beberapa contoh dari apa yang dapat dihasilkan dari satu prompt:

Prompt: Buat aplikasi satu halaman dalam satu file HTML dengan persyaratan berikut:
- Nama: Simulasi Gelombang Laut
- Tujuan: Menampilkan gelombang animasi yang realistis.
- Fitur: Mengubah kecepatan angin, tinggi gelombang, pencahayaan.
- Antarmuka pengguna harus menenangkan dan realistis.

Para penguji awal membagikan masukan mereka mengenai GPT‑5.2 terkait kemampuan pengodean:

&quot;GPT-5.2 merupakan lompatan terbesar untuk model GPT dalam pengodean agen sejak GPT-5 dan adalah model pengodean SOTA dalam kisaran harganya. Peningkatan versi meremehkan lonjakan kecerdasan. Kami senang menjadikannya sebagai default di seluruh Windsurf dan beberapa beban kerja inti Devin.&quot;
Jeff Wang, CEO, Windsurf

Faktualitas

GPT‑5.2 Thinking berhalusinasi lebih sedikit dibandingkan dengan GPT‑5.1 Thinking. Pada serangkaian kueri yang telah dianonimkan dari ChatGPT, respons dengan kesalahan 38%rel lebih jarang terjadi. Bagi para profesional, ini berarti lebih sedikit kesalahan saat menggunakan model untuk riset, penulisan, analisis, dan dukungan keputusan—membuat model lebih andal untuk pekerjaan pengetahuan sehari-hari.

Upaya penalaran diatur ke tingkat maksimum yang tersedia dan alat pencarian diaktifkan. Kesalahan terdeteksi oleh model lain, yang mungkin membuat kesalahan mereka sendiri. Tingkat kesalahan pada tingkat klaim jauh lebih rendah daripada tingkat kesalahan pada tingkat respons, karena sebagian besar respons mengandung banyak klaim.

Seperti semua model, GPT‑5.2 Thinking tidak sempurna. Untuk hal-hal yang kritis, periksa ulang jawabannya.

Konteks panjang

GPT‑5.2 Thinking menetapkan state of the art baru dalam penalaran konteks panjang, mencapai kinerja terdepan pada OpenAI MRCRv2—sebuah evaluasi yang menguji kemampuan model untuk mengintegrasikan informasi yang tersebar di dokumen panjang. Pada tugas dunia nyata seperti analisis dokumen mendalam, yang memerlukan informasi terkait di antara ratusan ribu token, GPT‑5.2 Thinking secara substansial lebih akurat daripada GPT‑5.1 Thinking. Secara khusus, ini adalah model pertama yang kami temui yang mencapai akurasi hampir 100% pada varian 4-needle MRCR (hingga 256 ribu token).

Dalam praktiknya, model ini memungkinkan para profesional menggunakan GPT‑5.2 untuk bekerja dengan dokumen panjang—seperti laporan, kontrak, makalah penelitian, transkrip, dan proyek multi-file—dengan tetap mempertahankan koherensi dan akurasi di seluruh ratusan ribu token. Ini membuat GPT‑5.2 sangat cocok untuk analisis mendalam, sintesis, dan alur kerja multi-sumber yang kompleks.

Dalam OpenAI-MRCR⁠(terbuka di jendela baru) v2 (resolusi koreferensi multi-putaran), beberapa permintaan pengguna “needle” yang identik dimasukkan ke dalam “haystack” panjang yang berisi permintaan dan respons serupa, dan model diminta untuk mereproduksi respons pada needle ke-n. Versi 2 dari evaluasi memperbaiki sekitar 5% tugas yang memiliki nilai ground truth yang salah. **Mean match ratio** mengukur rata-rata rasio kecocokan string antara respons model dan jawaban yang benar. Titik pada 256k token input maksimum mewakili rata-rata dari 128k–256k token input, dan seterusnya. Di sini, 256k berarti 256 × 1.024 = 262.144 token. Upaya penalaran diatur ke tingkat maksimum yang tersedia.

Untuk tugas yang diuntungkan dengan kemampuan berpikir melampaui jendela konteks maksimum, GPT‑5.2 Thinking kompatibel dengan endpoint Responses /compact baru kami, yang memperluas jendela konteks efektif model. Ini memungkinkan GPT‑5.2 Thinking untuk menangani alur kerja yang bergantung pada lebih banyak alat dan berjalan terus-menerus yang seharusnya dibatasi oleh panjang konteks. Baca lebih lanjut di dokumentasi API(terbuka di jendela baru) kami.

Vision

GPT‑5.2 Thinking adalah model visual terkuat kami hingga saat ini, dengan tingkat kesalahan berkurang sekitar setengahnya pada penalaran grafik dan pemahaman antarmuka perangkat lunak.

Untuk penggunaan profesional sehari-hari, artinya model ini dapat lebih akurat menginterpretasikan dasbor, tangkapan layar produk, diagram teknis, dan laporan visual—mendukung alur kerja di bidang keuangan, operasi, rekayasa, desain, dan dukungan pelanggan di mana informasi visual sangat penting.

Dalam CharXiv Reasoning(terbuka di jendela baru), Model menjawab pertanyaan tentang grafik visual dari makalah ilmiah. Sebuah alat Python diaktifkan dan upaya penalaran diatur ke maksimum.

Dalam ScreenSpot-Pro(terbuka di jendela baru), model harus melakukan penalaran terhadap tangkapan layar beresolusi tinggi dari antarmuka pengguna grafis di berbagai lingkungan profesional. Alat Python diaktifkan dan upaya penalaran diatur ke tingkat maksimum. Tanpa alat Python, skor jauh lebih rendah. Kami menyarankan untuk mengaktifkan alat Python pada tugas visual seperti ini.

Dibandingkan dengan model sebelumnya, GPT‑5.2 Thinking memiliki pemahaman yang lebih kuat tentang bagaimana elemen-elemen diposisikan dalam sebuah gambar, yang membantu dalam tugas-tugas di mana tata letak relatif memainkan peran kunci dalam menyelesaikan masalah. Dalam contoh di bawah ini, kami meminta model untuk mengidentifikasi komponen dalam input gambar (dalam hal ini, sebuah motherboard) dan mengembalikan label beserta kotak batas perkiraannya. Bahkan pada gambar berkualitas rendah, GPT‑5.2 mengidentifikasi wilayah utama dan menempatkan kotak yang kira-kira sesuai dengan lokasi sebenarnya dari setiap komponen, sedangkan GPT‑5.1 hanya memberi label pada beberapa bagian dan menunjukkan pemahaman yang jauh lebih lemah tentang pengaturan spasialnya.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Pemanggilan alat

GPT‑5.2 Thinking mencapai state of the art baru sebesar 98,7% pada Tau2-bench Telecom, menunjukkan kemampuannya untuk menggunakan alat secara andal dalam tugas-tugas panjang dan multi-putaran.

Untuk kasus penggunaan yang sensitif terhadap latensi, GPT‑5.2 Thinking juga menunjukkan kinerja yang jauh lebih baik dalam reasoning. effort=’none’, secara substansial mengungguli GPT‑5.1 dan GPT‑4.1.

Dalam τ2-bench⁠(terbuka di jendela baru), model menggunakan alat untuk menyelesaikan tugas dukungan pelanggan dalam interaksi multi-giliran dengan pengguna simulasi. Untuk domain Telekomunikasi, kami menyertakan instruksi singkat yang umumnya bermanfaat dalam prompt sistem untuk meningkatkan kinerja. Kami mengecualikan subset Maskapai karena penilaian kebenaran dasar yang berkualitas lebih rendah.

Bagi para profesional, ini berarti alur kerja menyeluruh yang lebih kuat—seperti menyelesaikan kasus dukungan pelanggan, menarik data dari berbagai sistem, menjalankan analisis, dan membuat output akhir dengan lebih sedikit gangguan di antara langkah-langkahnya.

Misalnya, ketika Anda mengajukan pertanyaan layanan pelanggan yang kompleks yang memerlukan resolusi multi-langkah, model dapat lebih efektif mengoordinasikan alur kerja penuh di antara beberapa agen. Dalam kasus di bawah ini, seorang pelancong melaporkan penerbangan yang tertunda, koneksi yang terlewat, menginap semalam di New York, dan kebutuhan tempat duduk medis. GPT‑5.2 mengelola seluruh rangkaian tugas—pemesanan ulang, tempat duduk dengan bantuan khusus, dan kompensasi—memberikan hasil yang lebih lengkap daripada GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Sains & matematika

Salah satu harapan kami untuk AI adalah bahwa AI akan mempercepat riset ilmiah yang akan mendatangkan manfaat untuk semua orang. Untuk mencapai hal ini, kami telah bekerja sama dan mendengarkan para ilmuwan untuk melihat bagaimana AI dapat mempercepat pekerjaan mereka, dan bulan lalu kami membagikan beberapa eksperimen kolaboratif awal di sini.

Kami percaya GPT‑5.2 Pro dan GPT‑5.2 Thinking adalah model terbaik di dunia untuk membantu dan mempercepat ilmuwan. Pada GPQA Diamond, tolok ukur tanya jawab tingkat pascasarjana yang tahan uji Google, GPT‑5.2 Pro meraih 93,2%, diikuti dengan selisih tipis oleh GPT‑5.2 Thinking pada 92,4%.

Dalam GPQA Diamond(terbuka di jendela baru), model menjawab pertanyaan pilihan ganda tentang fisika, kimia, dan biologi. Tidak ada alat yang diaktifkan dan upaya penalaran diatur ke maksimum.

Pada FrontierMath (Tingkat 1–3), evaluasi matematika tingkat ahli, GPT‑5.2 Thinking menetapkan state of the art baru, menyelesaikan 40,3% dari masalah.

Di FrontierMath(terbuka di jendela baru), model memecahkan masalah matematika tingkat ahli. Sebuah alat Python diaktifkan dan upaya penalaran diatur ke maksimum.

Kami mulai melihat model AI secara signifikan mempercepat kemajuan dalam matematika dan sains dengan cara yang nyata. Sebagai contoh, dalam pekerjaan terbaru dengan GPT‑5.2 Pro, para peneliti menjelajahi pertanyaan terbuka dalam teori pembelajaran statistik. Dalam pengaturan yang sempit dan terdefinisi dengan baik, model mengusulkan sebuah bukti yang kemudian diverifikasi para penulis dan ditinjau bersama pakar eksternal, menggambarkan bagaimana model frontier dapat membantu penelitian matematika di bawah pengawasan manusia yang ketat.

ARC-AGI 2

Pada ARC-AGI-1 (Verified), tolok ukur yang dirancang untuk mengukur kemampuan penalaran umum, GPT‑5.2 adalah model pertama yang melampaui ambang batas 90%, meningkat dari 87% oleh o3‑preview tahun lalu sekaligus mengurangi biaya untuk mencapai kinerja tersebut sekitar 390×.

Pada ARC-AGI-2 (Verified), yang meningkatkan kesulitan dan lebih baik mengisolasi penalaran fleksibel, GPT‑5.2 Thinking mencapai state of the art baru untuk model rantai pemikiran, dengan skor 52,9%. GPT‑5.2 Pro mencapai kinerja yang bahkan lebih tinggi, mencapai 54,2%, yang semakin memperluas kemampuan model untuk bernalar melalui masalah baru dan abstrak.

Peningkatan di seluruh evaluasi ini mencerminkan kemampuan GPT‑5.2 dalam penalaran multi-langkah yang lebih kuat, akurasi kuantitatif yang lebih tinggi, dan pemecahan masalah yang lebih andal pada tugas teknis yang kompleks.

Inilah pendapat para penguji awal tentang GPT‑5.2:

&quot;GPT-5.2 memungkinkan pergeseran arsitektur yang sepenuhnya bagi kami. Kami mengganti sistem multi-agen yang rapuh menjadi satu mega-agen dengan lebih dari 20 alat. Bagian terbaiknya adalah, ini benar-benar berfungsi. Mega-agen lebih cepat, lebih cerdas, dan 100 kali lebih mudah untuk dipelihara. Kami melihat latensi yang jauh lebih rendah, pemanggilan alat yang jauh lebih kuat, dan kami tidak lagi memerlukan prompt sistem yang luas karena 5.2 akan mengeksekusi dengan bersih dari prompt satu baris yang sederhana. Rasanya seperti keajaiban.”
AJ Orbach, CEO, Triple Whale

GPT‑5.2 di ChatGPT

Di ChatGPT, para pengguna seharusnya menyadari bahwa GPT‑5.2 terasa lebih baik untuk digunakan sehari-hari—lebih terstruktur, lebih andal, dan tetap menyenangkan untuk diajak bicara.

GPT‑5.2 Instant adalah mesin kerja yang cepat dan andal untuk pekerjaan dan pembelajaran sehari-hari, dengan peningkatan yang jelas dalam pertanyaan pencarian informasi, panduan dan langkah-langkah, penulisan teknis, dan penerjemahan, yang dikembangkan dari nada percakapan yang lebih hangat yang diperkenalkan di GPT‑5.1 Instant. Para penguji awal secara khusus mencatat penjelasan yang lebih jelas yang menonjolkan informasi kunci di awal.

GPT‑5.2 Thinking dirancang untuk pekerjaan yang lebih mendalam, membantu pengguna menangani tugas yang lebih kompleks dengan lebih baik—terutama untuk pengodean, merangkum dokumen panjang, menjawab pertanyaan tentang file yang diunggah, memecahkan masalah matematika dan logika langkah demi langkah, serta mendukung perencanaan dan pengambilan keputusan dengan struktur yang lebih jelas dan detail yang lebih berguna.

GPT‑5.2 Pro adalah pilihan kami yang paling cerdas dan paling dapat diandalkan untuk pertanyaan sulit di mana jawaban berkualitas tinggi sepadan dengan waktu tunggu, dengan pengujian awal menunjukkan lebih sedikit kesalahan besar dan kinerja yang lebih kuat di domain kompleks seperti pemrograman.

Keselamatan

GPT‑5.2 dikembangkan dari riset penyelesaian aman yang kami perkenalkan dengan GPT‑5, yang mengajarkan model untuk memberikan jawaban yang paling membantu dengan tetap berada dalam batasan keselamatan.

Dengan rilis ini, kami meneruskan pekerjaan kami untuk memperkuat respons model kami dalam percakapan sensitif, dengan peningkatan yang berarti dalam cara mereka merespons prompt yang menunjukkan tanda-tanda bunuh diri atau menyakiti diri sendiri, tekanan kesehatan mental, atau ketergantungan emosional pada model. Intervensi terarah ini telah menghasilkan lebih sedikit respons yang tidak diinginkan pada GPT‑5.2. Instant dan GPT‑5.2 Thinking dibandingkan dengan model GPT‑5.1, GPT‑5 Instant, dan GPT‑5 Thinking. Detail lebih lanjut dapat ditemukan di kartu sistem.

Kami sedang dalam tahap awal peluncuran model prediksi usia kami agar kami dapat secara otomatis menerapkan perlindungan konten untuk pengguna yang berusia di bawah 18 tahun, guna membatasi akses ke konten sensitif. Ini memperkuat pendekatan kami yang sudah ada terhadap pengguna yang kami ketahui berusia di bawah 18 tahun dan pengawasan orang tua kami.

GPT‑5.2 adalah satu langkah dalam rangkaian peningkatan yang terus berlanjut, dan perjalanan kami masih jauh dari kata selesai. Meskipun rilis ini menghadirkan peningkatan nyata dalam kecerdasan dan produktivitas, kami tahu masih ada banyak hal yang diinginkan orang. Di ChatGPT, kami sedang menangani masalah yang sudah diketahui seperti penolakan berlebihan, sambil terus meningkatkan standar keamanan dan keandalan secara keseluruhan. Perubahan ini rumit, dan kami berfokus untuk melakukannya dengan benar.

Evaluasi kesehatan mental


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Kesehatan mental

0,995

0,883

0,915

0,684

Ketergantungan emosional

0,938

0,945

0,955

0,785

Melukai diri sendiri

0,938

0,925

0,963

0,937

Ketersediaan & harga

Di ChatGPT, kami akan mulai meluncurkan GPT‑5.2 (Instant, Thinking, dan Pro) hari ini, dimulai dengan paket berbayar (Plus, Pro, Go, Business, Enterprise). Kami meluncurkan GPT‑5.2 secara bertahap untuk menjaga agar ChatGPT tetap lancar dan andal; jika awalnya Anda tidak melihatnya, silakan coba lagi nanti. Di ChatGPT, GPT‑5.1 akan tetap tersedia untuk pengguna berbayar selama tiga bulan di bawah model lama, setelah itu kami akan menghentikan GPT‑5.1.

Penamaan model di seluruh ChatGPT & API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Di Platform API kami, GPT‑5.2 Thinking tersedia hari ini di API Responses dan API Penyelesaian Obrolan sebagai GPT‑5.2, dan GPT‑5.2 Instan sebagai gpt-5.2-chat-latest. GPT‑5.2 Pro tersedia di API Responses sebagai gpt-5.2-pro. Pengembang sekarang dapat mengatur parameter penalaran di GPT‑5.2 Pro, dan keduanya GPT‑5.2 Pro dan GPT‑5.2 Thinking saat ini mendukung upaya penalaran kelima baru dari xhigh, untuk tugas di mana kualitas adalah yang paling penting.

GPT‑5.2 dihargai $1,75/1JT token masukan dan $14/1JT token keluaran, dengan diskon 90% untuk masukan yang di-cache. Pada beberapa evaluasi agentik, kami menemukan bahwa meskipun GPT‑5.2 mempunyai biaya yang lebih besar per token, biaya untuk mencapai tingkat kualitas tertentu menjadi lebih murah karena efisiensi token yang lebih tinggi dari GPT‑5.2.

Meskipun harga langganan ChatGPT tetap sama, dalam API, GPT‑5.2 dikenakan harga lebih tinggi per token dibandingkan GPT‑5.1 karena merupakan model yang lebih mampu. Harganya masih di bawah model frontier lainnya, sehingga orang-orang dapat terus menggunakannya secara mendalam dalam pekerjaan sehari-hari dan aplikasi inti mereka.

Harga per satu juta token

Model

Masukan

Masukan yang di-cache

Keluaran

GPT‑5.2 /
GPT‑5.2‑chat‑latest

$1,75

$0,175

$14

gpt-5.2-pro

$21

-

$168

GPT‑5.1 /
GPT‑5.1‑chat‑latest

$1,25

$0,125

$10

gpt-5-pro

$15

-

$120

Saat ini kami tidak memiliki rencana untuk menghentikan GPT‑5.1, GPT‑5, atau GPT‑4.1 di API, dan akan mengkomunikasikan rencana penghentian apa pun dengan pemberitahuan yang cukup jauh sebelumnya kepada para pengembang. Meskipun GPT‑5.2 akan berfungsi dengan baik langsung saat digunakan di Codex, kami berencana merilis versi GPT‑5.2 yang dioptimalkan untuk Codex dalam beberapa minggu mendatang.

Mitra kami

GPT‑5.2 dibangun dalam kolaborasi dengan mitra jangka panjang kami, NVIDIA dan Microsoft. Pusat data Azure dan GPU NVIDIA, termasuk H100, H200, dan GB200-NVL72, menjadi dasar infrastruktur pelatihan skala besar OpenAI, yang mendorong peningkatan signifikan dalam kecerdasan model. Bersama-sama, kolaborasi ini memungkinkan kami meningkatkan kapasitas komputasi dengan percaya diri dan membawa model-model baru ke pasar lebih cepat.

Lampiran

Tolok ukur yang detail

Di bawah ini, kami melaporkan skor tolok ukur yang komprehensif untuk GPT‑5.2 Thinking, disertai dengan subset untuk GPT‑5.2 Pro.

Profesional
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Pengodean
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktualitas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Konteks panjang
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vision
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Penggunaan alat
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademik
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Penalaran abstrak
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Model dijalankan dengan upaya penalaran maksimum yang tersedia di API kami (xhigh untuk GPT‑5.2 Thinking & Pro, dan tinggi untuk GPT‑5.1 Thinking), kecuali untuk evaluasi profesional, di mana GPT‑5.2 Thinking dijalankan dengan upaya penalaran yang berat, tingkat maksimum yang tersedia di ChatGPT Pro. Tolok ukur dilakukan dalam lingkungan riset, yang mungkin memberikan output yang sedikit berbeda dari ChatGPT produksi dalam beberapa kasus.

* Untuk SWE-Lancer, kami menghilangkan 40/237 masalah yang tidak dapat dijalankan pada infrastruktur kami.

Penulis

OpenAI