Langsung ke konten utama
OpenAI

Mendorong kemajuan sains dan matematika dengan GPT‑5.2

GPT‑5.2 adalah model terkuat kami saat ini untuk pekerjaan matematika dan sains.

Memuat…

Salah satu harapan kami terhadap AI yang kuat adalah bahwa AI akan mempercepat riset ilmiah demi kebaikan semua orang, membantu para peneliti mengeksplorasi lebih banyak ide, mengujinya lebih cepat, dan mengubah penemuan menjadi dampak nyata. 

Selama setahun terakhir, kami telah bekerja sama secara intens dengan para ilmuwan di bidang matematika, fisika, biologi, dan ilmu komputer untuk memahami di mana AI dapat membantu—dan di mana AI masih memiliki keterbatasan. Bulan lalu, kami mempublikasikan makalah yang menghimpun studi kasus awal di bidang matematika, fisika, biologi, ilmu komputer, astronomi, dan ilmu material di mana GPT‑5 membantu para peneliti menunjukkan bagaimana GPT‑5 telah mulai berkontribusi pada pekerjaan ilmiah yang sesungguhnya. Dengan GPT‑5.2, kami mulai melihat kemajuan tersebut menjadi lebih konsisten dan lebih andal.

Performa yang lebih kuat di mana presisi sangat penting.

GPT‑5.2 Pro dan GPT‑5.2 Thinking adalah model terkuat kami saat ini untuk pekerjaan ilmiah dan matematika.

Penalaran matematika yang kuat adalah dasar untuk keandalan dalam pekerjaan ilmiah dan teknis. Hal ini memungkinkan model untuk mengikuti logika multi-langkah, menjaga konsistensi kuantitas, dan menghindari kesalahan halus yang dapat bertambah dalam analisis nyata—dari simulasi dan statistik hingga peramalan dan pemodelan. Peningkatan pada tolok ukur seperti FrontierMath mencerminkan bukan sekadar keahlian yang sempit, tetapi penalaran umum dan abstraksi yang lebih kuat, kemampuan yang langsung diterapkan dalam alur kerja ilmiah seperti pengodean, analisis data, dan desain eksperimen.

Kemampuan ini juga sangat erat kaitannya dengan kemajuan menuju kecerdasan umum. Sistem yang dapat secara andal melakukan nalar melalui abstraksi, menjaga konsistensi di sepanjang rantai pemikiran yang panjang, dan melakukan generalisasi di berbagai domain menunjukkan sifat-sifat yang mendasar bagi AGI—bukan sekadar trik khusus tugas, tetapi kemampuan penalaran yang luas dan dapat diterapkan yang penting di bidang sains, teknik, dan pengambilan keputusan dunia nyata.

Kami percaya GPT‑5.2 Pro dan GPT‑5.2 Thinking adalah model terbaik di dunia untuk membantu dan mempercepat ilmuwan. Pada GPQA Diamond, tolok ukur tanya jawab tingkat pascasarjana yang tahan uji Google, GPT‑5.2 Pro meraih 93,2%, diikuti dengan selisih tipis oleh GPT‑5.2 Thinking pada 92,4%.

Di dalam GPQA Diamond(terbuka di jendela baru), model menjawab pertanyaan pilihan ganda tentang fisika, kimia, dan biologi. Tidak ada alat yang diaktifkan dan upaya penalaran diatur ke tingkat maksimum.

Pada FrontierMath (Tier 1–3), evaluasi matematika tingkat ahli, GPT‑5.2 Thinking menetapkan state of the art baru, menyelesaikan 40,3% dari masalah.

Di FrontierMath(terbuka di jendela baru), model memecahkan masalah matematika tingkat ahli. Sebuah alat Python telah diaktifkan dan upaya penalaran diatur ke tingkat maksimum.

Studi kasus

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(terbuka di jendela baru).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Melihat ke depan

Hasil ini menunjukkan arah yang berguna tentang bagaimana sistem AI dapat mendukung riset ilmiah, terutama di bidang yang memiliki dasar teoretis aksionomatik seperti matematika dan ilmu komputer teoretis. Dalam situasi seperti ini, model frontier dapat membantu menjelajahi bukti, menguji hipotesis, dan mengidentifikasi koneksi yang mungkin memerlukan upaya manusia yang substansial untuk ditemukan.

Pada saat yang sama, sistem-sistem ini bukanlah peneliti independen. Penilaian ahli, verifikasi, dan pemahaman domain tetap penting. Bahkan model yang sangat canggih pun bisa membuat kesalahan atau bergantung pada asumsi yang tidak dinyatakan. Namun, model tersebut juga dapat menghasilkan argumen yang terperinci dan terstruktur yang layak untuk dipelajari dan disempurnakan dengan cermat oleh manusia. Oleh karena itu, membuat kemajuan yang andal dengan AI bergantung pada alur kerja yang memastikan validasi, transparansi, dan kolaborasi tetap menjadi bagian integral.

Dilihat sebagai studi kasus, hasil ini menggambarkan pola praktik riset yang sedang berkembang. Model seperti GPT‑5.2 dapat berfungsi sebagai alat untuk mendukung penalaran matematis dan mempercepat eksplorasi tahap awal, sementara tanggung jawab atas ketepatan, interpretasi, dan konteks tetap berada pada peneliti manusia. Jika digunakan dengan hati-hati, sistem semacam itu dapat membantu merampingkan aspek signifikan dari pekerjaan teoretis tanpa menggantikan peran sentral penilaian manusia dalam penyelidikan ilmiah.