Mendorong kemajuan sains dan matematika dengan GPT‑5.2
GPT‑5.2 adalah model terkuat kami saat ini untuk pekerjaan matematika dan sains.
Salah satu harapan kami terhadap AI yang kuat adalah bahwa AI akan mempercepat riset ilmiah demi kebaikan semua orang, membantu para peneliti mengeksplorasi lebih banyak ide, mengujinya lebih cepat, dan mengubah penemuan menjadi dampak nyata.
Selama setahun terakhir, kami telah bekerja sama secara intens dengan para ilmuwan di bidang matematika, fisika, biologi, dan ilmu komputer untuk memahami di mana AI dapat membantu—dan di mana AI masih memiliki keterbatasan. Bulan lalu, kami mempublikasikan makalah yang menghimpun studi kasus awal di bidang matematika, fisika, biologi, ilmu komputer, astronomi, dan ilmu material di mana GPT‑5 membantu para peneliti menunjukkan bagaimana GPT‑5 telah mulai berkontribusi pada pekerjaan ilmiah yang sesungguhnya. Dengan GPT‑5.2, kami mulai melihat kemajuan tersebut menjadi lebih konsisten dan lebih andal.
GPT‑5.2 Pro dan GPT‑5.2 Thinking adalah model terkuat kami saat ini untuk pekerjaan ilmiah dan matematika.
Penalaran matematika yang kuat adalah dasar untuk keandalan dalam pekerjaan ilmiah dan teknis. Hal ini memungkinkan model untuk mengikuti logika multi-langkah, menjaga konsistensi kuantitas, dan menghindari kesalahan halus yang dapat bertambah dalam analisis nyata—dari simulasi dan statistik hingga peramalan dan pemodelan. Peningkatan pada tolok ukur seperti FrontierMath mencerminkan bukan sekadar keahlian yang sempit, tetapi penalaran umum dan abstraksi yang lebih kuat, kemampuan yang langsung diterapkan dalam alur kerja ilmiah seperti pengodean, analisis data, dan desain eksperimen.
Kemampuan ini juga sangat erat kaitannya dengan kemajuan menuju kecerdasan umum. Sistem yang dapat secara andal melakukan nalar melalui abstraksi, menjaga konsistensi di sepanjang rantai pemikiran yang panjang, dan melakukan generalisasi di berbagai domain menunjukkan sifat-sifat yang mendasar bagi AGI—bukan sekadar trik khusus tugas, tetapi kemampuan penalaran yang luas dan dapat diterapkan yang penting di bidang sains, teknik, dan pengambilan keputusan dunia nyata.
Kami percaya GPT‑5.2 Pro dan GPT‑5.2 Thinking adalah model terbaik di dunia untuk membantu dan mempercepat ilmuwan. Pada GPQA Diamond, tolok ukur tanya jawab tingkat pascasarjana yang tahan uji Google, GPT‑5.2 Pro meraih 93,2%, diikuti dengan selisih tipis oleh GPT‑5.2 Thinking pada 92,4%.
Di dalam GPQA Diamond(terbuka di jendela baru), model menjawab pertanyaan pilihan ganda tentang fisika, kimia, dan biologi. Tidak ada alat yang diaktifkan dan upaya penalaran diatur ke tingkat maksimum.
Pada FrontierMath (Tier 1–3), evaluasi matematika tingkat ahli, GPT‑5.2 Thinking menetapkan state of the art baru, menyelesaikan 40,3% dari masalah.
Di FrontierMath(terbuka di jendela baru), model memecahkan masalah matematika tingkat ahli. Sebuah alat Python telah diaktifkan dan upaya penalaran diatur ke tingkat maksimum.
Studi kasus
Hasil ini menunjukkan arah yang berguna tentang bagaimana sistem AI dapat mendukung riset ilmiah, terutama di bidang yang memiliki dasar teoretis aksionomatik seperti matematika dan ilmu komputer teoretis. Dalam situasi seperti ini, model frontier dapat membantu menjelajahi bukti, menguji hipotesis, dan mengidentifikasi koneksi yang mungkin memerlukan upaya manusia yang substansial untuk ditemukan.
Pada saat yang sama, sistem-sistem ini bukanlah peneliti independen. Penilaian ahli, verifikasi, dan pemahaman domain tetap penting. Bahkan model yang sangat canggih pun bisa membuat kesalahan atau bergantung pada asumsi yang tidak dinyatakan. Namun, model tersebut juga dapat menghasilkan argumen yang terperinci dan terstruktur yang layak untuk dipelajari dan disempurnakan dengan cermat oleh manusia. Oleh karena itu, membuat kemajuan yang andal dengan AI bergantung pada alur kerja yang memastikan validasi, transparansi, dan kolaborasi tetap menjadi bagian integral.
Dilihat sebagai studi kasus, hasil ini menggambarkan pola praktik riset yang sedang berkembang. Model seperti GPT‑5.2 dapat berfungsi sebagai alat untuk mendukung penalaran matematis dan mempercepat eksplorasi tahap awal, sementara tanggung jawab atas ketepatan, interpretasi, dan konteks tetap berada pada peneliti manusia. Jika digunakan dengan hati-hati, sistem semacam itu dapat membantu merampingkan aspek signifikan dari pekerjaan teoretis tanpa menggantikan peran sentral penilaian manusia dalam penyelidikan ilmiah.


