Langsung ke konten utama
OpenAI

20 Februari 2026

RisetKesimpulan

Kiriman First Proof Kami

Kami membagikan upaya pembuktian kami untuk First Proof, sebuah tantangan matematika yang menguji apakah AI dapat menghasilkan bukti yang dapat diverifikasi pada soal khusus bidang tertentu.

Memuat…

Kami menjalankan model internal pada semua 10 soal First Proof(terbuka di jendela baru), sebuah tantangan matematika tingkat penelitian yang dirancang untuk menguji apakah sistem AI dapat menghasilkan upaya pembuktian yang benar dan dapat diperiksa. Tidak seperti matematika jawaban singkat atau gaya kompetisi, berbagai soal ini memerlukan penyusunan argumen menyeluruh dalam domain khusus, dan kebenarannya sulit ditetapkan tanpa tinjauan ahli. Para penulis soal First Proof adalah pakar terkemuka di bidangnya masing-masing, dan setidaknya beberapa soal tersebut telah terbuka selama bertahun-tahun sebelum para penulis menemukan solusinya. Sebuah departemen akademik yang memiliki tumpang tindih yang signifikan dengan bidang-bidang subjek tersebut mungkin dapat menyelesaikan banyak soal dalam satu minggu.

Kami membagikan(terbuka di jendela baru) upaya pembuktian kami pada hari Sabtu, 14 Februari 2026 pukul 00.00 AM PT. Berdasarkan masukan dari para ahli, kami percaya setidaknya lima upaya pembuktian model (soal 4, 5, 6, 9, dan 10) memiliki peluang besar untuk benar, dan beberapa lainnya masih dalam peninjauan. Awalnya kami percaya bahwa upaya kami untuk soal 2 kemungkinan besar sudah benar. Berdasarkan komentar resmi First Proof dan analisis lebih lanjut dari komunitas, kami sekarang percaya bahwa itu salah. Kami berterima kasih atas keterlibatan ini dan menantikan tinjauan yang berkelanjutan. Seluruh set upaya pembuktian kami dapat ditemukan di sini(terbuka di jendela baru). Preprint ini mencakup semua sepuluh upaya pembuktian, ditambah lampiran baru yang berisi pola prompt dan contoh yang bertujuan untuk mensimulasikan interaksi manual kami dengan model selama proses tersebut.

Kami meyakini bahwa riset perintis terdepan yang benar-benar baru merupakan cara paling penting untuk mengevaluasi kemampuan model AI generasi berikutnya. Tolok ukur memang bermanfaat, tetapi sering kali tidak menangkap bagian tersulit dari riset: mempertahankan rangkaian penalaran yang panjang, memilih abstraksi yang tepat, menangani ambiguitas dalam perumusan soal, serta menghasilkan argumen yang mampu lolos dari penelaahan para pakar. Tantangan terdepan seperti First Proof membantu kami menguji ketahanan kemampuan tersebut dalam situasi di mana kebenaran tidak mudah diverifikasi dan pola kegagalannya memberikan insight penting.

Saat ini kami sedang melatih model baru dengan fokus utama pada peningkatan tingkat ketelitian dalam proses berpikirnya, dengan tujuan agar model mampu berpikir secara berkelanjutan selama berjam-jam dan tetap sangat yakin terhadap kesimpulannya. Ketika soal First Proof dirilis, tampaknya menjadi ajang pengujian yang ideal, sehingga saya mencobanya pada akhir pekan. Sudah dapat menyelesaikan dua dari soal tersebut (#9 dan #10). Seiring pelatihannya, model ini menjadi semakin mampu, dan pada akhirnya–menurut perkiraan kami–memecahkan setidaknya tiga masalah lagi. Kami merasa sangat puas saat berhasil menuntaskan nomor #6 dan, dua hari kemudian, nomor #4, mengingat keduanya berasal dari disiplin yang dikenal oleh banyak anggota tim kami. Sungguh luar biasa melihat sebuah model menjadi semakin cerdas secara nyata dari hari ke hari.”

– James R. Lee (Peneliti OpenAI, Riset Penalaran)

Kami menjalankan model dengan pengawasan manusia yang terbatas. Saat memberikan prompt pada berbagai versi model selama pelatihan, kami terkadang menyarankan strategi pengulangan yang tampak berhasil dalam upaya sebelumnya. Pada beberapa percobaan, kami meminta model untuk memperluas atau memperjelas bagian-bagian dari pembuktian setelah menerima masukan dari para ahli, agar alur penalarannya lebih mudah diverifikasi. Kami juga memfasilitasi pertukaran bolak-balik antara model ini dan ChatGPT untuk keperluan verifikasi, pemformatan, dan gaya penulisan. Untuk beberapa soal, kami menampilkan hasil terbaik dari beberapa percobaan yang dipilih berdasarkan penilaian manusia. Ini merupakan sprint yang berlangsung cepat, dan proses kami belum serapi yang diharapkan dalam evaluasi yang dikendalikan dengan baik. Kami menantikan diskusi dengan penyelenggara First Proof untuk menyusun eksperimen dan kerangka evaluasi yang lebih ketat pada iterasi berikutnya.

Karya ini dibangun berdasarkan hasil sebelumnya dari model penalaran terdepan dalam bidang matematika dan sains. Pada Juli 2025, kami mencapai kinerja setara medali emas(terbuka di jendela baru) di Olimpiade Matematika Internasional dengan model penalaran serbaguna (35/42 poin). Pada November 2025, kami membagikan “Eksperimen awal dalam mempercepat ilmu pengetahuan dengan GPT‑5”, serangkaian studi kasus di mana GPT‑5 membantu para peneliti mencapai kemajuan konkret di bidang matematika, fisika, biologi, dan bidang lainnya, serta keterbatasan yang kami amati. Dan yang paling baru, kami melaporkan sebuah kolaborasi fisika di mana GPT‑5.2 mengusulkan ekspresi kandidat untuk rumus amplitudo gluon yang kemudian dibuktikan secara formal oleh model internal dan diverifikasi oleh para penulis.

Kami menantikan keterlibatan yang lebih mendalam dengan komunitas dalam mengevaluasi penalaran setingkat riset, termasuk masukan dari para pakar atas berbagai percobaan ini, dan kami antusias menghadirkan kemampuan baru tersebut pada model publik di masa depan.

Penulis

OpenAI