20 Februari 2026

Kiriman First Proof pisanan kita

Kita nuduhake upaya bukti kanggo First Proof, tantangan matematika sing nguji apa AI bisa ngasilake bukti sing bisa dipriksa kanggo masalah khusus domain.

Delengen kumpulan upaya bukti kita

Lagi dimuat…

Kita nglakokake model internal ing kabeh 10 masalah First Proof⁠(mbukak ing jendhela anyar), tantangan matematika tingkat riset sing dirancang kanggo nguji apa sistem AI bisa ngasilake upaya bukti sing bener lan bisa dipriksa. Beda karo matematika jawaban singkat utawa gaya kompetisi, masalah-masalah iki mbutuhake pambangunan argumen end-to-end ing domain khusus, lan kabenerane angel ditemtokake tanpa tinjauan ahli. Penulis masalah First Proof iku para ahli utama ing bidang masing-masing, lan paling ora ana sawetara masalah sing wis mbukak nganti pirang-pirang taun sadurunge penulise nemokake solusi. Sawijining departemen akademik sing nduweni tumpang tindih gedhe karo wilayah subjek kasebut bisa wae ngrampungake akeh masalah kasebut sajrone seminggu.

Kita nuduhake⁠(mbukak ing jendhela anyar) upaya bukti kita ing dina Setu, 14 Februari 2026 jam 12:00 AM PT. Adhedhasar umpan balik saka para ahli, kita percaya paling ora lima upaya bukti model kasebut (masalah 4, 5, 6, 9, lan 10) nduweni kemungkinan gedhe bener, lan sawetara liyane isih ditinjau. Wiwitane kita percaya upaya kanggo masalah 2 kemungkinan bener. Adhedhasar komentar resmi First Proof lan analisis komunitas luwih lanjut, saiki kita percaya iku ora bener. Kita matur nuwun kanggo keterlibatan iki lan ngarep-arep tinjauan sing terus lumaku. Kumpulan lengkap upaya bukti kita bisa ditemokake ing kene⁠(mbukak ing jendhela anyar). Preprint iki ngemot kabeh sepuluh upaya bukti, ditambah lampiran anyar kanthi pola prompt lan conto sing dimaksudake kanggo nyimulasi interaksi manual kita karo model sajrone proses kasebut.

Kita percaya riset tercanggih sing novel bisa dadi cara paling penting kanggo ngevaluasi kapabilitas model AI generasi sabanjure. Benchmark migunani, nanging bisa kélangan sawetara bagean riset sing paling angel: njaga rantai nalar sing dawa, milih abstraksi sing pas, nangani ambiguitas ing pernyataan masalah, lan ngasilake argumen sing tahan diteliti ahli. Tantangan tercanggih kaya First Proof mbantu kita nguji ketahanan kapabilitas kasebut ing setelan sing kabenerane ora sepele kanggo diverifikasi lan mode kegagalane menehi informasi.

“Saiki kita lagi nglatih model anyar sing salah siji fokus utamane yaiku nambah tingkat ketelitian ing pikirane, kanthi tujuan supaya model bisa mikir terus-terusan nganti pirang-pirang jam lan tetep yakin banget marang kesimpulane. Nalika masalah First Proof diumumake, iki katon kaya testbed sing sampurna, mula sajrone akhir minggu aku nyoba. Nalika semana wis bisa ngrampungake loro masalah (#9 lan #10). Nalika latihan terus, kapabilitase saya mundhak, lan pungkasane—miturut perkiraan kita—ngrampungake paling ora telu liyane. Kita seneng banget nalika ngrampungake #6 lan banjur, rong dina sabanjure, #4, amarga masalah-masalah kasebut teka saka bidang sing akrab kanggo akeh saka kita. Pancen luar biasa ndeleng model dadi luwih pinter kanthi nyata saka dina ke dina.”

– James R. Lee (Peneliti OpenAI, Nalar)

Kita nglakokake model kasebut kanthi pengawasan manungsa sing winates. Nalika menehi prompt marang versi model sajrone pelatihan, kadhang kita nyaranake nyoba maneh strategi sing katon njanjeni ing upaya-upaya sadurunge. Kanggo sawetara upaya, kita njaluk model ngembangake utawa njlentrehake bagean saka bukti sawise nampa umpan balik ahli, supaya nalar luwih gampang diverifikasi. Kita uga nggampangake bolak-balik antarane model iki lan ChatGPT kanggo verifikasi, format, lan gaya. Kanggo sawetara masalah, kita nampilake sing paling apik saka sawetara upaya, dipilih adhedhasar penilaian manungsa. Iki sprint sing cepet, lan proses kita durung resik kaya sing dikarepake ing evaluasi sing dikontrol kanthi bener. Kita ngarep-arep diskusi karo penyelenggara First Proof babagan eksperimen lan kerangka evaluasi sing luwih ketat kanggo iterasi sabanjure.

Karya iki mbangun saka asil sadurunge saka model nalar tercanggih ing matematika lan sains. Ing Juli 2025, kita nggayuh kinerja tingkat medali emas⁠(mbukak ing jendhela anyar) ing Olimpiade Matematika Internasional nganggo model nalar tujuan umum (35/42 poin). Ing November 2025, kita nuduhake “Eksperimen awal kanggo nyepetake sains nganggo GPT‑5”, sakumpulan studi kasus nalika GPT‑5 mbantu peneliti nggawe kemajuan nyata ing matematika, fisika, biologi, lan bidang liyane, bebarengan karo watesan sing kita amati. Lan paling anyar, kita nglaporake kolaborasi fisika nalika GPT‑5.2 ngusulake ekspresi kandidat kanggo rumus amplitudo gluon sing banjur dibuktekake sacara formal dening model internal lan diverifikasi dening para penulis.

Kita ngarep-arep keterlibatan sing luwih jero karo komunitas babagan cara ngevaluasi nalar tingkat riset, kalebu umpan balik ahli marang upaya-upaya iki, lan kita seneng bisa nyedhiyakake kapabilitas anyar iki ing model publik mbesuk.

2026

Pangarang

OpenAI

Terus maca

Deleng kabeh

Carane rong setelan ngundhakake skor tolok ukur ARC-AGI-3 nganti ping telu

Riset29 Jul 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Perusahaan29 Jul 2026

Scientific computing agentic AI card image (1x1)

Komputasi ilmiah ing jaman AI agenik

Publikasi28 Jul 2026