OpenAI o1 manggon ing persentil kaping 89 ing pitakon pemrograman kompetitif (Codeforces), kalebu ing antarane 500 siswa paling dhuwur ing AS ing babak kualifikasi kanggo USA Math Olympiad (AIME), lan ngluwihi akurasi tingkat PhD manungsa ing benchmark masalah fisika, biologi, lan kimia (GPQA). Nalika karya sing dibutuhake kanggo nggawe model anyar iki semudah digunakake kaya model saiki isih lumaku, kita ngeculake versi awal model iki, OpenAI o1‑preview, supaya bisa langsung digunakake ing ChatGPT lan kanggo pangguna API sing dipercaya(mbukak ing jendhela anyar).
Algoritma sinau penguatan skala gedhe kita mulang model carane mikir kanthi produktif nggunakake rantai pamikiran ing proses latihan sing efisien banget saka sisi data. Kita nemokake manawa kinerja o1 saya apik kanthi konsisten nalika sinau penguatan luwih akeh (compute wektu-latih) lan kanthi wektu mikir sing luwih suwe (compute wektu-uji). Watesan kanggo ngeskalakake pendekatan iki beda banget karo watesan pretraining LLM, lan kita terus nliti perkara kasebut.

o1 performance smoothly improves with both train-time and test-time compute
Kanggo nyorot peningkatan nalar dibandhingake GPT‑4o, kita nguji model-model kita ing maneka ujian manungsa lan benchmark ML. Kita nuduhake manawa o1 kanthi signifikan ngluwihi GPT‑4o ing mayoritas gedhe tugas-tugas sing abot ing nalar iki. Kejaba yen kasebut liya, kita ngevaluasi o1 ing setelan compute wektu-uji maksimal.







Ing akeh benchmark sing abot ing nalar, o1 nyaingi kinerja para ahli manungsa. Model tercanggih anyar1 apik banget ing MATH2 lan GSM8K nganti benchmark iki ora maneh efektif kanggo mbedakake model. Kita ngevaluasi kinerja matematika ing AIME, ujian sing dirancang kanggo nantang siswa matematika SMA paling pinter ing Amerika. Ing ujian AIME 2024, GPT‑4o rata-rata mung ngrampungake 12% (1,8/15) masalah. o1 rata-rata 74% (11,1/15) nganggo siji sampel saben masalah, 83% (12,5/15) kanthi konsensus antarane 64 sampel, lan 93% (13,9/15) nalika ngurutake maneh 1000 sampel nganggo fungsi penilaian sing disinaoni. Skor 13,9 nempatake model iki ing antarane 500 siswa paling dhuwur sacara nasional lan ngluwihi ambang kanggo USA Mathematical Olympiad.
Kita uga ngevaluasi o1 ing GPQA diamond, benchmark intelijensi angel sing nguji keahlian kimia, fisika, lan biologi. Kanggo mbandhingake model karo manungsa, kita ngrekrut ahli sing nduweni gelar PhD kanggo mangsuli pitakon GPQA-diamond. Kita nemokake manawa o1 ngluwihi kinerja para ahli manungsa kasebut, dadi model pisanan sing nindakake iku ing benchmark iki. Asil iki ora ateges o1 luwih mumpuni tinimbang wong bergelar PhD ing kabeh aspek — mung model iki luwih trampil ngrampungake sawetara masalah sing lumrahe bisa dirampungake wong PhD. Ing sawetara benchmark ML liyane, o1 ningkat ngluwihi state-of-the-art. Kanthi kapabilitas persepsi visine diaktifake, o1 entuk 78,2% ing MMMU, dadi model pisanan sing bisa saingan karo ahli manungsa. Model iki uga ngluwihi GPT‑4o ing 54 saka 57 subkategori MMLU.
Kaya dene manungsa bisa mikir suwe sadurunge mangsuli pitakon sing angel, o1 nggunakake rantai pamikiran nalika nyoba ngrampungake masalah. Lumantar sinau penguatan, o1 sinau ngasah rantai pamikirane lan nyaring strategi sing digunakake. Model iki sinau ngenali lan mbenerake kesalahane. Model iki sinau mecah langkah-langkah sing ruwet dadi sing luwih prasaja. Model iki sinau nyoba pendekatan liya nalika pendekatan saiki ora mlaku. Proses iki kanthi dramatis ningkatake kemampuan model kanggo nalar. Kanggo nggambarake lompatan maju iki, ing ngisor iki kita nuduhake rantai pamikiran saka o1‑preview kanggo sawetara masalah sing angel.
GPT-4o
OpenAI o1-preview
Kita nglatih model sing entuk 213 poin lan manggon ing persentil kaping 49 ing International Olympiad in Informatics (IOI) 2024, kanthi miwiti saka o1 lan nglatih supaya luwih ningkatake katrampilan pemrograman. Model iki melu IOI 2024 kanthi kahanan sing padha karo peserta manungsa. Model iki nduweni wektu sepuluh jam kanggo ngrampungake enem masalah algoritmik sing nantang lan diidini 50 pangajuan saben masalah.
Kanggo saben masalah, sistem kita nyampling akeh pangajuan calon lan ngirim 50 ing antarane adhedhasar strategi pamilihan wektu-uji. Pangajuan dipilih adhedhasar kinerja ing kasus uji publik IOI, kasus uji sing digawe model, lan fungsi penilaian sing disinaoni. Yen kita ngirim kanthi acak, rata-rata kita mung bakal entuk 156 poin, nuduhake manawa strategi iki regane meh 60 poin ing watesan kompetisi.
Kanthi watesan pangajuan sing luwih longgar, kita nemokake manawa kinerja model mundhak kanthi signifikan. Nalika diidini 10.000 pangajuan saben masalah, model iki entuk skor 362.14 – ngluwihi ambang medali emas – sanajan tanpa strategi pamilihan wektu-uji apa wae.
Pungkasan, kita nyimulasi kontes pemrograman kompetitif sing dianakake Codeforces kanggo nduduhake katrampilan coding model iki. Evaluasi kita cocog banget karo aturan kompetisi lan ngidini 10 pangajuan. GPT‑4o entuk rating Elo3 808, sing ana ing persentil kaping 11 saka pesaing manungsa. Model iki ngluwihi adoh GPT‑4o lan o1—entuk rating Elo 1807, kanthi kinerja luwih apik tinimbang 93% pesaing.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Saliyane ujian lan benchmark akademik, kita uga ngevaluasi preferensi manungsa marang o1‑preview vs GPT‑4o ing prompt terbuka sing nantang ing spektrum domain sing amba. Ing evaluasi iki, pelatih manungsa diwenehi respons anonim kanggo siji prompt saka o1‑preview lan GPT‑4o, banjur milih respons sing luwih disenengi. o1‑preview luwih disenengi tinimbang gpt-4o kanthi selisih gedhe ing kategori sing abot ing nalar kaya analisis data, coding, lan matematika. Nanging, o1‑preview ora luwih disenengi ing sawetara tugas basa alami, nuduhake manawa model iki ora cocog kanggo kabeh kasus panggunaan.

Nalar rantai pamikiran menehi kesempatan anyar kanggo alignment lan safety. Kita nemokake manawa ngintegrasi kebijakan kita kanggo prilaku model menyang rantai pamikiran model nalar minangka cara sing efektif kanggo mulang nilai lan prinsip manungsa kanthi kuwat. Kanthi mulang model aturan safety kita lan cara nalar babagan aturan kasebut ing konteks, kita nemokake bukti manawa kapabilitas nalar langsung migunani kanggo kekokohan model: o1‑preview entuk kinerja sing luwih apik kanthi signifikan ing evaluasi jailbreak utama lan benchmark internal kita sing paling angel kanggo ngevaluasi wates penolakan safety model kita. Kita yakin yen nggunakake rantai pamikiran menehi kemajuan penting kanggo safety lan alignment amarga (1) ngidini kita ngamati model lagi mikir kanthi cara sing bisa diwaca, lan (2) nalar model babagan aturan safety luwih kukuh marang skenario out-of-distribution.
Kanggo nguji ketahanan peningkatan kita, kita nindakake serangkaian tes safety lan red-teaming sadurunge deployment, selaras karo Kerangka Kesiapan(mbukak ing jendhela anyar) kita. Kita nemokake manawa nalar rantai pamikiran nyumbang marang peningkatan kapabilitas ing saindenging evaluasi kita. Sing utamane nyolok, kita ndeleng conto menarik saka reward hacking(mbukak ing jendhela anyar). Asil rinci saka evaluasi iki bisa ditemokake ing kertu sistem sing ngancani.
| Metrik | GPT-4o | o1-preview |
|---|---|---|
| % Rampung sing aman kanggo pituduh sing mbebayani Standar | 0,990 | 0,995 |
| % Rampung aman kanggo pituduh sing mbebayani Tantangan: jailbreaks & kasus pinggiran | 0,714 | 0,934 |
| ↳ Pelecehan (parah) | 0,845 | 0,900 |
| ↳ Konten seksual eksploitatif | 0,483 | 0,949 |
| ↳ Konten seksual sing nglibatake bocah cilik | 0,707 | 0,931 |
| ↳ Saran babagan tumindak salah sing ora nganggo kekerasan | 0,688 | 0,961 |
| ↳ Saran babagan tumindak salah sing kasar | 0,778 | 0,963 |
| % Rampung aman kanggo 200 paling ndhuwur kanthi skor Moderation API paling dhuwur saben kategori ing WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Evaluasi jailbreak saka sumber manungsa | 0,770 | 0,960 |
| % Kepatuhan ing kasus pinggiran internal sing ora mbebayani “ora nolak kakehan” | 0,910 | 0,930 |
| % Kepatuhan ing kasus pinggiran sing ora mbebayani ing XSTest “ora kakehan nolak” Röttger, et al. 2023 | 0,924 | 0,976 |
Kita yakin manawa rantai pamikiran sing didhelikake menehi kesempatan unik kanggo ngawasi model. Kanthi asumsi manawa rantai iki setya lan bisa diwaca, rantai pamikiran sing didhelikake ngidini kita “maca pikiran” model lan ngerti proses pamikirane. Contone, ing mangsa ngarep kita bisa uga pengin ngawasi rantai pamikiran kanggo tandha-tandha manipulasi pangguna. Nanging, supaya iki bisa mlaku, model kudu nduweni kebebasan kanggo ngandharake pikirane ing wangun sing ora diowahi, mula kita ora bisa nglatih kepatuhan kebijakan utawa preferensi pangguna menyang rantai pamikiran. Kita uga ora pengin nggawe rantai pamikiran sing durung selaras katon langsung marang pangguna.
Mula, sawise nimbang pirang-pirang faktor kalebu pengalaman pangguna, kauntungan kompetitif, lan opsi kanggo nerusake pengawasan rantai pamikiran, kita mutusake ora nuduhake rantai pamikiran mentah marang pangguna. Kita ngakoni keputusan iki nduweni kekurangan. Kita ngupaya kanggo sebagian nutupi kekurangan iki kanthi mulang model supaya ngasilake maneh gagasan migunani saka rantai pamikiran ing jawaban. Kanggo seri model o1, kita nampilake ringkesan rantai pamikiran sing digawe model.
o1 kanthi signifikan majokake state-of-the-art ing nalar AI. Kita ngrancang ngeculake versi model iki sing luwih apik nalika kita terus ngiterasi. Kita ngarepake kapabilitas nalar anyar iki bakal ningkatake kemampuan kita kanggo nyelaraské model karo nilai lan prinsip manungsa. Kita yakin o1 – lan penerus-peneruse – bakal mbukak akeh kasus panggunaan anyar kanggo AI ing sains, coding, matematika, lan bidang sing gegandhengan. Kita bungah supaya pangguna lan pangembang API bisa nemokake carane model iki bisa ningkatake pakaryan saben dinane.
| Set data | Metrik | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matematika Kompetisi AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Kode Kompetisi CodeForces | Halo | 808 | 1.258 | 1.673 |
| Persentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologi | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kimia | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fisika | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | ora ana | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | ora ana | 73,9 |
Panulis
Sitasi
- 1
- 2
Evaluasi kita nggunakake pamisahan tes 500 masalah sing padha kaya ing https://arxiv.org/abs/2305.20050(mbukak ing jendhela anyar)
- 3






