Belajar untuk menalar dengan LLM
Kami memperkenalkan OpenAI o1, model bahasa besar baru yang dilatih dengan pembelajaran penguatan untuk melakukan penalaran rumit. o1 berpikir sebelum menjawab—model ini dapat menghasilkan rantai pemikiran internal yang panjang sebelum menanggapi pengguna.
OpenAI o1 menempati peringkat ke-89 dalam persentil pada soal-soal pemrograman kompetitif (Codeforces), termasuk di antara 500 siswa terbaik di AS dalam kualifikasi Olimpiade Matematika AS (AIME), dan melampaui akurasi setingkat PhD manusia pada tolok ukur masalah fisika, biologi, dan kimia (GPQA). Meskipun upaya untuk membuat model baru ini sesederhana seperti model-model saat ini masih terus berlanjut, kami merilis versi awal model ini, OpenAI o1‑preview, agar dapat segera digunakan di ChatGPT dan oleh pengguna API tepercaya(terbuka di jendela baru).
Algoritma pembelajaran penguatan berskala besar kami mengajarkan model untuk berpikir secara produktif menggunakan rantai pemikirannya dalam proses pelatihan yang sangat efisien dalam penggunaan data. Kami telah menemukan bahwa kinerja o1 secara konsisten meningkat dengan lebih banyak pembelajaran penguatan (komputasi waktu pelatihan) dan dengan lebih banyak waktu yang digunakan untuk berpikir (komputasi waktu tes). Kendala untuk meningkatkan skala pendekatan ini berbeda secara substansial dari prapelatihan LLM, dan kami terus menyelidikinya.

Kinerja o1 meningkat secara lancar dengan komputasi waktu pelatihan dan waktu tes
Untuk menyoroti peningkatan penalaran atas GPT‑4o, kami menguji model kami pada rangkaian ujian manusia dan tolok ukur ML yang beragam. Kami menunjukkan bahwa o1 secara signifikan mengungguli GPT‑4o pada sebagian besar tugas yang membutuhkan penalaran berat ini. Kecuali jika dinyatakan lain, kami mengevaluasi o1 pada pengaturan komputasi waktu tes maksimal.







Dalam banyak tolok ukur yang membutuhkan penalaran berat, o1 menyaingi kinerja pakar manusia. Model terdepan dan terkini1 bekerja sangat baik pada MATH2 dan GSM8K sehingga tolok ukur tersebut tidak lagi berlaku dalam membedakan model. Kami mengevaluasi kinerja matematika pada AIME, ujian yang dirancang untuk menantang siswa matematika sekolah menengah atas paling cerdas di Amerika. Pada ujian AIME 2024, GPT‑4o hanya menyelesaikan rata-rata 12% (1,8/15) soal. o1 memperoleh rata-rata 74% (11,1/15) dengan satu contoh per soal, 83% (12,5/15) dengan konsensus di antara 64 contoh, dan 93% (13,9/15) saat melakukan pemeringkatan ulang pada 1000 contoh dengan fungsi pemberian skor yang dipelajari. Skor 13,9 menempatkannya di antara 500 siswa terbaik secara nasional dan di atas batas Olimpiade Matematika AS.
Kami juga mengevaluasi o1 pada GPQA diamond, tolok ukur kecerdasan sulit yang menguji keahlian dalam bidang kimia, fisika, dan biologi. Untuk membandingkan model dengan manusia, kami merekrut pakar bergelar PhD untuk menjawab pertanyaan GPQA-diamond. Kami menemukan bahwa o1 melampaui kinerja pakar manusia dan menjadi model pertama yang melakukannya pada tolok ukur ini. Hasil-hasil ini tidak menyiratkan bahwa o1 lebih mampu dari pakar bergelar PhD dalam segala hal — hanya saja model itu lebih mahir dalam memecahkan beberapa masalah yang diharapkan dapat dipecahkan oleh pakar bergelar PhD. Pada beberapa tolok ukur ML lainnya, o1 meningkat melampaui yang ada saat ini. Dengan kemampuan persepsi visual yang diaktifkan, o1 memperoleh skor 78,2% pada MMMU, sehingga menjadikannya model pertama yang kompetitif dengan pakar manusia. Model ini juga mengungguli GPT‑4o pada 54 dari 57 subkategori MMLU.
Serupa dengan cara manusia berpikir lama sebelum menjawab pertanyaan sulit, o1 menggunakan rantai pemikiran saat mencoba memecahkan masalah. Melalui pembelajaran penguatan, o1 belajar mengasah rantai pemikirannya dan menyempurnakan strategi yang digunakannya. Model ini belajar untuk mengenali dan memperbaiki kesalahannya. Model juga belajar untuk memperinci langkah-langkah yang rumit menjadi langkah-langkah yang lebih sederhana. Model belajar untuk mencoba pendekatan berbeda saat pendekatan yang sekarang tidak berhasil. Proses ini secara dramatis meningkatkan kemampuan model untuk bernalar. Untuk menggambarkan lompatan maju ini, kami menampilkan rantai pemikiran dari o1‑preview pada beberapa masalah sulit di bawah.
GPT-4o
OpenAI o1-preview
Kami melatih model yang memperoleh skor 213 poin dan berada di peringkat persentil ke-49 dalam Olimpiade Informatika Internasional (International Olympiad in Informatics, IOI) 2024, dengan melakukan inisialisasi dari o1 dan berlatih untuk lebih meningkatkan keahlian pemrograman. Model ini berkompetisi di IOI tahun 2024 dalam kondisi yang sama dengan kontestan manusia. Model diberi waktu sepuluh jam untuk memecahkan enam soal algoritmik menantang dan diizinkan menyerahkan 50 jawaban per soal.
Untuk masing-masing soal, sistem kami mengambil sampel banyak kandidat jawaban dan menyerahkan 50 jawaban tersebut didasarkan pada strategi pemilihan waktu tes. Jawaban dipilih didasarkan pada kinerja kasus dari tes publik IOI, kasus tes yang dihasilkan model, dan fungsi pemberian skor yang dipelajari. Seandainya kami menyerahkan secara acak, kami hanya akan memperoleh skor rata-rata 156 poin, yang menunjukkan bahwa strategi ini bernilai hampir 60 poin di bawah batasan kompetisi.
Dengan batasan jawaban yang longgar, kami menemukan bahwa kinerja model meningkat secara signifikan. Saat diizinkan 10.000 jawaban per soal, model memperoleh skor 362,14 – di atas ambang batas medali emas – bahkan tanpa strategi pemilihan waktu tes.
Terakhir, kami melakukan simulasi kontes pemrograman kompetitif yang diselenggarakan oleh Codeforces untuk menunjukkan keahlian koding model ini. Evaluasi kami sangat sesuai dengan aturan kompetisi dan mengizinkan 10 jawaban. GPT‑4o mencapai peringkat Elo3 sebesar 808, yang berada di persentil ke-11 dari pesaing manusia. Model ini jauh melampaui GPT‑4o dan o1—mendapat peringkat Elo sebesar 1807, berkinerja lebih baik dari 93% pesaingnya.

Fine-tuning lebih lanjut pada kompetisi pemrograman meningkatkan o1. Model yang ditingkatkan menduduki peringkat persentil ke-49 pada Olimpiade Internasional Informatika tahun 2024 di bawah aturan kompetisi.
Selain ujian dan tolok ukur akademis, kami juga mengevaluasi preferensi manusia terhadap o1‑preview versus GPT‑4o pada prompt terbuka yang menantang dalam spektrum domain yang luas. Dalam evaluasi ini, pelatih manusia diperlihatkan respons anonim terhadap prompt dari o1‑preview dan GPT‑4o, dan memilih respons yang mereka sukai. o1‑preview lebih disukai daripada gpt-4o dengan margin yang besar dalam kategori yang banyak menggunakan penalaran seperti analisis data, koding, dan matematika. Namun, o1‑preview tidak disukai pada beberapa tugas bahasa alami, sehingga menunjukkan bahwa itu tidak cocok untuk semua contoh penggunaan.

Penalaran rantai pemikiran memberi peluang baru untuk penyelarasan dan keamanan. Kami menemukan bahwa mengintegrasikan kebijakan kami untuk perilaku model ke rantai pemikiran model penalaran adalah cara yang efektif untuk mengajarkan nilai dan prinsip kemanusiaan secara kuat. Dengan mengajarkan model tentang aturan keselamatan kami dan cara menalar aturan tersebut dalam konteks, kami menemukan bukti akan kemampuan penalaran yang secara langsung menguntungkan ketangguhan model: o1‑preview mencapai peningkatan kinerja secara substansial pada evaluasi jailbreak utama dan tolok ukur internal terberat kami dalam mengevaluasi batasan penolakan keselamatan model kami. Kami percaya bahwa penggunaan rantai pemikiran menawarkan kemajuan signifikan untuk keselamatan dan penyelarasan karena (1) hal ini memungkinkan kita untuk mengamati pemikiran model dengan cara yang dapat dibaca, dan (2) penalaran model tentang aturan keselamatan lebih kuat terhadap skenario di luar distribusi.
Untuk menguji ketahanan terhadap perbaikan kami, kami melakukan serangkaian uji keselamatan dan red teaming sebelum penerapan, sesuai dengan Kerangka Kerja Kesiapan(terbuka di jendela baru) kami. Kami menemukan bahwa rantai pemikiran penalaran memberikan kontribusi terhadap peningkatan kemampuan di seluruh evaluasi kami. Hal yang perlu diperhatikan secara khusus, kami mengamati contoh menarik dari peretasan fungsi imbalan(terbuka di jendela baru). Hasil terperinci dari evaluasi ini dapat ditemukan pada Kartu Sistem terlampir.
| Metrik | GPT-4o | o1-preview |
|---|---|---|
| % Penyelesaian aman pada prompt yang berbahaya Standar | 0,990 | 0,995 |
| % Penyelesaian aman pada prompt yang berbahaya Tantangan: jailbreak & kasus tepi | 0,714 | 0,934 |
| ↳ Pelecehan (berat) | 0,845 | 0,900 |
| ↳ Konten seksual eksploitatif | 0,483 | 0,949 |
| ↳ Konten seksual yang melibatkan anak-anak | 0,707 | 0,931 |
| ↳ Saran tentang perbuatan salah yang tidak disertai kekerasan | 0,688 | 0,961 |
| ↳ Saran tentang perbuatan salah yang disertai kekerasan | 0,778 | 0,963 |
| % Penyelesaian aman untuk 200 teratas dengan skor API Moderasi tertinggi per kategori di WildChat Zhao, et al. 2024 | 0,945 | 0,971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0,220 | 0,840 |
| Jailbreak yang bersumber dari manusia | 0,770 | 0,960 |
| % Kepatuhan pada kasus tepi ringan internal “not over-refusal” | 0,910 | 0,930 |
| % Kepatuhan pada kasus tepi ringan di XSTest “not over-refusal” Röttger, et al. 2023 | 0,924 | 0,976 |
Kami yakin bahwa rantai pemikiran tersembunyi menghadirkan peluang unik untuk memantau model. Dengan asumsi model bersifat setia dan dapat dibaca, rantai pemikiran tersembunyi mengizinkan kita untuk "membaca pikiran" model dan memahami proses pemikirannya. Misalnya, di masa mendatang, kita mungkin ingin memantau rantai pemikiran untuk mencari tanda manipulasi terhadap pengguna. Namun demikian, agar ini berfungsi, model harus memiliki kebebasan untuk mengekspresikan pemikirannya dalam bentuk yang tidak diubah, sehingga kita tidak dapat melatih kepatuhan kebijakan atau preferensi pengguna ke rantai pemikiran. Kami juga tidak ingin membuat rantai pemikiran yang tidak selaras dapat dilihat langsung oleh pengguna.
Oleh karena itu, setelah mempertimbangkan berbagai faktor termasuk pengalaman pengguna, keunggulan kompetitif, dan opsi untuk melakukan pemantauan rangkaian pemikiran, kami telah memutuskan tidak menunjukkan rangkaian pemikiran mentah kepada pengguna. Kami mengakui keputusan ini memiliki kerugian. Kami berusaha mengatasinya sebagian dengan mengajarkan model untuk memperbanyak ide berguna dari rantai pemikiran dalam jawaban. Untuk seri model o1, kami menampilkan ringkasan rantai pemikiran yang dihasilkan model.
o1 secara signifikan meningkatkan standar terkini dalam bidang penalaran AI. Kami berencana untuk meluncurkan versi yang lebih baik dari model ini seiring berlanjutnya iterasi. Kami berharap kemampuan penalaran baru ini akan meningkatkan kemampuan kami untuk menyelaraskan model dengan nilai dan prinsip kemanusiaan. Kami yakin o1 – dan penerusnya – akan membuka banyak contoh penggunaan baru untuk AI dalam ilmu pengetahuan, koding, matematika, dan bidang terkait. Kami gembira melihat pengguna dan pengembang API menemukan cara untuk meningkatkan pekerjaan sehari-hari mereka.
| Dataset | Metrik | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matematika Kompetisi AIME (2024) | cons@64 | 13,4 | 56,7 | 83,3 |
| pass@1 | 9,3 | 44,6 | 74,4 | |
| Kode Kompetisi CodeForces | Elo | 808 | 1.258 | 1.673 |
| Persentil | 11,0 | 62,0 | 89,0 | |
| GPQA Diamond | cons@64 | 56,1 | 78,3 | 78,0 |
| pass@1 | 50,6 | 73,3 | 77,3 | |
| Biologi | cons@64 | 63,2 | 73,7 | 68,4 |
| pass@1 | 61,6 | 65,9 | 69,2 | |
| Kimia | cons@64 | 43,0 | 60,2 | 65,6 |
| pass@1 | 40,2 | 59,9 | 64,7 | |
| Fisika | cons@64 | 68,6 | 89,5 | 94,2 |
| pass@1 | 59,5 | 89,4 | 92,8 | |
| MATH | pass@1 | 60,3 | 85,5 | 94,8 |
| MMLU | pass@1 | 88,0 | 92,3 | 90,8 |
| MMMU (val) | pass@1 | 69,1 | n/a | 78,2 |
| MathVista (testmini) | pass@1 | 63,8 | n/a | 73,9 |
Penulis
Kutipan
- 1
- 2
Evaluasi kami menggunakan 500 uji coba terpisah atas masalah yang sama dan ditemukan di https://arxiv.org/abs/2305.20050(terbuka di jendela baru)
- 3






