Nyelarasake model basa supaya ngetutake instruksi
Kita wis nglatih model basa sing luwih apik banget kanggo ngetutake niyat pangguna tinimbang GPT‑3, lan uga nggawe model kasebut luwih jujur lan kurang toksik, nggunakake teknik sing dikembangake liwat riset panyelaras kita. Model InstructGPT iki, sing dilatih kanthi manungsa ing njero puteran, saiki dipasang dadi model basa gawan ing API kita.
OpenAI API didhukung dening model basa GPT‑3 sing bisa diarahkan supaya nindakake tugas basa alami nganggo prompt teks sing direkayasa kanthi tliti. Nanging model iki uga bisa ngasilake output sing ora jujur, toksik, utawa nggambarake sentimen sing mbebayani. Iki sebagian amarga GPT‑3 dilatih kanggo prédhiksi tembung sabanjure ing dataset gedhe teks Internet, dudu kanggo nindakake tugas basa sing dikarepake pangguna kanthi aman. Kanthi tembung liya, model iki ora selaras karo panggunane.
Kanggo nggawe model kita luwih aman, luwih migunani, lan luwih selaras, kita nggunakake teknik sing wis ana sing diarani Sinau Penguatan saka Umpan Balik Manungsa (RLHF). Ing prompt sing dikirim pelanggan kita menyang API,A pelabel kita menehi demonstrasi prilaku model sing dikarepake, lan menehi peringkat sawetara output saka model kita. Banjur kita nggunakake data iki kanggo fine-tune GPT‑3.
Model InstructGPT sing diasilake luwih apik banget ngetutake instruksi tinimbang GPT‑3. Model iki uga luwih arang ngarang fakta, lan nuduhake panyusutan cilik ing generasi output toksik. Pelabel kita luwih seneng output saka model InstructGPT 1.3B kita tinimbang output saka model GPT‑3 175B, sanajan nduweni parameter luwih saka 100x luwih sithik. Ing wektu sing padha, kita nuduhake yen kita ora kudu ngorbanake kapabilitas GPT‑3, kaya diukur saka kinerja model kita ing evaluasi NLP akademik.
Model InstructGPT iki, sing wis luwih saka setaun ana ing beta ing API, saiki dadi model basa gawan sing bisa diakses ing API kita.B Kita percaya yen fine-tuning model basa kanthi manungsa ing njero puteran iku piranti sing kuat kanggo ningkatake keamanan lan keandalane, lan kita bakal terus maju ing arah iki.
Iki pisanan kaline riset panyelaras kita, sing wis kita tindakake sajrone pirang-pirang taun,1, 2, 3 ditrapake ing produk kita. Karya kita uga ana gandhengane karo riset anyar sing nindakake fine-tuning model basa supaya ngetutake instruksi nganggo dataset NLP akademik, mligi FLAN4 lan T0.5 Salah siji motivasi utama karya kita yaiku nambah migunani lan kejujuran sembari nyuda cilaka lan bias saka model basa.6, 7, 8, 9, 10 Sawetara saka riset sadurunge kita ing arah iki nemokake yen kita bisa nyuda output mbebayani kanthi fine-tuning ing dataset cilik sing dikurasi saka demonstrasi manungsa.11 Riset liyane fokus marang nyaring dataset latihan awalan,12 token kontrol khusus keamanan,13, 14 utawa ngarahake generasi model.15, 16 Kita lagi njelajah gagasan iki lan gagasan liyane ing riset panyelaras sing isih lumaku.
Kita luwih dhisik ngevaluasi sepira apik output saka InstructGPT ngetutake instruksi pangguna, kanthi njaluk pelabel mbandhingake outputé karo output saka GPT‑3. Kita nemokake yen model InstructGPT luwih disenengi kanthi signifikan kanggo prompt sing dikirim menyang model InstructGPT lan GPT‑3 ing API. Iki tetep bener nalika kita nambah prefiks menyang prompt GPT‑3 supaya mlebu menyang “mode ngetutake instruksi.”
Kanggo ngukur keamanan model kita, utamane kita nggunakake seperangkat metrik sing wis ana ing dataset sing kasedhiya kanggo umum. Dibandhingake GPT‑3, InstructGPT ngasilake kebohongan imitatif sing luwih sithik (miturut TruthfulQA17) lan luwih ora toksik (miturut RealToxicityPrompts18). Kita uga nindakake evaluasi manungsa ing distribusi prompt API kita, lan nemokake yen InstructGPT luwih arang ngarang fakta (“halusinasi”), lan ngasilake output sing luwih cocog.C
Pungkasan, kita nemokake yen output InstructGPT luwih disenengi tinimbang output saka FLAN4 lan T05 ing distribusi pelanggan kita. Iki nuduhake yen data sing digunakake kanggo nglatih FLAN lan T0, sing umume tugas NLP akademik, ora makili kanthi lengkap cara model basa sing wis dipasang digunakake ing praktik.

Kanggo nglatih model InstructGPT, teknik inti kita yaiku Sinau Penguatan saka Umpan Balik Manungsa (RLHF), sawijining metode sing kita bantu rintis ing riset panyelaras awal kita. Teknik iki nggunakake preferensi manungsa minangka sinyal ganjaran kanggo fine-tune model kita, sing penting amarga masalah keamanan lan panyelaras sing arep kita rampungake iku rumit lan subyektif, lan ora kebak katangkap dening metrik otomatis sing prasaja.
Kaping pisanan, kita nglumpukake dataset demonstrasi sing ditulis manungsa ing prompt sing dikirim menyang API kita, lan nggunakake iki kanggo nglatih baseline sinau terawasi kita. Sabanjure, kita nglumpukake dataset perbandingan sing diwenehi label manungsa antarane loro output model ing set prompt API sing luwih gedhe. Banjur kita nglatih reward model (RM) ing dataset iki kanggo prédhiksi output endi sing bakal luwih disenengi pelabel kita. Pungkasan, kita nggunakake RM iki minangka fungsi ganjaran lan fine-tune kawicaksanan GPT‑3 kita kanggo ngoptimalake ganjaran iki nganggo algoritma PPO.
Salah siji cara kanggo mikirake proses iki yaiku manawa proses iki “mbukak” kapabilitas sing sakjané wis diduweni GPT‑3, nanging angel digugah mung liwat rekayasa prompt: iki amarga prosedur latihan kita nduweni kemampuan winates kanggo mulang model kapabilitas anyar dibandhingake apa sing disinaoni sajrone latihan awalan, amarga nggunakake kurang saka 2% komputasi lan data dibandhingake latihan awalan model.
Watesan saka pendekatan iki yaiku ngenalake “pajeg panyelaras”: nyelarasake model mung ing tugas pelanggan bisa nggawe kinerjane luwih ala ing sawetara tugas NLP akademik liyane. Iki ora dikarepake amarga, yen teknik panyelaras kita nggawe model luwih ala ing tugas sing dipeduleni wong, model kasebut ora mungkin diadopsi ing praktik. Kita nemokake owah-owahan algoritmik prasaja sing nyilikake pajeg panyelaras iki: sajrone fine-tuning RL kita nyampur bagean cilik saka data asli sing digunakake kanggo nglatih GPT‑3, lan nglatih nganggo data iki kanthi maksimalisasi log likelihood normal.D Iki kira-kira njaga kinerja ing keamanan lan preferensi manungsa, nalika nyuda penurunan kinerja ing tugas akademik, lan ing sawetara kasus malah ngluwihi baseline GPT‑3.
Prosedur kita nyelarasake prilaku model kita karo preferensi para pelabel kita, sing langsung ngasilake data sing digunakake kanggo nglatih model kita, lan kita para panaliti, sing menehi pandhuan marang pelabel liwat instruksi tinulis, umpan balik langsung marang conto tartamtu, lan obrolan ora resmi. Iki uga dipengaruhi dening pelanggan kita lan preferensi sing tersirat ing kabijakan API kita. Kita milih pelabel sing tampil apik ing tes panyaringan kanggo kecakapan ngenali lan nanggapi prompt sensitif. Nanging, sumber pengaruh sing beda-beda iki marang data ora njamin yen model kita selaras karo preferensi klompok sing luwih amba.
Kita nindakake rong eksperimen kanggo nyelidiki iki. Kaping pisanan, kita ngevaluasi GPT‑3 lan InstructGPT nganggo pelabel sing dipisahE sing ora ngasilake data latihan babar pisan, lan nemokake yen pelabel iki luwih seneng output saka model InstructGPT kanthi tingkat sing meh padha karo pelabel latihan kita. Kapindho, kita nglatih reward model ing data saka subset pelabel kita, lan nemokake yen model kasebut bisa generalisasi kanthi apik kanggo prédhiksi preferensi saka subset pelabel sing beda. Iki nuduhake yen model kita ora mung overfit marang preferensi pelabel latihan kita. Nanging, isih dibutuhake luwih akeh pakaryan kanggo nyinaoni kepiye kinerja model iki marang klompok pangguna sing luwih amba, lan kepiye kinerjane ing input nalika manungsa ora setuju babagan prilaku sing dikarepake.
Sanajan wis nggawe kemajuan sing signifikan, model InstructGPT kita isih adoh saka selaras kanthi lengkap utawa aman kanthi lengkap; model iki isih ngasilake output toksik utawa bias, ngarang fakta, lan ngasilake konten seksual lan kasar tanpa prompt sing eksplisit. Nanging keamanan sistem machine learning ora mung gumantung marang prilaku model dhasaré, nanging uga marang kepiye model iki dipasang. Kanggo ndhukung keamanan API kita, kita bakal terus ninjau aplikasi potensial(mbukak ing jendhela anyar) sadurunge diluncurake, nyedhiyakake filter konten kanggo ndeteksi completion sing ora aman, lan ngawasi panyalahgunaan.
Salah siji efek samping saka nglatih model kita supaya ngetutake instruksi pangguna yaiku model bisa dadi luwih rentan disalahgunakake yen diprentah ngasilake output sing ora aman. Ngrampungake iki mbutuhake model kita nolak instruksi tartamtu; nindakake iki kanthi andal minangka masalah riset terbuka sing penting lan semangat arep kita tangani.
Luwih saka iku, ing akeh kasus nyelarasake karo rata-rata preferensi pelabel bisa uga ora dikarepake. Contone, nalika ngasilake teks sing nduweni dampak ora proporsional marang klompok minoritas, preferensi klompok kasebut kudu diwenehi bobot luwih gedhe. Saiki, InstructGPT dilatih kanggo ngetutake instruksi ing basa Inggris; mula, model iki bias marang nilai budaya wong sing nganggo basa Inggris. Kita lagi nindakake riset kanggo mangerteni bedane lan ora setujune antar preferensi pelabel supaya kita bisa ngondhisikake model kita adhedhasar nilai populasi sing luwih spesifik. Luwih umum, nyelarasake output model karo nilai manungsa tartamtu ngenalake pilihan angel sing nduweni implikasi sosial, lan pungkasane kita kudu netepake proses sing tanggung jawab lan inklusif kanggo nggawe keputusan iki.
Iki minangka aplikasi pisanan saka riset panyelaras kita kanggo produk kita. Asil kita nuduhake yen teknik-teknik iki efektif kanggo ningkatake panyelaras sistem AI tujuan umum karo niyat manungsa kanthi signifikan. Nanging, iki mung wiwitan: kita bakal terus ngembangake teknik-teknik iki kanggo ningkatake panyelaras model saiki lan model mbesuk menyang piranti basa sing aman lan migunani kanggo manungsa.
Yen sampeyan kepengin karo arah riset iki, kita lagi mbukak lowongan(mbukak ing jendhela anyar)!
Cathetan sikil
- A
Kita mung nggunakake prompt sing dikirim liwat Playground menyang versi luwih lawas saka model InstructGPT sing dirilis ing Januari 2021. Anotator manungsa kita mbusak informasi identitas pribadi saka kabeh prompt sadurunge ditambahake menyang set latihan.
- B
Model InstructGPT sing dipasang ing API iku versi sing dianyari lan dilatih nganggo data umpan balik manungsa sing padha. Model iki nggunakake cara latihan sing padha nanging rada beda, sing bakal kita jlentrehake ing publikasi sing bakal teka.
- C
Kita uga ngukur sawetara dimensi liya saka output sing bisa mbebayani ing distribusi API kita: apa output ngemot konten seksual utawa kasar, ngremehake kelas sing dilindhungi, utawa nyengkuyung panyalahgunaan. Kita nemokake yen InstructGPT ora nambah kanthi signifikan dibandhingake GPT-3 ing metrik iki; tingkat kedadeyane padha-padha endhek kanggo loro model kasebut.
- D
Kita nemokake pendekatan iki luwih efektif tinimbang mung nambah koefisien KL.
- E
Pelabel iki asalé saka Scale AI lan Upwork, padha karo pelabel latihan kita, nanging ora ngalami tes panyaringan.
Referensi
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Sinau penguatan jero saka preferensi manungsa. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Ngringkes buku kanthi rekursif nganggo umpan balik manungsa. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Model basa sing di-finetune iku pamelajar conto tanpa latihan. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Latihan multi-tugas nganggo prompt ndadekake generalisasi tugas conto tanpa latihan. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Bab Bebaya Beo Stokastik: Apa Model Basa Bisa Kegedhen?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Bab kesempatan lan risiko model pondasi. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Panyelaran Agen Basa. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Risiko etis lan sosial saka cilaka saka Model Basa. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Ngerteni Kapabilitas, Watesan, lan Dampak Sosial saka Model Basa Gedhe. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. Proses kanggo Nyesuaikake Model Basa marang Masyarakat (PALMS) nganggo Dataset sing Narget Nilai. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Ngurangi cilaka ing model basa nganggo filtrasi conditional-likelihood. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Resep keamanan kanggo chatbot domain-terbuka. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: Model basa transformer kondisional kanggo generasi sing bisa dikendhaleni. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generasi urutan kanthi pandhuan diskriminator generatif. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: Pendekatan prasaja kanggo generasi teks sing dikendhaleni. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Ngukur kepiye model niru kebohongan manungsa. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Ngevaluasi degenerasi toksik neural ing model basa. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Bias gender ing resolusi koreferensi. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: Dataset tantangan kanggo ngukur bias sosial ing model basa masked. arXiv preprint arXiv:2010.00133.
Panulis
Pangatur nuwun
Kita pengin matur nuwun marang para panulis bebarengan makalah iki: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, lan Paul Christiano, uga kabeh sing menehi umpan balik babagan makalah lan kiriman blog iki. Kita uga pengin matur nuwun marang tim Comms kanggo pandhuan lan pitulungané, kalebu Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, lan Justin Jay Wang. Pungkasan, kita pengin matur nuwun marang para pelabel kita, tanpa dheweke proyek iki ora bakal bisa.


