透過採用經由對齊研究開發所得的技術,我們訓練出的語言模型在遵循用戶意圖方面遠勝於 GPT‑3,同時亦更加真實,而且較少產生有害的內容。這些由真人參與訓練過程的 InstructGPT 模型,現已作為預設語言模型部署至我們的 API 上。
OpenAI API 由 GPT‑3 語言模型驅動,可透過使用精心設計的文字提示,引導其執行自然語言任務。但是,這些模型亦有可能產生不真實、有害或反映負面情緒的輸出內容。原因之一,在於 GPT‑3 獲訓練為採用大量互聯網文本資料集來預測下一個詞語,而不是安全地執行用戶想要的語言任務。換句話說,這些模型與用戶的意向並未對齊。
為了使模型更安全、更有幫助,而且更能對齊,我們採用了一項現有技術,稱為人類反饋強化學習 (RLHF)。因應客戶提交至 API 的提示,A標註員會示範所需的模型行為,並對模型產生的多個輸出內容進行排序。然後,我們使用這些資料來微調 GPT‑3。
由此產生的 InstructGPT 模型,在遵循指示方面比 GPT‑3 優秀得多。這類模型也較少編造事實,而且產生有害內容的比例略有下降。即使 1.3B InstructGPT 的參數量比 175B GPT‑3 模型少了超過 100 倍,標註員依然較喜歡前者輸出的內容。同時,我們亦展示了在不犧牲 GPT‑3 能力的情況下,模型在學術自然語言處理評估中的表現依然優異。
這些 InstructGPT 模型的測試版已在 API 運用超過一年,現已成為 API 上預設的語言模型。B我們相信,讓人類參與訓練過程以微調語言模型,是一種可提升安全性與可靠度的有效手法,我們將持續朝這個方向努力。
這是我們數年來,一直追求的對齊研究1、2及3首次應用於我們的產品。我們的工作也與近期使用學術自然語言處理資料集微調語言模型,以遵循指示的研究有關,尤其是 FLAN4 和 T05。我們工作的主要動機是提高實用度與真實度,同時減輕語言模型的危害與偏見。6、7、8、9及10我們以往對此範疇的一些研究發現,透過在經過策劃的小型人類示範資料集上進行微調,可以減少有害的輸出內容。11其他研究則專注於過濾事前訓練資料集、12安全性專用的控制標記、13及14或引導模型產生內容。15及16我們現時正持續進行對齊研究,探索這些概念及其他可能性。
我們首先評估 InstructGPT 的輸出內容遵循用戶指示的程度,方法是讓標註者比較其輸出結果與 GPT‑3 的輸出結果。我們發現,在 API 上提交給 InstructGPT 與 GPT‑3 模型的提示中,InstructGPT 模型明顯較受歡迎。即使我們在 GPT‑3 提示前加上前綴,使其進入「遵循指示模式」,情況也是一樣。

為訓練 InstructGPT 模型,我們採用人類反饋強化學習 (RLHF)為核心技術,這是一種我們在早期對齊研究中率先開發的方法。這項技術使用人類偏好作為獎勵訊號來微調模型,這樣做之所以重要,是由於我們試圖解決的安全性與對齊性問題複雜而且主觀,單靠簡單的自動指標並不足以涵蓋。
我們首先收集一組由人類撰寫的示範資料集,這些示範乃基於提交給我們 API 的提示所寫,然後再使用這些資料來訓練監督式學習基準。接著,我們從一組規模更大的 API 提示中,收集出以人手標註兩個模型輸出結果的比較資料集。然後,我們根據此資料集訓練獎勵模型 (RM),以預測標註者會偏好哪個輸出結果。最後,我們使用此 RM 作為獎勵函數,並運用 PPO 演算法微調 GPT‑3 策略,使獎勵擴至最大。
這種方式可以理解為「解鎖」了 GPT‑3 已有的能力,而這些能力單憑提示工程難以取用。這是由於和事前訓練期間所學到的內容相比,我們的訓練程序在教導模型新能力方面的能力有限,因為當中使用的運算和資料量不到模型事前訓練的 2%。
這種方法的限制之一,在於會產生「對齊化附帶成本」(alignment tax),也就是說,假如只根據客戶任務對齊模型,可能會使模型在某些其他學術自然語言處理任務上的表現變差。這個情況並不理想,因為倘若對齊技術使模型在用戶關心的任務上表現變差,那麼在實際應用中,獲採用的可能性就會降低。我們發現,只需對演算法作出簡單變更,便可以將這種對齊化附帶成本降至最低:在強化學習微調階段,我們加入一小部分用來訓練 GPT‑3 的原始資料,並運用正常的對數似然最大化 (log likelihood maximization) 來訓練這部分資料。D 此方法能夠大致保持安全性與人類偏好方面的表現,同時減少處理學術任務時表現不佳的情況,而在幾個案例中甚至超越了 GPT‑3 的基準。
我們的程序使模型行為與標註員和研究員的偏好對齊,前者直接製作出用於訓練模型的資料,而後者則透過書面指示、對特定範例直接提供反饋以及非正式對話,為標註員提供指導。除此之外,這個流程亦受客戶偏好以及我們 API 政策中隱含的偏好所影響。我們選擇了在辨識和回應敏感提示的篩選測驗中,表現良好的標註員。然而,這些對資料產生影響的不同來源,並不能保證我們的模型與任何更廣泛群體的偏好對齊。
我們進行了兩項實驗來調查此情況。首先,我們採用未有參與任何訓練資料標註的保留標註者E來評估 GPT‑3 與 InstructGPT,結果發現,這些標註者對 InstructGPT 模型的輸出內容偏好率,與我們的訓練標註者大致相同。其次,我們根據部分標註員的資料訓練獎勵模型,並發現此類模型能有效擅推展並預測另一組標註員的偏好。由此可見,我們的模型並無過度適應訓練標註員的偏好。然而,目前仍需進一步研究這些模型在更廣泛用戶群體中的表現,以及當人類對所需行為存在分歧時的表現。
儘管取得了重大進展,我們的 InstructGPT 模型遠未完全達到徹底與用戶意圖對齊或完全安全。該模型仍然會產生有害或有偏見的輸出內容,捏造事實,並在沒有明確提示的情況下,產生色情和暴力內容。但機器學習系統的安全性並非只取決於底層模型的行為,亦會取決於這些模型的部署方式。為保障 API 的安全性,我們將在推出潛在應用方式前持續審視情況(在新視窗中開啟),提供內容篩選功能,以檢測不安全的輸出結果,並監察濫用情況。
訓練模型以遵循用戶指示時產生了一個副作用;這些模型可能會因為獲指示產生不安全的輸出內容而更易遭到濫用。要解決這個問題,就必須讓模型拒絕執行某些指示,而要穩定地達成這一點,則是個重要而且尚待解決的研究問題;我們期望能早日克服這個挑戰。
除此之外,在很多情況下,與標註者的平均偏好對齊未必是理想做法。例如,當產生的文字對少數族群影響過大,就應更為考慮該群體的偏好。目前,InstructGPT 以英文指示接受訓練,因此比較偏向英文用戶的文化價值觀。我們正在研究標註者偏好之間的差異和分歧,以便根據更特定人群的價值觀來調整模型。一般而言,根據特定人群的價值觀調整模型輸出內容,會帶來對社會構成影響的艱難選擇,最終我們必須建立負責任、包容的流程來作出這些決定。
這是我們首次把對齊研究應用在我們的產品上。我們的結果顯示,這些技術能有效顯著改善通用 AI 系統與人類意圖對齊的程度。然而,這僅僅是個開始。我們將持續改良這些技術,改善現有及未來模型與語言工具的對齊性,使其對人類而言既安全又實用。
如果您對這些研究方向感興趣,不妨應徵加入我們的團隊(在新視窗中開啟)!
註腳
- A
我們只使用透過 Playground 向 InstructGPT 早期版本提交的提示,這些模型於 2021 年 1 月部署。我們的真人註釋者在將所有提示新增至訓練集之前,會移除其中的個人身分識別資訊。
- B
部署在 API 中的 InstructGPT 模型,是使用相同人類反饋資料訓練的更新版本。這些模型使用類似但略有不同的訓練方法,我們會在即將發表的刊物中講解。
- C
我們亦根據幾個不同範疇,評估 API 發布時輸出結果中潛在的有害內容,例如是否包含色情或暴力內容、是否貶低受保護群體,或是否助長虐待行為。研究結果顯示,InstructGPT 在這些方面與 GPT-3 差異不大,兩者的不良內容輸出率都相對偏低。
- D
我們發現,這種方法比單純增加 KL 係數更有效。
- E
這些標註員來自 Scale AI 和 Upwork,與我們的訓練標註員類似,但無需進行篩選測試。
參考文獻
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017.Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021.Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021.Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021.Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March.On the Dangers of Stochastic Parrots:Can Language Models Be Too Big?🦜.In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021.On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021.Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021.Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021.Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021.Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021.Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020.Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019.Ctrl:A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020.Gedi:Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019.Plug and play language models:A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021.TruthfulQA:Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020.RealToxicityPrompts:Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018.Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020.CrowS-pairs:A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.
作者
致謝
我們謹此向各位論文共同作者致以謝意:Long Ouyang、Jeff Wu、Roger Jiang、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong Zhang、Sandhini Agarwal、Katarina Slama、Alex Ray、John Schulman、Jacob Hilton、Fraser Kelton、Luke Miller、Maddie Simens、Amanda Askell、Peter Welinder 和 Paul Christiano,以及所有對論文和網誌文章提供反饋的人。我們還要感謝通訊團隊的指導和協助,成員包括 Steve Dowling、Hannah Wong、Elie Georges、Alper Ercetin、Jared Salzano、Allan Diego 和 Justin Jay Wang。最後,我們要感謝我們的標註員,沒有他們,這個項目就不可能實現。


