2022年1月27日

對齊語言模型以遵循指示

正在載入...

透過採用經由對齊研究開發所得的技術，我們訓練出的語言模型在遵循用戶意圖方面遠勝於 GPT‑3，同時亦更加真實，而且較少產生有害的內容。這些由真人參與訓練過程的 InstructGPT 模型，現已作為預設語言模型部署至我們的 API 上。

正在載入...

OpenAI API 由 GPT‑3 語言模型驅動⁠，可透過使用精心設計的文字提示，引導其執行自然語言任務。但是，這些模型亦有可能產生不真實、有害或反映負面情緒的輸出內容。原因之一，在於 GPT‑3 獲訓練為採用大量互聯網文本資料集來預測下一個詞語，而不是安全地執行用戶想要的語言任務。換句話說，這些模型與用戶的意向並未對齊。

為了使模型更安全、更有幫助，而且更能對齊，我們採用了一項現有技術，稱為人類反饋強化學習 (RLHF)⁠。因應客戶提交至 API 的提示，^A標註員會示範所需的模型行為，並對模型產生的多個輸出內容進行排序。然後，我們使用這些資料來微調 GPT‑3。

由此產生的 InstructGPT 模型，在遵循指示方面比 GPT‑3 優秀得多。這類模型也較少編造事實，而且產生有害內容的比例略有下降。即使 1.3B InstructGPT 的參數量比 175B GPT‑3 模型少了超過 100 倍，標註員依然較喜歡前者輸出的內容。同時，我們亦展示了在不犧牲 GPT‑3 能力的情況下，模型在學術自然語言處理評估中的表現依然優異。

這些 InstructGPT 模型的測試版已在 API 運用超過一年，現已成為 API 上預設的語言模型。^B我們相信，讓人類參與訓練過程以微調語言模型，是一種可提升安全性與可靠度的有效手法，我們將持續朝這個方向努力。

這是我們數⁠年⁠來，一直追求⁠的對齊研究^1、2及3首次應用於我們的產品。我們的工作也與近期使用學術自然語言處理資料集微調語言模型，以遵循指示的研究有關，尤其是 FLAN⁴ 和 T0⁵。我們工作的主要動機是提高實用度與真實度，同時減輕語言模型的危害與偏見。^{6、7、8、9及10}我們以往對此範疇的一些研究⁠發現，透過在經過策劃的小型人類示範資料集上進行微調，可以減少有害的輸出內容。¹¹其他研究則專注於過濾事前訓練資料集、¹²安全性專用的控制標記、^13及14或引導模型產生內容。^15及16我們現時正持續進行對齊研究，探索這些概念及其他可能性。

成果

我們首先評估 InstructGPT 的輸出內容遵循用戶指示的程度，方法是讓標註者比較其輸出結果與 GPT‑3 的輸出結果。我們發現，在 API 上提交給 InstructGPT 與 GPT‑3 模型的提示中，InstructGPT 模型明顯較受歡迎。即使我們在 GPT‑3 提示前加上前綴，使其進入「遵循指示模式」，情況也是一樣。

正在載入...

為了衡量我們模型的安全度，我們主要將一套現有指標用於公開資料集。相比 GPT‑3，InstructGPT 產生的「模仿性錯誤」較少（即 imitative falsehood，參考 TruthfulQA¹⁷），而且內容較為無害（參考 RealToxicityPrompts¹⁸）。我們亦以真人評估了 API 的提示分佈，發現 InstructGPT 較少捏造事實（「產生幻覺」），並能產生更合適的輸出內容。^C

正在載入...

最後，我們在客戶分佈上發現，InstructGPT 的輸出結果比 FLAN⁴ 和 T0⁵ 的輸出結果更受歡迎。由此可見，用於訓練 FLAN 和 T0 的數據（主要是學術類自然語言處理任務）並不能完全反映出部署語言模型的實際用途。

方法

Diagram showing three-step methodology to train InstructGPT models.

為訓練 InstructGPT 模型，我們採用人類反饋強化學習 (RLHF)⁠為核心技術，這是一種我們在早期對齊研究中率先開發的方法。這項技術使用人類偏好作為獎勵訊號來微調模型，這樣做之所以重要，是由於我們試圖解決的安全性與對齊性問題複雜而且主觀，單靠簡單的自動指標並不足以涵蓋。

我們首先收集一組由人類撰寫的示範資料集，這些示範乃基於提交給我們 API 的提示所寫，然後再使用這些資料來訓練監督式學習基準。接著，我們從一組規模更大的 API 提示中，收集出以人手標註兩個模型輸出結果的比較資料集。然後，我們根據此資料集訓練獎勵模型 (RM)，以預測標註者會偏好哪個輸出結果。最後，我們使用此 RM 作為獎勵函數，並運用 PPO 演算法⁠微調 GPT‑3 策略，使獎勵擴至最大。

這種方式可以理解為「解鎖」了 GPT‑3 已有的能力，而這些能力單憑提示工程難以取用。這是由於和事前訓練期間所學到的內容相比，我們的訓練程序在教導模型新能力方面的能力有限，因為當中使用的運算和資料量不到模型事前訓練的 2%。

這種方法的限制之一，在於會產生「對齊化附帶成本」(alignment tax)，也就是說，假如只根據客戶任務對齊模型，可能會使模型在某些其他學術自然語言處理任務上的表現變差。這個情況並不理想，因為倘若對齊技術使模型在用戶關心的任務上表現變差，那麼在實際應用中，獲採用的可能性就會降低。我們發現，只需對演算法作出簡單變更，便可以將這種對齊化附帶成本降至最低：在強化學習微調階段，我們加入一小部分用來訓練 GPT‑3 的原始資料，並運用正常的對數似然最大化 (log likelihood maximization) 來訓練這部分資料。^D 此方法能夠大致保持安全性與人類偏好方面的表現，同時減少處理學術任務時表現不佳的情況，而在幾個案例中甚至超越了 GPT‑3 的基準。

推展為更廣泛的偏好

我們的程序使模型行為與標註員和研究員的偏好對齊，前者直接製作出用於訓練模型的資料，而後者則透過書面指示、對特定範例直接提供反饋以及非正式對話，為標註員提供指導。除此之外，這個流程亦受客戶偏好以及我們 API 政策中隱含的偏好所影響。我們選擇了在辨識和回應敏感提示的篩選測驗中，表現良好的標註員。然而，這些對資料產生影響的不同來源，並不能保證我們的模型與任何更廣泛群體的偏好對齊。

我們進行了兩項實驗來調查此情況。首先，我們採用未有參與任何訓練資料標註的保留標註者^E來評估 GPT‑3 與 InstructGPT，結果發現，這些標註者對 InstructGPT 模型的輸出內容偏好率，與我們的訓練標註者大致相同。其次，我們根據部分標註員的資料訓練獎勵模型，並發現此類模型能有效擅推展並預測另一組標註員的偏好。由此可見，我們的模型並無過度適應訓練標註員的偏好。然而，目前仍需進一步研究這些模型在更廣泛用戶群體中的表現，以及當人類對所需行為存在分歧時的表現。

限制

儘管取得了重大進展，我們的 InstructGPT 模型遠未完全達到徹底與用戶意圖對齊或完全安全。該模型仍然會產生有害或有偏見的輸出內容，捏造事實，並在沒有明確提示的情況下，產生色情和暴力內容。但機器學習系統的安全性並非只取決於底層模型的行為，亦會取決於這些模型的部署方式。為保障 API 的安全性，我們將在推出潛在應用方式前持續審視情況⁠（在新視窗中開啟），提供內容篩選功能，以檢測不安全的輸出結果，並監察濫用情況。

訓練模型以遵循用戶指示時產生了一個副作用；這些模型可能會因為獲指示產生不安全的輸出內容而更易遭到濫用。要解決這個問題，就必須讓模型拒絕執行某些指示，而要穩定地達成這一點，則是個重要而且尚待解決的研究問題；我們期望能早日克服這個挑戰。

除此之外，在很多情況下，與標註者的平均偏好對齊未必是理想做法。例如，當產生的文字對少數族群影響過大，就應更為考慮該群體的偏好。目前，InstructGPT 以英文指示接受訓練，因此比較偏向英文用戶的文化價值觀。我們正在研究標註者偏好之間的差異和分歧，以便根據更特定人群的價值觀來調整模型。一般而言，根據特定人群的價值觀調整模型輸出內容，會帶來對社會構成影響的艱難選擇，最終我們必須建立負責任、包容的流程來作出這些決定。

下一步

這是我們首次把對齊研究應用在我們的產品上。我們的結果顯示，這些技術能有效顯著改善通用 AI 系統與人類意圖對齊的程度。然而，這僅僅是個開始。我們將持續改良這些技術，改善現有及未來模型與語言工具的對齊性，使其對人類而言既安全又實用。

如果您對這些研究方向感興趣，不妨應徵加入我們的團隊⁠（在新視窗中開啟）！

註腳

A
我們只使用透過 Playground 向 InstructGPT 早期版本提交的提示，這些模型於 2021 年 1 月部署。我們的真人註釋者在將所有提示新增至訓練集之前，會移除其中的個人身分識別資訊。
B
部署在 API 中的 InstructGPT 模型，是使用相同人類反饋資料訓練的更新版本。這些模型使用類似但略有不同的訓練方法，我們會在即將發表的刊物中講解。
C
我們亦根據幾個不同範疇，評估 API 發布時輸出結果中潛在的有害內容，例如是否包含色情或暴力內容、是否貶低受保護群體，或是否助長虐待行為。研究結果顯示，InstructGPT 在這些方面與 GPT-3 差異不大，兩者的不良內容輸出率都相對偏低。
D
我們發現，這種方法比單純增加 KL 係數更有效。
E
這些標註員來自 Scale AI 和 Upwork，與我們的訓練標註員類似，但無需進行篩選測試。

參考文獻

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017.Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021.Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021.Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021.Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March.On the Dangers of Stochastic Parrots:Can Language Models Be Too Big?🦜.In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021.On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021.Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021.Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021.Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021.Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021.Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020.Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019.Ctrl:A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020.Gedi:Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019.Plug and play language models:A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021.TruthfulQA:Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020.RealToxicityPrompts:Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018.Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020.CrowS-pairs:A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

作者

Ryan Lowe及Jan Leike

致謝

我們謹此向各位論文共同作者致以謝意：Long Ouyang、Jeff Wu、Roger Jiang、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong Zhang、Sandhini Agarwal、Katarina Slama、Alex Ray、John Schulman、Jacob Hilton、Fraser Kelton、Luke Miller、Maddie Simens、Amanda Askell、Peter Welinder 和 Paul Christiano，以及所有對論文和網誌文章提供反饋的人。我們還要感謝通訊團隊的指導和協助，成員包括 Steve Dowling、Hannah Wong、Elie Georges、Alper Ercetin、Jared Salzano、Allan Diego 和 Justin Jay Wang。最後，我們要感謝我們的標註員，沒有他們，這個項目就不可能實現。

查看全部