跳到主要內容
OpenAI
正在載入...

透過採用經由對齊研究開發所得的技術,我們訓練出的語言模型在遵循用戶意圖方面遠勝於 GPT‑3,同時亦更加真實,而且較少產生有害的內容。這些由真人參與訓練過程的 InstructGPT 模型,現已作為預設語言模型部署至我們的 API 上。

正在載入...

OpenAI API 由 GPT‑3 語言模型驅動,可透過使用精心設計的文字提示,引導其執行自然語言任務。但是,這些模型亦有可能產生不真實、有害或反映負面情緒的輸出內容。原因之一,在於 GPT‑3 獲訓練為採用大量互聯網文本資料集來預測下一個詞語,而不是安全地執行用戶想要的語言任務。換句話說,這些模型與用戶的意向並未對齊

為了使模型更安全、更有幫助,而且更能對齊,我們採用了一項現有技術,稱為人類反饋強化學習 (RLHF)。因應客戶提交至 API 的提示,A標註員會示範所需的模型行為,並對模型產生的多個輸出內容進行排序。然後,我們使用這些資料來微調 GPT‑3。

由此產生的 InstructGPT 模型,在遵循指示方面比 GPT‑3 優秀得多。這類模型也較少編造事實,而且產生有害內容的比例略有下降。即使 1.3B InstructGPT 的參數量比 175B GPT‑3 模型少了超過 100 倍,標註員依然較喜歡前者輸出的內容。同時,我們亦展示了在不犧牲 GPT‑3 能力的情況下,模型在學術自然語言處理評估中的表現依然優異。

這些 InstructGPT 模型的測試版已在 API 運用超過一年,現已成為 API 上預設的語言模型。B我們相信,讓人類參與訓練過程以微調語言模型,是一種可提升安全性與可靠度的有效手法,我們將持續朝這個方向努力。

這是我們來,一直追求的對齊研究123首次應用於我們的產品。我們的工作也與近期使用學術自然語言處理資料集微調語言模型,以遵循指示的研究有關,尤其是 FLAN4 和 T05。我們工作的主要動機是提高實用度與真實度,同時減輕語言模型的危害與偏見。678910我們以往對此範疇的一些研究發現,透過在經過策劃的小型人類示範資料集上進行微調,可以減少有害的輸出內容。11其他研究則專注於過濾事前訓練資料集、12安全性專用的控制標記、1314或引導模型產生內容。1516我們現時正持續進行對齊研究,探索這些概念及其他可能性。

成果

我們首先評估 InstructGPT 的輸出內容遵循用戶指示的程度,方法是讓標註者比較其輸出結果與 GPT‑3 的輸出結果。我們發現,在 API 上提交給 InstructGPT 與 GPT‑3 模型的提示中,InstructGPT 模型明顯較受歡迎。即使我們在 GPT‑3 提示前加上前綴,使其進入「遵循指示模式」,情況也是一樣。

正在載入...

為了衡量我們模型的安全度,我們主要將一套現有指標用於公開資料集。相比 GPT‑3,InstructGPT 產生的「模仿性錯誤」較少(即 imitative falsehood,參考 TruthfulQA17),而且內容較為無害(參考 RealToxicityPrompts18)。我們亦以真人評估了 API 的提示分佈,發現 InstructGPT 較少捏造事實(「產生幻覺」),並能產生更合適的輸出內容。C

正在載入...

最後,我們在客戶分佈上發現,InstructGPT 的輸出結果比 FLAN4 和 T05 的輸出結果更受歡迎。由此可見,用於訓練 FLAN 和 T0 的數據(主要是學術類自然語言處理任務)並不能完全反映出部署語言模型的實際用途。

方法

Diagram showing three-step methodology to train InstructGPT models.

為訓練 InstructGPT 模型,我們採用人類反饋強化學習 (RLHF)為核心技術,這是一種我們在早期對齊研究中率先開發的方法。這項技術使用人類偏好作為獎勵訊號來微調模型,這樣做之所以重要,是由於我們試圖解決的安全性與對齊性問題複雜而且主觀,單靠簡單的自動指標並不足以涵蓋。

我們首先收集一組由人類撰寫的示範資料集,這些示範乃基於提交給我們 API 的提示所寫,然後再使用這些資料來訓練監督式學習基準。接著,我們從一組規模更大的 API 提示中,收集出以人手標註兩個模型輸出結果的比較資料集。然後,我們根據此資料集訓練獎勵模型 (RM),以預測標註者會偏好哪個輸出結果。最後,我們使用此 RM 作為獎勵函數,並運用 PPO 演算法微調 GPT‑3 策略,使獎勵擴至最大。

這種方式可以理解為「解鎖」了 GPT‑3 已有的能力,而這些能力單憑提示工程難以取用。這是由於和事前訓練期間所學到的內容相比,我們的訓練程序在教導模型新能力方面的能力有限,因為當中使用的運算和資料量不到模型事前訓練的 2%。

這種方法的限制之一,在於會產生「對齊化附帶成本」(alignment tax),也就是說,假如只根據客戶任務對齊模型,可能會使模型在某些其他學術自然語言處理任務上的表現變差。這個情況並不理想,因為倘若對齊技術使模型在用戶關心的任務上表現變差,那麼在實際應用中,獲採用的可能性就會降低。我們發現,只需對演算法作出簡單變更,便可以將這種對齊化附帶成本降至最低:在強化學習微調階段,我們加入一小部分用來訓練 GPT‑3 的原始資料,並運用正常的對數似然最大化 (log likelihood maximization) 來訓練這部分資料。D 此方法能夠大致保持安全性與人類偏好方面的表現,同時減少處理學術任務時表現不佳的情況,而在幾個案例中甚至超越了 GPT‑3 的基準。

推展為更廣泛的偏好

我們的程序使模型行為與標註員和研究員的偏好對齊,前者直接製作出用於訓練模型的資料,而後者則透過書面指示、對特定範例直接提供反饋以及非正式對話,為標註員提供指導。除此之外,這個流程亦受客戶偏好以及我們 API 政策中隱含的偏好所影響。我們選擇了在辨識和回應敏感提示的篩選測驗中,表現良好的標註員。然而,這些對資料產生影響的不同來源,並不能保證我們的模型與任何更廣泛群體的偏好對齊。

我們進行了兩項實驗來調查此情況。首先,我們採用未有參與任何訓練資料標註的保留標註者E來評估 GPT‑3 與 InstructGPT,結果發現,這些標註者對 InstructGPT 模型的輸出內容偏好率,與我們的訓練標註者大致相同。其次,我們根據部分標註員的資料訓練獎勵模型,並發現此類模型能有效擅推展並預測另一組標註員的偏好。由此可見,我們的模型並無過度適應訓練標註員的偏好。然而,目前仍需進一步研究這些模型在更廣泛用戶群體中的表現,以及當人類對所需行為存在分歧時的表現。

限制

儘管取得了重大進展,我們的 InstructGPT 模型遠未完全達到徹底與用戶意圖對齊或完全安全。該模型仍然會產生有害或有偏見的輸出內容,捏造事實,並在沒有明確提示的情況下,產生色情和暴力內容。但機器學習系統的安全性並非只取決於底層模型的行為,亦會取決於這些模型的部署方式。為保障 API 的安全性,我們將在推出潛在應用方式前持續審視情況(在新視窗中開啟),提供內容篩選功能,以檢測不安全的輸出結果,並監察濫用情況。

訓練模型以遵循用戶指示時產生了一個副作用;這些模型可能會因為獲指示產生不安全的輸出內容而更易遭到濫用。要解決這個問題,就必須讓模型拒絕執行某些指示,而要穩定地達成這一點,則是個重要而且尚待解決的研究問題;我們期望能早日克服這個挑戰。

除此之外,在很多情況下,與標註者的平均偏好對齊未必是理想做法。例如,當產生的文字對少數族群影響過大,就應更為考慮該群體的偏好。目前,InstructGPT 以英文指示接受訓練,因此比較偏向英文用戶的文化價值觀。我們正在研究標註者偏好之間的差異和分歧,以便根據更特定人群的價值觀來調整模型。一般而言,根據特定人群的價值觀調整模型輸出內容,會帶來對社會構成影響的艱難選擇,最終我們必須建立負責任、包容的流程來作出這些決定。

下一步

這是我們首次把對齊研究應用在我們的產品上。我們的結果顯示,這些技術能有效顯著改善通用 AI 系統與人類意圖對齊的程度。然而,這僅僅是個開始。我們將持續改良這些技術,改善現有及未來模型與語言工具的對齊性,使其對人類而言既安全又實用。

如果您對這些研究方向感興趣,不妨應徵加入我們的團隊(在新視窗中開啟)

註腳

  1. A

    我們只使用透過 Playground 向 InstructGPT 早期版本提交的提示,這些模型於 2021 年 1 月部署。我們的真人註釋者在將所有提示新增至訓練集之前,會移除其中的個人身分識別資訊。

  2. B

    部署在 API 中的 InstructGPT 模型,是使用相同人類反饋資料訓練的更新版本。這些模型使用類似但略有不同的訓練方法,我們會在即將發表的刊物中講解。

  3. C

    我們亦根據幾個不同範疇,評估 API 發布時輸出結果中潛在的有害內容,例如是否包含色情或暴力內容、是否貶低受保護群體,或是否助長虐待行為。研究結果顯示,InstructGPT 在這些方面與 GPT-3 差異不大,兩者的不良內容輸出率都相對偏低。

  4. D

    我們發現,這種方法比單純增加 KL 係數更有效。

  5. E

    這些標註員來自 Scale AI 和 Upwork,與我們的訓練標註員類似,但無需進行篩選測試。

參考文獻

  1. 1

    Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017.Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.

  2. 2

    Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.

  3. 3

    Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021.Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.

  4. 4

    Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021.Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.

  5. 5

    Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021.Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.

  6. 6

    Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March.On the Dangers of Stochastic Parrots:Can Language Models Be Too Big?🦜.In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).

  7. 7

    Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021.On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.

  8. 8

    Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021.Alignment of Language Agents. arXiv preprint arXiv:2103.14659.

  9. 9

    Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021.Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.

  10. 10

    Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021.Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.

  11. 11

    Solaiman, I. and Dennison, C., 2021.Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.

  12. 12

    Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021.Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.

  13. 13

    Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020.Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.

  14. 14

    Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019.Ctrl:A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.

  15. 15

    Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020.Gedi:Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.

  16. 16

    Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019.Plug and play language models:A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.

  17. 17

    Lin, S., Hilton, J. and Evans, O., 2021.TruthfulQA:Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.

  18. 18

    Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020.RealToxicityPrompts:Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.

  19. 19

    Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018.Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.

  20. 20

    Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020.CrowS-pairs:A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

作者

Ryan Lowe及Jan Leike

致謝

我們謹此向各位論文共同作者致以謝意:Long Ouyang、Jeff Wu、Roger Jiang、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong Zhang、Sandhini Agarwal、Katarina Slama、Alex Ray、John Schulman、Jacob Hilton、Fraser Kelton、Luke Miller、Maddie Simens、Amanda Askell、Peter Welinder 和 Paul Christiano,以及所有對論文和網誌文章提供反饋的人。我們還要感謝通訊團隊的指導和協助,成員包括 Steve Dowling、Hannah Wong、Elie Georges、Alper Ercetin、Jared Salzano、Allan Diego 和 Justin Jay Wang。最後,我們要感謝我們的標註員,沒有他們,這個項目就不可能實現。