2022年1月27日

使語言模型更能遵循指令

載入中…

透過我們的需求貼合研究所發展出的技術，我們所訓練出的語言模型，能比 GPT‑3 更準確地理解並執行使用者意圖，在真實性與降低有害內容方面也有所提升。這些 InstructGPT 模型在訓練過程中納入人類回饋，目前已部署為我們 API 上的預設語言模型。

載入中...

OpenAI API 是由 GPT‑3 語言模型提供支援⁠，能夠執行精心設計提示下進行的各種自然語言任務。但這些模型有時也會產生不正確、有害或偏頗的內容。其中一個原因是，GPT‑3 在訓練時主要針對大型網路資料學習，並非鎖定理解使用者真正想要的語意。換句話說，我們開發的新版模型更加符合使用者的需求。

為了讓模型更安全、更實用且更契合使用者意圖，我們採用了名為人類回饋強化學習 (RLHF)⁠ 的現有技術。針對客戶提交至 API 的提示，^A我們的標註員會示範模型應有的理想行為，並對多個模型輸出結果進行排序。隨後，我們會使用這些資料來微調 GPT‑3 模型。

最終產出的 InstructGPT 模型在遵循指令方面表現遠優於 GPT‑3。這些模型也比較不常虛構內容，在有害輸出方面也略為減少。儘管參數數量相差超過 100 倍，我們的標註員仍偏好來自 1.3B 參數版本 InstructGPT 的輸出內容，而非 175B 參數的 GPT‑3 模型。同時，我們也證明，我們的模型在自然語言處理測評上，不必犧牲 GPT‑3 效能，依然具備出色表現。

這些 InstructGPT 模型測試一年多，現在已成為 API 的預設語言模型。^B我們相信透過人類回饋進行微調，是提升模型安全性與可靠性的關鍵，我們也將持續朝此方向前進。

這是我們進行了⁠數⁠年⁠的模型對齊研究^1、2和3，已首次應用於我們的產品。我們的工作也與最近的研究相關，這些研究使用學術自然語言處理資料集對語言模型進行微調以遵循指示，特別是 FLAN⁴ 及 T0⁵。我們工作的主要動機是提高實用性及真實性，同時減輕語言模型的危害及偏見^{6、7、8、9和10}。我們先前在這方面的研究⁠發現，我們可以在小型人工策劃的人類示範資料集上進行微調，從而減少有害輸出¹¹。其他研究專注於篩選預訓練資料集¹²、安全特定控制指令^13、14，或引導模型產生^15、16。我們正在持續的人工智慧需求貼合研究中探索這些想法及其他方法。

結果

我們首先透過讓標註員比較 InstructGPT 的輸出與 GPT‑3 的輸出，來評估 InstructGPT 的輸出遵循使用者指示的程度。我們發現，在提交給 InstructGPT 及 GPT‑3 模型的 API 提示上，InstructGPT 模型明顯更受偏好。即使我們在 GPT‑3 提示前加上前綴，讓它進入「指示遵循模式」，這個結果仍然成立。

載入中...

為了衡量我們模型的安全性，我們主要使用一套針對公開可用資料集的現有指標。與 GPT‑3 相比，InstructGPT 產生較少模仿性虛假陳述（根據 TruthfulQA¹⁷），有害內容也較少（根據 RealToxicityPrompts¹⁸）。我們也對我們的 API 提示分布進行人工評估，發現 InstructGPT 較少編造事實（「幻覺」），並產生更適當的輸出^C。

載入中...

最後，我們發現針對我們的客戶使用情況，InstructGPT 的輸出比微調語言模型 (FLAN)⁴ 及 T0⁵ 的輸出更受偏好。這表明用於訓練 FLAN 及 T0 的資料，主要是學術自然語言處理任務，無法完全代表部署的語言模型實際使用情況。

方法

Diagram showing three-step methodology to train InstructGPT models.

為了訓練 InstructGPT 模型，我們的核心技術是從人類回饋的強化學習 (RLHF)⁠，這是我們在早期需求貼合研究中協助開創的方法。這項技術使用人類偏好作為獎勵訊號來微調我們的模型，這很重要，因為我們努力解決的安全及需求貼合問題既複雜又主觀，無法完全透過簡單的自動指標來衡量。

我們首先收集在提交到我們 API 的提示上由人工撰寫的示範資料集，並用此來訓練我們的監督式學習基準。接下來，我們在更大的 API 提示集上收集人工標記的兩個模型輸出比較資料集。然後，我們在此資料集上訓練獎勵模型 (RM)，預測我們的標註員會偏好哪種輸出。最後，我們使用此獎勵模型作為獎勵函數，並使用 PPO 演算法⁠微調我們的 GPT‑3 策略，將獎勵最大化。

思考這套流程的其中一種方式是，它「激發」了 GPT‑3 已有但僅透過提示工程難以引出的能力：這是因為相對於預訓練期間學到的內容，我們的訓練程序教授模型新能力的功效有限，原因是它使用的運算及資料相對於模型預訓練不到 2%。

這種方法的限制是它引入了「需求貼合稅」：僅在客戶任務上需求貼合模型可能會使其在其他一些學術自然語言處理任務上的表現變差。這種情況不理想，因為如果我們的需求貼合技術讓模型在人們重視的任務上表現變差，實際採用這些技術的可能性就會降低。我們發現一項簡單的演算法調整，可有效降低所謂的「需求貼合成本」：在進行強化學習微調（RL fine-tuning）時，我們混入一小部分最初用於訓練 GPT‑3 的資料，並使用傳統的對數似然最大化方法進行訓練。^D這樣的做法大致上能維持模型在安全性與人類偏好方面的表現，同時減緩其在學術任務上的效能下降，甚至在部分情況下超越 GPT‑3 的基準表現。

泛化至更廣泛的偏好

我們的流程是將模型行為對齊至標註員的偏好（這些標註員直接產出模型訓練所需的資料）及研究人員的期望；研究人員透過書面指示、對特定範例的直接回饋，以及非正式對話等方式，持續引導標註員。這也受到我們的客戶及 API 政策中隱含偏好的影響。我們選擇出在篩選測試中表現良好的標註員，以便評估辨識及回覆敏感提示的能力。然而，這些不同的資料影響來源並不保證我們的模型符合任何更廣泛群體的偏好。

我們進行了兩項實驗來調查這個問題。首先，我們使用未參與產生任何訓練資料的保留標註員來評估 GPT‑3 及 InstructGPT^E，發現這些標註員偏好 InstructGPT 模型輸出的比例與我們的訓練標註員大致相同。其次，我們使用部分標註員的資料來訓練獎勵模型，發現這些模型能有效泛化至預測另一組不同標註員的偏好。這表明我們的模型並非僅是過度配適訓練標註員的偏好。然而，仍需更多研究來探討這些模型在更廣泛使用者群體上的表現，以及在人類對期望行為存在分歧的輸入上的表現。

限制說明

儘管取得了重大進展，我們的 InstructGPT 模型仍遠未完全貼合需求或徹底安全；它們仍會產生有害或有偏見的輸出、編造事實，並在沒有明確提示的情況下產生性和暴力內容。但機器學習系統的安全性不僅取決於底層模型的行為，也取決於這些模型的部署方式。為了支援我們 API 的安全性，我們將持續在潛在應用上線前進行審查⁠(在新視窗中開啟)、提供偵測不安全完成結果的內容篩選器，並監控誤用情況。

訓練我們的模型遵循使用者指令的衍生效應是，如果遭指示產生不安全的輸出，它們可能變得更容易遭到誤用。解決這個問題需要我們的模型拒絕某些指令；要穩定達成這點是我們很期待解決的重要開放研究問題。

此外，在許多情況下，將需求貼合度接近標註員的平均偏好可能並不理想。例如，在產生會對少數群體造成過度影響的文字時，該群體的偏好應該獲得更重的權重。目前，InstructGPT 是依照英文指令進行訓練，因此偏向英語系使用者的文化價值觀。我們正在進行研究，以便瞭解標註員偏好之間的差異與分歧，從而使模型能夠依據更特定族群的價值觀進行調整。更廣泛而言，使模型輸出符合特定人群的價值觀，會帶來具社會影響的艱難抉擇，最終我們必須建立負責且具包容性的決策機制。

後續步驟

這是我們首次將需求貼合研究應用於產品上。結果顯示，這些技術能大幅提升通用型人工智慧系統與人類意圖的一致性。然而，這僅是起點：我們將持續推動這些技術，提升現有與未來模型的需求貼合程度，努力打造對人類具安全性及助益的語言工具。

如果您有意參與這些研究，我們正在徵才⁠(在新視窗中開啟)！

註腳

A
我們僅使用透過 Playground 提交給 2021 年 1 月部署之早期版本 InstructGPT 模型的提示。我們的人工標註員會在將提示加入訓練資料集前，移除其中所有可辨識個人身分的資訊。
B
API 中部署的 InstructGPT 模型是使用相同人工回饋資料訓練而成的更新版本。這些模型採用類似但略有不同的訓練方法，我們將在即將發表的論文中說明。
C
我們也針對 API 發布版本中可能有害的輸出內容進行多面向評估，包括是否包含性或暴力內容、貶損受保護族群，或鼓吹虐待行為。我們發現 InstructGPT 在這些指標上相較於 GPT-3 並無明顯提升；兩者的不當內容發生率同樣偏低。
D
我們發現這種方法比單純提高 KL 係數更為有效。
E
這些標註員同樣來自 Scale AI 和 Upwork，與我們的訓練標註員來源一致，但未經篩選測驗。

參考資料

1
Christiano, P.、Leike, J.、Brown, T.B.、Martic, M.、Legg, S. 及 Amodei, D.，2017 年。《Deep reinforcement learning from human preferences》arXiv 預印本　arXiv:1706.03741。
2
Stiennon, N.、Ouyang, L.、Wu, J.、Ziegler, D.M.、Lowe, R.、Voss, C.、Radford, A.、Amodei, D. 及 Christiano, P., 2020 年，
3
Wu, J.、Ouyang, L.、Ziegler, D.M.、Stiennon, N.、Lowe, R.、Leike, J. 及 Christiano, P.、2021 年。Recursively summarizing books with human feedback. arXiv 預印本　arXiv:2109.10862。
4
Wei, J.、Bosma, M.、Zhao, V.Y.、Guu, K.、Yu, A.W.、Lester, B.、Du, N.、Dai, A.M. 及 Le, Q.V.、2021 年。Finetuned language models are zero-shot learners. arXiv 預印本　arXiv:2109.01652。
5
Sanh, V.、Webson, A.、Raffel, C.、Bach, S.H.、Sutawika, L.、Alyafeai, Z.、Chaffin, A.、Stiegler, A.、Scao, T.L.、Raja, A. 及 Dey, M.、2021 年。Multitask prompted training enables zero-shot task generalization. arXiv 預印本 arXiv:2110.08207。
6
Bender, E.、Gebru, T.、McMillan-Major, A. 及 Shmitchell, S.，2021 年 3 月。On the Dangers of Stochastic Parrots:Can Language Models Be Too Big?🦜.收錄於 2021 年 ACM Conference on Fairness, Accountability, and Transparency（第 610–623 頁）
7
Bommasani, R.、Hudson, D.A.、Adeli, E.、Altman, R.、Arora, S.、von Arx, S.、Bernstein, M.S.、Bohg, J.、Bosselut, A.、Brunskill, E. 及 Brynjolfsson, E.、2021 年。On the opportunities and risks of foundation models. arXiv 預印本　arXiv:2108.07258。
8
Kenton, Z.、Everitt, T.、Weidinger, L.、Gabriel, I., Mikulik, V. 及 Irving， G.，2021 年。Alignment of Language Agents. arXiv 預印本 arXiv:2103.14659。
9
Weidinger, L.、Mellor, J.、Rauh, M.、Griffin, C.、Uesato, J.、Huang, P.S.、Cheng, M.、Glaese, M.、Balle, B.、Kasirzadeh, A. 及 Kenton, Z.、2021 年。Ethical and social risks of harm from Language Models. arXiv 預印本 arXiv:2112.04359。
10
Tamkin, A.、Brundage, M.、Clark, J. 及 Ganguli, D.、2021 年。Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv 預印本 arXiv:2102.02503。
11
Solaiman, I. 及 Dennison, C.、2021 年。Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv 預印本 arXiv:2106.10328。
12
Ngo, H.、Raterink, C.、Araújo, J.G.、Zhang, I.、Chen, C.、Morisot, A. 及 Frosst, N.、2021 年。Mitigating harm in language models with conditional-likelihood filtration. arXiv 預印本 arXiv:2108.07790。
Xu, J.、Ju, D.、Li, M.、Boureau, Y.L.、Weston, J. 及 Dinan, E.、2020 年。Recipes for safety in open-domain chatbots. arXiv preprint arXiv 預印本 arXiv:2010.07079。\[\[fn:13]]
14
Keskar, N.S.、McCann, B.、Varshney, L.R.、Xiong, C. 及 Socher, R.、2019 年。Ctrl:A conditional transformer language model for controllable generation. arXiv 預印本 arXiv:1909.05858。
15
Krause, B.、Gotmare, A.D.、McCann, B.、Keskar, N.S.、Joty, S.、Socher, R. 及 Rajani, N.F.、2020 年。Gedi：Generative discriminator guided sequence generation. arXiv 預印本 arXiv:2009.06367
16
Dathathri, S.、Madotto, A.、Lan, J.、Hung, J.、Frank, E.、Molino, P.、Yosinski, J. 及 Liu, R.、2019 年。Plug and play language models:A simple approach to controlled text generation. arXiv 預印本 arXiv:1912.02164。
17
Lin, S.、Hilton, J. 及 Evans, O.、2021。TruthfulQA:Measuring how models mimic human falsehoods. arXiv 預印本 arXiv:2109.07958。
18
Gehman, S.、Gururangan, S.、Sap, M.、Choi, Y. 及 Smith, N.A.、2020 年。RealToxicityPrompts:valuating neural toxic degeneration in language models. arXiv 預印本 arXiv:2009.11462。
19
Rudinger, R., 、Naradowsky, J.、Leonard, B. 及 Van Durme, B，2018 年。Gender bias in coreference resolution. arXiv 預印本 arXiv:1804.09301。
20
Nangia, N.、Vania, C.、Bhalerao, R. 及 Bowman, S.R.、2020 年。CrowS-pairs:A challenge dataset for measuring social biases in masked language models. arXiv 預印本 arXiv:2010.00133。

作者

Ryan Lowe、Jan Leike

致謝

謹此致謝本論文共同作者：Long Ouyang、Jeff Wu、Roger Jiang、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong Zhang、Sandhini Agarwal、Katarina Slama、Alex Ray、John Schulman、Jacob Hilton、Fraser Kelton、Luke Miller、Maddie Simens、Amanda Askell、Peter Welinder 及 Paul Christiano，以及所有對論文與部落格文章提供回饋的夥伴。我們也感謝溝通團隊提供的指導與協助，特別是 Steve Dowling、Hannah Wong、Elie Georges、Alper Ercetin、Jared Salzano、Allan Diego 與 Justin Jay Wang。最後，我們誠摯感謝所有標註員，沒有他們的貢獻，本研究無法完成。

檢視全部