2022年1月27日

言語モデルを指示に従わせるためのアライメント

読み込んでいます...

当社は、アライメント研究を通じて開発した手法を使用して、GPT‑3 よりもユーザーの意図をより正確に追い、より真実味があり、有害性を低減するように言語モデルに学習させました。人間も参加して学習させたこれらの InstructGPT モデルは現在、当社の API 言語モデルのデフォルトとして展開されています。

読み込み中...

OpenAI の API は GPT‑3 言語モデルを使用⁠しており、慎重に設計されたテキストプロンプトを使用して自然言語のタスク実行を促すことができます。それでも、これらのモデルは真実ではなく有害な、または有害な感情を反映した出力を生成する可能性があります。これは、GPT‑3 がユーザーが望む言語タスクを安全に実行するよりも、インターネットテキストの大規模なデータセットで次の単語を予測するようにトレーニングされているためです。つまり、これらのモデルにはユーザーとの整合性はありません。

当社のモデルをより安全で、役に立ち、整合性の高いものにするために、当社は人間のフィードバックによる強化学習（RLHF）⁠と呼ばれる既存手法を使用しています。お客様から API に送信されたプロンプトに応じて、^A ラベル付け担当者が望ましいモデルの動作のデモンストレーションを提供し、モデルからのいくつかの出力をランク付けします。次に、このデータを使をファインチューニングします。

結果として得られた InstructGPT モデルは、指示に従う能力の点で GPT‑3 よりもはるかに優れています。事実を「捏造」する頻度も減り、有害な出力の生成もわずかながら減少します。当社のラベル付け担当者は、パラメーターが 100 倍以上少ないにもかかわらず、175B の GPT‑3 モデルの出力よりも 1.3B の InstructGPT モデルの出力を好みます。当社は同時に、学術的な NLP 評価におけるモデルのパフォーマンスによって測定されるように、GPT‑3 の能力に妥協する必要はないことを示しています。

これらの InstructGPT モデルは、API で1年以上ベータ版として公開されてきましたが、現在では API でアクセスできるデフォルトの言語モデルとなっています^B。当社では、言語モデルの人間によるファインチューニングは、安全性と信頼性を向上させる強力なツールであると信じており、この方向性を引き続き推進していきます。

当社が数⁠年⁠にわたって進めてきた⁠アライメント研究^1、2、3が、当社製品に適用されるのは今回が初めてです。当社の活動は、学術的な NLP データセット、特に FLAN ⁴ と T0⁵ を使用して、指示に従うように言語モデルをファインチューニングする最近の研究にも関連しています。当社の活動の主な動機は、言語モデルの有害性とバイアスを軽減しながら、有用性と真実性を向上することです^{6、7、8、9、10}。この方向性による当社の以前の研究⁠のいくつかにより、人間のデモンストレーションの小さなデータセットをファインチューニングすることで、有害な出力を削減できることが判明しました¹¹。その他の研究は、事前学習データセットのフィルタリング¹²、安全性に特化した制御トークン^13、14、またはモデル生成の制御に焦点を当てています^15、16。当社はアライメント研究の中で、これらのアイデアにとどまらず、その他のアイデアも継続的に調べています。

結果

まず、ラベル付け担当者に InstructGPT の出力を GPT‑3 の出力と比較させて、InstructGPT の出力がユーザーの指示にどの程度従っているかを評価しました。API の InstructGPT モデルと GPT‑3 モデルの両方に送信されたプロンプトでは、InstructGPT モデルが著しく好まれることがわかりました。GPT‑3 プロンプトに接頭辞を追加して「命令に従うモード」にした場合でもこれが当てはまりました。

読み込み中...

モデルの安全性を測定するため、当社は主に公開されているデータセットの一連の既存の指標を使用しました。GPT‑3 と比較して、InstructGPT では模倣的な虚偽事項の生成が少なくなり（TruthfulQA¹⁷ による）、また有害性も低減されます（RealToxicityPrompts¹⁸ による）。また、API プロンプト分布について人間による評価を実施したところ、InstructGPT は事実を捏造する「ハルシネーション」の頻度が少なく、より適切な出力を生成することもわかりました^C。

読み込み中...

最後に、顧客分布では、InstructGPT の出力が FLAN⁴ や T0⁵ の出力よりも優先されることが判明しました。これは、FLAN と T0（主に学術的な NLP タスク）の学習に使用されるデータが、展開された言語モデルの実際の使用方法を完全に表してはいないことを示しています。

学習方法

Diagram showing three-step methodology to train InstructGPT models.

InstructGPT モデルに学習させるための当社のコア技術は、当社が以前のアライメント研究を開拓するために支援した、人間のフィードバックによる強化学習（RLHF）⁠です。この方法では、人間の好みを報酬シグナルとして使用し、モデルをファインチューニングしますが、これは解決しようとしている安全性とアライメントの問題が複雑で主観的であり、単純な自動メトリックでは完全には把握できないため、重要です。

まず、API に送信されたプロンプトに対する人間が書いたデモンストレーションのデータセットを収集し、これを使用して教師あり学習のベースラインを学習します。次に、より大きな API プロンプトのセットで、2つのモデルの出力間で人間がラベル付けした比較データセットを収集します。続いて、このデータセットで報酬モデル（RM）を学習して、ラベル作成の担当者がどの出力を好むかを予測します。そして最後に、この RM を報酬関数として使用し、PPO アルゴリズムを使用して報酬を最大化するように GPT‑3 ポリシーをファインチューニングします。

このプロセスに関する1つの考え方は、すでに GPT‑3 にもあったものの、プロンプトエンジニアリングだけで引き出すのが困難だった機能を「ロック解除」するというものです。当社の学習手順では、モデルの事前学習に比べて 2% 未満の計算とデータしか使用しないため、事前学習で習得された内容に比べ、モデルに新しい機能を教える能力が限られているためです。

このアプローチの限界は、「アライメント税」が導入されることです。つまり、顧客のタスクのみでモデルをアライメントすると、他の学術的な NLP タスクでのパフォーマンスが低下してしまう可能性があります。つまり、当社のアライメント技術で人々が関心を持つタスクのモデルが悪化した場合、実際に採用される可能性が低くなるため、これは望ましくありません。当社では、このアライメント税を最小限に抑える単純なアルゴリズムの変更を見つけました。RL のファインチューニング中に、GPT‑3 の学習に使用した元のデータのごく一部を混ぜて、通常の対数尤度の最大化を使用してこのデータで学習させます^D。これにより、安全性と人間の好みに関するパフォーマンスがほぼ維持され、学術的なタスクでのパフォーマンスの低下が緩和されるようになり、場合によっては GPT‑3 のベースラインを超えます。

より広い嗜好への一般化

当社の手順では、モデルの学習に使用するデータを直接生成するラベル作成の担当者と、書面による指示、具体的な例に対する直接的なフィードバック、非公式な会話でラベル作成の担当者を指導する研究者たちの嗜好に合わせて、モデルの動作をアライメントします。当社のお客様や API ポリシーに暗黙のうちに含まれる嗜好も、影響を与えます。当社では、細やかな扱いを必要とするプロンプトを識別して対応する能力に関するスクリーニングテストで優れた成績を収めたラベル付け担当者を選択しました。ただし、データに影響を与えるこれらのさまざまなソースは、当社のモデルがより広範なグループの嗜好に合致することを保証するものではありません。

これを調査するために、2つの実験を行いました。まず、学習データを一切生成しなかった「ホールドアウト」のラベル作成の担当者^Eによって GPT‑3 と InstructGPT を評価しました。これらのラベル作成の担当者は、学習ラベル作成の担当者とほぼ同じ割合で InstructGPT モデルの出力を好むことがわかりました。次に、ラベル作成の担当者のサブセットから得たデータに基づいて報酬モデルを学習させ、そのモデルがラベル作成の担当者の別のサブセットの好みをうまく一般化して好みを予測できることを発見しました。これは、モデルが単に学習ラベル作成の担当者の嗜好に過剰に適合したわけではないことを示唆しています。とはいえ、これらのモデルがより広範なユーザーグループにおいて、また望ましい行動について意見が一致しない入力に対してどのようなパフォーマンスを発揮するのかを調べるには、さらなる研究が必要です。

制限事項

多大な進歩にもかかわらず、InstructGPT モデルは完全に整合が取れ、完全に安全というにはほど遠い状態です。依然として有害な、または偏った出力を生成し、事実とは違う内容を捏造し、明示的なプロンプトなしに性的、暴力的なコンテンツを生成しています。ただし、機械学習システムの安全性は、基盤となるモデルの動作だけではなく、これらのモデルがどのように展開されるかによっても左右されます。当社の API の安全性をサポートするために、潜在的な用途を公開前にレビュー⁠（新しいウィンドウで開く）し、安全でないコンプリーションを検出するコンテンツフィルターを提供し、悪用を監視し続けます。

ユーザーの指示に従うようモデルに学習させることの副産物として、安全ではない出力を生成するように指示された場合にモデルが悪用されやすくなる可能性があります。これを解決するには、モデルは特定の指示を拒否しなければなりません。これを確実に行えるようにすることが、当社が取り組みに意欲を燃やしている重要な未解決の研究課題です。

また多くの場合、平均的なラベル作成の担当者の嗜好にアライメントすることは望ましくない場合があります。たとえば、少数派グループに不均衡な影響を与えるテキストを生成する場合、そのグループの嗜好をより重視する必要があります。現時点において、InstructGPT は英語の指示に従うように学習しているため、英語話者の文化的価値観に偏っています。当社は、より具体的な集団の価値観に基づいてモデルに制約をかけられるように、ラベル作成の担当者の嗜好の違いや不一致を理解するための研究を行っています。より一般的には、モデル出力を特定の人間の価値観に一致させることは、社会的影響を伴う難しい選択をもたらし、究極的には、これらの決定を行うための責任ある包括的なプロセスを確立する必要があります。

次のステップ

これは、当社のアライメント研究の製品への初めての応用です。当社の結果は、これらの技術が汎用 AI システムと人間の意図のアライメントを大幅に改善するのに効果的であることを示しています。でも、これはほんの始まりに過ぎません。当社はこれらの技術を推進し続け、人間にとって安全で役に立つ言語ツールを目指して、現在のモデルと将来のモデルのアライメントを改善していきます。

これらの研究分野に興味をお持ちの場合、ぜひ当社求人にご応募ください⁠（新しいウィンドウで開く）。

脚注

A
2021 年 1 月にデプロイされた InstructGPT モデルの以前のバージョンに Playground を通じて送信されたプロンプトのみを使用。当社の人間のアノテーターは、学習セットに追加する前に、すべてのプロンプトから個人を特定できる情報を削除します。
B
API にデプロイされている InstructGPT モデルは、同じ人間のフィードバックデータを使用して学習した更新バージョンです。似てはいるもののわずかに異なる学習方法を使用しており、これについては今後の出版物で解説予定です。
C
当社 API の配布における潜在的に有害な出力の他のいくつかの側面も測定します。出力に性的または暴力的なコンテンツが含まれているかどうか、保護対象のクラスを中傷しているかどうか、虐待を奨励しているかどうかなどです。これらの指標について、InstructGPT は GPT-3 と比べて大幅な改善は見られませんでした。発生率は両モデルとも同程度に低いものでした。
D
このアプローチは、KL 係数を単に増やすよりも効果的であることが判明しました。
E
これらのラベル作成の担当者は、学習ラベル作成の担当者と同様に Scale AI と Upwork から採用されていますが、スクリーニングテストは受けていません。

参考文献

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017.Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N.、Ouyang, L.、Wu, J.、Ziegler, D.M.、Lowe, R.、Voss, C.、Radford, A.、Amodei, D.、Christiano, P.、2020。
3
Wu, J.、Ouyang, L.、Ziegler, D.M.、Stiennon, N.、Lowe, R.、Leike, J.、Christiano, P.、2021。Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J.、Bosma, M.、Zhao, V.Y.、Guu, K.、Yu, A.W.、Lester, B.、Du, N.、Dai, A.M.、Le, Q.V.、2021。Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V.、Webson, A.、Raffel, C.、Bach, S.H.、Sutawika, L.、Alyafeai, Z.、Chaffin, A.、Stiegler, A.、Scao, T.L., Raja, A. and Dey, M.、2021。Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M.、Gebru, T.、McMillan-Major, A.、Shmitchell, S.、2021年3月。On the Dangers of Stochastic Parrots:Can Language Models Be Too Big?🦜.2021年度公平性、説明責任、透明性に関する ACM 会議の議事録（pp. 610-623）。
7
Bommasani, R.、Hudson, D.A.、Adeli, E.、Altman, R.、Arora, S.、von Arx, S.、Bernstein, M.S.、Bohg, J.、Bosselut, A.、Brunskill, E.、Brynjolfsson, E.、2021。On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021.Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L.、Mellor, J.、Rauh, M.、Griffin, C.、Uesato, J.、Huang, P.S.、Cheng, M.、Glaese, M.、Balle, B.、Kasirzadeh, A.、Kenton, Z.、2021。Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021.Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021.Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021.Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020.Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019.Ctrl:A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020.Gedi:Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019.Plug and play language models:A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021.TruthfulQA:Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020.RealToxicityPrompts:Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018.Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020.CrowS-pairs:A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

著者

Ryan Lowe、Jan Leike

謝辞

以下の論文共著者の皆様に感謝いたします。Long Ouyang 氏、Jeff Wu 氏、Roger Jiang 氏、Diogo Almeida 氏、Carroll Wainwright 氏、Pamela Mishkin 氏、Chong Zhang 氏、Sandhini Agarwal 氏、Katarina Slama 氏、Alex Ray 氏、John Schulman 氏、Jacob Hilton 氏、Fraser Kelton 氏、Luke Miller 氏、Maddie Simens 氏、Amanda Askell 氏、Peter Welinder 氏、Paul Christiano 氏、また論文とブログ投稿にフィードバックをご提供いただいた皆様に感謝いたします。また、Steve Dowling、Hannah Wong、Elie Georges、Alper Ercetin、Jared Salzano、Allan Diego、Justin Jay Wangを含め、コミュニケーションチームの皆さんの指導と支援にも感謝いたします。最後に、このプロジェクトはその存在なしには実現できなかったであろうラベル付け担当者の皆様にも感謝いたします。

すべてを表示