私たちは会話形式で対話する ChatGPT モデルを学習させてきました。ChatGPT は、対話形式でフォローアップの質問に答えたり、間違いを認めたり、間違った前提に異議を唱えたり、不適切なリクエストを拒否したりすることが可能になります。
ChatGPT は InstructGPT の類似モデルで、プロンプトの指示に従って詳細な回答を提供するよう学習されています。
ChatGPT の長所と短所を知り、ユーザーからのフィードバックを得るために導入しました。研究プレビューの期間中、ChatGPT の利用は無料です。今すぐ chatgpt.com(新しいウィンドウで開く) でお試しください。
サンプル
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)
resultWorkerErr
channel is never closed, which means that the code could potentially hang if the resultWorkerErr
channel is never written to. This could happen if b.resultWorker
never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr
channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
resultWorkerErr
channel is always closed, even if b.resultWorker
never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?このモデルは、InstructGPT と同じ方法で、人間のフィードバックからの強化学習(RLHF)を使って学習させていますが、データ収集の設定がわずかに異なります。私たちは、教師ありファインチューニングを使用して初期モデルを学習させてきました。人間の AI トレーナーが、ユーザーと AI アシスタントの両方の立場で会話をしました。トレーナーがモデル文書の提案にアクセスできるようにし、回答の作成に役立つようにしました。この新しい対話データセットを InstructGPT データセットと組み合わせ、対話形式に変換しました。
強化学習の報酬モデルを作成するには、2つ以上のモデルの回答を品質でランク付けした比較データを収集する必要がありました。このデータを収集するため、AI トレーナーとチャットボットとの会話を収集しました。モデルが作成したメッセージをランダムに選び、いくつかの代替的な完成形をサンプリングし、AI トレーナーにランク付けしてもらいました。これらの報酬モデルで、近似ポリシー最適化を使用してモデルをファインチューニングできます。私たちはこのプロセスを数回繰り返しました。

ChatGPT は、2022年初頭に学習を終了した GPT‑3.5 シリーズのモデルをファインチューニングしています。3.5シリーズに関する詳細はこちら(新しいウィンドウで開く)をご覧ください。ChatGPT と GPT‑3.5 は、Azure AI スーパーコンピューティングインフラストラクチャで学習させてきました。
- ChatGPT は、もっともらしく聞こえても、正しくない回答や意味不明な回答をすることがあります。この問題を解決するのは困難です。なぜなら、(1)RL 学習中に、現時点では真実のソースが存在しない(2)モデルをより慎重に学習すると、正しく回答できる質問を拒否するようになる(3)教師あり学習は、理想的な回答が人間のデモが知っていることではなく、モデルが知っていることに依存する(新しいウィンドウで開く)ため、モデルを誤解させるからです。
- ChatGPT は、入力フレーズの微調整や同じプロンプトを何度も試したりすることに敏感です。例えば、ある質問に対して、ある言い回しでは答えがわからないと言いながら、少し言い方を変えれば正しく回答することができます。
- このモデルは、OpenAI によって学習させた言語モデルであることを繰り返し説明するなど、過度に冗長で特定のフレーズを多用していることがよくあります。これらの問題は、学習データの偏り(トレーナーはより包括的に見える長い回答を好む)や、よく知られている過剰最適化の問題から生じます。1、2
- 理想的には、ユーザーが曖昧なクエリを提供したときに、モデルが明確な質問をすることです。その代わり、現在のモデルは通常、ユーザーの意図を推測します。
- モデルが不適切なリクエストを拒否するように努力はしていますが、有害な指示に反応したり、偏った行動をとったりすることがあります。私たちは Moderation API を使用して、特定の種類の安全ではないコンテンツを警告またはブロックしていますが、現時点では誤検出や誤認識の発生が予想されます。このシステムを改善する取り組みを継続するために、ユーザーからのフィードバックを収集したいと考えています。
本日の ChatGPT の研究リリースは、OpenAI の安全で有用な AI システムの反復型開発の最新ステップです。GPT‑3 や Codex のような以前のモデルの導入から得た多くの教訓が、このリリースで実施されている安全性の緩和策に反映されています。その中には、人間のフィードバックからの強化学習(RLHF)の使用によって達成された有害で不正確な出力の大幅な削減が含まれています。
私たちは、上記のように多くの制限が残っていることを知っており、そのような部分を改善するために定期的にモデルをアップデートする予定です。しかし、ChatGPT にアクセスしやすいインターフェースを提供することで、私たちがまだ認識していない問題についてユーザーからの貴重なフィードバックを得られることも期待しています。
ユーザーの皆さまには、UI を通じて問題のあるモデル出力や、インターフェースの一部でもある外部コンテンツフィルターによる誤検知/誤検出についてのフィードバックも提供していただくことをお勧めします。私たちは、現実世界の非対立的な状況で発生する可能性のある有害な出力に関するフィードバックや、新たなリスクや可能な緩和策を発見し理解するのに役立つフィードバックに特に関心があります。ChatGPT フィードバックコンテスト(新しいウィンドウで開く)3 に参加すると、最大$500の API クレジットを獲得するチャンスがあります。A エントリーは、ChatGPT インターフェースにリンクされているフィードバックフォームから送信できます。
以前の導入が今回の導入に役立ったように、今回のリリースから得た教訓を、より高性能なシステムの導入に活かしていきたいと考えています。
脚注
- A
購入の必要はありません。禁止されている地域では無効です。エントリーは18歳以上である必要があります。コンテストの詳細については、公式ルール(新しいウィンドウで開く)をご覧ください。
参照
- 1
Stiennon, Nisan他。“Learning to summarize with human feedback(新しいウィンドウで開く).”Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman, and Jacob Hilton。“Scaling Laws for Reward Model Overoptimization(新しいウィンドウで開く).” arXiv preprint arXiv:2210.10760 (2022).
- 3
このコンテストは、Kenway、Josh、Camille François、Sasha Costanza-Chock、Inioluwa Deborah Raji、Joy Buolamwini の作品からインスピレーションを得たものです。 Bug Bounties For Algorithmic Harms?Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress.Washington, DC:Algorithmic Justice League.2022年1月。https://ajl.org/bugs(新しいウィンドウで開く) から入手できます。Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, and Gretchen Krueger他。“Toward Trustworthy AI Development:Mechanisms for Supporting Verifiable Claims,”(2020年4月)もご覧ください。https://arxiv.org/abs/2004.07213(新しいウィンドウで開く) から入手できます。HackerOne で、このような大会が行われた以前の例をご覧ください。2021b.“Twitter Algorithmic Bias.”HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(新しいウィンドウで開く).最後に、このトピックに関する初期の公開論文として、Rubinovitz, JB, “Bias Bounty Programs as a Method of Combatting Bias in AI,”(2018年8月)をご覧ください。https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(新しいウィンドウで開く).から入手できます。
著者
OpenAI謝辞
貢献者:John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse