メインコンテンツにスキップ
OpenAI

2020年5月28日

マイルストーン

言語モデルは少量データ学習に

読み込んでいます...

最近の研究では、テキストの大規模なコーパスに基づいて事前学習を行い、その後特定のタスクでファインチューニングをすることによって、多くの NLP タスクやベンチマークで大きな成果が示されています。この手法は通常、タスクに依存しないアーキテクチャであるものの、特定のタスクに応じた数千または数万の例を含むデータセットでファインチューニングをする必要があります。これに対して、人間は通常ほんの数例から、または簡単な指示だけで新しい言語タスクを実行することができますが、現在の NLP システムはその点で依然として大きな課題を抱えています。ここでは、言語モデルをスケールアップすることで、タスクに依存しない少数ショット(少数の例)で学習するパフォーマンスが大幅に向上し、時には従来の最先端のファインチューニングアプローチに匹敵するレベルに達することを示します。具体的には、従来の非スパース言語モデルよりも10倍多い1750億のパラメータを持つ自己回帰型言語モデル GPT‑3 を学習させ、少数ショット学習の設定でパフォーマンスをテストします。すべてのタスクにおいて、GPT‑3 は勾配更新やファインチューニングなしで適用され、タスクや少数ショットのデモンストレーションはモデルとのテキストのやり取りを通じて指定されます。GPT‑3 は翻訳、質問応答、クローズタスクなどのさまざまな NLP データセットのほか、オンザフライの論理的思考やドメイン適応を必要とするタスク(単語のスクランブル解除、新しい単語を文章に使う、3桁の算術演算を実行するなど)で優れたパフォーマンスを発揮します。同時に、GPT‑3 の少数ショット学習が依然として苦戦するデータセットや、GPT‑3 が大規模なウェブコーパスでの学習に関連する方法論的な問題に直面しているデータセットも特定します。最後に、GPT‑3 は人間の評価者にとって人間が書いた記事と区別するのが難しいニュース記事のサンプルを生成できることが明らかになりました。この結果と GPT‑3 全般の社会的影響について広く考察します。