OpenAI におけるディープラーニングのスケール拡大の取り組みにおいて、最新のマイルストーンとなるのが GPT‑4 です。画像とテキストの両方を入力として受け取り、テキストを出力する大規模なマルチモーダルモデルです。現実世界の多くの場面では人間に及ばないものの、専門的・学術的なさまざまなベンチマークで人間並みのパフォーマンスを発揮します。たとえば GPT‑4 は、模擬司法試験で合格圏に入り、受験者の上位 10% 程度のスコアを記録しました。これは、下位 10% 程度だった GPT‑3.5 との大きな違いです。当社では、敵対的テストプログラムや ChatGPT で得た知見を活用し、6 か月間にわたって GPT‑4 を調整しました。完全ではないものの、正確性や操作性、制限の順守において過去最高の成果を達成しました。
過去 2 年以上にわたり、当社はディープラーニングスタック全体を見直し、Azure と連携して作業量に最適化されたスーパーコンピューターをゼロから再設計しました。1 年前には、システム初の「テストラン」として GPT‑3.5 の学習を実施しました。いくつかのバグを発見して修正し、理論的基礎を改善しました。この結果、GPT‑4 の学習はかつてないほど安定し、私たちにとって初めて、事前にパフォーマンスを正確に予測できる大規模モデルとなりました。当社は今後も、信頼性の高いスケーリングを重視し、安全性の観点から重要と考える将来の機能を早い段階で予測し、準備に活かせる方法論を洗練させていきます。
当社では、GPT‑4 のテキスト入力機能を ChatGPT と API (順番待ちリスト付き) 経由で公開します。画像入力機能をより広く利用できるようにするために、まず単一のパートナー(新しいウィンドウで開く)と密に連携しています。また、AI モデルのパフォーマンスを自動評価するフレームワークである OpenAI Evals(新しいウィンドウで開く) をオープンソース化し、誰もがモデルの課題を報告し、改善に貢献できるようにしました。
日常的な会話では、GPT‑3.5 と GPT‑4 の違いがあまり感じられない場合があります。ただし、タスクの複雑さが一定のしきい値を超えると、違いがはっきりと現れます。GPT‑4 は GPT‑3.5 よりも高い信頼性と創造性を持ち、より繊細な指示にも対応できます。
2 つのモデルの違いを明らかにするため、人間向けに設計された模擬試験を含む、幅広いベンチマークでのテストを行いました。これらの作業には、最新の公開試験 (オリンピック形式や AP の自由回答問題など) や、2022 ~ 2023 年版の模擬試験を購入して使用しました。これらの試験に対し、モデル向けの特別な学習は一切行っていません。一部の試験問題は学習中にモデルが参照していた可能性がありますが、全体としては代表的な結果であると当社は判断しています。詳細については、当社のテクニカル レポート(新しいウィンドウで開く)をご覧ください。
内部リファレンス 1
GPT‑4 は、機械学習モデル向けに設計された従来のベンチマークでも評価を行いました。その結果、GPT‑4 はベンチマーク専用の訓練や追加プロトコルがある多くの最先端 (SOTA) モデルと並び、既存の大規模言語モデルを大きく上回る成果を示しました。
既存の多くの ML ベンチマークは英語で構成されています。そこで当社は、他言語でのパフォーマンスを調査するために Azure Translate を使用し、MMLU ベンチマーク (57 科目、14,000 問の多肢選択問題) を複数の言語に翻訳しました (詳細は付録を参照)。テスト対象となった 26 言語のうち 24 言語において、GPT‑4 はラトビア語、ウェールズ語、スワヒリ語などのリソースが少ない言語でも、英語の GPT‑3.5 や他の LLM (Chinchilla、PaLM) を上回るパフォーマンスを発揮しました。
当社社内でも GPT‑4 を活用しており、サポートや営業、コンテンツモデレーション、プログラミングなど、さまざまな分野で大きな影響を与えています。また、人間による AI 出力の評価にも GPT‑4 を活用し、アライメント戦略の第 2 フェーズを始動しました。
GPT‑4 は、テキストと画像の両方を含むプロンプトを受け付け、視覚的・言語的なタスクをテキストベースで処理することができます。たとえば、テキストと画像が混在する入力に対し、自然言語やコードなどのテキスト出力を生成します。GPT‑4 は、テキスト、写真、図、スクリーンショットを含むドキュメントなど、さまざまな形式の入力において、テキストのみの入力と同等の能力を発揮します。さらに、少量データや思考の連鎖(新しいウィンドウで開く)プロンプトなど、テキストのみの言語モデル向けに開発された手法も組み合わせて使用可能です。なお、画像入力機能は現在、研究プレビュー段階にあり、一般には未公開です。
当社では、GPT‑4 の画像処理パフォーマンスを、限られた範囲の標準的な学術ビジョンベンチマークで評価しています。ただし、対応可能な新しいタスクは次々と発見されており、こうしたベンチマークの数値だけでは、GPT‑4 のパフォーマンス全体を測ることはできません。今後は、さらなる分析結果や評価指標、テスト時手法の有効性について、詳細な調査結果を公開する予定です。
internal footnoteA
操作性を含めた AI の動作の定義に関する投稿で概説したとおり、プランの各側面に取り組んできました。従来の ChatGPT における固定されたトーンやスタイルに代わり、開発者 (および今後は ChatGPT のユーザー) も、「システム」メッセージを使って AI のスタイルやタスクを柔軟に指定できるようになりました。API ユーザーは、システムメッセージを活用することで、制限の範囲内(新しいウィンドウで開く)でユーザー体験を大きくカスタマイズできます。当社ではこの点においても改善を続けており、特に現行モデルにおいてシステム メッセージが「ジェイルブレイク」の最も容易な手段であること、つまり制限順守が完全ではないことを認識しています。ぜひご利用いただき、ご意見をお寄せください。
GPT‑4 には優れた機能がある一方で、これまでの GPT モデルと同様の制限があります。最も重要なのは、依然として完全には信頼できない点です (事実を「誤認」したり、推論ミスを起こすことがあります)。言語モデル出力を使用する場合、特に重要なコンテキストにおいては、目的のユースケースのニーズに合った正確なプロトコル (人間によるレビュー、追加のコンテキストによる補強、あるいは使用自体を控えるなど) を慎重に適用する必要があります。
依然として課題は残りますが、GPT‑4 はこれまでのモデル (それぞれ改良を重ねてきました) と比べ、誤認の頻度が大幅に低下しています。内部の敵対的事実性評価では、GPT‑4 は最新版の GPT‑3.5 よりも 40% 高いスコアを記録しました。
また、TruthfulQA など、誤情報の中から事実を見極める力を測る外部ベンチマークでも進歩を見せています。これらのベンチマークでは、見た目にはもっともらしいものの、実際には誤った回答が含まれています。
出力にはさまざまなバイアスが含まれる可能性があり、この点では改善が見られるものの、まだ課題が残っています。当社の最近のブログでも述べたとおり、私たちは幅広いユーザーの価値観を反映した合理的なデフォルトの動作を備えた AI システムを構築し、それらを柔軟にカスタマイズできるようにしつつ、カスタマイズの基準についても社会の意見を反映させることを目指しています。
GPT‑4 は通常、データの大部分が収集された 2021 年 9 月以降の出来事についての知識を持っておらず、経験から学習することもできません。時には、高度な能力を持つはずのモデルが、ごく単純な推論ミスを犯したり、明らかに虚偽と思われるユーザーの主張を鵜呑みにしてしまうこともあります。また、生成したコードにセキュリティ上の脆弱性が含まれるなど、人間と同様に難しい課題に取り組んで失敗する場合もあります。
GPT‑4 は、誤りが起きそうなときでも作業を見直すことなく、自信を持って誤った予測をしてしまうことがあります。興味深いのは、事前学習されたベースモデルは高度にキャリブレーションされており、予測された信頼度は実際の正答確率と概ね一致しています。ただし、現行の追加学習プロセスによって、そのキャリブレーションが失われる傾向があります。
私たちは、GPT‑4 をより安全かつ整合性のあるシステムにするため、事前学習データの選別とフィルタリング、評価体制の強化、専門家の協力、安全性向上策の実装、モニタリング体制の整備など、継続的に改良を重ねてきました。
とはいえ、GPT‑4 も従来のモデルと同様に、有害なアドバイス、バグを含むコード、不正確な情報を生成するリスクがあります。さらに、GPT‑4 の機能拡張によって、新たなリスクも生まれています。そのリスクを把握するため、AI アライメント リスク、サイバーセキュリティ、バイオリスク、信頼と安全、国際安全保障などの分野から 50 人以上の専門家を招き、モデルの敵対的テストを実施しました。この取り組みにより、特に専門的知識が求められる高リスク領域におけるモデルの動作を詳しく評価できるようになりました。専門家からのフィードバックや得られたデータは、モデルの改善に活用されました。たとえば、危険な化学物質の合成方法に関するリクエストを拒否する精度を高めるため、追加のトレーニングデータを収集しました。
GPT‑4 では、RLHF の学習プロセスにおいて、安全性に関する報酬シグナルを追加することで、利用ガイドライン(新しいウィンドウで開く)に反する出力 (有害なコンテンツなど) を減らしています。この報酬は、安全性に関わるプロンプトに対して GPT‑4 がゼロショット分類で適切な境界と出力スタイルを判断することで得られます。一方で、モデルが正当なリクエストを誤って拒否してしまうことを防ぐために、ラベル付けされた運用データ、人間によるレッドチーミング、モデル自身が生成したプロンプトなど、多様なソースからデータを集め、安全報酬シグナル (正または負) を許可・非許可のカテゴリに対して適用しています。
こうした対策の結果、GPT‑4 は GPT‑3.5 に比べて多くの安全性指標で大幅に改善しました。たとえば、禁止されたコンテンツのリクエストに対し、モデルがそれに応じる確率は 82% 減少しています。また、医療アドバイスや自傷行為に関するセンシティブなリクエストに対しては、GPT‑4 の方がポリシーに沿った対応を行う割合が 29% 高くなりました。
全体として、モデルレベルでの制御により、悪意ある利用を引き出すのは難しくなりましたが、完全に防ぐことはまだできていません。さらに、利用ガイドラインに違反するコンテンツを生成させる「ジェイルブレイク」の手法も依然として存在します。AI システムが持つ「トークンあたりのリスク」が高まるにつれ、これらの制御手段で非常に高い信頼性を実現することが求められます。現時点では、不正利用の監視など、運用上の安全対策でこれらの限界を補う必要があります。
GPT‑4 や今後のモデルは、良くも悪くも、社会に大きな影響を与える可能性があります。私たちは、外部の研究者とも連携しながら、こうした影響の評価方法を改善し、将来的に登場し得るリスクの高い機能の検証体制を構築しています。GPT‑4 をはじめとした AI システムの社会的・経済的影響についての当社の見解は、近日中に改めて共有する予定です。
GPT‑4 ベースのモデルは、これまでの GPT モデルと同様に、ドキュメント内の「次の単語」を予測する形で学習されており、公開データ (インターネット上の情報など) とライセンス契約に基づくデータを用いて学習されています。学習に使用されたのは、数学問題の正誤例、強い・弱い推論、一貫性のある発言と矛盾した発言など、さまざまな思想や価値観を含む、ウェブ規模の多様なコーパスです。
そのため、プロンプトによっては、ベースモデルがユーザーの意図から大きく外れた形で回答を返す可能性があります。そこで私たちは、モデルの動作を制御し、ユーザーの意図に沿うようにするため、人間のフィードバックを活用した強化学習 (RLHF) によってモデルを微調整しています。
ただし、モデルの能力の多くは事前学習の段階で獲得されており、RLHF によって試験成績が向上することはありません (積極的な対策を講じない限り、むしろ性能が下がることもあります)。実際、モデルがプロンプトに「質問に答える必要がある」と気づくためには、学習後のプロセスでプロンプトエンジニアリングが必要になることもあります。
GPT‑4 プロジェクトにおける大きな焦点の 1 つは、予測可能な拡張性を持つディープラーニング基盤の構築です。これは、GPT‑4 のような大規模モデルにおいては、モデル固有の微調整を広範に行うことが現実的でないためです。私たちは、さまざまなスケールにわたって一貫した動作を示すよう、インフラと最適化手法の開発に取り組んできました。このスケーラビリティの検証として、学習セットに含まれていない内部コードベースを対象に、計算量が 1/10,000 のモデルから GPT‑4 の最終損失 (loss) を高精度に予測することに成功しました。
損失の予測が可能になったことで、今後はより解釈しやすい評価指標を予測する手法の開発も進めています。たとえば、計算量が 1/1,000 のモデルを使って、HumanEval(新しいウィンドウで開く) データセットの一部に対する合格率を予測することにも成功しました
とはいえ、すべての機能について予測できるわけではありません。たとえば Inverse Scaling Prize は、モデルが大きくなるほど成績が悪化する指標を探すコンテストでしたが、その中の 1 つ「hindsight neglect (後知恵の無視)」(新しいウィンドウで開く)が受賞しました。しかし、GPT‑4 は他の最近の結果(新しいウィンドウで開く)と同様に、このような傾向を逆転させています。
私たちは、将来の機械学習システムの性能を正確に予測することが、AI の安全性において重要であるにもかかわらず、その重要性に対して十分な関心が寄せられていないと感じています (もっとも、複数の組織による取り組みには励まされています)。今後は、将来登場するシステムに何が期待できるのか、社会に対してより明確な指針を提示できるような手法の開発に注力していきます。そして、それがこの分野の共通目標となることを願っています。
私たちは、GPT‑4 をはじめとするモデルの性能を評価するためのベンチマークと、個別サンプル単位でのパフォーマンス確認が可能なソフトウェアフレームワーク OpenAI Evals(新しいウィンドウで開く) をオープンソースとして公開しています。Evals は、モデルの欠陥の特定や性能低下の防止など、モデル開発のあらゆる段階で活用されています。また、今後定期的にリリースされる予定のモデルのバージョンごとにパフォーマンスを追跡したり、製品統合の変化に適用することもできます。たとえば Stripe 社は、GPT を活用したドキュメント ツールの精度を測定するために、Evals を人手による評価の補完手段として使用しました。
Evals はすべてオープンソースで提供されており、独自の評価ロジック(新しいウィンドウで開く)を実装できるよう、新しいクラスの作成にも対応しています。さらに、多くのベンチマークがいくつかの「テンプレート」に基づいていることから、内部的に最も有用だったテンプレートを含めています(新しいウィンドウで開く) (「モデルグレード evals」テンプレートでは、GPT‑4 が自身の出力を驚くほどよくチェックできることも判明しています)。新しい Eval を構築する(新しいウィンドウで開く)最も効果的な方法は、こうしたテンプレートの 1 つをベースに、必要なデータを提供していくことです。他のユーザーがこれらのテンプレートや Evals を使って、どのような評価システムを構築するのか、私たちもとても楽しみにしています。
私たちは、Evals がさまざまな障害モードや困難なタスクを網羅するベンチマークを共有し、クラウドソーシングのプラットフォームとなることを目指しています。その一例として、GPT‑4 が失敗する 10 のプロンプトを含んだ論理パズル(新しいウィンドウで開く)の評価を作成したことがあります。また、Evals は既存のベンチマークの実装にも対応しており、学術的ベンチマークを含むノートブック(新しいウィンドウで開く)や、CoQA(新しいウィンドウで開く) (の一部サブセット) を統合した評価バリエーションも含まれています。
ぜひ、Evals を使ってモデルを評価し、興味深い事例があればご共有ください。私たちは、Evals が OpenAI のモデルを活用し、その上にシステムを構築していくための重要なツールになると信じており、皆さまからの貢献や質問、フィードバック(新しいウィンドウで開く)を歓迎しています。
ChatGPT Plus に登録されている方は、chatgpt.com(新しいウィンドウで開く) 上で GPT‑4 をご利用いただけます (利用上限があります)。実際の需要やシステムのパフォーマンスに応じて、利用上限は調整されますが、当初はキャパシティに大きな制限がかかる見込みです (今後数か月をかけて、段階的に拡張・最適化を行っていく予定です)。
また、今後のトラフィックの傾向によっては、GPT‑4 を大量に利用したい方向けに新たなサブスクリプションプランを導入する可能性もあります。加えて、サブスクリプション未加入の方にもお試しいただけるよう、一定量の GPT‑4 クエリを無料で提供することを検討しています。
GPT‑4 API (gpt-3.5-turbo と同じ ChatCompletions API(新しいウィンドウで開く) を使用) をご利用いただくには、順番待ちリストにご登録ください。本日より、開発者の方々への招待を開始しており、今後はキャパシティと需要のバランスを見ながら段階的にスケールを拡大していきます。AI の社会的影響や調整に関する研究を行っている研究者の方は、研究者向けアクセスプログラムを通じて、補助金付きでの利用申請も可能です。
アクセス権を取得された方は、テキスト入力のみを使って gpt-4 モデル (画像入力は現在、限定的なアルファ段階) にリクエストを送信できます。時間の経過とともに、新たな安定バージョンが提供され、自動的に更新されます (バージョンを固定したい場合は gpt-4-0314 を指定できます。このバージョンは 6 月 14 日までサポートされます)。料金は、プロンプトトークン 1,000 個あたり 0.03 ドル、完了トークン 1,000 個あたり 0.06 ドルとなっています。デフォルトのレート制限は、1 分あたり 40,000 トークン、もしくは 1 分あたり 200 件のリクエストです。
gpt-4 のコンテキスト長は 8,192 トークンです。また、コンテキスト長が 32,768 トークン (およそ 50 ページ分のテキスト) に対応した gpt-4-32k への限定アクセスも提供しています。このバージョンも時間の経過とともに自動で更新されます (現在のバージョンである gpt-4-32k-0314 は、6 月 14 日までサポートされます)。料金は、プロンプトトークン 1,000 個あたり 0.06 ドル、完了トークン 1,000 個あたり 0.12 ドルとなっています。ロング コンテキスト モデルの品質は現在も改善中であり、皆さまの具体的なユースケースでのフィードバックをぜひお寄せください。なお、8K と 32K のエンジンはキャパシティ状況に応じて別々のレートで処理されるため、利用可能なタイミングが異なる場合があります。
私たちは、GPT‑4 がさまざまなアプリケーションに活用され、人々の生活を向上させる有用なツールとなることを期待しています。やるべきことはまだ多く残されていますが、このモデルは、構築・研究・貢献を担うコミュニティの協力によって、今後さらに進化していくと信じています。
他言語に翻訳された MMLU の質問例です。選択肢は一貫して A ~ D のトークンが使用されています。
脚注
- A
このベンチマークは、コンテキスト内の学習セットからの4つの例を使用して、思考の連鎖プロンプトによって評価されています。特定のプロンプトは、検証セットで調整されました。
参考文献
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext).さらなる分析については、論文(新しいウィンドウで開く)をご覧ください。


