本日、ChatGPT(GPT‑5.4 Thinking として)、API、および Codex で GPT‑5.4 をリリースします。業務用途向けとして、当社で最も高性能かつ効率的なフロンティアモデルです。また、複雑なタスクで最大限のパフォーマンスを求める方のために、ChatGPT と API で GPT‑5.4 Pro もリリースします。
GPT‑5.4 は、推論、コーディング、エージェント型ワークフローにおける最近の進歩の長所を、1つのフロンティアモデルに統合しています。GPT‑5.3‑Codex の業界最先端のコーディング能力を取り入れています。さらに、ツールやソフトウェア環境、スプレッドシート、プレゼンテーション、ドキュメントを扱うプロフェッショナルなタスク全体で、モデルの動作も改善しています。その結果、複雑な実務を正確かつ効果的に、効率よくこなすモデルが実現しました。より少ないやり取りで、求められた成果を提供します。
ChatGPT では、GPT‑5.4 Thinking は思考の進め方を回答の冒頭で示せるようになりました。これにより、返答の途中でも方針を調整でき、 追加のやり取りをせずに、求めている結果により近い回答に導けます。GPT‑5.4Thinking はウェブ調査も強化されており、特に非常に具体的なクエリで効果を発揮します。また、より長い思考を必要とする質問でも、文脈をより適切に維持できるようになりました。これらの改善により、より高品質な回答をより速く提供でき、目の前のタスクに対する関連性も保てるようになりました。
Codex と API では、GPT‑5.4 は、ネイティブで最先端のコンピュータ操作能力を備えた、当社初の汎用モデルです。これにより、エージェントがコンピュータを操作し、複数のアプリケーションにまたがる複雑なワークフローを実行できるようになります。最大100万トークンのコンテキストをサポートし、エージェントが長い工程にわたるタスクを計画、実行、検証できるようにします。GPT‑5.4 は、tool search により、ツールやコネクターの大規模なエコシステムでもモデルがより適切に動作するよう改善しています。その結果、エージェントは知能を損なうことなく、適切なツールをより効率的に見つけて利用できます。最後に、GPT‑5.4 はこれまでで最もトークン効率の高いリーズニングモデルであり、GPT‑5.2 と比べて問題解決に使用するトークン数を大幅に削減しています。これにより、トークン使用量の削減と処理速度の向上を実現しています。
一般的な推論、コーディング、知識業務における進歩とあわせて、GPT‑5.4 は、ChatGPT、API、Codex 全体で、より信頼性の高いエージェント、より高速な開発者ワークフロー、そしてより高品質な出力を可能にします。
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval(勝利・引き分けの割合) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro(公開版) | 57.7% | 56.8% | 55.6% |
OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*以前は64.7%と報告されていました。GPT‑5.3‑Codex は、元の画像解像度を保持する新しい API パラメータを使用することで、74.0%を達成しています。
GPT‑5.2 の汎用的な推論能力を基盤として、GPT‑5.4 は、専門職の実務に関わるタスクで、より一貫性があり洗練された結果を生み出します。
GDPval は、44職種にわたる明確に定義された知識業務の成果物をエージェントが作成できるかを評価するベンチマークです。この GDPval で GPT‑5.4 は新たな最先端の性能を達成しました。83.0%の比較で業界の専門職と同等以上の結果となり、GPT‑5.2 の71.0%を上回っています。
GDPval では、米国 GDP に大きく寄与する上位9産業の44職種にわたる、明確に定義された知識業務タスクにモデルが取り組みます。これらのタスクでは、営業用プレゼンテーション、会計スプレッドシート、救急診療のスケジュール、製造図面、短編動画など、実際の成果物の作成が求められます。GPT‑5.4 では Reasoning effort を xhigh に、GPT‑5.2 では heavy に設定しました(ChatGPT ではやや低いレベルに相当します)。
「GPT-5.4 は、これまで試した中で最高のモデルです。プロフェッショナルサービス業務におけるモデル性能を測定する当社の APEX-Agents ベンチマークでも、現在トップに立っています。スライド資料、財務モデル、法的分析といった長期的な作業を伴う成果物の作成に特に優れており、競合するフロンティアモデルよりも高速かつ低コストでありながら、最高水準の性能を発揮します。」
特に、スプレッドシート、プレゼンテーション、ドキュメントの作成と編集能力の向上に重点を置きました。初級レベルの投資銀行アナリストが行うようなスプレッドシートのモデリング業務を想定した社内ベンチマークでは、GPT‑5.4 の平均スコアは87.5%に達し、GPT‑5.2 の68.4%を大きく上回りました。プレゼンテーション評価用プロンプトでは、人間の評価者は68.0%の比較で GPT‑5.4 のプレゼンテーションを GPT‑5.2 より好むと評価しました。これは、デザイン性の高さ、視覚表現の多様さ、そして画像生成のより効果的な活用が理由です。

ドキュメントは、Reasoning effort を xhigh に設定して生成されました。
これらの機能は、ChatGPT で GPT‑5.4 Thinking または Pro を選択して試すことができます。Enterprise をご利用のお客様には、本日公開した Excel と Google スプレッドシート向けの ChatGPT プラグイン(新たにリリース)(新しいウィンドウで開く)をご利用いただくことをおすすめします。Codex と API で利用できる スプレッドシート(新しいウィンドウで開く)とプレゼンテーションの機能(新しいウィンドウで開く) も更新しました。
GPT‑5.4 を実務でより役立つモデルにするため、ハルシネーションや誤りの削減に向けた取り組みを引き続き進めてきました。GPT‑5.4 は、これまでで最も事実性の高いモデルです。ユーザーが事実誤りを指摘した匿名化済みプロンプトのセットで評価したところ、個々の主張が誤っている確率は、GPT‑5.2と比べて相対的に33%低く、回答全体に何らかの誤りが含まれる確率も相対的に18%低いことが確認されました。
「GPT-5.4 は、文書量の多い法務業務において新たな基準を打ち立てました。当社の BigLaw Bench 評価では91%のスコアを記録しています。他のモデルと比べて、GPT-5.4 は複雑な取引分析の構造化、長大な契約書にわたる正確性の維持、そして法務専門家が求める高い詳細度の提供において優れています。」
GPT‑5.4 は、ネイティブのコンピュータ操作能力を備えた当社初の汎用モデルであり、開発者とエージェントの双方にとって大きな前進となります。ウェブサイトやソフトウェアシステムにまたがる実際のタスクを実行するエージェントを構築する開発者にとって、現在利用できる中で最も優れたモデルです。
GPT‑5.4 は、幅広いコンピュータ操作ワークロードで高い性能を発揮できるよう設計されています。Playwright などのライブラリを使ってコンピュータを操作するコードの生成に優れているほか、スクリーンショットに応じてマウスやキーボードの操作コマンドを出すことも得意です。開発者メッセージによって挙動を調整できるため、特定のユースケースに合わせてモデルの動作を調整できます。カスタムの確認ポリシーを指定することで、リスク許容度の違いに応じてモデルの安全性に関する挙動を設定することも可能です。
モデルの性能と柔軟性は、さまざまな環境でのコンピュータ操作を評価するベンチマークでも確認されています。スクリーンショットとキーボード/マウス操作によるデスクトップ環境の操作能力を測定する OSWorld-Verified では、GPT‑5.4 は最先端となる成功率75.0%を達成しました。これは GPT‑5.2 の47.3%を大きく上回り、人間の成績である72.4%も上回っています。1
ブラウザ操作を評価する WebArena-Verified では、DOM とスクリーンショットの両方に基づく操作を用いた場合、GPT‑5.4 は67.3%の成功率を達成しました。GPT‑5.2 の65.4%を上回る結果です。同じくブラウザ操作を評価する Online-Mind2Web では、スクリーンショットのみを用いた場合、GPT‑5.4 は92.8%の成功率を達成しました。これは、成功率70.9%の ChatGPT Atlas のエージェントモードを上回る結果です。
ツールの yield とは、アシスタントがツールの応答を待つために処理を一時的に保留することです。たとえば、3つのツールが並列で呼び出され、その後さらに3つのツールが並列で呼び出された場合、yield の回数は2になります。ツールの yield は並列化の利点を反映するため、ツール呼び出し回数よりもレイテンシの指標として適しています。
GPT‑5.4 はブラウザインターフェースのスクリーンショットを解釈し、座標ベースのクリック操作で UI 要素とやり取りして、メールの送信やカレンダーイベントの作成を行います。
GPT‑5.4 のコンピュータ操作能力の向上は、モデル全体の視覚認識能力の向上に支えられています。モデルの視覚理解と推論を評価する MMMU-Pro では、GPT‑5.4 はツールを使わない条件で成功率81.2%を達成しました。これは、GPT‑5.2 の79.5%を上回っています。視覚認識能力の向上は、文書解析能力の向上にもつながっています。OmniDocBench では、Reasoning effort を使わない GPT‑5.4 の平均誤差(モデルの予測と正解との正規化編集距離で測定)は0.109となり、GPT‑5.2 の0.140から改善しています。
MMMUPro は、Reasoning effort を xhigh に設定して実行しました。OmniDocBench は、低コスト・低レイテンシでの性能を反映するため、Reasoning effort を none に設定して実行しました。
また、細部までの再現性が重要となる高密度・高解像度画像の視覚理解も改善しています。GPT‑5.4 から、新たに original の画像入力ディテール(新しいウィンドウで開く)レベルを導入しました。これにより、総画素数10.24Mピクセルまたは最大辺6000ピクセルのうち低い方まで、細部まで忠実に画像を認識できます。また high の画像入力ディテールレベルでも、総画素数2.56Mピクセルまたは最大辺2048ピクセルのうち低い方まで対応しています。API ユーザーとの初期テストでは、original または high のディテールを使用した場合、位置認識能力、画像理解、クリック精度が大きく向上することが確認されました。
「約3万の HOA(住宅所有者組合)や固定資産税ポータルを対象に、コンピュータ操作性能を評価した当社のテストでは、GPT-5.4 は初回試行で95%の成功率、3回以内では100%の成功率を達成しました。従来の CUA モデルでは約73〜79%でした。また、トークン使用量を約70%削減しながら、セッションを約3倍の速度で完了しました。これにより、大規模運用における信頼性とコスト効率が大きく向上します。」
API では、開発者は更新された computer ツールを使って、これらの機能にアクセスできます。推奨されるベストプラクティスについては、更新されたドキュメント(新しいウィンドウで開く)をご参照ください。
GPT‑5.4 は、GPT‑5.3‑Codex のコーディング能力に加え、知識業務とコンピュータ操作の分野で最先端の能力を備えています。これらは、モデルがツールを使いながら反復的に作業を進め、人手による介入を最小限に抑えて長時間のタスクを処理する場面で特に効果を発揮します。SWE-Bench Pro では GPT‑5.3‑Codex と同等以上の性能を示しつつ、推論負荷の各設定においてより低いレイテンシを実現しています。
当社では、モデルの本番環境での挙動を確認し、それをオフラインでシミュレーションすることでレイテンシを推定しています。レイテンシの推定では、ツール呼び出しの所要時間(コード実行時間)、サンプリングされたトークン、入力トークンを考慮しています。実際のレイテンシは大きく変動する可能性があり、当社のシミュレーションでは捉えきれない多くの要因に左右されます。Reasoning effort は none から xhigh までの範囲で検証しました。
Codex で /fast モードをオンにすると、GPT‑5.4 のトークン生成速度が最大1.5倍向上します。モデルや知能はそのままに、処理速度だけが向上します。これにより、ユーザーは作業の流れを途切れさせることなく、コーディング、反復作業、デバッグを進められます。開発者は、API の優先処理(新しいウィンドウで開く)を利用することで、同様の高速処理で GPT‑5.4 を利用できます。
評価および社内テストでは、GPT‑5.4 が複雑なフロントエンドタスクで特に優れた性能を示すことが確認されました。これまでに公開したどのモデルよりも、見た目の完成度と機能性の両面で優れた成果を生み出します。
モデルの向上したコンピュータ操作能力とコーディング能力が連携して機能することを示す例として、実験的な Codex スキル「Playwright (Interactive)(新しいウィンドウで開く)」も公開します。これにより Codex は、ウェブアプリや Electron アプリを画面を確認しながらデバッグできるようになります。さらに、アプリを構築しながらその場でテストを実行することも可能です。
細かな指定をほとんど含まない1つのプロンプトから GPT‑5.4 を使って作成した、テーマパーク経営シミュレーションゲーム。ブラウザでのプレイテストには Playwright Interactive を使用し、アイソメトリック視点のゲームアセットは画像生成で作成しています。このシミュレーションには、タイルベースの通路配置、アトラクションや景観オブジェクトの建設、来園者の経路探索、待ち行列、アトラクションの稼働サイクルなどが含まれています。また、資金、来園者数、満足度、清潔度、評価といったパーク指標は、レイアウトの出来や来園者の反応に応じて増減します。Playwright を使ってブラウザでのプレイテストを自動化し、パークの建設や拡張、通路やアトラクションの設置・撤去、カメラ操作の確認を行いました。また、複数回のプレイを通じて、来園者の動き、待ち行列、アトラクションの状態、UI の指標が正しく更新されることを検証しました。
プロンプト:$playwright-interactive と $imagegen を使用してください。ブラウザ上で建設・操作できる、インタラクティブなアイソメトリック視点のテーマパークシミュレーションゲームを作成してください。imagegen を使って全体のビジュアルコンセプトを定め、アトラクション、通路、地形、木、水面、フードスタンド、装飾、建物、アイコン、UI イラストなど、ゲームに必要なアセットを生成してください。世界観は統一感があり、洗練され、視覚的に豊かなものにしてください。アイソメトリック視点でも映える高品質なアートディレクションを目指します。通路の設置や撤去、アトラクションの追加、景観オブジェクトの配置ができ、来園者の動きやアトラクションの状態、パークの成長を確認しながら園内をスムーズに移動できるようにしてください。来園者の自然な移動や、資金・清潔度・待ち行列・満足度などのシンプルなパーク管理要素も含めてください。粗い試作のようではなく、遊び心があり、分かりやすく、完成されたゲーム体験になるようにしてください。リアリズムよりも、魅力や読みやすさ、そして心地よいゲーム体験を優先してください。
プレイテストでは、複数ラウンドにわたってパークを建設・拡張し、配置や操作がスムーズに機能することを確認してください。また、来園者がパークのレイアウトやアトラクションに反応すること、ビジュアル、UI、操作体験が安定しており一体感があることも検証してください。
当社のエンジニアは、GPT-5.4 は以前のモデルよりも自然で、よりはっきりした回答をすると感じています。曖昧な問題にも判断を疑うことなく取り組み、作業を止めないよう、処理を積極的に並列化します。」
GPT‑5.4 では、外部ツールと連携して動作する際のモデルの挙動を大きく改善しました。エージェントは、より大規模なツールエコシステムに対応し、適切なツールをより高い信頼性で選択できるようになりました。また、コストとレイテンシを抑えながら、複数ステップのワークフローを完了できます。
API では、GPT‑5.4 に tool search(新しいウィンドウで開く) を導入しました。これにより、多数のツールが与えられた場合でも、モデルが効率的に処理できます。
以前は、モデルにツールが与えられると、すべてのツール定義が最初からプロンプトに含まれていました。ツール数が多いシステムでは、これにより各リクエストに数千、場合によっては数万トークンが追加されることがありました。その結果、コストが増え、応答速度が低下し、モデルが実際には使わない可能性のある情報で、コンテキストが埋まってしまうこともありました。
Tool search では、GPT‑5.4 が受け取るのは利用可能なツールの簡易的な一覧と tool search 機能だけです。モデルがツールを使う必要が生じた時点で、そのツールの定義を検索し、その場で会話に追加できます。
この方法により、ツールを多用するワークフローで必要となるトークン数を大幅に削減できるほか、キャッシュも保持されるため、リクエストの処理はより高速で低コストになります。これにより、エージェントはより大規模なツールエコシステムでも安定して動作できるようになります。数万トークン規模のツール定義を含むことがある MCP サーバーでは、効率の向上は特に大きくなります。
この効率向上を示すため、Scale の MCP Atlas(新しいウィンドウで開く) ベンチマークから250のタスクを用いて評価を行いました。36の MCP サーバーをすべて有効にし、次の2つの構成で比較しています:(1) すべての MCP 機能をモデルのコンテキストに直接公開する構成、(2) すべての MCP サーバーを tool search の背後に配置する構成。Tool search 構成では、同じ精度を維持したまま、総トークン使用量を47%削減しました。
トークン数の例は、MCP-Atlas 公開データセットの250タスクの平均値に基づいています。
GPT‑5.4 ではツール呼び出しも改善されています。特に API では、推論中にいつ・どのようにツールを使うかの判断が、より正確かつ効率的になりました。 GPT‑5.2 と比べて、Toolathlon ではより少ないターン数で高い精度を達成しています。Toolathlon は、AI エージェントが実際のツールや API を使用して複数ステップのタスクをどれだけうまく完了できるかを評価するベンチマークです。たとえばエージェントは、メールを読み取り、課題の添付ファイルを抽出してアップロードし、採点したうえで結果をスプレッドシートに記録する必要があります。
ツールの yield とは、アシスタントがツールの応答を待つために処理を一時的に保留することです。たとえば、3つのツールが並列で呼び出され、その後さらに3つのツールが並列で呼び出された場合、yield の回数は2になります。ツールの yield は並列化の利点を反映するため、ツール呼び出し回数よりもレイテンシの指標として適しています。
レイテンシが重要なユースケースでは、Reasoning effort を None に設定することが望ましい場合があります。こうした条件でも、GPT‑5.4 は以前のモデルより性能が向上しています。
τ2-bench(新しいウィンドウで開く) では、モデルはツールを使ってカスタマーサービスのタスクを完了する必要があります。この環境では、やり取りしながらシミュレーション環境(システム側)の状態を操作できるユーザー役が登場する場合があります。Reasoning effort は None に設定しました。
GPT‑5.4 はエージェント型ウェブ検索の性能も向上しています。AI エージェントがウェブを繰り返し検索し、見つけにくい情報をどれだけ発見できるかを測る BrowseComp では、GPT‑5.4 は GPT‑5.2 を17ポイント上回り、GPT‑5.4 Pro は89.3%で新たな最高水準を達成しました。
実際には、GPT‑5.4 Thinking は、ウェブ上の多くの情報源から情報を集めて答える必要がある質問にも、より適切に答えられるようになりました。複数回にわたって粘り強く検索し、最も関連性の高い情報源を特定できます。特に「干し草の山から針を探すような」質問でも、情報を統合して明確で筋の通った回答を生成できます。
BrowseComp では、汚染を防ぎ、公正に性能を測定できるよう、ベンチマークの解答を含むウェブサイトを評価対象から除外する検索ブロックリストを使用しました。GPT‑5.4 は GPT‑5.2 より後の時点で測定されました。そのため、スコアにはモデル、当社の検索システム、そしてインターネットの状況の変化が反映されています。GPT‑5.4 は、より長い更新版のブロックリストでテストされました。モデルは ChatGPT の検索ツールを使用しますが、API 検索とはわずかな違いがある場合があります。
「GPT-5.4 xhigh は、複数ステップのツール利用において新たな最先端の性能を示しています。Zapier は業界でも特に厳格なツール利用ベンチマークを実施しており、数百に及ぶ高度な実際の業務ワークフローでモデルをテストしています。GPT-5.4 は、これまでのモデルが途中で断念していたタスクも最後まで完了させました。これまでで最も粘り強いモデルです。」
Codex が作業開始時に進め方を示すのと同様に、ChatGPT の GPT‑5.4 Thinking では、より長く複雑なクエリに対して、作業の進め方を前置きとして最初に示すようになりました。返答の途中でも、追加の指示を出したり、進め方を調整したりできます。これにより、最初からやり直したり追加のターンを何度も重ねたりすることなく、望む結果へモデルを導きやすくなります。この機能は現在、chatgpt.com(新しいウィンドウで開く) と Android アプリで利用できます。iOS アプリにも近日対応予定です。
またこのモデルは、難しいタスクではより長く思考しながら、会話のこれまでのやり取りをよりしっかり把握できます。その結果、より長いワークフローや複雑なプロンプトにも対応でき、回答全体を通して一貫性と関連性を保つことができます。
この動画は説明のために再生速度を上げています。
過去数か月にわたり、GPT‑5.4 の展開準備を進めるとともに、GPT‑5.3‑Codex で導入した安全対策の改善を継続してきました。GPT‑5.3‑Codex と同様に、GPT‑5.4 も当社の Preparedness Framework において High cyber capability と位置づけており、System Card に記載されている保護措置を適用したうえで展開しています。これには、拡張されたサイバー安全対策スタックが含まれます。具体的には、監視システム、信頼されたアクセス制御、ゼロデータ保持(ZDR)環境の顧客に対して高リスクのリクエストを非同期にブロックする仕組みなどです。また、より広いセキュリティエコシステムへの継続的な投資も行っています。
サイバーセキュリティ能力は本質的にデュアルユースであるため、当社は展開にあたって予防的なアプローチを維持しつつ、ポリシーや分類器の調整を続けています。ZDR 環境を利用する一部の顧客については、リクエスト単位のブロックが、当社のサイバーリスク軽減のための安全対策スタックの一部として引き続き適用されます。分類器は現在も改善を続けているため、これらの安全対策を改善していく過程で誤検知が発生する可能性があります。これらの更新は、実際の運用環境で安全対策がより適切に機能するよう改善することを目的としています。具体的には、不必要な拒否や過度な前置きを含む回答を減らしつつ、不正利用に対する十分な保護を維持します。
私たちは、モデルがどのように推論するのかをより深く理解し、潜在的な不正行為を検知できるようにするため、Chain-of-Thought(CoT)の監視可能性に関する安全性研究を継続してきました。この取り組みの一環として、モデルが監視を回避するために推論を意図的に曖昧化できるかどうかを測定する、新しいオープンソース評価 CoT controllability を紹介します。GPT‑5.4 Thinking は CoT を制御する能力が低いことが分かりました。これは安全性の観点では望ましい特性であり、モデルが推論を隠蔽しにくいこと、そして CoT モニタリングが引き続き有効な安全手段であることを示しています。
GPT‑5.4 は本日より、ChatGPT と Codex で段階的に提供を開始します。 API では、GPT‑5.4 は gpt-5.4 として本日から利用できます。GPT‑5.4Pro も、API で gpt-5.4-pro として本日から利用できます。最も複雑なタスクで最大限の性能を必要とする開発者向けです。
ChatGPT では本日より、ChatGPT Plus、Team、Pro のユーザーが GPT‑5.4 Thinking を利用できるようになりました。これに伴い、GPT‑5.2 Thinking は GPT‑5.4 Thinking に置き換わります。GPT‑5.2 Thinking は、有料ユーザー向けにモデル選択メニューの「レガシーモデル」セクションから3か月間引き続き利用可能です。その後、2026年6月5日に提供を終了します。Enterprise および Edu プランのユーザーは、管理者設定から早期アクセスを有効にできます。GPT‑5.4Pro は Pro および Enterprise プランでご利用いただけます。ChatGPT における GPT‑5.4 Thinking のコンテキストウィンドウ(新しいウィンドウで開く)は、GPT‑5.2 Thinking から変更ありません。
GPT‑5.4 は、GPT‑5.3‑codex の最先端のコーディング能力を取り入れた、当社初の主力リーズニングモデルです。現在、ChatGPT、API、Codex で順次提供を開始しています。この進化を反映するとともに、Codex でモデルを選びやすくするため、このモデルを GPT‑5.4 と名付けました。今後、Instant モデルと Thinking モデルは、それぞれ異なるペースで進化していく予定です。
Codex の GPT‑5.4 では、100万トークンのコンテキストウィンドウを試験的にサポートしています。開発者は model_context_window と model_auto_compact_token_limit を設定することで、この機能を試すことができます。標準の 272K コンテキストウィンドウを超えるリクエストは、使用量制限の計算では、通常の2倍としてカウントされます。
API では、性能向上を反映し、GPT‑5.4 のトークン単価は GPT‑5.2 より高く設定されています。一方で、トークン効率が向上しているため、多くのタスクでは必要なトークン総数を抑えられます。Batch と Flex の料金は、標準 API 料金の半額で利用できます。一方、優先処理は標準 API 料金の2倍で提供されます。
API モデル | 入力料金 | キャッシュ入力料金 | 出力料金 |
gpt-5.2 | $1.75 / 100万トークン | $0.175 / 100万トークン | $14 / 100万トークン |
gpt-5.4 | $2.50 / 100万トークン | $0.25 / 100万トークン | $15 / 100万トークン |
gpt-5.2-pro | $21 / 100万トークン | - | $168 / 100万トークン |
gpt-5.4-pro | $30 / 100万トークン | - | $180 / 100万トークン |
専門業務
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
投資銀行モデリングタスク(社内) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
コーディング
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro(公開版) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
コンピュータ操作と視覚認識
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro(ツールなし) | 81.2% | — | — | 79.5% | — |
MMMU Pro(ツールあり) | 82.1% | — | — | 80.4% | — |
ツール利用
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
学術
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
フロンティア科学研究 | 33.0% | 36.7% | — | 25.2% | — |
FrontierMath Tier 1–3 | 47.6% | — | — | 40.7% | — |
FrontierMath Tier 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
Humanity’s Last Exam (ツールなし) | 39.8% | 42.7% | — | 34.5% | 36.6% |
Humanity's Last Exam(ツールあり) | 52.1% | 58.7% | — | 45.5% | 50.0% |
長文コンテキスト
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (accuracy) | 89.8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (accuracy) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K〜512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
抽象的推論
評価 | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (Verified) | 73.3% | 83.3% | — | 52.9% | 54.2% (high) |
推論なしの評価
評価 | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench(正規化編集距離) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
評価は、特に明記されている場合を除き、Reasoning effort を xhigh に設定して実施しました。ベンチマークは研究環境で実施されています。そのため、実運用の ChatGPT とは出力がわずかに異なる場合があります。


