メインコンテンツにスキップ
OpenAI

2025年12月11日

製品リリース

GPT‑5.2 が登場

専門的な業務や長時間稼働するエージェント向けの、最先端のフロンティアモデル。

読み込んでいます...

専門的な知識業務においてこれまでで最も高度なモデルシリーズ、GPT‑5.2 を公開します。

AI は、働き方、チームの協働方法、企業の構築プロセスそのものをすでに大きく変え始めています。現在、働く人の75%が、AI によって業務のスピードや品質が向上したと回答しています。多くの人が1日に40〜60分を節約し、ヘビーユーザーでは週に10時間以上を節約しています。

OpenAI は、人々がより大きな価値を生み出せるよう GPT‑5.2 を設計しました。GPT‑5.2 は、スプレッドシートやプレゼンテーション作成、コード作成、画像認識をはじめ、長文コンテキストの理解、ツールの活用、複雑な多段階プロジェクトの処理など、幅広い作業で高い性能を発揮します。これらのスキルが組み合わさった結果、GPT‑5.2 Thinking は、44の職種を対象とした実務的な知識業務タスクを評価するベンチマーク GDPval で、当社として初めて専門家レベルの性能を達成しました。また、SWE-Bench Pro(ソフトウェア)、GQPA Diamond(科学)、Frontier Math(数学)といった AI ベンチマークにおいても、業界の新たな基準を打ち立てています。

ChatGPT では、GPT‑5.2 Instant、Thinking、Pro が本日より有料プランから順次提供開始されます。API では、すべての開発者が本日から利用できます。

GPT‑5.2 は、汎用的な知性、長文コンテキストの理解、エージェントによるツール呼び出し、画像理解の各分野で大幅に進化し、これまでのどのモデルよりも複雑な実世界のタスクを一貫してこなせるようになりました。


GPT‑5.2 Thinking

GPT‑5.1 Thinking

GDPval(勝利・引き分け率)
知識業務タスク

70.9%

38.8%(GPT‑5)

SWE-Bench Pro(公開版)
ソフトウェアエンジニアリング

55.6%

50.8%

SWE-bench Verifiedソフトウェアエンジニアリング

80.0%

76.3%

GPQA Diamond(ツールなし)
科学分野の質問

92.4%

88.1%

CharXiv Reasoning(Python 使用)
科学図表に関する質問

88.7%

80.3%

HMMT(2025年2月)
数学コンテスト

99.4%

96.3%

FrontierMath(Tier 1〜3)上級数学

40.3%

31.0%

ARC-AGI-1 (Verified)
抽象的推論

86.2%

72.8%

ARC-AGI-2 (Verified)
抽象的推論

52.9%

17.6%

ChatGPT では、GPT‑5.2 モデルが仕事にも学習にもより賢く役立つよう進化しつつ、GPT‑5.1 Instant で導入された温かみのある会話的トーンも維持しています。

  • GPT‑5.2 Thinking は、専門職向けとしてこれまでで最も優れたモデルであり、特にスプレッドシートの整形や財務モデリング、スライドショー作成の改善など、より難度の高い業務タスクをより効果的かつ洗練された形でこなします。初期テストでは、コーディングや長文ドキュメントの要約、アップロードしたファイルに関する質問への回答など、幅広いタスクで性能が向上していることが確認されました。また、複雑な数学やロジックを段階的に説明する作業や、計画や意思決定を分かりやすい構造と丁寧な説明で支援する能力も向上しています。
  • GPT‑5.2 Instant は、日常的な仕事や学習で役立つ高速かつ強力なモデルであり、情報検索、手順説明、技術文書作成、翻訳といった領域で明確な改善が見られます。初期テスターからは、従来モデルと比べて精度が向上しているとの声も寄せられています。また、学習やスキル向上の支援に加えて、職業やキャリアに関するガイダンスも、これまでより分かりやすく提供できるようになっています。
  • GPT‑5.2 Pro は、高品質な回答が求められる難しい質問に適した、これまでで最も信頼性が高く、高度なモデルです。初期テストでは、精度の向上や重大なエラーの減少が確認され、プログラミングなどの複雑な領域でもより高い性能を発揮しました。

API 開発者向けには、GPT‑5.2 Thinking が当社で最も高度なフロンティアモデルであり、長時間のタスクを安定して完了し、複数のツールを並列で誤りなく呼び出し、大量の文書やデータも理解できます。このモデルはタスクの複雑さに応じて思考量を調整でき、開発者は none/low/medium/high に加えて、最も複雑なタスク向けの新設定「xhigh」を含む5段階の推論設定から選択できます。Box、Shopify、Zoom、Hex、Triple Whale などのお客様からは X、Y、Z といった評価が寄せられており、Cursor、Windsurf、JetBrains、Azad、Cline、Charlie Labs、Kilo Code などの企業からも X、Y、Z に関する高い評価をいただいています。API では、GPT‑5.2 Thinking は gpt-5.2、GPT‑5.2 Instant は gpt-5.2-chat-latest、GPT‑5.2 Pro は gpt-5.2-pro として提供されます。ChatGPT のサブスクリプション料金はこれまでどおりですが、API では GPT‑5.2 はより高性能なモデルであるため、GPT‑5.1 よりも1トークンあたりの料金が高く設定されています。それでも他のフロンティアモデルより低い価格となっているため、日常業務や主要アプリケーションで引き続きご活用いただけます。

モデル性能

経済的価値の高いタスク

GPT‑5.2 Thinking は、実務的で専門的な用途において当社で最も優れたモデルです。44の職種にまたがる明確に定義された知識業務タスクを評価するベンチマーク GDPval において、GPT‑5.2 Thinking は、当社のモデルとして初めて人間の専門家レベルに達しました。専門家による評価では、GPT‑5.2 Thinking は難度の高い知識業務タスクの70.7%において、業界トップクラスの専門家と同等以上の結果を示しました。これらのタスクには、プレゼンテーションやスプレッドシート、その他の成果物の作成が含まれます。GPT‑5.2Thinking は、専門家の約3倍の速度、約1%のコストでこれらのタスクを完了しました。

GDPval では、米国 GDP に大きく寄与する上位9産業の44職種を対象に、明確に定義された知識業務タスクに取り組むモデルの性能を評価します。タスクは、営業用プレゼンテーション、会計スプレッドシート、救急診療スケジュール、製造図面、短編動画など、実際の成果物の作成を求めます。ChatGPT では、GPT‑5.2Thinking に GPT‑5 Thinking にはなかった新しいツールが追加されています。

特に優れた成果物を評価した GDPval の審査員は、「これは出力品質が大きく向上したことを実感させる内容です。まるで専門チームを持つ企業が作成したかのようなクオリティで、いくつか修正すべき細かな点はあるものの、レイアウトも助言内容も驚くほど洗練されています」と評しました。

さらに、Fortune 500企業向けの3つの財務諸表モデルを適切な書式と引用で作成したり、非公開化を想定したレバレッジド・バイアウトモデルを構築したりするなど、投資銀行アナリスト初級レベルのスプレッドシートモデリングタスクを評価する内部ベンチマークでも検証しました。その結果、GPT‑5.2 Thinking は68.4%を記録し、GPT‑5.1 Thinking の59.1%を上回るこれまでで最良の性能を示しました。

GPT‑5.2 Thinking では、スプレッドシートやスライドの書式設定が向上していることが比較で確認できます。

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

プロンプト:人員計画モデルを作成してください。ヘッドカウント、採用計画、離職率、予算への影響を含め、エンジニアリング、マーケティング、法務、営業部門を対象とします。

コーディング

実世界のソフトウェアエンジニアリングを厳密に評価する SWE-Bench Pro において、GPT‑5.2 Thinking は55.6%という新たな最高水準を達成しました。Python のみを評価対象とする SWE-bench Verified と異なり、SWE-Bench Pro は4言語を対象とし、汚染耐性の高さ、難易度、多様性、産業的関連性を重視した評価となっています。

SWE-Bench Pro(新しいウィンドウで開く) では、モデルにコードリポジトリが与えられ、現実的なソフトウェアエンジニアリングタスクを解決するためのパッチを生成する必要があります。

SWE-bench Verified(グラフ非掲載)では、GPT‑5.2 Thinking は当社の新たな最高値となる80%を記録しました。

これにより、日常的な専門業務において、本番コードのデバッグ、機能追加の実装、大規模コードベースのリファクタリング、少ない手動介入でのエンドツーエンド修正などをより安定してこなせるモデルになっています。

GPT‑5.2 Thinking は、GPT‑5.1 Thinking と比べてフロントエンド開発にも優れています。初期テスターからは、フロントエンド開発や複雑・非標準的な UI 作業、特に 3D 要素を伴う場面で大幅に強化されているとの評価があり、あらゆる層のエンジニアにとって頼れる日常的なパートナーとなっています。以下、単一のプロンプトから生成できる例の一部をご覧ください。

プロンプト:以下の要件を満たすシングルページアプリを1つの HTML ファイルで作成してください。
- 名前:Ocean Wave Simulation
- 目標:リアルな波のアニメーションを表示すること。
- 機能:風速、波の高さ、光の設定の変更。
- UI は落ち着いていて、リアルであること。

Cursor、Windsurf、JetBrains、Azad、Cline、Charlie Labs、Kilo Code などの企業も、そのコーディング能力を高く評価しています。

<quotes>

事実性

GPT‑5.2 Thinking は、GPT‑5.1 Thinking と比べてハルシネーションの発生が少なくなっています。匿名化した ChatGPT のクエリセットにおいて、誤りを含む回答は相対的に38%少なくなりました。これは、調査や文書作成、分析、意思決定支援といった作業でのミスが減り、日常的な知識業務でより信頼してモデルを使えるようになることを意味します。

reasoning effort を最大に設定し、search ツールを有効化して実行しました。エラーの検出には他のモデルを使用しており、それらのモデル自身が誤りを含む可能性があります。多くの応答には多数の記述(claim)が含まれるため、応答単位のエラー率よりも、記述単位のエラー率の方が大幅に低くなります。

すべてのモデルと同様、GPT‑5.2 Thinking も完全ではありません。重要な用途では、必ず回答を確認してください。

長文コンテキスト

GPT‑5.2 Thinking は、長文コンテキスト推論において新たな水準を達成し、長い文書に分散した情報を統合する能力を評価する OpenAI MRCRv2 でトップレベルの性能を示しました。数十万トークン規模の関連情報を扱う高度な文書分析など、実世界のタスクにおいても、GPT‑5.2 Thinking は GPT‑5.1 Thinking より大幅に高い精度を発揮します。特に、256k トークンまで扱える 4-needle MRCR バリアントで、ほぼ100%の精度を達成した初めてのモデルです。

実務面では、GPT‑5.2 を使ってレポートや契約書、研究論文、書き起こし、多ファイルのプロジェクトなどの長文ドキュメントを扱い、数十万トークン規模でも一貫性と精度を保ちながら作業できます。そのため、GPT‑5.2 は深い分析、情報統合、複数の情報源を扱う複雑なワークフローに特に適しています。

OpenAI-MRCR⁠ v2(multi-round co-reference resolution)(新しいウィンドウで開く)では、複数の同一の「needle」ユーザーリクエストを、類似したリクエストと応答から成る長い「haystack」に挿入し、モデルに n 番目の needle に対する応答を再現させます。v2 では、正解データに誤りがあったタスクの約5%を修正しています。Mean match ratio は、モデルの応答と正解の文字列一致率の平均を示します。256k の最大入力トークンにおける点は、128k〜256k の入力トークンの平均を表します。なお、256k は 256 × 1,024 = 262,144 トークンを意味します。reasoning effort は利用可能な最大値に設定しました。

A、B、C などの企業からは、大量の情報をもとに推論できる能力について高い評価が寄せられています。

<pull quotes>

最大コンテキスト長を超える推論が求められるタスクでは、GPT‑5.2 Thinking は、有効コンテキストウィンドウを拡張する新しい Responses /compact エンドポイントに対応しています。これにより、GPT‑5.2 Thinking はコンテキスト長の制約を受けず、本来であれば処理が難しい、ツールを多用する長時間のワークフローにも対応できます。詳細は、API ドキュメント(新しいウィンドウで開く)をご覧ください。

Vision

GPT‑5.2 Thinking は当社で最も優れた Vision モデルであり、チャート推論やソフトウェアインターフェース理解におけるエラー率を約半分に削減しています。

これは、日常的な専門業務において、ダッシュボード、製品スクリーンショット、技術図面、ビジュアルレポートなどをより正確に解釈できることを意味し、特に視覚情報が中心となる財務、オペレーション、エンジニアリング、デザイン、カスタマーサポートといった領域のワークフローを支援します。

In CharXiv Reasoning(新しいウィンドウで開く) では、科学論文に掲載された図表に関する質問に回答します。Python ツールを有効化し、reasoning effort を最大に設定して実行しました。

In ScreenSpot-Pro(新しいウィンドウで開く) では、モデルがさまざまな専門領域の高解像度 GUI スクリーンショットを解析する必要があります。Python ツールを有効化し、reasoning effort を最大に設定して実行しました。Python ツールを使用しない場合、スコアは大幅に下がります。このようなビジョンタスクでは Python ツールを有効にすることをお勧めします。

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

A、B、C などの企業は、GPT‑5.2 の Vision 機能をより高く評価しています。

<pull quotes>

ツール呼び出し

GPT‑5.2 Thinking は、Tau2-bench Telecom において98.7%という新たな水準を達成し、長時間かつ複数ターンにわたるタスクでもツールを安定して活用できる能力を示しました。

スピードを重視するユースケースでは、GPT‑5.2 Thinking は reasoning.effort='none' の設定でも GPT‑5.1 や GPT‑4.1 を大きく上回る性能を発揮します。

In τ2-bench⁠(新しいウィンドウで開く) では、モデルがツールを使用し、ユーザーを模した対話相手との複数ターンのやり取りを通じてカスタマーサポート業務を完了します。Telecom ドメインでは、性能向上のためにシステムプロンプトに簡潔で有用な指示を追加しています。Airline サブセットは、正解データの品質が低いため除外しています。

これにより、カスタマーサポート案件の解決、複数システムからのデータ取得、分析実行、最終成果物の生成など、工程間の滞りが少ない、より強力なエンドツーエンドのワークフローを実現できます。

たとえば、複数ステップでの解決が必要となる複雑なカスタマーサービスの問い合わせに対しても、モデルは複数のエージェントを連携させ、全体のワークフローを効果的に調整できます。以下のケースでは、旅行者がフライト遅延、乗り継ぎの失敗、ニューヨークでの一泊、そして医療上の配慮が必要な座席指定を報告しています。GPT‑5.2 は、再予約、特別支援が必要な座席の手配、補償対応といった一連のタスクをすべて処理し、GPT‑5.1 よりも包括的な結果を返します。

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

A、B、C などの企業は GPT‑5.2 のツール呼び出し能力をテストし、以下のようなフィードバックを寄せています。

<pull quotes>

科学と数学

私たちは、AI が科学研究の進展を加速させ、すべての人に利益をもたらすことを期待しています。そのために、AI が科学者の研究をどのように加速できるかを理解するべく、科学者との協働とフィードバック収集を続けており、先月には初期の共同実験の結果をこちらで紹介しました。

GPT‑5.2 Pro と GPT‑5.2 Thinking は、科学研究を支援し加速するための世界屈指のモデルであると私たちは考えています。大学院レベルの Google-proof Q&A ベンチマークである GPQA Diamond では、GPT‑5.2 Pro が93.2%、GPT‑5.2 Thinking が92.4%を達成しました。

GPQA Diamond(新しいウィンドウで開く) では、物理、化学、生物に関する多肢選択式の質問に回答します。ツールは使用せず、reasoning effort を最大に設定しました。

専門家レベルの数学能力を評価する FrontierMath(Tier 1〜3)では、GPT‑5.2 Pro はX%、GPT‑5.2 Thinking が40%の問題を解き、新たな最高水準を打ち立てました。

FrontierMath(新しいウィンドウで開く) では、モデルが専門家レベルの数学問題を解きます。Python ツールを有効化し、reasoning effort を最大に設定して実行しました。

数学や科学の分野で、AI モデルが実際に進歩を加速させつつあることが見え始めています。たとえば、研究者たちは GPT‑5.2 を用いて、「学習システム(データから学習して性能が向上する計算モデル)は、例が増えるほど必ず良くなると保証できるのか」という未解決問題に取り組みました。長らく当然と考えられていながら、正式には証明されていなかったこの命題は、GPT‑5.2 により解決へと導かれました。この基本的なケースでその保証を示すことで、GPT‑5.2 は現代の AI システムの設計と信頼性を支える数学的な基盤を強化しています。

ARC-AGI 2

GPT‑5.2 が ARC-AGI 2 で示した高い性能 [X%] は、一般的な抽象推論能力の大きな進歩を示しています。

こうした科学・数学領域における評価で示された向上は、多段階推論の強化、定量的精度の向上、複雑な技術課題におけるより確実な問題解決能力へとつながっています。

安全性

GPT‑5.2 は、GPT‑5 で導入した安全な回答生成に関する研究をさらに発展させ、安全性を保ちつつ最も有用な回答を返せるように訓練されたモデルです。

今回のリリースでは、センシティブな会話におけるモデルの応答を強化する取り組みを継続し、自殺や自傷の兆候、メンタルヘルス上の苦痛、モデルへの感情的な依存を示すプロンプトへの応答において大きな改善が見られました。こうした重点的な改善により、GPT‑5.2 Instant と GPT‑5.2 Thinking の両モデルにおいて、GPT‑5.1 および GPT‑5 Instant / Thinking と比べて望ましくない応答が減少しています。詳細は System Card をご覧ください。

また、18歳未満のユーザーに対するコンテンツ保護を自動的に適用し、センシティブな内容へのアクセスを制限するため、年齢推定モデルの限定的な展開も開始しています。これは、18歳未満と判定できるユーザー向けに実施している保護措置や、ペアレンタルコントロールの仕組みをさらに強化したものです。

MH/R の結果


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

メンタルヘルス

0.995

0.883

0.915

0.684

感情的依存

0.938

0.945

0.955

0.785

自傷

0.938

0.925

0.963

0.937

提供状況と価格

ChatGPT では、本日より Plus、Pro、Business、Enterprise などの有料プランから、GPT‑5.2(Instant、Thinking、Pro)の提供を開始します。ChatGPT を可能な限りスムーズかつ安定してご利用いただくため、GPT‑5.2 は段階的に展開します。利用できない場合は、しばらくしてから再度お試しください。ChatGPT では、GPT‑5.1 をレガシーモデルとして有料ユーザー向けに3か月間提供し、その後、提供を終了します。

API プラットフォームでは、GPT‑5.2 が本日より Responses API で gpt-5.2 として利用可能です。GPT‑5.2 Instant は gpt-5.2-chat-latest、GPT‑5.2Pro は gpt-5.2-pro として提供されます。GPT‑5.2 の価格は、入力トークン100万あたり$1.75、出力トークン100万あたり$14で、キャッシュされた入力には90%の割引が適用されます。

100万トークンあたりの価格

モデル

入力

キャッシュされた入力

出力

gpt-5.2 /
gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 /
gpt-5.1-chat-latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

API では、GPT‑5.1、GPT‑5、GPT‑4.1 を非推奨とする予定は現時点ではありません。将来その予定がある場合は開発者に十分な猶予をもってお知らせします。GPT‑5.2 は Codex でもそのまま利用できますが、今後数週間以内に Codex 向けに最適化した GPT‑5.2 のバージョンも公開する予定です。

ChatGPT と API におけるモデル命名

ChatGPT

API

ChatGPT‑5.2Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

今後の展開

GPT‑5.2 は、NVIDIA と Microsoft との長年にわたる強力なパートナーシップの成果を体現するモデルです。H100、H200、GB200-NVL72 を含む NVIDIA GPU と Azure データセンターは、OpenAI の大規模な学習インフラを支え、モデルの知性向上に大きく貢献しています。こうした協業により、私たちは計算リソースを確実に拡張し、新しいモデルをより迅速に提供できるようになっています。

GPT‑5.2 は継続的な改善の一歩であり、まだ道半ばです。今回のリリースは知性と生産性の面で大きな進歩をもたらす一方で、さらに期待されている点があることも認識しています。ChatGPT では、過度な拒否といった既知の課題に取り組みつつ、安全性と信頼性の全体的な水準向上を進めています。これらの改善は複雑であるため、私たちは慎重に、そして正しく進めることに注力しています。

付録

詳細なベンチマーク

専門業務
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
コーディング
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
事実性
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
長文コンテキスト
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Vision
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
ツール使用
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
学術
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
抽象的推論
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

* GDPval では、GPT‑5.2 は reasoning effort を high〜xhigh に設定して実行しました。** SWE-Lancer では、当社のインフラストラクチャで実行できなかった40 問(全237問中)を除外しています。Scale MCP-Atlas では、GPT‑5.2 は reasoning effort を high に設定して実行しました。

著者

OpenAI