2026年4月24日更新:GPT‑5.5 および GPT‑5.5 Pro が API で利用可能になりました。System Card も、適用される追加の安全対策を説明するために更新されています。
本日、GPT‑5.5 をリリースします。これまでで最も高性能で直感的に使えるモデルであり、コンピュータでの仕事の進め方を変える新たな一歩です。
GPT‑5.5 は、ユーザーの意図をより素早く理解し、多くの作業を自律的に進められます。コードの作成やデバッグ、オンライン調査、データ分析、ドキュメントやスプレッドシートの作成、ソフトウェア操作、さらには複数のツールをまたいでタスク完了まで一貫して作業を進められます。すべての手順を細かく管理する代わりに、整理されていない複雑なタスクでも GPT‑5.5 に任せることができます。GPT‑5.5 は自ら計画を立て、ツールを活用し、結果を確認しながら、不確実な状況にも対応して作業を進め続けます。
この進化は、エージェント型コーディング、コンピュータ操作、ナレッジワーク、初期段階の科学研究といった分野で特に顕著です。これらは、コンテキストをまたいだ推論と継続的な実行力が成果に直結する領域です。GPT‑5.5 は、こうした知能の向上を、速度を損なうことなく実現しています。一般に高性能なモデルほど応答が遅くなりがちですが、GPT‑5.5 は実運用環境において GPT‑5.4 と同等のトークン単位のレイテンシを維持しながら、より高いレベルの性能を発揮します。同じ Codex タスクをより少ないトークン数で完了できるため、性能だけでなく効率の面でも優れています。
GPT‑5.5 には、これまでで最も強力な安全対策を導入しています。不正利用を抑えつつ、有益な用途での利用を維持できるよう設計されています。本モデルは、安全性および準備体制に関する包括的なフレームワークに基づいて評価を行い、社内外のレッドチームと連携しました。さらに、高度なサイバーセキュリティやバイオ領域に対する重点的なテストを実施し、約200の信頼できる早期アクセスパートナーから実運用に基づくフィードバックを収集した上でリリースしています。
本日より、ChatGPT および Codex において、Plus、Pro、Business、Enterprise ユーザー向けに GPT‑5.5 の提供を開始します。また、ChatGPT では Pro、Business、Enterprise ユーザー向けに GPT‑5.5 Pro の提供も開始します。API での提供には異なる安全対策が求められるため、パートナーやお客様と連携しながら、大規模運用に必要な安全性およびセキュリティ要件の整備を進めています。GPT‑5.5 および GPT‑5.5 Pro は、近日中に API でも提供予定です。
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE(社内評価) | 73.1% | 68.5% | - | - | - | - |
GDPval(勝利・引き分けの割合) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
OpenAI は、エージェント型 AI のためのグローバルなインフラを構築しており、世界中の人々や企業が AI を活用して業務を進められる環境を整えています。この1年で、AI がソフトウェア開発を大きく加速させてきました。Codex や ChatGPT に GPT‑5.5 が加わったことで、この変化は科学研究や、コンピュータを使った幅広い業務にも広がり始めています。
こうした分野全体において、GPT‑5.5 は単に高性能なだけでなく、問題への取り組み方もより効率的です。より少ないトークンと再試行で、高品質な出力に到達するケースが多く見られます。Artificial Analysis の Coding Index では、GPT‑5.5 は競合するフロンティアコーディングモデルの半分のコストで、最先端レベルの性能を実現しています。
Artificial Analysis Intelligence Index(新しいウィンドウで開く) は、外部機関が実施した10件の評価(AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom)の加重平均です。
GPT‑5.5 は、現時点で当社の最も高性能なエージェント型コーディングモデルです。計画、反復、ツール連携を伴う複雑なコマンドラインワークフローを評価する Terminal-Bench 2.0 では、82.7%という最先端の精度を達成しています。実際の GitHub Issue の解決能力を評価する SWE-Bench Pro では58.6%を記録し、従来モデルよりも多くのタスクを、一度の実行で最後まで解決しています。Expert-SWE は、長期的なコーディングタスクを対象とした社内評価で、人間の完了見積もり時間の中央値は20時間に及びます。この評価においても、GPT‑5.5 は GPT‑5.4 を上回っています。
これら3つの評価すべてにおいて、GPT‑5.5 は GPT‑5.4 を上回るスコアを、より少ないトークンで達成しています。
このモデルのコーディングにおける強みは、Codex 上で特に顕著に現れます。実装やリファクタリングから、デバッグ、テスト、検証まで、幅広いエンジニアリング業務を担えます。初期テストでは、GPT‑5.5 は、大規模システム全体にわたってコンテキストを維持する、曖昧な障害の原因を推論によって特定する、ツールで前提を検証する、周辺のコードベース全体に変更を反映する、といった実務で重要な振る舞いにおいて優れていることが示されています。
表示されている軌道は、オリオン、月、太陽の NASA/JPL Horizons ベクトルデータに基づいており、見やすさのためにスケーリングしています。
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
ベンチマークだけでなく、初期テスターからは、GPT‑5.5 はシステム全体の構造理解に優れ、障害の原因、修正すべき箇所、そしてコードベース内で影響が及ぶ範囲まで把握できるとの評価が寄せられています。

「これまで使った中で、概念をしっかり理解できる初めてのコーディングモデルです。」
Every 創業者兼 CEO の Dan Shipper 氏は、GPT‑5.5 について「これまで使ってきた中で、概念を深く理解できる初めてのコーディングモデルです」と述べています。
アプリをリリースした後、彼はリリース後の不具合のデバッグに何日も費やし、その後、優秀なエンジニアの一人に依頼してシステムの一部を書き直しました。GPT‑5.5 をテストするために、彼は当時の状態に戻して検証しました。モデルが不具合のある状態を見て、最終的にエンジニアが採用した修正と同等の対応を再現できるかを確かめたのです。GPT‑5.4 にはできませんでしたが、GPT‑5.5 にはそれが可能でした。

「本当に、より高い知性と一緒に働いているように感じられ、敬意すら覚えるほどです。」
MagicPath の CEO である Pietro Schirano 氏は、GPT‑5.5 がフロントエンドの変更やリファクタリングを何百件も含むブランチを、大きく更新されたメインブランチにマージし、その作業を約20分で一度に完了させたことから、同様の大きな進化を実感したと述べています。
モデルをテストしたシニアエンジニアは、GPT‑5.5 が推論と自律性の面で GPT‑5.4 や Claude Opus 4.7 を明らかに上回り、問題を事前に検知し、明示的な指示がなくても必要なテストやレビューを見越して対応できると報告しています。あるケースでは、エンジニアが共同編集可能な Markdown エディターのコメントシステムの再設計を依頼したところ、ほぼ完成した12件分の差分スタックが用意されていました。実装の修正は驚くほど少なくて済み、GPT‑5.4 と比べて GPT‑5.5 の計画にはより高い信頼を持てたという声もありました。
モデルに早期アクセスしていた NVIDIA のあるエンジニアは、「GPT‑5.5 へのアクセスを失うのは、当たり前に使えていたものがなくなるような感覚です」とまで述べています。
「GPT-5.5 は GPT-5.4 よりも明らかに高い性能を持ち、長時間安定して処理を続けられます。コーディング性能が高く、ツールの利用もより安定しています。途中で止まることなく長時間タスクを継続できるため、ユーザーが Cursor に任せる複雑で長時間にわたる作業において特に重要です。」
GPT‑5.5 のコーディングでの強みは、そのまま日常的な業務にも活かされます。意図の理解精度が高いため、ナレッジワークの一連の流れをより自然に進められます。つまり、情報収集から、重要点の把握、ツール活用、出力確認、そして成果への仕上げまでの一連の流れを一貫して行えます。
Codex では、ドキュメント、スプレッドシート、スライド資料の生成において GPT‑5.4 を上回る性能を発揮します。アルファテスターからは、オペレーションズリサーチやスプレッドシートモデリング、整理されていないビジネス情報を計画に落とし込むといった作業で、従来モデルを上回る性能が確認されたとの声が寄せられています。Codex のコンピュータ操作機能と組み合わせることで、GPT‑5.5 はまるでユーザーと一緒にコンピュータを操作しているかのような体験を実現します。画面の内容を把握し、クリックや入力、インターフェースの操作、ツール間の移動を正確に行えます。
OpenAI のチームでは、すでにこれらの強みを実運用のワークフローで活用しています。現在、全社の85%以上が、ソフトウェア開発、財務、コミュニケーション、マーケティング、データサイエンス、プロダクトマネジメントなどの部門で、毎週 Codex を活用しています。コミュニケーション部門では、Codex 上の GPT‑5.5 を活用し、6か月分の講演依頼データを分析してスコアリングとリスク評価のフレームワークを構築しました。さらに、自動化された Slack エージェントを検証し、低リスクの依頼は自動処理しつつ、高リスクの依頼は人によるレビューに回す運用を実現しています。財務部門では、Codex を用いて合計71,637ページに及ぶ24,771件の K-1 納税申告書をレビューしました。個人情報を除外するワークフローを採用することで、前年よりも2週間の短縮を実現しています。GTM 戦略チームでは、ある社員が週次レポートの作成を自動化し、週あたり5〜10時間の削減につながりました。
ChatGPT では、GPT‑5.5 Thinking により、難しい問題にも迅速に対応し、スマートで簡潔な回答を提供することで、複雑な作業を効率的に進められます。特にプラグインを活用する場合、コーディング、リサーチ、情報の統合・分析、文書を多く扱う業務といった専門的な作業で優れた性能を発揮します。
GPT‑5.5 Pro では、初期テスターから、ChatGPT が対応できる業務の難易度と質の両面で大きな向上が見られるとの報告が寄せられています。さらに、レイテンシの改善により、負荷の高いタスクでも実用性が大きく高まっています。GPT‑5.4 Pro と比べて、GPT‑5.5 Pro の回答は、網羅性、構成のわかりやすさ、正確性、関連性、有用性のいずれも大きく向上していることが確認されています。特に、ビジネス、法務、教育、データサイエンスの分野で高い性能を示しています。
GPT‑5.5 は、この種の業務を反映した複数のベンチマークにおいて、最先端の性能を達成しています。 GDPval は、44職種にわたる明確に定義された知識業務の成果物をエージェントが作成できるかを評価するベンチマークです。この GDPval で、GPT‑5.5 は84.9%を記録しています。実際のコンピュータ環境を自律的に操作できるかを評価する OSWorld-Verified では、78.7%を記録しています。また、複雑なカスタマーサービスのワークフローを評価する Tau2-bench Telecom では、プロンプトチューニングなしで98.0%を達成しています。GPT‑5.5 は、その他のナレッジワークのベンチマークでも高い性能を示しており、FinanceAgent では60.0%、社内の投資銀行モデリングタスクでは88.5%、OfficeQA Pro では54.1%を記録しています。
Tau2-bench Telecom は、プロンプトチューニングを行わず(ユーザーモデルとして GPT‑4.1 を使用して)実行しました。GPT‑5.5 は、従来モデルよりもタスクの意図を的確に理解し、トークン効率にも優れています。
「GPT-5.5 は、実行負荷の高い業務に必要な安定したパフォーマンスを発揮します。NVIDIA GB200 NVL72 システム上で構築・提供されており、自然言語プロンプトからエンドツーエンドの機能開発を可能にします。デバッグにかかる時間は数日から数時間に短縮され、複雑なコードベースにおける数週間の試行錯誤も、一晩で前進できるようになりました。これは単にコーディングが速くなるという話ではありません。人がまったく異なるスピードで仕事を進められる、新しい働き方です。」
GPT‑5.5 は、難しい問いに答えるだけでは不十分な、科学および技術分野の研究ワークフローにおいても性能の向上を示しています。研究者は、アイデアを探り、証拠を集め、仮説を検証し、結果を解釈し、次に何を試すかを判断する必要があります。GPT‑5.5 は、こうした一連のプロセスを通して継続的に対応する力において、他のモデルより優れています。
特に、遺伝学および定量生物学における多段階の科学データ分析に焦点を当てた新しい評価である GeneBench(新しいウィンドウで開く) において、GPT‑5.5 は GPT‑5.4 を明確に上回る性能を示しています。これらの課題では、最小限の指示のもとで曖昧さや誤りを含む可能性のあるデータを扱い、潜在的な交絡因子や QC の不備といった現実的な課題に対処し、さらに現代的な統計手法を正しく実装・解釈することが求められます。これらのタスクが科学分野の専門家にとって数日規模のプロジェクトに相当することを踏まえると、このモデルの性能は際立っています。
同様に、実務に近いバイオインフォマティクスやデータ分析をもとに設計されたベンチマークである BixBench(新しいウィンドウで開く) でも、GPT‑5.5 はスコアが公開されているモデルの中でトップクラスの性能を示しました。モデルの科学的能力は現在、生物医学研究の最前線において、共同研究者として実質的に進展を加速できる水準に達しています。
別の例として、カスタムハーネスを備えた GPT‑5.5 の社内版が、組合せ論の中心的対象であるラムゼー数に関する新たな証明(新しいウィンドウで開く)の発見に貢献しました。組合せ論は、グラフやネットワーク、集合、パターンといった離散的対象の組み合わせ方を研究する分野です。ラムゼー数は、大まかに言えば、ある種の秩序が必ず現れるにはネットワークがどの程度の規模になる必要があるかを問うものです。この分野での成果はまれであり、多くの場合、技術的にも難易度が高いものです。ここでは、GPT‑5.5 が非対角ラムゼー数に関する長年の漸近的事実の証明を発見し、その後 Lean によって検証されました。この結果は、GPT‑5.5 が単なるコードや説明にとどまらず、基礎的な研究分野において有用な数学的論証に貢献したことを示す具体例です。
初期テスターは、ChatGPT の GPT‑5.5 Pro を単発の回答エンジンとしてではなく、リサーチパートナーとして活用していました。複数回にわたる原稿レビュー、技術的な議論の検証、分析の提案、さらにコードやメモ、PDF の内容を踏まえた作業に利用しています。共通しているのは、GPT‑5.5 が研究者を問いから実験、そして成果へと進めるプロセスをより効果的に支援できる点です。
Jackson Laboratory for Genomic Medicine の免疫学教授で研究者でもある Derya Unutmaz 氏は、GPT‑5.5 Pro を使い、62のサンプルと約28,000の遺伝子を含む遺伝子発現データセットを分析しました。その結果、調査結果の要約にとどまらず、重要な問いや洞察も提示する詳細な研究レポートを作成しています。この作業は、同氏のチームであれば数か月かかっていたはずだと述べています。
ポーランド・ポズナンの Adam Mickiewicz University の数学助教授である Bartosz Naskręcki 氏は、Codex の GPT‑5.5 を使い、単一のプロンプトから11分で代数幾何学のアプリを構築しました。このアプリでは、二次曲面の交線を可視化し、その結果得られた曲線を Weierstrass モデルに変換します。
その後、彼はより安定した特異点の可視化機能と、今後の作業で再利用可能な正確な係数を追加して、アプリを拡張しました。彼にとってより大きな変化は、これまで専用ツールが必要だったカスタムの数理可視化や数式処理ワークフローの実装を、Codex が支援できるようになった点です。これらの事例は、GPT‑5.5 が専門家の意図を実際に機能するリサーチツールや分析へと形にできることを示しています。

クレジット:Bartosz Naskręcki(新しいウィンドウで開く)
Prompt: # Algebraic geometry surface intersectio
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
「OpenAI の新しい GPT-5.5 モデルを当社の評価基盤で活用し、大規模な生化学データをもとにヒトでの薬剤効果を推定させ、その結果として最も難易度の高い創薬評価で精度が大きく向上するのを確認できたことは、非常に手応えを感じています。このペースが続けば、年内にも創薬の前提そのものが変わるでしょう。」
GPT‑5.4 と同等のレイテンシで GPT‑5.5 を提供するために、推論を、個別に最適化を重ねる形ではなく、統合されたシステムとして捉え直しました。GPT‑5.5 は、NVIDIA GB200 および GB300 NVL72 システムを前提に共同設計され、同環境で学習・提供されています。Codex と GPT‑5.5 は、性能目標の達成において中核的な役割を果たしました。Codex は、アプローチの検討や実験の構築、投資すべき最適化の見極めを支援することで、アイデアからベンチマーク可能な実装までの移行を加速しました。GPT‑5.5 は、システムスタック自体の重要な改善点の特定と実装にも貢献しました。つまり、このモデル自身が、提供基盤となるインフラストラクチャの改善にも貢献しています。
その一例が、負荷分散とパーティショニングに関するヒューリスティックの改善です。GPT‑5.5 以前は、コンピューティングコア間で負荷を均等化するために、アクセラレータ上のリクエストを固定数のチャンクに分割していました。これにより、大規模なリクエストと小規模なリクエストを同一の GPU 上で処理できるようにしていました。しかし、あらかじめ固定されたチャンク数では、あらゆるトラフィックパターンに最適とは限りません。GPU の利用効率を高めるため、Codex は数週間分の本番トラフィックを分析し、処理を最適に分割・分散するためのカスタムヒューリスティックアルゴリズムを作成しました。この取り組みにより大きな効果が得られ、トークン生成速度は20%以上向上しました。
セキュリティ脆弱性の発見や修正に優れたモデルに備えるには、組織や分野を超えた連携が不可欠です。次世代のサイバー防衛に向けて、モデルへのアクセスの拡大と段階的な導入を進めながら、エコシステム全体でレジリエンスを高めていく必要があります。
フロンティアモデルは、サイバーセキュリティ分野でますます高い能力を発揮するようになっています。こうした能力は今後広く普及していきます。私たちは、それらをサイバー防衛の強化とエコシステムの発展に活かしていくことが、最も重要な進め方だと考えています。
GPT‑5.5 は、サイバーセキュリティのような世界的に難しい課題の解決に向けた、着実で重要な前進です。12月にリリースした GPT‑5.2 では、モデルの悪用を抑えるためのサイバー対策を先行して導入しました。今回の GPT‑5.5 では、潜在的なサイバーリスクに対する分類器をさらに強化しており、今後の調整過程で一部のユーザーには不便に感じられる場合もあります。
当社では、モデルの進化に合わせて、Preparedness Framework(新しいウィンドウで開く) の中でサイバーセキュリティを重要なカテゴリとして位置付けてきました。あわせて、対策の開発と調整を継続的に行い、実用的なサイバーセキュリティ能力を備えたモデルを責任ある形で提供できるよう取り組んでいます。
- このレベルのサイバー能力に対応するため、業界をリードする安全対策を導入しています。昨年の GPT‑5.2(新しいウィンドウで開く) でサイバー特化の安全対策を導入して以来、その後のリリースでも継続的に検証・改善・強化を行ってきました。GPT‑5.5 では、高リスクな活動や、機微なサイバー関連リクエストに対する管理を強化し、繰り返しの不正利用に対する追加の保護措置も導入しています。幅広い利用は、モデルの安全性、認証された利用、不正利用の監視への継続的な投資によって支えられています。当社は数か月にわたり、外部の専門家と連携しながら、これらの安全対策の設計・検証・改善を重ねてきました。GPT‑5.5 では、開発者がコードを容易に保護できるようにすると同時に、悪意ある利用によって被害が生じやすいサイバーワークフローに対して、より強力な管理を導入しています。
- あらゆるレベルでサイバー防衛を強化するため、アクセスの拡大を進めています。サイバー用途により柔軟に対応できるモデルは、Trusted Access for Cyber を通じて提供を開始します。まずは Codex から展開し、一定の信頼基準(新しいウィンドウで開く)を満たした認証済みユーザーには、GPT‑5.5 の高度なサイバーセキュリティ機能へのアクセスを、より少ない制限で提供します。重要インフラの防衛を担う組織は、厳格なセキュリティ要件を満たしたうえで、GPT‑5.4‑Cyber のようなサイバー用途により柔軟に対応できるモデルへのアクセスを申請し、自社システムの保護に活用できます。これにより、認証された防御側の担当者は、正当なセキュリティ業務において、不要な制約を減らしつつ、より高性能なツールを利用できるようになり、重要な防御機能へのアクセスを広く提供できるようになります。ユーザーは chatgpt.com/cyber (新しいウィンドウで開く)から Trusted Access に申請することで、防御目的の利用における不要な制限を軽減できます。
- 当社は政府機関と連携し、公共のための重要インフラの保護に取り組んでいます。政府パートナーとともに、納税者の重要なデータを守るデジタルシステムから地域の電力網や水道供給に至るまで、人々の生活を支えるシステムを担う担当者の防御業務を、高度な AI がどのように支援できるかを検討しています。
当社の Preparedness Framework(新しいウィンドウで開く) において、GPT‑5.5 の生物・化学分野およびサイバーセキュリティ分野の能力は「High」と評価しています。GPT‑5.5 はサイバーセキュリティ能力の「Critical」レベルには達していませんが、評価およびテストの結果、GPT‑5.4 と比べて一段向上していることが確認されています。
さらに GPT‑5.5 は、Preparedness 評価、分野別テスト、高度な生物・サイバー能力に対する追加評価、外部専門家との検証などを含む包括的な安全性・ガバナンスプロセスを経てリリースされています。詳細は GPT‑5.5 System Card(新しいウィンドウで開く) をご覧ください。
これは、モデルの進化に伴い重要性が増すと考えている、当社の AI レジリエンス戦略を反映した取り組みです。私たちは、システムや制度、社会を守る人々が、強力な AI を活用できるようにすることを目指しています。現実的なアプローチは、Trusted Access、能力に応じて強化される安全対策、そして重大な不正利用を検知・対応する運用体制を組み合わせることです。
本日より、ChatGPT および Codex において、Plus、Pro、Business、Enterprise ユーザー向けに GPT‑5.5 の提供を開始します。また、ChatGPT では Pro、Business、Enterprise ユーザー向けに GPT‑5.5 Pro の提供も開始します。GPT‑5.5 および GPT‑5.5 Pro は、近日中に API でも提供予定です。
ChatGPT では、Plus、Pro、Business、Enterprise ユーザーが、Thinking 機能として GPT‑5.5 を利用できます。GPT‑5.5 Pro は、より難易度の高い質問や高精度が求められる作業向けに設計されており、Pro、Business、Enterprise ユーザーが利用できます。
Codex では、Plus、Pro、Business、Enterprise、Edu、Go の各プランで、GPT‑5.5(コンテキストウィンドウ 400K)を利用できます。GPT‑5.5 は Fast mode でも利用でき、コストは2.5倍となる代わりに、トークン生成速度が1.5倍に向上します。
API 開発者向けには、gpt-5.5 は近日中に Responses API および Chat Completions API で利用可能になる予定です。料金は入力トークン 1M あたり $5、出力トークン 1M あたり $30、コンテキストウィンドウは 1M です。Batch と Flex の料金は、標準 API 料金の半額で利用でき、優先処理は標準料金の2.5倍で提供されます。さらに高い精度を求める用途向けに、gpt-5.5-pro も API で提供予定です。料金は入力トークン 1M あたり $30、出力トークン 1M あたり $180 です。詳細は料金ページをご覧ください。
GPT‑5.5 は GPT‑5.4 より価格は高いものの、性能が高く、トークン効率も大幅に向上しています。Codex では、ほとんどのユーザーにおいて GPT‑5.5 が GPT‑5.4 より少ないトークンでより良い結果を出せるよう、体験を丁寧に調整しています。また、各サブスクリプションプランでも引き続き十分な利用枠を提供しています。
コーディング
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro(公開)* | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
Expert-SWE(社内評価) | 73.1% | 68.5% | - | - | - | - |
*Labs はこの評価において記憶の兆候(新しいウィンドウで開く)が見られると指摘しています
専門業務
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval(勝利・引き分けの割合) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
投資銀行モデリングタスク(社内) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
コンピュータ操作と視覚認識
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
MMMU Pro(ツールなし) | 81.2% | 81.2% | - | - | - | 80.5% |
MMMU Pro(ツールあり) | 83.2% | 82.1% | - | - | - | - |
ツール利用
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
Tau2-bench Telecom***(元のプロンプト) | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas:2026年4月の最新アップデート後における Scale AI の結果*** Tau2-bench Telecom:プロンプト調整を行わず、元のプロンプトで評価した GPT‑5.5 および GPT‑5.4 の結果なお、プロンプト調整を加えて評価された他機関の結果は含まれていません。
学術
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
BixBench | 80.5% | 74.0% | - | - | - | - |
GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
Humanity’s Last Exam (ツールなし) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
Humanity's Last Exam(ツールあり) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
サイバーセキュリティ
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flags チャレンジタスク(社内)**** | 88.1% | 83.7% | - | - | - | - |
CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
**** System Card で使用されている最も難易度の高い CTF に、さらに難しい課題を追加して拡張したものです。
長文コンテキスト
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
Graphwalks BFS 1mil f1 | 45.4% | 9.4% | - | - | 41.2%(Opus 4.6) | - |
Graphwalks parents 256k f1 | 90.1% | 82.8% | - | - | 93.6% | - |
Graphwalks parents 1M F1 | 58.5% | 44.4% | - | - | 72.0%(Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K〜8K | 98.1% | 97.3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K〜16K | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K〜32K | 96.5% | 97.2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K〜64K | 90.0% | 90.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K〜128K | 83.1% | 86.0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K〜256K | 87.5% | 79.3% | - | - | 59.2% | - |
OpenAI MRCR v2 8-needle 256K〜512K | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K〜1M | 74.0% | 36.6% | - | - | 32.2% | - |
抽象的推論
評価 | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verified) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
ARC-AGI-2 (Verified) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT の評価は、reasoning effort を xhigh に設定して実施されています。研究環境で行われているため、場合によっては実運用の ChatGPT とは出力がわずかに異なることがあります。








