メインコンテンツにスキップ
OpenAI

2025年11月19日

製品リリース

GPT‑5.1‑Codex‑Max で広がる可能性

$ npm i -g @openai/codex
読み込んでいます...

はじめに

本日より Codex で利用可能となった、最先端のエージェント型コーディングモデルGPT‑5.1‑Codex‑Max をご紹介します。GPT‑5.1‑Codex‑Max は、ソフトウェアエンジニアリング、数学、研究などのエージェント型タスクで学習された基盤推論モデルのアップデートを基に構築されています。GPT‑5.1‑Codex‑Max は開発サイクルのあらゆる段階でより高速・高精度・高効率に動作し、信頼できるコーディングパートナーに向けた新たな一歩となります。

GPT‑5.1‑Codex‑Max は、長時間にわたる複雑な作業に対応できるよう設計されています。コンパクションと呼ばれる手法により、複数のコンテキストウィンドウにわたって動作するようネイティブに学習した初のモデルで、単一タスクで数百万トークン規模を一貫して処理できます。これにより、プロジェクト全体にわたるリファクタリング、深いデバッグ作業、数時間に及ぶエージェントループが可能になります。

GPT‑5.1‑Codex‑Max は本日より CLI、IDE 拡張機能、クラウド、コードレビューで利用可能になっており、API でも近日提供予定です。

最先端のコーディング能力

GPT‑5.1‑Codex‑Max は、PR 作成、コードレビュー、フロントエンドコーディング、Q&A など、実際のソフトウェアエンジニアリング業務を用いて学習したモデルで、多くの最先端のコーディング評価で従来モデルを上回っています。ベンチマークでの向上は、実際の利用体験の改善にもつながっています。GPT‑5.1‑Codex‑Max は、Windows 環境で動作するよう学習した当社初のモデルです。また、Codex CLI でより優れたコラボレーターとして機能できるよう設計されたタスクも、新たにモデルの学習に取り入れています。

* すべての評価は、Extra High 推論設定でコンパクションを有効にして実行されました。
* Terminal-Bench2.0 は Codex CLI を用い、
Laude Institute Harbor ハーネス(新しいウィンドウで開く)内で実行されました。

スピードとコスト

GPT‑5.1‑Codex‑Max は、より効果的な推論によってトークン効率が大幅に向上しています。SWE-bench Verified では、GPT‑5.1‑Codex‑Max は「medium」推論設定で、同じ推論設定の GPT‑5.1‑Codex を上回る性能を発揮しつつ、思考トークンを30%削減しています。レイテンシを重視しないタスク向けに、さらに長く思考することで精度を高める新しい Extra High(「xhigh」)推論設定も導入します。ただし、ほとんどのタスクでは通常利用として medium の使用を推奨します。

トークン効率の向上は、開発者の実運用におけるコスト削減にもつながると期待しています。

例えば GPT‑5.1‑Codex‑Max は、同等の機能性とデザイン性を備えた高品質なフロントエンド設計を、GPT‑5.1‑Codex よりも大幅に低コストで生成できます。

Prompt: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

機能

  • Must be able to actually train a policy to make model better at cart pole
  • Visualizer for the activations/weights when the model is training or at inference
  • Steps in the episode, rewards this episode
  • Last survival time and best survival time in steps

Save to index.html

長時間タスク

GPT‑5.1‑Codex‑Max は、コンパクションにより、長い時間軸で必要なコンテキストを保ちながら、不要な履歴を適切に整理し、コンテキストウィンドウの制限で以前は失敗していた複雑なリファクタリングや長時間のエージェントループといったタスクも完了できるようになります。Codex アプリケーションでは、GPT‑5.1‑Codex‑Max はコンテキストウィンドウの上限に近づくと自動的にセッションをコンパクト化し、新しいコンテキストウィンドウに更新します。モデルはタスクが完了するまでこのプロセスを繰り返します。

長時間にわたって一貫した作業を維持できる能力は、より汎用的で信頼性の高い AI システムに向けた基盤となる能力です。GPT‑5.1‑Codex‑Maxは、1 回の作業で数時間にわたり単独で動作できます。社内評価では、GPT‑5.1‑Codex‑Max が24時間以上タスクに取り組むことも確認しています。実装を粘り強く改善し、テストの失敗を修正し、最終的にタスクを完遂します。

この例では、GPT‑5.1‑Codex‑Max が Codex CLI のオープンソースリポジトリを自動でリファクタリングしています。

セッションの長さがモデルのコンテキストウィンドウの上限に近づくと、進行状況を失わずに作業を続けるために、モデルは自動的にセッションをコンパクト化して空き領域を確保します。

この動画はわかりやすくするために編集および早送りされています。

安全で信頼性の高い AI エージェントの構築

GPT‑5.1‑Codex‑Max は、長時間にわたり継続的な推論を必要とする評価ではるかに優れた性能を示します。コンパクションにより複数のコンテキストウィンドウを一貫して扱えるため、長時間のコーディングやサイバーセキュリティといった分野の課題でも高い成果を発揮します。GPT‑5.1‑Codex‑Max のSystem Card では、当社およびサードパーティによるモデル性能評価の結果を分析しています。

GPT‑5.1‑Codex‑Max は当社の Preparedness Framework におけるサイバーセキュリティの「High」能力には到達していないものの、現時点で当社が導入した中で最も高いサイバーセキュリティ能力を備えたモデルであり、エージェント型のサイバーセキュリティ能力は急速に進化しています。そのため、サイバーセキュリティの High 能力に備える取り組みを進めるとともに、Aardvark のような取り組みを通じて、防御側がこれらの強化された能力を活用できるよう、サイバー領域における安全対策を強化しています。

GPT‑5‑Codex のリリース時には、悪意ある行為を検出・阻止するためのサイバーセキュリティ専用モニタリングを実装しました。大規模な不正利用の増加は確認されていませんが、高度な能力に備えた追加の緩和策を準備しています。当社チームは、モデルの悪用を試みるサイバーオペレーションをすでに阻止しており、不審な活動はポリシーモニタリングシステムを通じてレビューされています。

Codex はデフォルトで安全なサンドボックス内で動作する設計となっています。また、ファイル書き込みはワークスペース内に制限され、開発者が有効化しない限りネットワークアクセスは無効化されています。信頼できないコンテンツによるプロンプトインジェクションのリスクが生じる可能性があるため、インターネットやウェブ検索を有効化せず、Codex をこの制限付きアクセスモードで使用することを推奨します。

Codex が長時間タスクをより高度に処理できるようになるにつれ、変更を加えたり本番環境にデプロイしたりする前に、開発者がエージェントの作業内容を確認することがこれまで以上に重要になります。そのために、Codex はターミナルログを生成し、ツール呼び出しやテスト結果を明示する仕組みを備えています。Codex のコードレビューは、モデルまたは人間が生み出したバグを本番環境へデプロイしてしまうリスクを軽減するものの、人間のレビューの代わりではなく、あくまで補足的なレビューとして扱うべきです。

サイバーセキュリティの機能は防御にも攻撃にも利用され得るため、当社では段階的なデプロイを採用しています。具体的には、実運用から学び、安全対策を更新し、自動脆弱性スキャンや修復支援といった重要な防御ツールを維持する方針です。

提供状況

GPT‑5.1‑Codex‑Max は、ChatGPT Plus、Pro、Business、Edu、Enterprise の各プランで Codex 内から利用できます。プランごとの利用上限の仕組みについては、こちらのドキュメント(新しいウィンドウで開く)をご確認ください。

API キー経由で Codex CLI を利用している開発者向けには、近日中に API でも GPT‑5.1‑Codex‑Max を提供する予定です。

本日より、GPT‑5.1‑Codex に代わり、GPT‑5.1‑Codex‑Max が Codex の各インターフェースにおけるデフォルトモデルとして適用されます。汎用モデルである GPT‑5.1 とは異なり、GPT‑5.1‑Codex‑Max および Codex ファミリーのモデルは、Codex、または Codex に類似した環境でのエージェント型コーディングタスクのみに使用することを推奨します。

結論

GPT‑5.1‑Codex‑Max は、長時間にわたるコーディングタスクの継続、複雑なワークフローの管理、そして大幅に少ないトークンで高品質な実装を生成できるようになるまで、モデルがどれほど進化したかを示しています。このモデルを CLI、IDE 拡張機能、クラウド連携、コードレビューのツール群の継続的な改善と組み合わせることで、エンジニアリング生産性が大きく向上していることを確認しています。社内では OpenAI エンジニアの95%が毎週 Codex を使用しており、導入後はプルリクエストの提出数が約70%増加しています。エージェントの可能性が広がる中で、皆さまがこれらを使ってどのようなものを創り出すのか、楽しみにしています。

付録:モデル評価

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

著者

OpenAI