開発者向け GPT‑5.1 が登場
本日、API プラットフォームで GPT‑5 シリーズの次のモデルである GPT‑5.1 をリリースします。GPT‑5.1 は、幅広いエージェントタスクやコーディングタスクに対して、知性と速度のバランスを最適化しています。GPT‑5.1 は、タスクの複雑さに応じて思考に費やす時間を動的に調整し、日常的な単純タスクでは大幅な高速化とトークン効率の向上を実現します。また、本モデルには「no reasoning」(推論なし)モードが追加されており、深い思考を必要としないタスクにはより高速に応答しつつ、GPT‑5.1 が持つ最先端の知性を維持します。
GPT‑5.1 をさらに効率的にするため、最大 24 時間まで保持できる拡張プロンプトキャッシュを提供します。これにより、後続の質問に対して、より高速かつ低コストで応答できるようになります。優先処理(新しいウィンドウで開く)をご利用のお客様は、GPT‑5 と比べて GPT‑5.1 で明らかに高速なパフォーマンスを体感いただけます。
コーディングに関しては、Cursor、Cognition、Augment Code、Factory、Warp などのスタートアップと緊密に協力し、GPT‑5.1 を改善してきました。その結果、コーディング時の振る舞い(coding personality)、制御のしやすさ、コード品質が向上しています。全体として GPT‑5.1 は、コーディング時の操作性がより直感的になり、タスクの実行中にユーザーに提示される進捗アップデートも、これまで以上にわかりやすくなっています。
最後に、GPT‑5.1 では 2 つの新しいツールを導入します。コード編集をより確実に行うための apply_patch ツールと、モデルがシェルコマンドを実行できるようにする shell ツールです。
GPT‑5.1 は GPT‑5 シリーズにおける次の進化であり、私たちは今後も、開発者が信頼できるエージェントワークフローを構築できるよう、より知的で高性能なモデルへの投資を続けていきます。
GPT‑5.1 を高速化するため、思考プロセスの学習方法そのものを見直しました。単純なタスクでは、GPT‑5.1 は思考に使うトークン数を減らし、よりきびきびとしたプロダクト体験と、低いトークンコストを両立します。一方で、追加の思考が必要な難しいタスクでは、選択肢を検討し、自らの出力を検証しながら粘り強く取り組むことで、信頼性を最大化します。
Balyasny Asset Management(新しいウィンドウで開く) は、GPT‑5.1 について「当社の包括的な動的評価スイートにおいて、GPT‑4.1 と GPT‑5 の両方を上回りながら、GPT‑5 比で 2〜3 倍の高速で動作した」と述べています。また、ツールを多用する推論タスク全体でも、「同等かそれ以上の品質を保ちながら、主要な競合モデルの約半分のトークン数で安定して動作した」と評価しています。同様に、保険向け AI BPO の Pace(新しいウィンドウで開く) でもモデルを検証し、「GPT‑5.1 を使うとエージェントの動作が GPT‑5 や他の主要モデルと比べて 50% 高速化し、精度も上回った」と報告しています。
GPT‑5.1 は GPT‑5 と比べて、思考にかける時間をより動的に調整します。代表的な ChatGPT タスク分布においても、GPT‑5.1 は高い推論レベルであっても簡単なタスクをはるかに高速に処理します。
例えば「グローバルにインストールされているパッケージを一覧表示する npm コマンドを教えて」といった質問に対し、GPT‑5 では 10 秒かかっていたところを、GPT‑5.1 では 2 秒で回答できます。
GPT-5(Medium)は約 250 トークン(約 10 秒)を要します。
GPT-5.1(Medium)は約 50 トークン(約 2 秒)を要します。
開発者は、reasoning_effort を「none」に設定することで、推論なしのモードで GPT‑5.1 を利用できるようになりました。これにより、レイテンシに敏感なユースケースでも、高い知性と高性能なツール呼び出し能力を維持したまま、推論なしのモデルのように振る舞わせることができます。GPT‑5 の「minimal」推論モードと比べると、推論なしの GPT‑5.1 は並列ツール呼び出し(これ自体がタスク全体の完了速度を高めます)、コーディングタスク、指示の追従、検索ツールの活用において優れており、API プラットフォームでのウェブ検索(新しいウィンドウで開く)にも対応しています。Sierra(新しいウィンドウで開く) は、自社の実運用に近い評価において、「推論なし」モードの GPT‑5.1 が「GPT‑5 の minimal 推論モードと比べて、低レイテンシなツール呼び出しのパフォーマンスで 20% 改善した」と述べています。
reasoning_effort に「none」が追加されたことで、開発者はユースケースに応じて、速度・コスト・知性のバランスをこれまで以上に柔軟にコントロールできるようになりました。GPT‑5.1 のデフォルト値は「none」であり、レイテンシに敏感なワークロードに最適です。複雑なタスクには「low」または「medium」を、速度よりも知性と信頼性を優先したいタスクには「high」を選択することをおすすめします。
拡張キャッシュにより、プロンプトを数分ではなく最大 24 時間キャッシュに保持できるようになり、推論効率が向上します。保持期間が長くなることで、フォローアップリクエストの多くがキャッシュ済みコンテキストを活用できるようになり、レイテンシの低減やコスト削減、マルチターンのチャット、コーディングセッション、ナレッジ検索ワークフローなど長時間の対話におけるパフォーマンス向上につながります。
プロンプトキャッシュの料金体系に変更はなく、キャッシュされた入力トークンはキャッシュされていないトークンより 90% 安価で、キャッシュへの書き込みや保存に追加料金はかかりません。GPT‑5.1 で拡張キャッシュを利用するには、Responses API または Chat Completions API のパラメーターに “prompt_cache_retention=‘24h’” を追加してください。詳細については、プロンプトキャッシング(新しいウィンドウで開く)のドキュメントをご覧ください。
GPT‑5.1 は GPT‑5 のコーディング機能をさらに強化し、より制御しやすいコーディング時の振る舞い、過剰な思考の抑制、コード品質の向上、ツール呼び出しシーケンス中にユーザーに伝えるアップデートメッセージ(プリアンブル)の改善、特に低い推論レベルでもより実用的なフロントエンドデザイン生成を実現しています。
簡単なコード修正などのシンプルなコーディングタスクでは、GPT‑5.1 の高速な応答により、行き来しながらの反復がしやすくなります。単純なタスクでの高速化によって、難しいタスクでの性能が損なわれることはありません。SWE-bench Verified では、GPT‑5.1 は GPT‑5 よりも長く思考し、正解率 76.3% を達成しています。
SWE-bench Verified では、モデルにコードリポジトリと課題の説明が与えられ、問題を解決するパッチを生成する必要があります。ラベルは reasoning effort を示しています。精度は 500 問すべてに対する平均値として算出されます。すべてのモデルは、JSON ベースの apply_patch ツールを備えたハーネスを使用しました。
私たちは、いくつかのコーディング関連企業から GPT‑5.1 に関する早期フィードバックを受け取りました。以下は、その声の一部です。
- Augment Code(新しいウィンドウで開く) は GPT‑5.1 について「無駄な動きが少なく、より意図的で、推論がさらに効率的になり、タスクへの集中度が高まった」と評価しています。また「変更精度の向上、スムーズなプルリクエスト処理、複数ファイルにまたがるプロジェクトでの高速な反復が実現できている」と述べています。
- Cline(新しいウィンドウで開く) は自社の評価において「GPT‑5.1 は差分編集ベンチマークで 7% 改善し、SOTA を達成した。複雑なコーディングタスクに対して非常に高い信頼性を示した」と報告しています。
- CodeRabbit(新しいウィンドウで開く) は GPT‑5.1 を「PR レビューにおける最有力モデル」と位置づけています。
- Cognition(新しいウィンドウで開く) は GPT‑5.1 について「こちらの意図をこれまで以上に正確に理解し、一緒にタスクをやり遂げてくれるモデルだ」とコメントしています。
- Factory(新しいウィンドウで開く) は「GPT‑5.1 は明らかに応答が速く、タスクに応じて推論の深さを調整することで考え過ぎを抑え、開発者体験全体を改善している」と述べています。
- Warp(新しいウィンドウで開く) は新規ユーザー向けのデフォルトモデルとして GPT‑5.1 を採用し、「GPT‑5 シリーズがもたらした顕著な知能向上を継承しつつ、はるかに応答性の高いモデルだ」と評価しています。
「GPT-5.1 は単なる LLM ではありません。本当にエージェント的で、私がこれまでテストした中で最も自然に自律して動けるモデルです。あなたの文体で書き、あなたのようにコードを書き、複雑な指示も難なくこなし、フロントエンドのタスクでも優れた性能を発揮します。既存のコードベースにも自然に組み込めます。Responses API を使うことで、その性能を最大限に引き出せます。自社の IDE で提供できることをとても嬉しく思います。」
GPT‑5.1 では、Responses API でモデルを最大限に活用するための 2 つの新しいツールを追加しました。JSON エスケープを気にせず、より確実にコード編集が行える freeform の apply_patch ツール、そしてローカル環境で実行するコマンドをモデルから記述できる shell ツールです。
freeform のapply_patch ツールを使うと、GPT‑5.1 は構造化された diff を用いて、コードベース内のファイルを作成・更新・削除できます。単に修正案を提示するだけではなく、アプリケーション側が適用し結果を返す「パッチ操作」をモデルが生成する仕組みで、反復的かつ段階的なコード編集ワークフローを実現します。
Responses API で apply_patch ツールを使用するには、“tools”: [{“type”: “apply_patch”}] のように tools 配列に追加し、入力にファイル内容を含めるか、ファイルシステムとやり取りできるツールをモデルに与えます。モデルは、ファイルの作成・更新・削除を指示する apply_patch_call を生成し、その中に含まれる diff をローカルのファイルシステムに適用します。apply_patch ツールとの統合方法について詳しくは、開発者向けドキュメント(新しいウィンドウで開く)をご覧ください。
shell ツールを使うと、モデルは制御されたコマンドラインインターフェースを介してローカルコンピューターとやり取りできます。モデルがシェルコマンドを提案し、開発者側の統合環境がそれらを実行して、その出力結果を返します。これにより、モデルがタスクを完了するまでシステムの状態確認、ユーティリティ実行、データ取得を行える、シンプルな「計画→実行」ループが実現します。
Responses API で shell ツールを使用するには、“tools”: [{“type”: “shell”}] のように tools 配列に追加します。API は、実行すべきシェルコマンドを含む “shell_call” アイテムを生成します。開発者はローカル環境でこれらのコマンドを実行し、その結果を次回の API リクエストで “shell_call_output” として返します。詳しくは開発者向けドキュメント(新しいウィンドウで開く)をご覧ください。
GPT‑5.1 および gpt-5.1-chat-latest は、API のすべての有料プランでご利用いただけます。料金とレート制限(新しいウィンドウで開く)は GPT‑5 と同じです。さらに、gpt-5.1-codexと gpt-5.1-codex-mini も API で提供を開始します。GPT‑5.1 はほとんどのコーディングタスクに優れていますが、gpt-5.1-codexモデルは、Codex または Codex 互換環境における長時間のエージェント型コーディングタスク向けに最適化されています。
開発者は、GPT‑5.1 の開発者向けドキュメント(新しいウィンドウで開く)やモデルプロンプトガイド(新しいウィンドウで開く)を使って、すぐに開発を始められます。現時点では GPT‑5 を API で非推奨にする予定はありません。非推奨とする場合は、事前に開発者の皆さまへ事前に通知いたします。
私たちは、実際のエージェントタスクやコーディング作業で使える、より高性能で信頼性の高いモデルを継続的に提供することに取り組んでいます。効率的に思考し、素早く反復し、複雑なタスクを処理しながら、開発者が作業の流れを保てるモデルを目指しています。適応推論、より強化されたコーディング性能、ユーザー向けの分かりやすい更新に加え、apply_patch や shell といった新しいツールにより、GPT‑5.1 は開発の摩擦を減らすために設計されています。また、この分野への投資も引き続き強化しており、今後数週間から数か月の間に、さらに高性能なエージェント型のコーディング向けモデルを提供していく予定です。
評価 | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench Verified | 76.3% | 72.8% |
GPQA Diamond | 88.1% | 85.7% |
AIME 2025 | 94.0% | 94.6% |
FrontierMath | 26.7% | 26.3% |
MMMU | 85.4% | 84.2% |
Tau2-bench Airline | 67.0% | 62.6% |
Tau2-bench Telecom* | 95.6% | 96.7% |
Tau2-bench Retail | 77.9% | 81.1% |
BrowseComp Long Context 128k | 90.0% | 90.0% |
* Tau2-bench Telecom では、GPT‑5.1 の性能向上のために、短い一般的な補助プロンプトを与えています。


