メインコンテンツにスキップ
OpenAI

2025年8月7日

製品

開発者向け GPT‑5 のご紹介

コーディングやエージェント型タスクに最適の最新モデルです。

読み込んでいます...

はじめに

GPT‑5 は主要なコーディングベンチマークで最高水準(SOTA)を達成しました。

SWE-bench Verified で 74.9%、Aider polyglot で 88% のスコアを記録しました。 GPT‑5 は、まさに理想的なペアプログラマーです。高品質なコード生成はもちろんのこと、バグ修正やコード編集、複雑なコードベースに関する質問への回答まで、日々のコーディングタスクを高精度でこなします。このモデルはきわめて柔軟に指示に従い、協調的な性格を持ち、非常に高い精度で詳細な指示に従います。  また、ツールを呼び出す前やその合間に、自身のアクションについて事前に説明を行います。フロントエンドコーディングにも強く、社内テストではフロントエンドのウェブ開発において OpenAI o3 を70%の割合で上回りました。

当社は、スタートアップから大手企業まで幅広い初期テスターと協力し、実際のコーディングタスクを通じて GPT‑5 の学習を行いました。Cursor は GPT‑5 を「今までで最も賢いモデル」と評し、「非常に知的で操作しやすく、他のモデルには見られない性格すら備えている」と語っています。Windsurf は、GPT‑5 が社内のベンチマークで SOTA を達成しただけでなく、「他の先進的なモデルと比較して、ツール呼び出し時のエラー率が半分である」と報告しています。Vercel は「美的センスとコード品質の両面で最高のパフォーマンスを発揮し、この分野で唯一無二の存在となっている」と評しています。

GPT‑5 は、長時間にわたるエージェント型タスクにも強く、わずか2か月前に公開された τ2-bench telecom において、96.7% という SOTA を記録しました。ツール操作における知能の向上により、GPT‑5 は複数のツール呼び出しを連続的または並列的に、安定的に処理できるようになり、実世界の複雑なタスクをこなす能力が大幅に向上しました。ツールの指示に対する正確な実行、ツールエラーへの柔軟な対応力、長文コンテキストの処理性能においても、従来モデルを上回る精度を誇ります。Manus は「GPT‑5 は、社内ベンチマークにおいて、これまで単一モデルで見た中で最高のパフォーマンスを達成した」と述べています。 Notion は「特に低推論モードでの応答の速さによって、複雑なタスクを一度で解決したい場合に GPT‑5 は理想的なモデルだ」と評価しています。Inditex は、「GPT‑5 の真価はその深い推論力にあり、主題を深く理解したうえで、ニュアンスに富んだ多層的な回答を返す点にある」と評価しています。

開発者向けの新機能として、モデルの応答を柔軟に制御できるよう、API に新たな機能が追加されています。GPT‑5 は、応答の長さを調整できる新しいパラメーター verbosity(値:lowmediumhigh)に対応し、応答を要点を重視したかたちで簡潔に、また、長文で包括的にも調整できます。また、GPT‑5 の reasoning_effort パラメーターには minimal を設定することができ、詳細な推論を行わずにすばやく回答を得ることが可能になりました。さらに、GPT‑5 は JSON 形式ではなくプレーンテキストでツールを呼び出せる、新しいツールタイプ「カスタムツール」にも対応しています。カスタムツールでは、開発者が指定したコンテキストフリー文法による出力制約にも対応しています。

API では、gpt-5gpt-5-minigpt-5-nano の3種類で GPT‑5 を提供しており、パフォーマンス、コスト、レイテンシのバランスを開発者自身が柔軟に設計できます。ChatGPT における GPT‑5 は、リーズニングモデル・非リーズニングモデル・ルーター機能の組み合わせですが、API プラットフォームにおける GPT‑5 は、最大性能を発揮するリーズニングモデルです。なお、推論を最小化した GPT‑5 は、ChatGPT の非リーズニングモデルとは異なり、開発者向けにより最適化されています。ChatGPT で使用されている非リーズニングモデルは、gpt-5-chat-latest として提供されています。

ChatGPT における GPT‑5 の提供内容やその他の改善点の詳細については、当社のリサーチブログをご覧ください。企業による GPT‑5 の活用事例は、企業ブログ記事に掲載されています。

コーディング

GPT‑5 は、当社がこれまでにリリースした中で最も優れたコーディングモデルです。主要なコーディングベンチマークおよび実際のユースケースにおいて o3 を上回り、Cursor、Windsurf、Codex CLI などのエージェント活用型コーディング製品においても優れた成果を発揮するようファインチューニングされています。新しました。GPT‑5 はアルファテスターから高く評価され、社内で実施したプライベート評価でも数々の記録を更。 

実際のコーディングタスクに対する GPT‑5 の初期フィードバック

「GPT-5 は私たちが今までに使ったコーディングモデルの中で最も頭が良いです。「私たちのチームは、GPT-5 が非常に知的で操作しやすく、他のモデルには見られないパーソナリティすら備えていることを発見しました。GPT-5 は、巧妙に隠れたバグを検出できるだけでなく、長時間にわたるマルチターンのバックグラウンドエージェントを実行し、複雑なタスクもやり遂げられます。以前のモデルでは手詰まりだったような問題にも対応でき、スコープの設定や PR の計画からエンドツーエンドのビルドまで、日々の業務に欠かせない存在となっています」
Cursor、共同創業者 兼 CEO、Michael Truell 氏

実際のソフトウェアエンジニアリングタスクに基づく SWE-bench Verified において、GPT‑5 は 74.9% のスコアを達成し、o3 の 69.1% を上回りました。特に注目すべきは、GPT‑5 はその高スコアをより効率的かつ高速に達成している点です。推論レベルの高い状況下でも、GPT‑5 は o3 と比べて出力トークンを 22%、ツール呼び出しを 45% 削減しました。

SWE-bench Verified では、モデルに対してコードリポジトリと問題説明が与えられ、課題を解決するためのパッチを生成することが求められます。テキストラベルは推論負荷のレベルを示しています。なお、インフラ上で確実に動作が確認できなかった23問(全500問中)はスコアから除外しています。GPT‑5 には、解答を徹底的に検証することを重視した短いプロンプトが与えられましたが、同じプロンプトを与えても o3 では効果が見られませんでした。

コード編集性能を測る Aider polyglot では、GPT‑5 が 88% のスコアで新記録を達成し、o3 と比べてエラー率が約3分の1に低減しました。

また、Aider polygot⁠t(新しいウィンドウで開く)(diff)では、モデルに Exercism のコーディング演習が与えられ、それに対する解答をコードの差分として記述する必要があります。リーズニングモデルは、高い推論負荷で実行されました。

さらに、GPT‑5 はコードベース全体を深く理解し、各構成要素の動作や相互運用性に関する質問にも、的確に回答できることが確認されています。OpenAI の強化学習スタックのような複雑なコードベースでも、GPT‑5 が設計意図や動作理由を推論し、日々の開発作業の効率化に大いに役立っています。 

フロントエンドエンジニアリング

ウェブアプリのフロントエンドコードを生成する際、GPT‑5 は美的感覚に優れ、意欲的で、正確です。o3 との比較テストでは、GPT‑5 が 70% の割合でテスターに選ばれました。

GPT‑5 が単一プロンプトでどこまで可能かを示す印象的な事例を以下にご紹介します。

プロンプト究極のコーヒー愛好家向けに、月額200ドルでコーヒー焙煎や理想のエスプレッソ作りのための機材レンタルとコーチングを提供するサービスの、美しくリアルなランディングページを生成してください。ターゲットとなるのは、テック業界で働いている可能性がある、教育水準が高く可処分所得があり、コーヒーの芸術性と科学に情熱を持つ、ベイエリア在住の中年層です。6か月契約の申し込みにつながるようにコンバージョン最適化を行ってください。

こちら(新しいウィンドウで開く)のギャラリーで、GPT‑5 のその他の事例をご覧いただけます。

コーディングコラボレーション

GPT‑5 は特に、Cursor、Windsurf、Codex CLI などのエージェント活用型コーディング製品において、優れたコラボレーション力を発揮します。ツール呼び出しの合間に、計画、進行状況、要約といった中間出力を生成するように指示することも可能です。従来のモデルと比べて、GPT‑5 はユーザーの合図を待たず複雑な作業にも、自発的・意欲的に取り組み、難易度が高いタスクも最後まで完了させようとします。

以下は、GPT‑5 が複雑なタスク(この場合はレストランのウェブサイトを作成)に取り組む様子の一例です。

ユーザーがレストランのウェブサイト作成を依頼した場合、GPT‑5 はまず簡単なプランを提示し、アプリの骨子を作成、必要なコンポーネントをインストールし、サイトのコンテンツを生成します。その後、ビルドを実行してコンパイルエラーがないか確認し、作業内容を要約したうえで、次に取り得るアクションも提案します。この動画は待ち時間を省くために再生速度を3倍速に上げていますが、実際にウェブサイトが完成するまでにかかった時間は約3分でした。

エージェント型タスク

GPT‑5 は、エージェント活用型コーディングにとどまらず、より広範なエージェント型タスクにおいても優れた能力を発揮します。指示追従能力のベンチマークでは Scale MultiChallenge で69.6%(o3‑mini による評価)、ツール呼び出しベンチマークでは 2-bench telecom で96.7%と、いずれも新たな最高記録を達成しました。ツールインテリジェンスが向上したことで、GPT‑5 はアクションをより確実に連携させ、複雑な現実世界のタスクにも的確に対応できるようになりました。

エージェント型タスクに関する GPT‑5 の初期フィードバック

「GPT-5 は本当に大きな進歩です。社内のベンチマークでは、単一モデルとして過去最高のパフォーマンスを記録しています。コードやプロンプトを一切調整しなくても、GPT-5 はさまざまなエージェント型タスクで素晴らしい成果を出しています。ツール呼び出しの前に表示される新しいプリアンブル(前置きメッセージ)と、ツールの使用をより正確に制御できるようになったことで、エージェントの安定性と操作性が大きく向上しています」
Manus、共同創業者 兼 チーフサイエンティスト、Yichao ‘Peak’ Ji 氏

指示へ追従性

GPT‑5 は、これまでのどのモデルよりも指示に正確に従うことができます。COLLIE、Scale MultiChallenge、そして社内のインストラクションフォロー評価で高いスコアを記録しています。

COLLIE(新しいウィンドウで開く) では、モデルはさまざまな条件を満たすテキストを生成する必要があります。Scale MultiChallenge(新しいウィンドウで開く) では、モデルが複数ターンの会話の中で、前のメッセージから4種類の情報を正しく使えるかが問われます。スコアは o3‑mini をグレーダーとして用いて算出しており、これは GPT‑4o よりも高い精度で評価できました。社内の OpenAI API インストラクションフォロー評価では、実際の開発者フィードバックから抽出した難しい指示に従う能力を検証しています。推論系モデルは、高度な推論が要求される設定で評価しました。

ツール呼び出し

ツール呼び出し機能は、開発者にとって極めて重要な要素です。GPT‑5 では、この機能を大幅に強化しました。ツールの指示に従う能力、ツールエラーへの対応力、さらに複数のツールを連続または並列で呼び出す能力が大きく向上しています。また GPT‑5 は、ツールを呼び出す前後や途中で進捗を伝えるメッセージを出力できるため、長時間にわたるエージェント型タスクの進行状況をユーザーに伝えることが可能です。

2か月前に Sierra.ai から τ2-bench telecom という新しい高難度のツール利用ベンチマークが発表されました。これは、ユーザーによって変化する環境状態との対話時に、言語モデルの性能が著しく低下することを示しています。その発表(新しいウィンドウで開く)時点で、このベンチマークで 50% を超えるスコアを出せたモデルは存在しませんでしたが、GPT‑5 は 97% のスコアを記録しました。

τ2-bench(新しいウィンドウで開く) では、モデルがツールを活用してカスタマーサービスタスクを完了させる必要があります。この評価では、モデルと対話し、実際の環境下でアクションを実行できるユーザーが存在する可能性も想定されています。リーズニングモデルは、高い推論レベルで実行されました。

GPT‑5 は、長文脈性能でも大きく進化しています。ロングコンテキスト情報検索の評価指標である OpenAI-MRCR において、GPT‑5 は o3 や GPT‑4.1 を上回り、入力文が長くなるほどその差は顕著になります。

OpenAI-MRCR(新しいウィンドウで開く) は、複数回にわたる共参照解決能力を評価するベンチマークです。このタスクでは、会話形式の長文テキスト(干し草の山)に、複数の類似した「針」に相当する文が挿入され、モデルはその中から i 番目 の針を再現するよう求められます。平均一致率は、モデルの出力と正解との文字列一致率の平均値を示します。256k の最大入力トークンのデータポイントは、128k~256k の入力トークンの平均値を表しています。ここで、256k は 256 × 1,024 = 262,144 トークンです。リーズニングモデルは、高い推論レベルで実行されました。

当社は、ロングコンテキスト Q&A を評価する新しいベンチマークである BrowseComp Long Context(新しいウィンドウで開く) もオープンソース化しました。このベンチマークでは、モデルにユーザーからの質問と、それに関連する検索結果の長いリストを与え、検索結果に基づいて質問に回答させます。BrowseComp Long Context は、現実的で難易度が高く、正確な正解データ(グラウンドトゥルース)が用意されているよう設計されています。128K~256K トークンの入力において、GPT‑5 は 89% の正答率を記録しています。

API では、すべての GPT‑5 モデルが最大 272,000 の入力トークンと最大 128,000 の推論・出力トークンに対応しており、合計で最大 400,000 トークンのコンテキスト長を扱えます。

事実性

GPT‑5 は、従来のモデルと比べて事実性において著しく信頼性が高まりました。LongFact や FActScore といった、意図的に誤りを誘発するように設計されたプロンプトによる評価において、GPT‑5 は o3 と比較して事実誤認を約 80% も削減しました。この改善により、正確性が重要となるエージェントの活用領域、とりわけコード、データ、意思決定に関する場面において、より適した選択肢となっています。

スコアは低いほど良好です。LongFact(新しいウィンドウで開く) および FActScore(新しいウィンドウで開く)⁠ は、オープンエンド形式の事実確認質問から構成されます。これらのベンチマークでは、ブラウジング機能を備えた LLM ベースの採点システムを用い、モデルの応答をファクトチェックします。そのうえで、事実として誤っている主張の割合を測定します。実装方法や採点の詳細は、システムカード⁠に記載しています。これらの評価では、リーズニングモデルは高い推論負荷を使用し、検索機能は無効化されています。検索機能は無効化されています。

また GPT‑5 は、自身の限界をより的確に把握しており、イレギュラーなケースに対しても柔軟に対応できるよう学習が行われています。ヘルスケアに関する質問への応答精度も大幅に強化されています。詳しくは こちら2}⁠をご覧ください。他の言語モデルと同様、影響の大きい意思決定に関わる場面では、GPT‑5 の出力内容を必ずご自身で検証してください。

新機能

推論を最小限にして素早く回答

開発者は、API の reasoning_effort パラメーターを使用して、GPT‑5 の思考時間を制御できます。従来の値である lowmedium(デフォルト)、high に加えて、GPT‑5 は minimal もサポートします。これは、GPT‑5 の推論を最小限に抑えて、すばやく回答を返します。

reasoning_effort の値を大きくすると出力品質が向上し、小さくすると応答速度が上がります。追加推論の効果はタスクによって異なるため、ユースケースに応じて最適な設定を試すことをお勧めします。

たとえば、比較的単純なロングコンテキスト検索では推論を low より高く設定しても影響は小さい一方、視覚的推論ベンチマークである CharXiv Reasoning(新しいウィンドウで開く) では、精度が大幅に向上します。

GPT‑5 の推論レベルによる効果は、タスクによって異なります。CharXiv Reasoning では、GPT‑5 に Python ツールへのアクセス権が与えられました。

応答の長さ設定

GPT‑5 の回答の長さを調整するために、新たな API パラメーター verbosity が追加されました。このパラメーターには lowmedium(デフォルト)、high の値を指定できます。プロンプトに明示的な指示が含まれている場合は、verbosity の設定よりもそちらが優先されます。たとえば「5 段落のエッセイを書いてください」と指定された場合、どの verbosity を選んでも GPT‑5 の回答は必ず 5 段落で出力されます(ただし、段落の長さは異なる場合があります)。

出力の詳細度=低

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

出力の詳細度=中

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

出力の詳細度=高

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ツール呼び出し前の予告メッセージ

指定された場合、GPT‑5 はツール呼び出しの前後や途中で、ユーザーに見える前置きメッセージを出力できます。この可視化されたメッセージは、従来の隠れた推論メッセージとは異なり、GPT‑5がどのような計画や進捗でツールを使っているかをユーザーに伝える役割を果たします。これにより、エンドユーザーはツール呼び出しの背景や目的を理解しやすくなります。

カスタム ツール

GPT‑5 では、新しいツールタイプ「カスタムツール」が導入され、ツールを JSON ではなくプレーンテキストで呼び出せるようになりました。GPT‑5 がカスタムツールの形式に従うように制限するために、開発者は正規表現や、より詳細な指示である文脈自由文法(新しいウィンドウで開く)を指定できます。

従来、開発者定義ツールとのやり取りには、ウェブ API や開発者の間で一般的に使われる JSON 形式での呼び出しが求められていました。JSONは Web API や開発現場で一般的なフォーマットですが、有効な JSON を出力するには、すべての引用符、バックスラッシュ、改行、その他の制御文字を正確にエスケープする必要がありました。当社のモデルは JSON を出力するよう十分に学習されていますが、たとえば 5 ページにわたるコードや長文のレポートのような大規模な入力を処理する場合、エラーのリスクが高くなります。カスタムツールを使えば、GPT‑5は、こうしたエスケープ処理を省略できるため、モデルはツール入力をそのままプレーンテキストで出力できます。

SWE-bench Verified において、JSON ツールではなくカスタムツールを使用した場合でも、GPT‑5 のスコアはほぼ同じでした。

安全性

GPT‑5 は安全性の境界を前進させた、堅固で信頼できる有用なモデルです。GPT‑5は、安全性の面でも大きく進化しており、より堅牢で信頼性が高く、有用性にも優れたモデルです。従来モデルに比べてハルシネーションの発生率が大幅に低減しています。より詳しい内容は、 リサーチブログもご覧ください。

提供状況と料金

GPT‑5 は現在、OpenAI API にて3種類のモデルサイズで利用可能です。gpt-5gpt-5-minigpt-5-nanoです。Responses API、Chat Completions API で利用できるほか、Codex CLI ではデフォルトモデルとして提供されています。GPT‑5 の価格は、$1.25 / 100万入力トークン、$10 / 100万出力トークンです。GPT‑5 mini の価格は、$0.25 / 100万入力トークン、$2 / 100万出力トークンです。GPT‑5 nano の価格は、$0.05 / 100万入力トークン、$0.40 / 100万出力トークンです。

いずれのモデルも、 reasoning_effortverbosity などの API パラメーターに対応しており、カスタムツールも利用可能です。さらに、並列ツール呼び出し、組み込みツール(ウェブ検索、ファイル検索、画像生成など)、コア API 機能(ストリーミング、Structured Outputs など)、プロンプトキャッシュや Batch API などのコスト削減機能にも対応しています。

ChatGPT で使用されている非リーズニング版 GPT‑5 は、API 上では gpt-5-chat-latest として提供されており、価格は $1.25 / 100万入力トークン、$10 / 100万出力トークンです。

また、GPT‑5 は Microsoft 365 Copilot、Copilot、GitHub Copilot、Azure AI Foundry を含む Microsoft の各プラットフォームにも展開されます。

ベンチマークの詳細

インテリジェンス
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] 以前のブログ投稿で記載した数値には、小さな差異があります。それらの数値が HLE の旧バージョンで実行されたためです。

マルチモーダル
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
コーディング
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$11万$7.5万$4.9万$8.6万$6.6万$3.4万$3.1万$9000
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] 私たちは500問中23問をインフラ上で確実に動作が確認できなかったため除外しています。以下が除外された23問です。'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', 'sphinx-doc__sphinx-9367'.

指示への追従
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] *私たちは、MultiChallenge におけるデフォルトのグレーダーである GPT-4o が、モデルの回答を頻繁に誤って採点することを発見しました。検査したサンプルでは、採点者を o3-mini のようなリーズニングモデルに切り替えることで、グレーディング精度が大幅に向上することがわかりました。

Function Calling(関数呼び出し):
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
長文コンテキスト
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
ハルシネーション
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

著者

OpenAI