2025年6月10 日更新情報:OpenAI o3‑pro は、ChatGPT の Pro ユーザーと当社の API で利用できるようになりました。o3‑pro は、OpenAI o1‑pro のように OpenAI の最もインテリジェントなモデルである OpenAI o3 のバージョンで、より長く思考し、最も信頼できる回答を提供するように設計されています。詳細についてはリリースノート(新しいウィンドウで開く)をご覧ください。
本日、OpenAI o3 および o4-mini をリリースします。回答する前に時間をかけて思考するよう学習させた o シリーズの最新モデルです。これまでにリリースした中で最もスマートなモデルとして、一般ユーザーから専門の研究者まで、全ての人に ChatGPT の機能の躍進を実感していただけるでしょう。リーズニングモデルは、ウェブの検索、Python によるアップロードされたファイルなどのデータの分析、視覚的な入力に対する深い論理的思考、画像の生成など、ChatGPT 内の全ツールを初めてエージェント的に使用し、組み合わせることができます。特に、これらのモデルは、より複雑な問題を解決するために、いつ、どのようにツールを使用するかを論理的に思考し、詳細で思慮深い答えを通常1分以内に適切な出力形式で生成するよう学習しています。これで多面的な質問により効果的に対応できるようになり、ユーザーに代わって独立してタスクを実行できる、よりエージェント的な ChatGPT へ一歩前進します。最先端の論理的思考と全ツールへのアクセスを組み合わせることで、学術的なベンチマークや実世界のタスクにおいて大幅に強化されたパフォーマンスを発揮し、インテリジェンスと有用性の両面で新たな基準を打ち立てます。
OpenAI o3 は、コーディング、数学、科学、視覚認識などのフロンティアを押し広げる、最も強力なリーズニングモデルです。Codeforces や SWE-bench(カスタムモデル固有のスキャフォールドを構築することなく)、MMMU などのベンチマークで新たな最先端を打ち立てます。多面的な分析が求められ、答えがすぐには導き出せような複雑なクエリに最適です。特に、画像や図表、グラフィックの分析など、視覚的なタスクを得意としています。社外専門家による評価では、o3 は OpenAI o1 と比較して、困難な実世界のタスクにおける大きなミスが20%少なく、特にプログラミングやビジネス/コンサルティング、創造的なアイデア出しのような分野で優れています。初期段階のテスターは、思考のパートナーとしての分析的な厳密さを特筆し、特に生物学や数学、工学の文脈において、新しい仮説を生み出し、批判的に評価する能力を強調しました。
OpenAI o4-mini は、高速でコスト効率の高い論理的思考に最適化された小型モデルで、特に数学やコーディング、視覚的タスクにおいて、そのサイズとコストに対して驚異的な性能を発揮します。AIME 2024 および2025でベンチマークされたモデルとして最高の性能を示しています。コンピュータにアクセスすると AIME 試験の難しさはかなり軽減されますが、o4-mini が AIME 2025 で、Python インタープリターにアクセスできるときに 99.5% pass@1 (100% consensus@8) を達成したことも特筆に値すると考えます。これらの結果を、ツールにアクセスしないモデルのパフォーマンスと比較するべきではありませんが、o4-mini が使用可能なツールをいかに効果的に活用するかを示す一例になっています。o3 も AIME 2025 で、ツールの使用による同様の成果向上を示しました (98.4% pass@1、100% consensus@8)。
専門家の評価では、o4-mini はデータサイエンスのような分野のほかに、非 STEM のタスクでも前身の o3‑mini を上回っています。効率性に優れる o4-mini は、 o3 よりもかなり高い使用制限をサポートし、推論の恩恵を受ける質問のための強力な大容量、高スループットのオプションとなっています。社外専門家による評価では、両モデルともインテリジェンスが向上し、ウェブソースが含まれるようになったことで、従来モデルよりも指示に従う精度が改善され、より有用で検証可能な回答が得られるようになったとされました。また、この両モデルは、特にメモリや過去の会話を参照してより個人に合わせた関連性の高い応答を行うことから、旧バージョンのリーズニングモデルと比較して、さらに自然で会話するような印象を与えるはずです。
マルチモーダル
コーディング
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
指示の遵守とツールのエージェント的な使用
全てのモデルは、ChatGPT の「o4-mini-high」のようなバリエーションと同様に、高い「推論努力」設定において評価されています。
OpenAI o3 の開発全体を通して、大規模な強化学習は GPT シリーズの事前学習で観察されたのと同じ「計算量が多い=性能が高い」という傾向を示すことを観察しました。今回は RL でスケーリングパスを再トレースすることで、学習計算と推論時間リーズニングの両方でさらに1桁押し上げましたが、それでも明らかな性能向上が見られ、モデルの性能は思考時間が長いほど向上することが検証されました。OpenAI o1 と同等のレイテンシとコストで、o3 は ChatGPT でより高い性能を発揮します。また、長い時間思考を与えると、その性能が向上を続けることも確認されています。
また、強化学習を通してツールを使うように両モデルに学習させました。ツールの使い方だけでなく、ツールを使う状況について論理的に思考することも教えています。特に、視覚的な論理的思考や多段階のワークフローを伴うようなオープンエンドの状況において、望まれる結果に応じてツールを使う能力は高い能力を発揮します。初期段階のテスターが報告したように、この改善は学術的なベンチマークと実世界のタスクの両方に反映されています。

これらのモデルは、初めて、画像を Chain-of-Thought に直接組み込むことができるようになりました。画像を見るだけでなく、それを使って考えるのです。これにより、視覚とテキストによる論理的思考を融合させた新たな問題解決のクラスが実現し、マルチモーダルベンチマークにおける最先端の性能に反映されています。
ホワイトボードの写真、教科書の図表、手描きのスケッチなどをアップロードすると、イメージがぼやけている、逆さまになっている、低画質という場合でも、モデルはそれを解釈できます。ツールを使うことで、モデルはリーズニングプロセスの一環として、画像をその場で回転させる、ズームする、変形させるなどの操作ができます。
これらのモデルは、視覚認識タスクにおいてクラス最高の精度を実現し、これまで不可能だった問題を解決できるようになります。詳しくは視覚的な論理的思考の研究に関するブログをご覧ください。
OpenAI o3 および o4-mini は ChatGPT 内の全ツールにアクセスできます。API の Function Calling でユーザー独自のカスタムツールも私用できます。これらのモデルは、問題を解決するために、いつ、どのようにツールを使用するかを論理的に思考し、詳細で思慮深い答えを通常1分以内に適切な出力形式で生成するよう学習しています。
プロンプト例:“How will summer energy usage in California compare to last year?” (カリフォルニアの夏のエネルギー使用量は昨年と比べてどうか?)モデルは、複数のツール呼び出しを連結して、ウェブで公共事業のデータを検索し、Python コードを書いて予測を構築し、グラフやイメージを生成し、予測を裏付ける主な要因を説明できます。論理的思考によって、モデルは受け取った情報に適宜反応し、方向転換できます。例えば、検索プロバイダーを利用してウェブを複数回検索し、結果を見て、さらに情報が必要なら新しい検索を試すことができます。
この柔軟で戦略的なアプローチにより、モデルに内蔵された知識にない最新情報へのアクセス、長い論理的思考、合成、モダリティを超えた出力生成を必要とするタスクに対応できます。
すべての例は OpenAI o3 で行いました。
OpenAI o3
OpenAI o1
o1 が正しい応答をできない一方、OpenAI o3 は検索を使わずとも正しく応答を取得します。
コスト効率の高いリーズニングを進歩させる
コストと性能:o3‑mini と o4-mini


コストと性能:o1 と o3


OpenAI o3 および o4-mini は、当社がこれまでにリリースした中で最もインテリジェントなモデルであり、しばしば従来の OpenAI o1 および o3‑mini よりも効率的です。例えば、2025年の AIME 数学競技では、o3 のコストパフォーマンスフロンティアは o1 よりも厳密に改善され、同様に o4-mini のフロンティアは o3‑mini よりも厳密に改善されています。より全般的には、ほとんどの実世界での使用において、o3 と o4-mini は、それぞれ o1 と o3‑mini よりも賢く安価になると予測しています。
モデルの性能が向上するごとに、安全性も相応に向上します。OpenAI o3 および o4-mini では、安全学習データを完全に再構築し、生物学的脅威(バイオリスク)、マルウェア生成、ジェイルブレイクなどの分野で新しい拒否プロンプトを追加しました。この一新されたデータにより、o3 および o4-mini は、社内の拒否ベンチマーク(例:指示階層、ジェイルブレイク)で強力な性能を達成しました。モデル拒否で強力な性能を発揮したのに加えて、フロンティアリスク領域で危険なプロンプトにフラグを立てるためのシステムレベルの緩和策も開発しました。画像生成で当社が以前に行った作業と同様に、人間が書いた解釈可能な安全仕様から動作するリーズニング LLM モニターを学習させました。このモニターをバイオリスクに適用したところ、人間のレッドチーミングキャンペーンで会話の最大99%にフラグを立てることに成功しました。
両モデルとも、これまでで最も厳格な安全性プログラムでストレステストを行いました。更新版 Preparedness Framework に従い、このフレームワークが網羅する3つの追跡可能な能力分野、すなわち生物化学、サイバーセキュリティ、AI の自己改善で o3 および o4-mini を評価しました。これらの評価結果に基づき、o3 および o4-mini は、3つのカテゴリすべてにおいて同フレームワークの「高」のしきい値を超えていないと判断しました。これらの評価の詳細な結果は、付随する System Card に掲載しています。
新しい実験もご紹介します:Codex CLI は、ターミナルから実行できる軽量なコーディングエージェントです。コンピューター上で直接動作し、o3 や o4-mini のようなモデルの論理的思考能力を最大限に引き出すように設計されており、GPT‑4.1 のような追加の API モデルもサポートする予定です。
スクリーンショットや忠実度の低いスケッチをモデルに渡し、ローカルでコードにアクセスすることで、コマンドラインからマルチモーダルリーズニングの利点を活用できます。当社は、モデルをユーザーとそのコンピューターに接続するための最小限のインターフェイスであると考えています。Codex CLI は現在、github.com/openai/codex(新しいウィンドウで開く) にて完全にオープンソース公開しています。
これと並行して、Codex CLI と OpenAI のモデルを使ったプロジェクトを支援する100万ドルのイニシアチブを開始します。API クレジットの形で、25,000米ドル単位で助成金の申請を募集、審査します。プロポーザルはこちらから提出できます。
ChatGPT Plus、Pro、Team のユーザーは、o1、o3‑mini、o3‑mini‑high に代わり、本日より o3、o4-mini、o4-mini-high がモデルセレクターに表示されます。ChatGPT Enterprise および Edu のユーザーは、1週間でアクセスできるようになります。無料ユーザーは、クエリを送信する前に、コンポーザーで「Think」を選択することで o4-mini を試すことができます。全てのプランにおけるレート上限は、前回のモデルから変更ありません。
数週間以内にツールをフルサポートした OpenAI o3‑pro をリリースする予定です。現時点では、Pro ユーザーは引き続き o1‑pro にアクセスできます。
o3 および o4-mini は、いずれも Chat Completions API と Responses API を介して、本日から開発者向けに利用可能です(一部の開発者は、これらのモデルにアクセスするために組織を確認(新しいウィンドウで開く)していただく必要があります)。Responses API は論理的思考のサマリー(性能を向上させるために関数呼び出しのリーズニングトークンを保持する機能)をサポートし、モデルの論理的思考内でウェブ検索、ファイル検索、Code Interpreter といった内蔵ツールをまもなくサポートする予定です。まずはドキュメント(新しいウィンドウで開く)をご覧のうえ、続報をお待ちください。
本日のアップデートは、当社のモデルの方向性を反映しています。o シリーズの専門的な論理的思考能力を、GPT シリーズの自然な会話能力とツールの使用に収束させていきます。これらの強みを統合することで、将来のモデルは、積極的なツールの使用や高度な問題解決とともに、シームレスで自然な会話をサポートしていきます。
4月16日更新:Charxiv-r と Mathvista での o3 の結果が更新され、当初の評価にはなかったシステムプロンプトの変更が反映されました。
著者
脚注
* tau-bench 評価の数値は、分散を抑えるために5回の実行で平均化され、カスタムツールやプロンプトなしで実行されます。tau-bench の小売のロールアウトは、ユーザーモデルのエラーがより発生しやすいことを発見しました。丸括弧内の数値は、GPT-4o よりも指示の追従性が格段に優れているため、GPT-4.1 をユーザーモデルとして実行したものです。
* SWE-bench では、256kの最大コンテキスト長を使用しており、o4-mini の正答率が約3%向上し、o3 の正答率への影響は<1%です。また、当社内のインフラで実行できない23のサンプルを除外しています。
** ブラウジングを有効にすると、モデルは、例えばデータセットからのサンプル問題のあるブログ記事を読むことによって、オンラインで正確な解答を見つけることができます。当社は、下記2つの戦略でブラウジング中のモデルによる不正行為の懸念を軽減します。
過去にモデルの不正行為を観測したドメインをブロックしました。
リーズニングモデルをモニターとして使用し、不審な動作を特定するために、各試行で全てのトークンを検査しました。疑わしい行動とは、次のように定義します。「特定の問題に対する正確な解答を提供することを主な目的としたページやファイル、スニペット。例えば、公式の採点キー、流出した『解答』の要点、完成した解答をそのまま引用したディスカッションなど。」良性の行動とは、次のように定義します。「勤勉な人間が参照する可能性のある権威あるリソース(文書、マニュアル、学術論文、評判の高い記事)で、それが偶然に正答を含んでいても構わない。」モニターがロールアウトを疑わしいと判断した試行は、不正確としてカウントされます。このチェックで不合格になったサンプルのほとんどは、正確な解が HLE とは関係のない複数のインターネットソースで入手可能な問題でした。
最後に、ChatGPT と OpenAI API では検索エンジンのバックエンドが異なるため、ブラウジングでの評価は OpenAI API では完全に再現できない可能性があります。これらの結果は、ChatGPT のユーザー体験を代表するためのものですが、需要に応じて、検索構成は将来的に変更される可能性があります。
Contributors
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trapit Bansal, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang