2025 年 6 月 10 日更新:OpenAI o3‑pro 現在已經開放給 ChatGPT 的 Pro 用戶使用,也可以透過我們的 API 取得。正如 OpenAI o1‑pro 一樣,o3‑pro 是我們最聰明模型 OpenAI o3 的一個版本,專門設計來進行更長時間的思考並提供最可靠的回應。詳細資訊可在我們的發行說明(在新視窗中開啟)中找到。
今天,我們發佈 OpenAIo3和o4-mini,這是我們 o 系列模型中最新的型號,這些模型經過訓練,可以在回應前進行更長時間的思考。這些是我們至今發布過最聰明的模型,象徵著 ChatGPT 能力的階段性變革,服務對象涵蓋從好奇探索者到頂尖研究者。我們的推理模型首次能夠主動使用並整合 ChatGPT 內的每一項工具,包括搜尋網路、使用 Python 分析上傳的檔案和其他資料、對視覺輸入進行深度推理,甚至產生圖像。關鍵在於,這些模型被訓練來推理使用工具的時機和方法,以產生詳盡且經過深思的答案,採用適當的輸出格式,通常在一分鐘內解決更加複雜的問題。這使它們能夠更有效地解決多方面的問題,這是邁向更具自主性的 ChatGPT 的一步,它可以代替您獨立完成任務。結合最先進推理能力與完整工具存取的力量,體現在學術測試基準和實際世界任務中大幅改善的績效表現,為智能化和實用性開創了全新的標準。
OpenAI o3是我們最強大的推理模型,在編程、數學、科學、視覺辨識等方面都有重大突破。它在多項基準測試上創下新的 SOTA,包括 Codeforces、SWE-bench 以及 MMMU。它非常適合需要多面向分析且答案可能並非顯而易見的複雜查詢。它在分析圖像、圖表和圖形等視覺任務方面表現尤其出色。外部專家評估顯示,o3 在複雜的實際應用任務上,比 OpenAI o1 的重大失誤少 20%,特別在程式編寫、企業/諮詢服務和創新思維等範疇均展現優勢。早期測試者指出,它具備嚴密的分析能力,能成為優秀的思維夥伴,尤其擅長於產生創新的假設並加以批判性分析,這在生物學、數學和工程領域中特別明顯。
OpenAI o4-mini是一個經過優化的小型模型,專為快速、成本效益的推理而設計,它在其規模和成本範圍內達到了卓越的性能表現,特別是在數學、編碼和視覺任務方面。它是在 AIME 2024 和 2025 基準測試中表現最好的模型。儘管使用電腦能夠顯著降低 AIME 考試的難度,我們也發現一個值得關注的現象:o4-mini 在擁有 Python 解釋器存取權限時,於 AIME 2025 達成 99.5% 的 pass@1(100%的consensus@8)表現。雖然這些結果不應與沒有工具使用權限的模型表現進行比較,但它們是 o4-mini 如何有效運用可用工具的一個例子;o3 在 AIME 2025 上透過工具使用也顯示出類似的改善(98.4% pass@1,100% consensus@8)。
在專家評估中,o4-mini 在非 STEM 任務以及資料科學等領域也超越了其前身 o3‑mini。由於其高效能,o4‑mini 的使用上限遠高於 o3,使其成為處理需推理問題時,適用於高流量、高吞吐量的強大選擇。外部專家認為這兩個模型在指令遵循方面都有所改進,並且比其前代版本提供更實用、可驗證的回應,這要歸功於智能的提升和網絡來源的整合。相較於過去的推理模型,這兩個新模型應該更自然、更擅於對話,特別是當它們運用記憶和過去的對話來製作更個人化和更貼切的回覆時。
多模態
編程
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
遵循指令與代理工具使用
所有模型都是在高「推理負載」設定下進行評估的,類似 ChatGPT 中所謂的「o4-mini-high」版本。
在 OpenAI o3 的開發過程中,我們觀察到大規模強化學習展現出與 GPT 系列前期訓練相同的「運算量越大 = 更好效能」趨勢。這次在強化學習中,我們重新沿著擴展路徑推進,將訓練運算量和推理時的思考能力都提升了額外一個數量級,我們依然看到明確的效能提升,驗證了模型在被賦予更多「思考」空間時,表現會持續進步。在與 OpenAI o1 擁有相同延遲與成本的情況下,o3 在 ChatGPT 中展現出更高的效能,而且我們已經驗證過,只要讓它思考更久,其效能會持續上升。
我們也訓練了這兩個模型透過強化學習來使用工具,不僅教導它們如何使用工具,還教導它們如何判斷何時使用工具。它們基於預期結果部署工具的能力,使它們在開放式環境中表現更佳,特別是在涉及視覺推理和多步驟工作流程的場合下。正如早期測試者所報告的那樣,這項改進反映在學術基準測試和實際任務中。

這些模型首次能將圖像直接整合到其思維鏈中。它們不只是看到圖像,它們會利用圖像來思考。這開創了一個全新的問題解決方式,結合了視覺和文字推理,此特點反映於它們在多模態基準評測中的領先水準表現。
用戶可以上傳手寫白板、教材圖表或手繪圖稿的照片,縱使圖像朦朧、反向或品質粗糙,模型也能夠識別其內容。通過使用工具,模型能夠實時操作圖像,在推理過程中對圖像進行旋轉、縮放或轉換。
這些模型在視覺辨識任務上提供業界最佳的準確性,使其能夠解決以前無法解決的問題。請參閱視覺推理研究網誌了解詳情。
OpenAI o3 和 o4-mini 在 ChatGPT 內具有完整的工具存取權限,同時也能透過 API 中的函數呼叫功能存取您自己的自訂工具。這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具來快速產生詳細且深思熟慮的答案,並採用正確的輸出格式,通常在一分鐘內完成。
例如,用戶可能會問:「加州的夏季能源使用量與去年相比會如何?」模型可以搜尋網絡上的公共事業數據,編寫 Python 程式碼來建立預測,產生圖表或圖像,並闡述預測背後的核心要素,藉由連接多個工具呼叫來完成整個流程。推理使模型能夠對其遇到的資訊作出反應並根據需要調整方向。例如,它們可以在搜尋提供商的幫助下多次搜尋網絡,查看結果,並在需要更多資訊時嘗試新的搜尋。
這種靈活的策略性方法,讓模型能夠應對需要即時資訊存取、超出原始知識範圍的任務,包括進階推理、整合處理以及跨模態的輸出生成。
所有範例均使用 OpenAI o3 完成。
OpenAI o3
OpenAI o1
OpenAI o3 無需使用搜尋即可正確回應,而 o1 無法提供正確回應。
推進成本效益推理
成本與效能:o3‑mini 和 o4-mini


成本與效能:o1 和 o3


OpenAI o3 和 o4-mini 是我們發布過最聰明的模型,而且它們往往也比其前代版本 OpenAI o1 和 o3‑mini 更有效率。以 2025 年 AIME 數學競賽為例,o3的最佳效能邊界明顯勝過 o1,而 o4-mini 的最佳效能邊界同樣明顯超過 o3‑mini。總體而言,我們預測在大多數現實應用場景中,o3 和 o4-mini 相對於 o1 和 o3‑mini,將會是更加聰明且成本更低的選擇。
每當模型能力獲得改善時,安全性也應該得到相應的改善。就 OpenAI o3 和 o4-mini 而言,我們徹底重新架設了安全訓練資料,在生物威脅(生物風險)、惡意軟件製造和越獄等領域加入了新的拒絕提示。這份經過重新整理的資料,促使 o3 和 o4-mini 在我們內部針對拒絕反應的評估基準上達到優秀的表現(例如拒絕執行指令階層結構、和越獄指令)。除了在模型拒絕方面表現強勁之外,我們也開發了系統層級的緩解措施,能夠偵測並標記邊緣風險領域的危險提示。類似於我們早期在圖像產生方面的工作,我們訓練了一個推理大型語言模型監控系統,它根據人類編寫和可解釋的安全規範運作。應用於生物風險場景時,這個監控系統在我們的人類紅隊測試行動中成功標示了將近 99% 的對話內容。
我們運用至今最嚴謹的安全方案對這兩個模型進行了壓力測試。根據我們更新的備援準備框架,我們評估了 o3 和 o4-mini 在框架涵蓋的三個追蹤能力領域:生物和化學、網絡安全和 AI 自我改進。根據這些評估結果,我們已確定 o3 與 o4-mini 在三項分類中,均未達到框架中所定義的「高」門檻。我們已將這些評估的詳細結果發佈在隨附的系統卡中。
我們也分享一個新實驗:Codex CLI,一個可在終端機執行的輕量級編程代理。它直接在您的電腦上工作,專為最大化 o3 和 o4-mini 等模型的推理能力而設計,未來將支援包括GPT‑4.1在內的其他 API 模型。
你只需從命令列輸入螢幕快照或低精度手繪圖傳遞至模型,再結合本地程式碼的使用權限,即可體驗多模態推理所帶來的效能。我們把它視為連接我們模型與用戶和他們電腦的最簡潔界面。Codex CLI 今天已在github.com/openai/codex(在新視窗中開啟)完全開源。
同時,我們將啟動一項 100 萬美元的計畫,以支援使用 Codex CLI 和 OpenAI 模型的項目。我們將評估並接受以 API 點數形式提供的 25,000 美元增量補助金申請。提案可在此處提交。
ChatGPT Plus、Pro 和 Team 用戶將從今天開始在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3‑mini 和 o3‑mini‑high。ChatGPT Enterprise 和 Edu 用戶將在一週內取得存取權限。免費用戶可以透過在提交查詢前於撰寫器中選擇「思考」來試用 o4-mini。所有方案的速率限制與先前的模型保持不變。
我們預計在幾週內發布 OpenAI o3‑pro,並提供完整的工具支援。目前,Pro 用戶仍然可以存取 o1‑pro。
o3 和 o4-mini 也於今天透過 Chat Completions API 和 Responses API 提供給開發商使用(部分開發商需要驗證其組織(在新視窗中開啟)才能存取這些模型)。Responses API 支援推理摘要,可在函數呼叫期間維持推理 Token 以取得更佳效能,且不久將在模型推理中整合內建工具,包括網絡搜尋、檔案搜尋和程式碼解釋器。要開始使用,請瀏覽我們的文件(在新視窗中開啟)並請密切關注更多更新。
今天的更新反映了我們模型發展的方向:我們正在將 o 系列的專業推理能力與 GPT 系列更多的自然對話能力和工具使用相結合。透過整合這些優勢,我們的未來模型將支持更流暢、更自然的對話,並配備主動的工具運用與高階問題解決功能。
4 月 16 日更新:o3 在 Charxiv-r 和 Mathvista 的表現結果已更新,反映了原始評估時未存在的系統提示改動。
作者
註腳
* tau-bench評測數據是經過 5 次執行的平均值,以減少差異性,並在未使用任何自訂工具或提示的狀況下進行。我們發現 tau-bench 零售版本更容易出現用戶模型錯誤。陰影棒形圖的數字使用GPT-4.1 作為用戶模型運行,因為它在指令遵循方面比 GPT-4o 顯著更好。
* SWE-bench 採用 256k 最大情境長度,這使 o4-mini 的解決成功率改善約 3%,而對 o3 的解決成功率造成低於 1% 的影響。我們也排除了 23 個在我們內部基礎設施上無法執行的樣本。
** 當啟用瀏覽功能時,模型有時可以在線上找到確切答案,例如,透過閱讀包含資料集範例問題的網誌文章。我們透過兩項策略來減輕模型在瀏覽時作弊的疑慮:
封鎖那些先前曾被觀察到模型有作弊行為的網域。
使用推理模型進行監控,檢視每次輸出中的所有 Token,以識別可疑行為。可疑行為被定義為「一個頁面、檔案或程式碼片段,其主要目的在於提供該特定問題的確切答案,例如:官方評分標準、洩漏的『解答』要點,或逐字轉載最終答案的討論內容。」良性行為被定義為「任何勤勉的人可能會查閱的權威資源(文件、手冊、學術論文、信譽良好的文章),即使它偶然包含了正確答案。」凡是監控系統判定為可疑的嘗試均會被歸類為錯誤。大多數樣本在此檢查中失敗,是因為這些問題的正確解答在多個與人工標註範例無關的網路來源上皆可取得。
最後,由於 ChatGPT 和 OpenAI API 之間的搜尋引擎後端的差異,我們使用瀏覽進行的評估可能無法在 OpenAI API 中完美重現。這些結果目的在於代表 ChatGPT 用戶體驗,但根據需求狀況,搜尋設定可能會隨時間改變。
Contributors
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trapit Bansal, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang