2025 年 6 月 10 日更新;OpenAI o3‑pro 現已開放 ChatGPT Pro 使用者使用,同時亦可透過我們的 API 使用。o3‑pro 與 OpenAI o1‑pro 一樣,是我們極具智慧的模型版本 OpenAI o3 的其中一套版本,專為更長時間思考及提供最可靠回覆而設計。完整資訊請參見我們的版本更新說明(在新視窗中開啟)。
今天,我們推出 o3 和 o4-mini,這是 o 系列中最新的模型,訓練目的是讓其在回覆前能進行更長時間的思考。這是我們迄今推出最智慧的模型,全面提升 ChatGPT 的能力,無論是一般使用者或進階研究人員皆可受益。我們的推理模型首次能夠自主運用並整合 ChatGPT 中的各項工具—包括上網搜尋、使用 Python 分析上傳的檔案與其他資料、深入理解視覺輸入,甚至生成圖像。嚴格來說,這些模型受過訓練,能判斷何時與如何使用工具,以正確格式快速產出詳盡縝密的回答 (通常在一分鐘內),用於解決更複雜的問題。這讓它們能更有效處理多面向的問題,是邁向能代替你獨立執行任務的代理型 ChatGPT 的一步。這些模型結合最先進的推理能力與完整工具使用,能大幅提升在學術基準測試與真實任務的表現,為智慧與實用性樹立新標準。
OpenAI o3 是我們最強的推理模型,於程式設計、數學、科學、視覺理解等方面皆領先業界。它在多項基準測試中創下新高,包括 Codeforces、SWE-bench (無需為模型客製架構)、以及 MMMU。它特別擅長處理需要多層次分析、答案不那麼明確的複雜問題。在視覺任務方面表現尤其出色,例如分析圖片、圖表及圖形。外部專家評估指出,o3 在處理困難真實任務時,重大錯誤比 OpenAI o1 減少 20%-尤其在程式設計、商業/顧問服務、以及創意發想領域表現卓越。早期測試者指出,該模型在作為思維夥伴時具備嚴謹的分析能力,並強調其在生物學、數學與工程等領域中,能夠提出並批判性地評估新穎假設的能力。
OpenAI o4-mini 是一款較小的模型,經最佳化以實現快速且具成本效益的推理,在數學、程式設計及視覺任務表現出色,遠超其模型規模與運算成本的預期。它是 AIME 2024 及 2025 最佳基準模型。雖然使用電腦大幅降低 AIME 考試難度,但我們也觀察到值得注意的結果:在可使用 Python 工具的情況下,o4-mini 在 AIME 2025 中達到 99.5% 的 pass@1 (100% consensus@8)。雖然這些成績不應與無工具支援模型進行比較,但仍能顯示 o4-mini 在工具運用方面的效率;o3 在 AIME 2025 中也透過工具的輔助,表現出類似的進步(pass@1 為 98.4%,consensus@8 達 100%)。
在專家評估中,o4-mini 也超越其前代 o3 mini,在非 STEM 任務及資料科學等領域展現更優異的成效。由於其運算效率高,o4-mini 可支援比 o3 更高的使用上限,對於需要推理處理的問題而言,是能應對大量請求與高吞吐需求的理想選擇。外部專家評估者認為,這兩個模型在智慧能力提升及引用網路資料來源的加持下,指令遵循度更高,且回應內容更實用、可驗證,整體表現優於前代模型。相較前代推理模型,這兩款模型在回應時也更加自然且具互動性,能引用記憶及過往對話,讓回答更具個人化及上下文關聯性。
多模態
程式設計
All SWE-bench evaluation runs use a fixed subset of n=477 verified tasks which have been validated on our internal infrastructure.
指令遵循及代理式工具使用
所有模型皆於高「推理強度」設定下進行評估──類似 ChatGPT 中的「o4-mini-high」變體。
在開發 OpenAI o3 的過程中,我們觀察到大規模強化學習呈現出與 GPT 系列預訓練相同的趨勢——「運算量越大,效能越好」。透過重走擴展路徑 (這次是在強化學習 (RL)中),我們在訓練運算量及推理時間上再提升一個數量級,並仍然看到明顯的效能成長,證明模型在思考時間越長的情況下,表現會持續提升。在延遲與成本與 OpenAI o1 相同的情況下,o3 在 ChatGPT 中展現更高效能─我們也驗證過,只要讓它思考得更久,其表現會持續提升。
我們也透過強化學習訓練模型學會使用工具─不只是學工具怎麼用,同時也學會何時該用。它們根據目標結果來部署工具的能力,使其在開放式情境中更具應變力─特別是在涉及視覺推理及多步驟工作流程的任務中。這項進步不僅體現在學術基準測試上,也同樣反映於真實任務中,早期測試者的回饋也清楚印證了這一點。

這兩個模型首次有能力將圖片直接納入各自的思考鏈中,不光是看到圖片而已-還能思考其中的意涵。融合視覺與文字推理能力,開啟了全新的問題解決方式,因而在多模態基準測試中展現出頂尖表現。
使用者只要上傳白板照片、課本中的圖表或是手寫素描,模型就能解讀其中的意涵,即使圖片模糊、倒轉或解析度低也無妨。模型可以運用工具,在推理過程中任意旋轉、縮放或變形圖片。
這些模型在視覺感知任務中展現出頂尖的準確度,可以解決以往遙不可及的問題。請參閱視覺推理研究部落格瞭解詳情。
OpenAI o3 和 o4-mini 不僅能運用 ChatGPT 的全套工具,還能透過 API 中的函數呼叫使用您的自訂工具。這些模型經過訓練,可以透過推理解決問題,並選擇何時及如何運用工具,快速以正確的輸出格式生成詳細周全的回答,通常可在一分鐘內完成。
舉例來說,使用者可能會問:「跟去年相比,加州今年的夏季能源用量表現如何?」接著模型就會搜尋網路上的公用事業資料、撰寫 Python 程式碼來計算預測、生成圖表或圖片,並說明組成預測結果的關鍵因素,串聯多項工具來完成任務。推理能力讓模型能根據遇到的資訊做出反應並靈活調整。舉例來說,模型可以在搜尋服務供應商的幫助下反覆搜尋網路資料、分析結果,如果需要更多資訊再嘗試搜尋新內容。
如此彈性的策略性做法,讓模型能應付超出模型內建知識範圍,需要最新資訊和延伸推理的任務,以及跨模態整合並生成輸出內容。
所有範例都是使用 OpenAI o3 完成。
OpenAI o3
OpenAI o1
OpenAI o3 在不使用搜尋功能的情況下提供正確回應,而 o1 未能提供正確回應。
推動具成本效益的推理技術
成本與效能的關係:比較 o3‑mini 與 o4-mini


成本與效能的關係:比較 o1 與 o3


OpenAI o3 和 o4-mini 是我們迄今推出最聰明的模型,且多數情況下,它們的效率也優於前代 o1 和 o3‑mini。以 2025 年的 AIME 數學競賽為例,o3 的成本效益表現曲線明顯優於 o1,o4-mini 也同樣顯著優於 o3‑mini。更廣泛來說,我們預期在多數真實應用情境中,o3 和 o4-mini 都會比各自的前代 o1 及 o3‑mini 更聰明且更具成本效益。
模型功能的每個改善項目,都保證具備對應的安全性提升。我們為 OpenAI o3 和 o4-mini 全面重建了安全訓練資料,針對生物威脅 (生物風險)、惡意軟體生成和越獄等領域,加入了新的拒答提示。這次資料更新,讓 o3 和 o4-mini 在內部拒答基準測試 (例如 指令結構層級和越獄) 中給出亮眼表現。除了在模型拒答方面表現優異,我們也開發出系統層級的防範措施,針對高風險領域標記潛在的危險提示。延續我們先前在圖像產生領域的作法,我們訓練了一個推理 LLM 監控器,這個監控器會依據由人類撰寫且可解釋的安全規範運作。應用在生物風險領域時,這個監控器在我們人工紅隊測試中,成功標記了約 99% 的對話。
我們用迄今最嚴格的安全測試計畫,對這兩個模型進行壓力測試。我們依據更新版應變整備框架,針對 o3 與 o4-mini 評估該框架三大重點能力領域,內容涵蓋生物與化學領域、資安能力,以及人工智慧自我改進能力。根據評估結果,我們判定 o3 和 o4‑mini 在這三大類別中,均未達到框架所定義的「高風險」門檻。我們已在隨附的系統說明卡發佈這些評估的詳細結果。
我們也發表了一項全新實驗:Codex CLI,可在終端機執行的輕量級程式設計代理。它可以直接在電腦上運作,專門提升 o3 和 o4-mini 等模型的推理能力,未來還會支援 GPT‑4.1 等其他 API 模型。
只要透過命令列將螢幕截圖或低解析度的草圖傳給模型,Codex CLI 就能結合本機程式碼進行多模態推理。我們將它定位為極簡版介面,讓使用者可透過自己的電腦使用模型。Codex CLI 目前已完全開放原始碼,網址為:github.com/openai/codex(在新視窗中開啟)。
此外,我們也推出注入一百萬美元資金的計劃,支援使用 Codex CLI 和 OpenAI 模型的專案。我們將以每筆價值 25,000 美元的 API 使用額度為單位,分階段評估並接受補助申請。請前往這裡提交提案資料。
ChatGPT Plus、Pro 和 Team 使用者今天起就能在模型選取器中看到 o3、o4-mini 和 o4-mini-high 選項,取代原先的 o1、o3‑mini 及 o3‑mini‑high。ChatGPT Enterprise 和 Edu 使用者將可在一週後開始使用。Free 使用者只要在送出問題前於撰寫工具中選取「思考」,就能試用 o4-mini。所有方案的速率限制維持不變,沿用前代模型的配置。
我們預計在幾週後推出具備完整支援工具的 OpenAI o3‑pro。目前 Pro 使用者還是能使用 o1‑pro。
開發人員目前也能透過 Chat Completions API 和 Responses API 使用 o3 和 o4-mini (部分開發人員需要驗證其所屬組織(在新視窗中開啟)才能使用這些模型)。Responses API 支援推理摘要功能,能保留函式呼叫前後的推理權杖以提升效能,且很快將支援在模型推理過程中使用內建工具,例如網頁搜尋、檔案搜尋和程式碼執行器。請參閱我們的文件(在新視窗中開啟),持續關注即將發佈的其他更新內容,開始您的探索之旅。
今天的更新內容反映了我們模型未來的發展方向:我們正積極結合 o 系列的專門領域推理能力,以及 GPT 系列的自然對話與工具使用能力。成功整合這些強大能力後,未來的模型不僅能支援流暢自然的對話,還能主動使用工具及解決進階問題。
4 月 16 日更新:o3 的 Charxiv-r 與 Mathvista 結果已更新,反映原始評估中不包含的系統提示變更。
作者
註腳
* tau-bench 採用 5 次結果的平均值以降低變異性,且未使用任何自訂工具或提示。我們發現,tau-bench 在零售應用場景下,較容易出現使用者模型錯誤。深色長條代表的數據,是使用 GPT-4.1 作為使用者模型所得出,因為它在遵從指令的表現顯著優於 GPT-4o。
* SWE-bench 使用 256,000 上下文長度上限,讓 o4-mini 的解題率提高了 3%,而 o3 的解題率只出現不到 1% 的變化。我們也納入了無法在我們內部基礎架構上執行的 23 個樣本。
**啟用瀏覽功能時,模型有時可以在線上找到準確答案,例如閱讀包含樣本題目的部落格文章,以取得資料集中的題目範例。我們透過兩項策略來降低模型在瀏覽時作弊的疑慮:
封鎖我們觀察到模型過去曾用來作弊的網域。
將推理模型當成監控器使用,檢視每次解題中的所有權杖,辨識可疑行為。可疑行為的定義如下:主要用途是提供特定問題準確答案的網頁、檔案或程式碼片段,例如官方評分標準、遭外洩的「解答」程式碼,或是逐字引用完整答案的討論內容。良性行為的定義如下:勤勉的人類可能會查閱的任何權威資源 (文件、手冊、學術論文、可信文章等),即使內容偶然包含正確答案,仍視為正當。只要監控器判定為可疑行為,該次答題結果就會視為錯誤。多數未通過這項檢查的樣本,都是在多個與 HLE 無關的網路資源就能查到完整解答的題目。
最後,由於 ChatGPT 與 OpenAI API 使用的搜尋引擎後端不同,開發人員可能無法在 OpenAI API 中完全重現我們的瀏覽評估結果。這些結果的用意是反映 ChatGPT 使用者體驗,但搜尋設定可能會隨著需求變化而調整。
Contributors
Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trapit Bansal, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang