隆重介紹深入研究 (Deep Research)
這是一個能夠推理、整合大量網上資訊,並為你完成多步驟研究任務的智能代理。Pro 用戶即日起便可使用,稍後亦會向 Plus 與 Team 用戶開放。
2026 年 2 月 10 日更新:現時可以將深度研究連接至任何 MCP 或應用程式,並將網頁搜尋範圍限制於可靠網站,從而專注於經過認證、符合業界標準的來源。此外亦可以即時追蹤進度,隨時中斷並透過補充提示或添加新來源進行優化。我們已更新視覺體驗,精簡啟動、追蹤並檢閱研究的完整流程。
2025 年 7 月 17 日更新:深度研究現可透過 ChatGPT 智能代理,運用視覺瀏覽器進行更廣泛深入的研究。若要使用這些最新功能,只需在編輯器的下拉選單中選擇「智能代理模式」,然後直接輸入查詢內容。可以繼續透過工具選單中的「深度研究」選項使用原有深度研究功能。
2025 年 4 月 24 日更新:我們已大幅提升使用深度研究的頻率上限。Plus、Team、Enterprise 及 Edu 用戶現時每月可進行 25 次查詢,Pro 用戶可使用 250 次,而免費用戶則可使用 5 次。這項提升得益於一項全新輕量版深度研究功能,該版本由一個 o4-mini 版本驅動,在維持高質素功能的同時更具成本效益。達致完整版本使用次數上限後,系統將自動切換至輕量版處理查詢。
2025 年 2 月 25 日更新:所有 Plus 用戶現時可以使用深度研究。
2025 年 2 月 5 日更新:深度研究現已可供英國、瑞士及歐洲經濟區的 Pro 用戶使用。
如今,我們在 ChatGPT 中推出「深入研究」這項嶄新的智能代理功能,可在互聯網上進行多步驟研究,處理複雜任務。該功能在短短數十分鐘內,就能完成人類需花費數小時才能處理的研究工作。
深入研究是 OpenAI 新一代的自主代理工具。只需輸入提示,ChatGPT 便會自動搜尋、分析並整合數以百計的網上資訊來源,製作出全面報告,水平堪比研究分析師。此功能由即將推出、以最佳化於網頁瀏覽與資料分析的 OpenAI o3 模型版本為核心。它能透過推理能力搜尋、解析並分析互聯網上的大量文字、圖像與 PDF,並根據所遇資訊靈活調整研究路徑。
整合知識的能力,要創造新知識的先決條件。正因如此,深入研究功能是邁向通用人工智能 (AGI) 願景的重要里程碑,而我們長久以來一直希望能憑此開創出革新的科學研究成果。
深入研究專門為需要從事專業知識類工作的用戶而設,涵蓋金融、科學、政策制定、工程等領域,這些用戶需要深入、精確且可信賴的研究支援。同樣地,深入研究功能對於重視資訊判斷的消費者而言也極具價值。例如在選購汽車、家電或傢俬等需要仔細研究的商品時,此功能可提供極為個人化的推薦。每一項輸出內容都附有完整的文件紀錄、清晰的引文出處與推理摘要,方便引用與驗證資訊來源。深入研究尤其擅長找出那些專門而且不直觀、需耗費大量時間、瀏覽多個網站才能獲得的資訊。透過將複雜耗時的網絡研究任務簡化為一次查詢,深入研究能為你節省寶貴時間。
深入研究能獨立地發現、推論並整合來自網絡各處的見解。為實現這一目標,深入研究採用了與 OpenAI 首款推理模型 o1 相同的強化學習方法,並接受了需要使用瀏覽器與 Python 工具的真實任務訓練。儘管 o1 已在程式設計、數學與其他技術領域展現出強大能力,許多現實世界中的挑戰,仍需從多元的網上來源蒐集大量背景資訊。深入研究正是建立在這些推理能力之上,彌補此一落差,協助人們處理在工作與日常生活中遇到的複雜問題。
進入 ChatGPT 後,請在訊息編輯器選擇「深入研究」,並輸入查詢內容。然後,請告訴 ChatGPT 你需要甚麼資訊。你既可以要求分析串流平台的競爭情況,也可以要求為你度身推介最適合在上下班時用來代步的單車。你可以附加檔案或試算表,為問題提供更多情境資訊。研究啟動後,側邊欄會顯示目前進度摘要,以及所引用的資料來源。
深入研究需時約 5 至 30 分鐘不等,並會花時間深入互聯網探索資料。在這段期間,你可以離開或處理其他工作,研究完成後便會收到通知。最終結果會以報告形式呈現在聊天視窗中。在往後幾週內,我們亦會在報告中加入內嵌圖像、資料視覺效果及輸出其他分析內容,增進清晰度並提供更多背景資訊。
與深度研究相比,GPT‑4o 更適合涵蓋多種形式內容的即時對話。對於多方面、特定領域的查詢,回應必須深入詳盡,深入研究能夠進行全面深入的探索,並為各個論點提供引文資料。這正是快速摘要與經過充分記錄、驗證的答案之間的差異,而後者可作為工作成果使用。
GPT-4o
深入研究
深入研究以極詳盡的方式回應提示,並列列出前 10 個已開發國家和前 10 個開發中國家的數據,以便參考和比較。該功能使用這些資訊來提供詳細的市場進入建議,這些建議既有根據亦很實用。
「深度研究」透過端到端強化學習方式,以各個領域中難以搜尋和推理的任務為基礎進行訓練。經過訓練後,該功能學會了規劃並執行多重步驟的路徑,以尋找所需的資料,並在需要時作出回溯與即時反應。該模型還能夠瀏覽用戶上傳的檔案、使用 Python 工具繪製和製作迭代圖表、在回應中嵌入所生成的圖表和來自網站的圖像,並引用其來源中的特定句子或段落。經過訓練後,該模型在多項聚焦於現實問題的公開評估中,達到前所未有的表現。
人類最終考試(在新視窗中開啟)是一項近期發布的評估,用於測試 AI 處理多種學科專家級問題的表現。在該評估中,採用深入研究功能的模型準確率達 26.6%,創下歷來最佳成績。這項測試包含超過 3,000 條多項選擇題和簡答題,涵蓋語言學到火箭科學、古典文學到生態學等 100 多個學科。與 OpenAI o1 相比,最大的進展出現在化學、人文和社會科學以及數學領域。採使深入研究的模型,展現出類似人類所使用的方法,在必要時有效地尋找專業資訊。
| 模型 | 準確度 (%) |
|---|---|
| GPT-4o | 3.3 |
| Grok-2 | 3.8 |
| Claude 3.5 Sonnet | 4.3 |
| Gemini Thinking | 6.2 |
| OpenAI o1 | 9.1 |
| DeepSeek-R1* | 9.4 |
| OpenAI o3-mini(中)* | 10.5 |
| OpenAI o3-mini(高)* | 13.0 |
| OpenAI 深度研究** | 26.6 |
GAIA(在新視窗中開啟)1為一項公開基準,用於評估 AI 處理真實世界問題時的效能。採用深入研究的模型達至全新最先進水平 (SOTA),並登上了外部排行榜(在新視窗中開啟)首位。該評估涵蓋三個難度級別的問題,成功完成這些任務需具備推理、多模態流暢度、網絡瀏覽和善用工具等能力。
| GAIA | ||||
|---|---|---|---|---|
| 等級 1 | 等級 2 | 等級 3 | 平均 | |
| 先前的 SOTA(在新視窗中開啟) | 67.92 | 67.44 | 42.31 | 63.64 |
| 深度研究 (pass@1) | 74.29 | 69.06 | 47.6 | 67.36 |
| 深度研究 (cons@64) | 78.66 | 73.21 | 58.03 | 72.57 |
GAIA 任務例子
在一項涵蓋多個領域的專家級任務內部評估中,各領域專家經評估後確定,深度研究功能可以自動化原本需要數小時才能完成的艱辛人手調查工作。
通過率與最多 Tool Call 次數
專家級任務例子
專家級任務的通過率(按估計經濟價值)
專家級任務的通過率(按估計時數)
深入研究解鎖了多項重要的新功能,但目前仍處於早期階段,並存在某些限制。根據內部評估,此功能在回應中仍有機會錯誤推論或虛構事實,但出現此類情況的機率比現有 ChatGPT 模型明顯較低。此外,此功能有時難以明確區分權威資訊與傳聞,而且在信心校準方面的表現疲弱,經常無法如實傳達不確定性。在發布時,報告和引文可能存在細微的格式錯誤,並且任務可能需要更長的時間才能啟動。我們預計,這些問題一律會隨著使用量增加而隨時間迅速改善。
目前在 ChatGPT 中執行深入研究,需要大量的運算資源。研究一個查詢所需的時間越長,所需的推論運算就越多。我們現推出一個專為 Pro 用戶而設的版本,每月最多可執行 100 次查詢。下一步將會是開放給 Plus 和 Team 用戶使用,然後是 Enterprise 用戶。我們仍在努力讓英國、瑞士和歐洲經濟區的用戶也能使用。
隨著我們即將推出一款運行速度更快、成本更低、但依然維持高品質輸出的深入研究小型模型版本,所有付費用戶的速率限制很快便會有顯著提升。
在接下來的日子裡,我們將致力於開發技術基建設施,密切監察目前的發布情況,並進行更嚴格的測試。這與我們「迭代部署」的原則一致。如果所有安全檢查持續符合我們的發布標準,我們預計將在大約一個月後,開放深入研究供 Plus 用戶使用。
今天就可以在 ChatGPT 網頁版上使用深入研究,並將在一個月內推廣到流動版和桌面版應用程式。目前,深入研究可以存取開放網絡和任何上載的檔案。隨著此功能擴大至能夠存取訂閱內容或內部資源,日後你將能夠連接到更專業的資料來源,使輸出內容更可靠,而且更貼合個人需求。
展望未來,我們預期 ChatGPT 中的自主體驗將匯聚起來,用於現實情況中非同步的研究與執行流程。透過結合可執行非同步線上調查的深入研究功能,以及可執行現實操作任務的 Operator,ChatGPT 將能夠為你執行日益複雜的任務。
2025 年 2 月 3 日附錄:我們已對用於驅動深入研究功能的 o3 早期版本進行嚴格安全測試、就緒程度評估和治理審查,判斷其風險為中度(在新視窗中開啟)。我們亦進行了額外的安全測試,以加深了解深入研究網絡瀏覽功能可能帶來的其他風險,並且已採用了新的防範措施。我們將繼續徹底測試並密切監察目前的有限發布。隨著此功能逐步擴大至涵蓋 Plus 用戶,我們將在系統卡片中,分享我們對深入研究的安全見解和保障措施。
註腳
- 1
我們發現此資料集的真實答案在網上廣泛洩漏,為此封鎖了數個網站或網址,以確保能公平地評估模型表現。
作者
研究主管
Isa Fulford及Zhiqing Sun
基礎貢獻者
Alex Tachard Passos、Alexandra Barr、Allison Tam、Charlotte Cole、Hyung Won Chung、Jason Wei、Jon Blackman、Scott Mayer McKinney及Valerie Qi
核心貢獻者
研究
Elaine Ya Le、Eric Mitchell、Eric Wallace、Hyung Won Chung、Ignasi Clavera、Leo Liu、Lorenz Kuhn、Louis Feuvrier、Max Schwarzer、Saachi Jain、Scottie Yan、Shunyu Yao、Vitchyr Pong
部署
Carpus Chang、Harry Zhao、Joseph Trasatti、Joshua Dickens、Matt Kaufer、Mike Trpcic、Minnia Feng、Neel Ajjarapu、Peter Vidani、Sean Fitzgerald
項目貢獻者
研究
Ahmed El-Kishky、AJ Ostrow、Alexander Wei、Andrei Gheorghe、Andrew Kondrich、Andrey Mishchenko、Anuj Nair、Behrooz Ghorbani、Brydon Eastman、Chak Li、Foivos Tsimpourlas、Francis Song、Giambattista Parascandolo、Gildas Chabot、Hessam Bagherinezhad、Haitang Hu、Hongyu Ren、Henry Aspegren、Hunter Lightman、Ilya Kostrikov、Ilge Akkaya、James Lennon、Jean Harb、Jonathan Ward、Kai Chen、Katy Shi、Kevin Liu、Kevin Yu、Manuka Stratta、Marvin Zhang、Mengyuan Yan, Mostafa Rohaninejad、Noam Brown、Phoebe Thacker、Raz Goan、Reah Miyara、Spencer Papay、Taylor Gordon、Wenda Zhou、Wenlei Xie、Yash Patil、Yann Dubois、Youlong Cheng、Yushi Wang、Wyatt Thompson
以及 o3 背後所有貢獻者。
安全系統
Adam Kalai、Alex Beutel、Andrea Vallone、Andy Applebaum、David Robinson、Elizabeth Proehl、Evan Mays、Grace Zhao、Irina Kofman、Jason Phang、Joaquin Quinonero Candela、Joel Parish、Kevin Liu、Kristen Ying、Lama Ahmad、Leon Maksin、Leyton Ho、Meghan Shah、Michele Wang、Miles Wang、Phillip Guo、Olivia Watkins、Owen Campbell-Moore、Patrick Chao、Sam Toizer、Samuel Miserendino、Sandhini Agarwal、Tejal Patwardhan、Tina Sriskandarajah、Troy Peterson、Yaodong Yu、Yunyun Wang
部署
Adam Koppel、Adam Wells、Adele Li、Andy Applebaum、Andrey Malevich、Andrew Duberstein、Andrew Howell、Anton Tananaev、Ashley Tyra、Brandon Walkin、Bryan Ashley、Cary Bassin、Cary Hudson、Cory Decareaux、Cristina Scheau、Derek Chen、Dibya Bhattacharjee、Drea Lopez、Eric Antonow、Eric Burke、Filippo Raso、Fotis Chantzis、Freddie Sulit、Harris Cohen、Heather Whitney、Jay Dixit、Jeffrey Han、Jen Robinson、Jessica Shieh、Joel Parish、Kan Wu、Kevin Gladstone、Kshitij Wadhwa、Leo Vandriel、Leyton Ho、Liang Chen、Madeline Christian、Mamie Rheingold、Matt Jones、Michelle Fradin、Mike McClay、Mingxuan Wang、Nacho Soto、Niko Felix、Patrick Delaney、Paul McMillan、Philip Pronin、Rodrigo Riaza Perez、Samuel Miserendino、Scott Ethersmith、Steven Baldwin、Thomas Dimson、Tomo Hiratsuka、Yaming Lin、Yara Khakbaz、Yining Chen
領導層
Akshay Nathan、Greg Brockman、Hannah Wong、Jakub Pachocki、Jerry Tworek、Johannes Heidecke、Josh Tobin、Liam Fedus、Mark Chen、Mia Glaese、Nick Turley、Sam Altman及Wojciech Zaremba