跳至主要內容
OpenAI

2025年10月23日

Consensus 運用 GPT‑5 和 Responses API 在幾分鐘內完成數週的研究

藉由 GPT‑5 和 Responses API,Consensus 設計出能像研究人員般規劃、閱讀並整合證據的多重代理程式系統。

Consensus 標誌以純白色居中呈現,背景採用深青綠色為基底,搭配深淺不一的藍綠色調垂直紋理面板。
載入中…

每年都有數百萬篇新的科學論文發表,遠超過任何人能閱讀的極限。 

對科學家來說,挑戰不在取得知識,而在於處理尋找、解讀和連結知識的繁重任務。突破發生在已知領域的邊界,但研究人員卻將大部分時間耗費在尋找邊界,而非拓展邊界。

Consensus(在新視窗中開啟) 是一款擁有超過 800 萬名使用者的研究助理,而它的誕生就是為了改變這個現狀。該平台由 Christian Salem 和 Eric Olson 創立,能搜尋、閱讀並整合超過 2.2 億篇論文的同儕審閱文獻。其最新功能 Scholar Agent 是一套根據 GPT‑5 和 Responses API 建構的多重代理程式系統。它模擬了研究人員的實際工作方式,協助他們在幾分鐘內從問題推導到結論,而非耗費數週。

但目標不僅是加速研究流程,更是縮短發現的歷程。「當科學更容易取得時,就能推動進步。」Salem 表示,「我們的工作是讓世界各地的研究人員能夠找到、信任並依據證據採取行動。」

從搜尋引擎到智慧助理

Consensus 的第一個版本就像一個科學領域的垂直搜尋引擎:收錄學術論文、檢索相關結果,並根據引文產生摘要。但僅靠搜尋功能並不夠。 

「研究不只是尋找論文,」Salem 表示,「它的作用是解讀結果、比較發現並連結觀點。科學家花越多時間搜尋、閱讀和解讀過往知識來尋找合適研究,他們用於真正探索與創造的時間就越少。」

因此,團隊開始鎖定一項新概念重新架構 Consensus:這是一套名為「Scholar Agent」的多重代理程式系統,模仿人類研究人員的工作模式。

根據 GPT‑5 和 Responses API 建立的系統,現可執行協調化的代理程式工作流程:

  • 規劃代理程式分解使用者的問題並決定下一步要採取的行動
  • 搜尋代理程式梳理 Consensus 的論文索引、使用者的私人圖書館和引文圖譜
  • 閱讀代理程式單篇或批量解讀論文內容
  • 分析代理程式整合結果、確定結構和視覺效果,並編寫最終輸出

每個代理程式職責範圍明確,這可以保持推理精準度並最大限度地減少幻覺。該架構還讓 Consensus 決定何時回答;如果沒有相關研究達到其品質閾值,助理只需告知即可。

「透過將工作流程劃分給各個代理程式,我們降低錯誤率並使系統更嚴謹,」Salem 表示,「每個代理程式都不會承擔過多的責任,這是可靠性的關鍵。」

展示使用者查詢如何透過規劃、並行搜尋、閱讀及分析代理程式產生以研究為基礎的輸出的代理程式流程圖

這套方法被團隊稱為「上下文工程」:在開始產生回答之前彙整正確證據。每個回答都附帶一個「研究上下文套件」——包含論文、中繼資料和關鍵發現的結構化組合,皆可追溯至原始研究。

「我們不希望研究人員浪費時間反覆核對每個論述,」Salem 表示,「如果系統無法將回答建立在真實證據的基礎上,它就不會編造内容。」

使用 Responses API 建立

Consensus 從 Chat Completions 移轉到 Responses API 以支援其多重代理程式路由。這項轉變提高了可靠性和成本效益,讓團隊能更精細控制子代理程式呼叫。憑藉 GPT‑5 的長上下文推理和可靠的工具呼叫功能,使選擇明確無疑。

早期評估確認了決策:GPT‑5 在工具呼叫準確度和規劃穩定性上勝過 GPT‑4.1、Sonnet 4 與 Gemini 2.5 Pro。這讓 Consensus 團隊能減少對提示詞技巧的鑽研,更專注於建立直接對應研究流程的代理程式行為。

比較 OpenAI、Anthropic 與 Google 模型在 GPT-5 研究智慧體各項指標的表格,含準確度、精確性、結構完整性與延遲表現。

機構主導時代中的消費端突破

從一開始,Consensus 就以與預期不同的方式進入市場。團隊不透過機構銷售,而是聚焦實際進行研究的人群:需要即時回答的學生、教師和臨床醫師。這種直接面向研究人員的定位塑造了產品設計和快速成長軌跡。

「每個人都說學術領域無法直接面向消費者,但人工智慧變更了這一點,」Salem 表示,「大家不再等待核准——他們會使用有效的方法。」

這項決定塑造了產品的基調和成長曲線。Consensus 給人的感覺更像是現代消費者應用程式而非傳統的學術工具:快速上線、直覺設計、對話式介面。透過校園和實驗室的口耳相傳,採用率持續擴散。

研究生和博士生成為首批核心使用者,其次是教師和私人研究人員。然後是臨床醫生,他們開始使用 Consensus 挖掘其各自領域的最新證據。 

「我們最初並非為醫生打造,」Salem 表示,「但他們和研究人員一樣,需要快速存取可靠的證據。」

該公司近期與梅奧醫學中心簽約,並剛推出專為臨床工作者搜尋醫學證據設計的新功能「醫療模式」。

隨科學發展擴展規模

在過去的一年裡,Consensus 快速擴張,全球研究人員使用者突破 800 萬,營收成長達 8 倍。

這種成長並沒有變更產品的優先事項。每個功能仍然圍繞著可驗證、低幻覺的回答。團隊在評估流程上投入了大量資金,測試代理程式間的準確度、引文可追溯性,以及風格一致性。

Consensus 的架構有意採用模組化設計,隨著模型的擴展和改進可加入新的代理程式——可以複現實驗、產生圖表或執行統計分析的代理程式。

「我們正在打造研究人員在快速變更的世界中真正需要的助理,」Salem 表示,「模型不斷改進,系統隨之成長,科學進程也將不斷加速。」

OpenAI 超喜歡新創公司。來和我們一起打造 AI 未來!