2025年10月23日

Consensus 運用 GPT‑5 和 Responses API 在幾分鐘內完成數週的研究

藉由 GPT‑5 和 Responses API，Consensus 設計出能像研究人員般規劃、閱讀並整合證據的多重代理程式系統。

Consensus 標誌以純白色居中呈現，背景採用深青綠色為基底，搭配深淺不一的藍綠色調垂直紋理面板。

載入中…

每年都有數百萬篇新的科學論文發表，遠超過任何人能閱讀的極限。

對科學家來說，挑戰不在取得知識，而在於處理尋找、解讀和連結知識的繁重任務。突破發生在已知領域的邊界，但研究人員卻將大部分時間耗費在尋找邊界，而非拓展邊界。

Consensus⁠(在新視窗中開啟) 是一款擁有超過 800 萬名使用者的研究助理，而它的誕生就是為了改變這個現狀。該平台由 Christian Salem 和 Eric Olson 創立，能搜尋、閱讀並整合超過 2.2 億篇論文的同儕審閱文獻。其最新功能 Scholar Agent 是一套根據 GPT‑5 和 Responses API 建構的多重代理程式系統。它模擬了研究人員的實際工作方式，協助他們在幾分鐘內從問題推導到結論，而非耗費數週。

但目標不僅是加速研究流程，更是縮短發現的歷程。「當科學更容易取得時，就能推動進步。」Salem 表示，「我們的工作是讓世界各地的研究人員能夠找到、信任並依據證據採取行動。」

從搜尋引擎到智慧助理

Consensus 的第一個版本就像一個科學領域的垂直搜尋引擎：收錄學術論文、檢索相關結果，並根據引文產生摘要。但僅靠搜尋功能並不夠。

「研究不只是尋找論文，」Salem 表示，「它的作用是解讀結果、比較發現並連結觀點。科學家花越多時間搜尋、閱讀和解讀過往知識來尋找合適研究，他們用於真正探索與創造的時間就越少。」

因此，團隊開始鎖定一項新概念重新架構 Consensus：這是一套名為「Scholar Agent」的多重代理程式系統，模仿人類研究人員的工作模式。

根據 GPT‑5 和 Responses API 建立的系統，現可執行協調化的代理程式工作流程：

規劃代理程式分解使用者的問題並決定下一步要採取的行動
搜尋代理程式梳理 Consensus 的論文索引、使用者的私人圖書館和引文圖譜
閱讀代理程式單篇或批量解讀論文內容
分析代理程式整合結果、確定結構和視覺效果，並編寫最終輸出

每個代理程式職責範圍明確，這可以保持推理精準度並最大限度地減少幻覺。該架構還讓 Consensus 決定何時不回答；如果沒有相關研究達到其品質閾值，助理只需告知即可。

「透過將工作流程劃分給各個代理程式，我們降低錯誤率並使系統更嚴謹，」Salem 表示，「每個代理程式都不會承擔過多的責任，這是可靠性的關鍵。」

展示使用者查詢如何透過規劃、並行搜尋、閱讀及分析代理程式產生以研究為基礎的輸出的代理程式流程圖

這套方法被團隊稱為「上下文工程」：在開始產生回答之前彙整正確證據。每個回答都附帶一個「研究上下文套件」——包含論文、中繼資料和關鍵發現的結構化組合，皆可追溯至原始研究。

「我們不希望研究人員浪費時間反覆核對每個論述，」Salem 表示，「如果系統無法將回答建立在真實證據的基礎上，它就不會編造内容。」

使用 Responses API 建立

Consensus 從 Chat Completions 移轉到 Responses API 以支援其多重代理程式路由。這項轉變提高了可靠性和成本效益，讓團隊能更精細控制子代理程式呼叫。憑藉 GPT‑5 的長上下文推理和可靠的工具呼叫功能，使選擇明確無疑。

早期評估確認了決策：GPT‑5 在工具呼叫準確度和規劃穩定性上勝過 GPT‑4.1、Sonnet 4 與 Gemini 2.5 Pro。這讓 Consensus 團隊能減少對提示詞技巧的鑽研，更專注於建立直接對應研究流程的代理程式行為。

比較 OpenAI、Anthropic 與 Google 模型在 GPT-5 研究智慧體各項指標的表格，含準確度、精確性、結構完整性與延遲表現。

機構主導時代中的消費端突破

從一開始，Consensus 就以與預期不同的方式進入市場。團隊不透過機構銷售，而是聚焦實際進行研究的人群：需要即時回答的學生、教師和臨床醫師。這種直接面向研究人員的定位塑造了產品設計和快速成長軌跡。

「每個人都說學術領域無法直接面向消費者，但人工智慧變更了這一點，」Salem 表示，「大家不再等待核准——他們會使用有效的方法。」

這項決定塑造了產品的基調和成長曲線。Consensus 給人的感覺更像是現代消費者應用程式而非傳統的學術工具：快速上線、直覺設計、對話式介面。透過校園和實驗室的口耳相傳，採用率持續擴散。

研究生和博士生成為首批核心使用者，其次是教師和私人研究人員。然後是臨床醫生，他們開始使用 Consensus 挖掘其各自領域的最新證據。

「我們最初並非為醫生打造，」Salem 表示，「但他們和研究人員一樣，需要快速存取可靠的證據。」

該公司近期與梅奧醫學中心簽約，並剛推出專為臨床工作者搜尋醫學證據設計的新功能「醫療模式」。

隨科學發展擴展規模

在過去的一年裡，Consensus 快速擴張，全球研究人員使用者突破 800 萬，營收成長達 8 倍。

這種成長並沒有變更產品的優先事項。每個功能仍然圍繞著可驗證、低幻覺的回答。團隊在評估流程上投入了大量資金，測試代理程式間的準確度、引文可追溯性，以及風格一致性。

Consensus 的架構有意採用模組化設計，隨著模型的擴展和改進可加入新的代理程式——可以複現實驗、產生圖表或執行統計分析的代理程式。

「我們正在打造研究人員在快速變更的世界中真正需要的助理，」Salem 表示，「模型不斷改進，系統隨之成長，科學進程也將不斷加速。」

OpenAI 超喜歡新創公司。來和我們一起打造 AI 未來！

加入我們的社群馬上動手開發

繼續閱讀

How Deutsche Telekom is rewiring telecommunications with AI

2026年7月10日

Getting started with ChatGPT | OpenAI

OpenAI Academy2026年7月10日

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 現已成為 Microsoft 365 Copilot 的首選模型

產品2026年7月9日