2025年10月23日

Consensus 利用 GPT‑5 和回覆 API 在數分鐘內完成數星期的研究工作

Consensus 使用 GPT‑5 和回覆 API 設計了一個多重智能代理系統，能夠像研究人員一樣規劃、閱讀和整合證據。

Consensus 標誌，白色置中於深青色背景上，背景帶有深淺不一的藍色和綠色垂直紋理面板。

正在載入...

每年都有數百萬篇新的科學論文發表，遠遠超過任何一個人能閱讀的數量。

對科學家而言，挑戰並非在於取得知識，而是在於尋找、解讀和串連知識這項艱鉅的任務。突破往往出現在知識已知範圍的邊緣，但研究人員卻將大部分時間花在尋找這些邊緣，而非跨越這些邊緣。

Consensus⁠（在新視窗中開啟）是一款有超過 800 萬人使用的研究助理，其目的正是為了改變這種現狀。該平台由 Christian Salem 和 Eric Olson 創立，可搜尋、閱讀並整合超過 2 億 2 千萬篇經過同儕審查的論文內容。其最新功能 Scholar Agent 是一個建立在 GPT‑5 和回覆 API 上的多重智能代理系統。它模擬了研究人員實際的工作方式，幫助他們在幾分鐘內從提出問題到得出結論，而非花上數星期的時間。

但其目標不僅是讓研究更快，而是找到通往新發現的捷徑。Salem 表示：「只有在人們更容易接觸科學時，科學才會向前發展。」「我們的任務是讓所有研究人員都能找到可信的證據，並依據這些證據採取行動。」

從搜尋引擎到智能代理助理

Consensus 首個版本的運作方式就像一個科學領域的垂直搜尋引擎：它為學術論文建立索引、檢索相關結果，並產生以引用文獻為基礎的摘要。但僅有搜尋功能是不夠的。

「研究並非只是搜尋論文，」Salem 說。「它還包括解讀研究結果、比較不同的發現，並將各種想法相互連結。科學家花費越多時間搜尋、閱讀和解讀過去的知識以找到合適的研究，他們用於發現和創造真正研究的時間就越少。」

因此，團隊開始圍繞一個新概念重新架構 Consensus：一個名為「Scholar Agent」的多重智能代理系統，其運作方式就像人類研究人員一樣。

系統建基於 GPT‑5 及回覆 API 上，運行一套協調智能代理的工作流程：

規劃智能代理會拆解用戶的問題並決定下一步要採取的行動
搜尋智能代理會整理 Consensus 的論文索引、用戶的個人資料庫及文獻引用圖
閱讀智能代理會逐篇或一次處理多篇論文
分析智能代理整理結果，確定結構與視覺效果，並產生最終成果

每個智能代理都有狹窄的範疇，能保持推理的精確性並減少幻覺現象。該架構也允許 Consensus 決定何時不回答；如果沒有相關研究符合其品質門檻，助理就會直接說明。

「透過將工作流程分配給不同的智能代理，我們降低了錯誤率，並使系統更加有條理，」Salem 說。「沒有任何一個智能代理承擔過多責任，這對於可靠性來說至關重要。」

智能代理流程圖，顯示用戶查詢如何透過規劃、平行搜尋、閱讀和分析等智能代理進行處理，以產生基於研究的輸出結果。

這種做法就是團隊所說的情境工程：在產生答案之前先蒐集正確的證據。每個答案都附帶一個「研究情境資料集」，這是一個結構化的組合，包含論文、元數據和關鍵發現，可追溯至原始研究。

Salem 說：「我們不希望研究人員浪費時間去重複查核每個論點。」「如果系統無法將答案建基於真實證據，它就不會編造答案。」

使用回覆 API 進行架設

Consensus 從 Chat Completions 遷移至回覆 API，以支援其多重智能代理路由功能。此切換提升了可靠性及成本效益，讓團隊對子智能代理的執行有更細緻的掌控。有了 GPT‑5 的情景推理與可靠的工具呼叫，選擇顯而易見。

早期評估證實了這個決定：在工具呼叫精準度和規劃穩定性方面，GPT‑5 的表現勝過 GPT‑4.1、Sonnet 4 和 Gemini 2.5 Pro。這讓 Consensus 團隊不必過度關注提示詞的複雜操作，從而更專注於打造與研究工作流程直接有關的智能代理行為上。

表格呈現了 GPT-5 研究智能代理在 OAI、Anthropic 和 Google 模型之間，於準確度、精確度、結構和延遲等指標的比較。

在身處機構主導的世界選擇關注消費者

從一開始，Consensus 進入市場的方式便與預期不同。團隊並非透過機構進行銷售，而是將焦點放在實際從事研究工作的人員上：也就是今天就需要答案的學生、教師和臨床工作者。這種直接面對研究人員的焦點決定了產品的設計並推動了快速成長。

「每個人都說您無法在學術界採取直接面對消費者的模式，但人工智能已經改變了這一點，」Salem 說。「人們不會再呆等核准了，他們會直接使用可行的方案。」

這項決定影響了產品的特色和成長走勢。可快速上手、直覺式設計、對話式介面，讓 Consensus 感覺更像是一個現代消費者應用程式，而非傳統的學術工具。它的採用率透過校園與實驗室間的口碑迅速傳開。

研究生和博士生是最早的重度用戶，接著是教職員和私人研究人員。然後是臨床醫生，他們開始使用 Consensus 來尋找其領域的最新證據。

Salem 說：「我們並沒有專門為醫生開發產品。」「但他們需要的東西和研究人員一樣：快速取得可靠的證據。」

公司最近與梅奧診所(Mayo Clinic)的醫學圖書館簽約，並剛推出「醫學模式」，這是一個專為尋找臨床證據的醫療人員設計的新功能。

隨著科學規模化

過去一年，Consensus 實現了快速擴張，全球研究人員用戶已超過 800 萬名，收入增長了 8 倍。

這樣的成長並沒有改變產品的優先重點。所有功能仍依然專注於產生可驗證、幻覺現象最少的答案。團隊在評估流程中投放了大量資源，用於測試各智能代理之間的準確度、引用追蹤能力以及風格一致性。

Consensus 的架構是刻意模組化的，設計目的是讓新的智能代理能夠隨著模型的擴展和改進順利整合，這些智能代理可以重現實驗、產生圖表或執行統計分析。

Salem 表示：「我們正在這個快速變化的世界中，架設研究人員真正需要的助理。」「隨著模型持續改進，系統將與之同步成長，科學的發展也會更加迅速。」

OpenAI 熱愛初創企業。與我們一起構建未來。

加入社群開始構建

繼續閲讀

How Deutsche Telekom is rewiring telecommunications with AI

2026年7月10日

Getting started with ChatGPT | OpenAI

OpenAI Academy2026年7月10日

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 現已成為 Microsoft 365 Copilot 的首選模型

產品2026年7月9日