跳到主要內容
OpenAI

2025年10月23日

Consensus 利用 GPT‑5 和回覆 API 在數分鐘內完成數星期的研究工作

Consensus 使用 GPT‑5 和回覆 API 設計了一個多重智能代理系統,能夠像研究人員一樣規劃、閱讀和整合證據。

Consensus 標誌,白色置中於深青色背景上,背景帶有深淺不一的藍色和綠色垂直紋理面板。
正在載入...

每年都有數百萬篇新的科學論文發表,遠遠超過任何一個人能閱讀的數量。 

對科學家而言,挑戰並非在於取得知識,而是在於尋找、解讀和串連知識這項艱鉅的任務。突破往往出現在知識已知範圍的邊緣,但研究人員卻將大部分時間花在尋找這些邊緣,而非跨越這些邊緣。

Consensus(在新視窗中開啟)是一款有超過 800 萬人使用的研究助理,其目的正是為了改變這種現狀。該平台由 Christian Salem 和 Eric Olson 創立,可搜尋、閱讀並整合超過 2 億 2 千萬篇經過同儕審查的論文內容。其最新功能 Scholar Agent 是一個建立在 GPT‑5 和回覆 API 上的多重智能代理系統。它模擬了研究人員實際的工作方式,幫助他們在幾分鐘內從提出問題到得出結論,而非花上數星期的時間。

但其目標不僅是讓研究更快,而是找到通往新發現的捷徑。Salem 表示:「只有在人們更容易接觸科學時,科學才會向前發展。」「我們的任務是讓所有研究人員都能找到可信的證據,並依據這些證據採取行動。」

從搜尋引擎到智能代理助理

Consensus 首個版本的運作方式就像一個科學領域的垂直搜尋引擎:它為學術論文建立索引、檢索相關結果,並產生以引用文獻為基礎的摘要。但僅有搜尋功能是不夠的。 

「研究並非只是搜尋論文,」Salem 說。「它還包括解讀研究結果、比較不同的發現,並將各種想法相互連結。科學家花費越多時間搜尋、閱讀和解讀過去的知識以找到合適的研究,他們用於發現和創造真正研究的時間就越少。」

因此,團隊開始圍繞一個新概念重新架構 Consensus:一個名為「Scholar Agent」的多重智能代理系統,其運作方式就像人類研究人員一樣。

系統建基於 GPT‑5 及回覆 API 上,運行一套協調智能代理的工作流程:

  • 規劃智能代理會拆解用戶的問題並決定下一步要採取的行動
  • 搜尋智能代理會整理 Consensus 的論文索引、用戶的個人資料庫及文獻引用圖
  • 閱讀智能代理會逐篇或一次處理多篇論文
  • 分析智能代理整理結果,確定結構與視覺效果,並產生最終成果

每個智能代理都有狹窄的範疇,能保持推理的精確性並減少幻覺現象。該架構也允許 Consensus 決定何時回答;如果沒有相關研究符合其品質門檻,助理就會直接說明。

「透過將工作流程分配給不同的智能代理,我們降低了錯誤率,並使系統更加有條理,」Salem 說。「沒有任何一個智能代理承擔過多責任,這對於可靠性來說至關重要。」

智能代理流程圖,顯示用戶查詢如何透過規劃、平行搜尋、閱讀和分析等智能代理進行處理,以產生基於研究的輸出結果。

這種做法就是團隊所說的情境工程:在產生答案之前先蒐集正確的證據。每個答案都附帶一個「研究情境資料集」,這是一個結構化的組合,包含論文、元數據和關鍵發現,可追溯至原始研究。

Salem 說:「我們不希望研究人員浪費時間去重複查核每個論點。」「如果系統無法將答案建基於真實證據,它就不會編造答案。」

使用回覆 API 進行架設

Consensus 從 Chat Completions 遷移至回覆 API,以支援其多重智能代理路由功能。此切換提升了可靠性及成本效益,讓團隊對子智能代理的執行有更細緻的掌控。有了 GPT‑5 的情景推理與可靠的工具呼叫,選擇顯而易見。

早期評估證實了這個決定:在工具呼叫精準度和規劃穩定性方面,GPT‑5 的表現勝過 GPT‑4.1、Sonnet 4 和 Gemini 2.5 Pro。這讓 Consensus 團隊不必過度關注提示詞的複雜操作,從而更專注於打造與研究工作流程直接有關的智能代理行為上。

表格呈現了 GPT-5 研究智能代理在 OAI、Anthropic 和 Google 模型之間,於準確度、精確度、結構和延遲等指標的比較。

在身處機構主導的世界選擇關注消費者

從一開始,Consensus 進入市場的方式便與預期不同。團隊並非透過機構進行銷售,而是將焦點放在實際從事研究工作的人員上:也就是今天就需要答案的學生、教師和臨床工作者。這種直接面對研究人員的焦點決定了產品的設計並推動了快速成長。

「每個人都說您無法在學術界採取直接面對消費者的模式,但人工智能已經改變了這一點,」Salem 說。「人們不會再呆等核准了,他們會直接使用可行的方案。」

這項決定影響了產品的特色和成長走勢。可快速上手、直覺式設計、對話式介面,讓 Consensus 感覺更像是一個現代消費者應用程式,而非傳統的學術工具。它的採用率透過校園與實驗室間的口碑迅速傳開。

研究生和博士生是最早的重度用戶,接著是教職員和私人研究人員。然後是臨床醫生,他們開始使用 Consensus 來尋找其領域的最新證據。 

Salem 說:「我們並沒有專門為醫生開發產品。」「但他們需要的東西和研究人員一樣:快速取得可靠的證據。」

公司最近與梅奧診所(Mayo Clinic)的醫學圖書館簽約,並剛推出「醫學模式」,這是一個專為尋找臨床證據的醫療人員設計的新功能。

隨著科學規模化

過去一年,Consensus 實現了快速擴張,全球研究人員用戶已超過 800 萬名,收入增長了 8 倍。

這樣的成長並沒有改變產品的優先重點。所有功能仍依然專注於產生可驗證、幻覺現象最少的答案。團隊在評估流程中投放了大量資源,用於測試各智能代理之間的準確度、引用追蹤能力以及風格一致性。

Consensus 的架構是刻意模組化的,設計目的是讓新的智能代理能夠隨著模型的擴展和改進順利整合,這些智能代理可以重現實驗、產生圖表或執行統計分析。

Salem 表示:「我們正在這個快速變化的世界中,架設研究人員真正需要的助理。」「隨著模型持續改進,系統將與之同步成長,科學的發展也會更加迅速。」

OpenAI 熱愛初創企業。與我們一起構建未來。