跳至主要內容
OpenAI

2026年6月17日

研究研究發表

隆重推出 LifeSciBench

由專家撰寫並審查、以真實世界生命科學研究為基礎的基準

載入中…

智慧體式 AI 系統執行科學任務的能力正日益提升。然而,它們對生命科學研究人員的實用性,取決於它們處理真實研究複雜性的能力。這這類工作很少只是單一的事實回憶問題,或能直接得出明確答案的預測問題。研究人員需要解讀不完整的證據、調和相互衝突的結果、設計困難的實驗、排查實驗檢測流程中的問題、評估轉譯風險,並在不確定性下決定下一步。

現有基準尚未充分捕捉這些能力。許多生命科學評估聚焦於狹窄領域或孤立技能,因而形成題型結構化、參考答案明確的問題。這些評估固然有價值,卻常無法真正評估模型是否能在更廣泛的研究層級工作中做出貢獻。

我們設計 LifeSciBench,旨在縮小這項落差。每項任務都以實務生命科學家的判斷為基礎;這些科學家具備博士層級訓練,並在生技與製藥環境中有直接推進藥物發現專案的經驗。

LifeSciBench 包含 750 項由專家撰寫的任務,涵蓋七種工作流程與七個生物學領域。

1,062

任務附件資料

173

科學家貢獻者

19,020

評分規準

453

專家審查者

LifeSciBench 的衡量面向

LifeSciBench 衡量 AI 系統能否支援真實的生命科學研究任務,而不只是回答生物學問題。為了定義基準分類架構,我們調查了實務生命科學家在應用研究場景中最常使用的工作流程。接著,我們將他們的回應歸納為七個反覆出現的類別:證據處理、分析、設計與最佳化、科學推理、驗證與操作流程、轉譯,以及科學溝通。

每項任務的結構都像科學家可能交給一位知識豐富合作者的請求:科學提示詞、任何相關背景或附件資料,以及自由作答。由專家撰寫的評分規準會評估模型是否能針對特定問題產出正確答案,並具備科學家所期待的適當細節、論證、限制說明與格式。

資料集建構

LifeSciBench 評估科學推理,同時也評估真實世界科學應用所需、較難明確界定的實務技能。其任務要求模型處理真實研究問題:解讀證據、做出有領域依據的判斷,並傳達對專家審查者有用的結論。許多任務也要求模型處理不確定性,並針對支援資料檔進行推理,而不是只依賴提示詞文字。

這項基準旨在反映生命科學工作的複雜性。整體而言,79% 的任務需要多個推理或決策步驟,平均每項任務有四個步驟。LifeSciBench 包含 1,062 個附件資料,涵蓋圖表、PDF、表格、序列檔、結構或化學檔案,以及網頁參照。超過半數任務 (53%) 要求模型解讀或整合至少一項附加資料中的資訊。

這些任務由橫跨不同生命科學學科的 173 位專家科學家建立。每位科學家都具備博士層級訓練,以及生物科技或製藥產業經驗。任務在獲接受前可依需要經歷任意多輪修訂,輪數沒有固定上限;獲接受的任務平均經過六輪自行進行的自動審查,並完成至少兩輪專家審查。審查以可驗證的正確答案或強而有力的專家共識為基礎,相關領域審查者之間至少達到 90% 的一致性。這個流程有助於確保獲接受的任務具備科學依據、足夠清楚可供評分,並能代表應用研究。

圖表顯示 LifeSciBench 任務整合基因組序列、分子結構、圖表、文件、試算表與網頁連結等生命科學資料來源,並結合多步驟推理與專家審查。

評分方式與評分規準拆解

LifeSciBench 任務使用詳細且針對任務設計的評分規準來評分,將預期回答拆解為具體的科學主張、計算、決策、論證等項目。在整個基準中,由專家制定的評分規準包含 19,020 項標準,平均每項任務 25 項,用以評估科學正確性以及對研究決策的實用性。

這項設計反映了科學工作在實務中如何被評估:許多生命科學任務無法只靠檢查最終答案來評分。一個回答可能得出正確的整體結論,但若例如忽略關鍵檢測限制,或未主動提出後果重大的生物學細節,仍可能被判定為不完整。相反地,即使未能完全解決任務,部分回答也可能包含高品質的推理。

細緻的評分規準能捕捉這些細微差異。LifeSciBench 評估的不只是最終答案的準確性,也包括模型是否以科學上有效且在實務上具有可操作性的方式得出答案。

從論文、圖表、表格與實驗紀錄中擷取、調和並稽核科學證據。

新範例

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

候選回應

結論:就目前呈現而言,此套件不足以支持以微肌萎縮蛋白表現作為合理可能預測臨床效益的替代端點來加速核准。持懷疑態度的 FDA 審查員可能會認為生物標誌物、功能、持久性、安全性與可概化性證據實質上支持不足。

套件項目

關鍵失敗模式

需要什麼

Western blot 定量

MANEX1A 結合內源性全長肌萎縮蛋白與微肌萎縮蛋白轉基因共有的 N 端表位,因此檢測無法清楚區分轉基因與殘留/返祖肌萎縮蛋白。以健康全長肌萎縮蛋白標準品來定量 138 kDa 微肌萎縮蛋白也是無效的。

使用重組微肌萎縮蛋白標準品,以及可區分轉基因與內源性肌萎縮蛋白的正交方法,例如靶向質譜或轉基因特異性/表位特異性檢測。

免疫螢光

C 端多株抗體並不適合,因為 138 kDa 構築體缺少 C 端結構域。許多 DMD 患者有返祖纖維,而返祖肌萎縮蛋白可保留 C 端表位。返祖纖維可能隨年齡克隆性擴增,使 IF 訊號產生偏差,尤其是在較年長男孩中。

使用針對存在於轉基因、但不存在於返祖肌萎縮蛋白之表位的抗體重複 IF。將轉基因陽性纖維與返祖纖維分開定量。

替代端點有效性

此套件混淆了蛋白質量與臨床功能。「健康對照蛋白質質量的 38%」不代表正常肌萎縮蛋白功能的 38%,因為微肌萎縮蛋白在結構上被截短。

在將表現量視為替代端點前,需實證驗證微肌萎縮蛋白質量百分比、肌膜定位、下游功能恢復與臨床效益之間的關係。

活檢設計

治療前後對側股外側肌活檢會引入左右差異與肌內空間變異。疾病進展與纖維脂肪替代也可能改變以總蛋白標準化的訊號。

使用一致解剖標誌標準化活檢部位,以肌肉特異性蛋白標準化,並同步測量纖維脂肪組成。

NSAA 比較組/統計

外部自然史隊列不是隨機同步對照。試驗資格、支持性照護、參與效應、基線 NSAA、類固醇療程、年齡與外顯子類別都可能使比較產生偏差。未配對 t 檢定並不足夠。此外,+1.4 NSAA 變化位於此年齡層的重測變異範圍內。

進行隨機同步安慰劑對照研究,或至少使用校正分析,納入基線 NSAA、年齡、類固醇療程、外顯子類別與其他混雜因子。

年齡窗口混雜

4–7 歲男孩處於發育窗口,未治療的可行走 DMD 患者可能在衰退主導前獲得運動功能。48 週 NSAA 變化混合了發育增益、疾病進展與可能的治療效果。

使用按年齡分層的同步隨機對照,以將發育軌跡與治療效果分開。

先前臨床先例

開放標籤微肌萎縮蛋白功能訊號並未可靠預測確證性效益;已發表先例包括微肌萎縮蛋白基因治療確證性試驗未能重現開放標籤 NSAA 改善。

不要依賴開放標籤 NSAA 變化作為決定性支持。需有受控功能證據。

構築體的結構限制

138 kDa 構築體刪除了含 nNOS 結合位點的 spectrin repeats R16/17。nNOS 招募喪失可能損害運動期間局部抑制交感神經性血管收縮的能力與缺血保護作用,形成與表現量無關的機制性救援上限。

增加機制研究,顯示此特定構築體是否恢復相關肌萎縮蛋白相關複合體功能、nNOS 定位、運動生理與肌肉保護。

AAV 持久性

12 週時的載體基因組不能證明表現持久。AAV9 基因組多為非整合型游離體,可能隨時間下降。載體基因組持續存在不等於蛋白質持續表現。

測量超過 12 週的縱向轉基因蛋白表現與功能生物標誌物持久性。

免疫/安全性概況

12 名患者中 8 名出現轉氨酶升高,與對 AAV 轉導細胞的免疫反應一致,但機制尚未確立。考量 AAV9 的心臟趨向性,一例心肌炎令人擔憂。

提供更深入的免疫監測、肝臟/心臟安全性表徵,以及強化心臟追蹤。

患者選擇/可概化性

排除抗 AAV9 中和抗體陽性患者會限制可概化性。排除外顯子 44 缺失會限制對該 DMD 亞群的適用性。n=12 太小,無法表徵更廣泛 DMD 族群中的安全性與療效。

在可能情況下擴大納入資格,或在使用結果支持廣泛核准前,預先指定按抗體狀態、基因型/外顯子類別、年齡與基線功能分層的分析。

法規結論:此套件可能顯示生物活性,但尚未確立測得的微肌萎縮蛋白表現是合理可能預測臨床效益的可靠替代指標。主要缺口包括檢測特異性、無效的定量標準、可能的返祖纖維混雜、缺乏隨機對照、年齡相關 NSAA 混雜、不確定持久性,以及未解決的安全性/可概化性問題。

為縮小缺口,該計畫需要受控、按年齡分層的臨床設計,搭配轉基因特異性表現檢測、正交蛋白定量、組織組成控制、縱向持久性資料、截短構築體的機制性功能檢測,以及更強安全性監測,尤其是肝臟與心臟。

評分標準與等級

評分標準
分數
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

驗證 LifeSciBench 的有效性

我們透過獨立專家審查,驗證了 LifeSciBench 的有效性。回饋來自 453 位未參與任務撰寫的審查者。在這些審查者中,97% 擁有博士學位或同等博士學位,平均具備 12 年領域經驗並發表 14 篇同儕審查論文;88% 表示曾獲得至少一項獎項或研究獎助。

審查者評估每項任務是否具備高品質基準題目應有的特質:與真實世界研究工作一致、能適當測試科學推理與領域專業、以證據或專家共識為基礎,以及對評估模型表現的整體實用性。各類別的一致率均超過 96%。

真實世界相關性

這項任務是否反映真實世界中的生命科學工作?

非常同意
90.4%
整體認同
98.3%

科學推理/領域技能

這項任務是否能正確測試並評估科學推理與生命科學領域技能?

非常同意
86.4%
整體認同
98.1%

科學依據

這項任務是否具備科學依據、具備明確答案,並以適當的證據、資料、附件資料或專家共識為基礎?

非常同意
77.1%
整體認同
96.5%

整體實用性

整體而言,這是一項高品質的生命科學評估任務嗎?

非常同意
79.1%
整體認同
96.6%

審查者的評論進一步印證了量化評分結果:

1 之 3
整體而言,這是一個設計良好的任務,因為它有一個明確且正確的核心解讀,同時又能根據回答者是否能謹慎界定不確定性,區分出答案品質的高低。

結果

我們報告兩項互補指標。通過率是指模型達到 70% 任務層級成功門檻的任務百分比。分數是平均評分規準得分,即使未完整解決任務,也會依個別標準給予部分分數。兩者都很重要,因為即使未完全符合完整答案的所有要求,科學任務的回答仍可能部分正確,或具備實用價值。

模型表現會因任務類型、工作流程與回答格式而有顯著差異。

AI 系統初步展現優勢之處

LifeSciBench 顯示,前沿模型在涉及科學綜合、溝通與結構化解讀的任務上相對最強。絕對通過率仍然有限,顯示這些基準領域的模型能力仍有很大的提升空間。但 GPT‑Rosalind 相較於 GPT‑5.5 展現了有意義的進展,整體精確通過率從 25.7% 提升至 36.1%。

模型能力進步最明顯的方向出現在科學溝通與轉譯。例如,科學溝通的通過率從 GPT‑5.5 的 56.3% 提升至 GPT‑Rosalind 的 71.1%;此類別樣本較小(n=9),因此應謹慎解讀,但這顯示前沿模型在組織證據並產出有說服力、面向專家的解釋方面正快速改進。轉譯(藥物開發中從實驗研究走向臨床應用的過程)也呈現類似模式,從 GPT‑5.5 的 36.8% 升至 GPT‑Rosalind 的 57.7%,顯示模型正快速提升將臨床前證據連結到臨床意涵的能力。

評分規準層級的結果也指向相同方向。在需要產出對專家有用或可直接採取行動的內容的任務上,GPT‑Rosalind 得分為 44.7%,相較之下 GPT‑5.5 為 29.1%。在需要處理不確定性與限制說明的任務上,其得分為 44.8%,相較之下 GPT‑5.5 為 29.3%。這種模式顯示,當任務具有清楚的證據範圍,且需要結構化的科學判斷時,模型最能發揮價值。

GPT‑Rosalind 在產業與學術專家認定具科學價值的任務中表現領先。

GPT‑Rosalind 在產業與學術專家識別的具科學價值任務中效能領先。

GPT‑Rosalind 在產業與學術專家識別的具科學價值任務中效能領先。

AI 系統仍有不足之處

在高度依賴附件資料、設計導向,以及受操作條件限制的科學工作中,模型表現仍明顯較弱。具體而言,設計、最佳化與預測仍是最具挑戰性的工作流程之一,GPT‑Rosalind 的通過率為 30.7%;分析同樣困難,通過率為 30.3%。

對附件資料的處理能力尤其是一項明顯的落差。雖然 GPT‑Rosalind 在高度依賴附件資料的情境下表現優於 GPT‑5.5,但其通過率仍從純文字任務的 45.1% 降至包含附件資料或 URL 的任務中的 28.1%。GPT‑5.5 也呈現相同趨勢,通過率從 29.9% 降至 21.9%。更深入的分析顯示,前沿模型在從複雜圖表或大型序列檔案中擷取資訊,並將這些資訊整合到最終答案時,仍面臨明顯挑戰。

當任務需要以來源為依據的推理或處理附件資料時,通過率會下降

答案格式同樣會影響表現。需要精確序列、結構或構築體層級輸出的任務,通過率明顯較低:GPT‑Rosalind 在數值任務上的通過率僅為 14.8%,在序列或結構輸出任務上則為 24.0%。構築體生成任務同樣較為脆弱,GPT‑Rosalind 的通過率為 27.3%,相較 GPT‑5.5 的改善幅度也有限。這項落差部分可能反映出精確答案任務採用更嚴格的評分標準;在這類任務中,計算或格式上的些微差異,都可能導致回答未達通過門檻。儘管如此,這些失敗仍具有重要的科學意義,因為許多生命科學工作流程需要高度精確、可直接應用的產出,例如 CRISPR/HDR donor 設計或 siRNA 設計。

模型也常常只完成了部分工作,未能完全解決任務。在約 14% 的任務中,模型雖未達精確通過門檻,仍取得了相當高的評分規準分數。就 GPT‑Rosalind 而言,有 109 項任務的通過率低於 20%,但仍獲得至少 50% 的評分規準得分。在實務上,這表示模型可能能找出相關證據或產生看似合理的部分答案,但仍會因漏掉關鍵限制、使用錯誤證據、計算不完整,或未將推理連結到科學上有用的最終決策而失敗。

限制與未來方向

LifeSciBench 是朝向衡量 AI 系統對生命科學研究實用性邁出的一步,但它無法取代在真實研究環境中對模型進行研究與評估。這項基準聚焦於反映產業中常見工作流程的自成一體任務,但仍有許多科學專業領域與任務類型尚未納入目前範圍。真實研究是一個反覆迭代的過程:科學家會持續蒐集新的證據、修正假設、設計後續實驗,並隨著研究結果逐步調整研究計畫。

因此,LifeSciBench 上的優異表現應被視為模型具備真實任務層級能力的證據,而非對後續研究影響的直接衡量。這項基準以產業工作流程為基礎,但無法捕捉即時研究計畫的完整多樣性或動態;在這些計畫中,進展取決於隨時間展開的各種因素。

下一步,是將基準測試表現與真實研究工作流程中的部署研究連結起來。雖然 LifeSciBench 是與實務科學家共同開發的,但若要衡量 AI 系統是否能加速發現或改善研發成果,仍需要在真實研究場景中、以較長時間跨度,並跨越多輪推理、回饋與實驗追蹤,研究模型的使用與表現。

參與貢獻

協助塑造新一代生命科學 AI 基準,或申請使用 GPT-Rosalind。

作者

OpenAI