具智能代理能力的 AI 系統在執行科學任務方面能力正日益提高。然而,它們對生命科學研究人員是否有用,取決於它們能否處理真實研究的複雜性。這類工作很少只是單一的事實回憶問題,或是簡潔明確的預測問題。研究人員需要解讀不完整的證據、調和相互矛盾的結果、設計困難的實驗、釐清測定問題、評估轉化風險,並在不確定性下決定下一步。
現有評測基準未能充分捕捉這些能力。許多生命科學評估聚焦於狹窄領域或單一技能,因此問題往往採用結構化題型,並配有清晰的參考答案。它們雖然有價值,但往往未能真正評估模型能否在更廣泛的研究級工作中作出貢獻。
我們設計 LifeSciBench,正是為了協助填補這一缺口。每項任務都建基於從事實務工作的生命科學家的判斷;他們具博士級訓練,並有在生物科技及製藥業界直接推進藥物發現計劃的經驗。
LifeSciBench 包含 750 項由專家撰寫的任務,涵蓋七類工作流程和七個生物學領域。
1,062
任務附件
173
科學家貢獻者
19,020
評分準則
453
專家評審
LifeSciBench 衡量甚麼
LifeSciBench 衡量 AI 系統能否支援真實的生命科學研究任務,而不只是回答生物學問題。為界定評測基準分類,我們調查了從事實務工作的生命科學家在應用研究環境中最常使用的工作流程。然後,我們把他們的回應歸納為七個反覆出現的類別:證據處理、分析、設計與優化、科學推理、驗證與實驗操作、轉化研究,以及科學傳意。
每項任務的結構都像科學家向熟悉相關領域的協作者提出的請求:科學提示詞、任何相關背景或附件,以及自由作答的答案。由專家撰寫的評分準則會評估模型能否針對特定問題產生正確答案,並達到科學家所期望的細節、論證、限制說明和格式。
數據集建構
LifeSciBench 評估科學推理,同時也評估真實科學應用所需、較難明確界定的實務技能。其任務要求模型處理真實的研究問題:解讀證據、作出以領域知識為依據的判斷,並傳達對專家評審有用的結論。許多任務亦要求模型處理不確定性,並根據輔助數據檔案進行推理,而非只依賴提示詞文字。
此評測基準旨在反映生命科學工作的複雜性。整體而言,79% 的任務需要多個推理或決策步驟,平均每項任務有四個步驟。LifeSciBench 包含 1,062 個附件,涵蓋圖像、PDF、表格、序列檔案、結構或化學檔案,以及網絡參考資料。超過一半任務(53%)要求模型解讀或綜合至少一項附件中的資訊。
這些任務由來自不同生命科學學科的 173 位專家科學家建立。每位科學家均具博士級訓練,並擁有生物科技或製藥業經驗。任務在獲接納前可按需要經歷任意多輪修訂,輪數沒有固定上限;獲接納的任務平均完成六輪自主進行的自動化審閱週期,並完成至少兩輪專家評審。評審以可驗證的正確答案或有力的專家共識為依據,並在相關領域評審之間達到至少 90% 一致。這一流程有助確保獲接納的任務具有科學根據、清晰得足以評分,並能代表應用研究。
評分與評分準則細分
LifeSciBench 任務採用詳細且針對任務的評分準則評分,將預期回答拆解為具體的科學主張、計算、決策、論證等。整個評測基準中,由專家制定的評分準則包含 19,020 項標準,平均每項任務 25 項,用以評估科學正確性和對研究決策的實用性。
這一設計反映了科學工作在實務中如何被評估:許多生命科學任務不能只靠檢查最終答案來評分。例如,一個回答可能得出正確的高層次結論,但若忽略關鍵測定限制,或未主動提出影響重大的生物學細微差異,仍可能被判定為不完整。相反,即使部分回答未能完全解決任務,也可能包含高質素推理。
細緻的評分準則能捕捉這些差異。LifeSciBench 評估的不只是最終答案是否準確,還包括模型是否以科學上有效、實務上有用的方式得出答案。
從論文、圖像、表格和實驗記錄中擷取、整合並審核科學證據。
評估示例
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
候選回覆
結論:按目前呈現,此套件不足以支持以微肌營養不良蛋白表達作為合理可能預測臨床獲益的替代端點,從而獲得加速批准。持審慎態度的 FDA 審評員很可能認為,生物標誌物、功能、持久性、安全性和普適性證據都明顯不足。
套件項目 | 主要失效模式 | 所需內容 |
|---|---|---|
Western blot 定量 | MANEX1A 結合內源性全長肌營養不良蛋白與微肌營養不良蛋白轉基因共有的 N 端表位,因此該測定不能清楚區分轉基因與殘留/返祖肌營養不良蛋白。以健康全長肌營養不良蛋白標準來定量 138 kDa 微肌營養不良蛋白亦無效。 | 使用重組微肌營養不良蛋白標準,以及可區分轉基因與內源性肌營養不良蛋白的正交方法,例如靶向質譜或轉基因特異/表位特異測定。 |
免疫螢光 | C 端多克隆抗體並不適合,因為 138 kDa 構建體缺少 C 端結構域。許多 DMD 患者有返祖纖維,而返祖肌營養不良蛋白可保留 C 端表位。返祖纖維可隨年齡克隆擴增,使 IF 訊號產生偏差,尤其是在年齡較大的男童中。 | 使用針對轉基因中存在、但返祖肌營養不良蛋白中不存在的表位的抗體重複 IF。分別定量轉基因陽性纖維和返祖纖維。 |
替代端點有效性 | 該套件混淆了蛋白量與臨床功能。「健康對照蛋白質量的 38%」不等於正常肌營養不良蛋白功能的 38%,因為微肌營養不良蛋白在結構上被截短。 | 在把表達視為替代端點之前,應以實證驗證微肌營養不良蛋白質量百分比、肌膜定位、下游功能恢復和臨床獲益之間的關係。 |
活檢設計 | 治療前後取對側股外側肌活檢,會引入左右差異和肌肉內空間變異。疾病進展和纖維脂肪替代亦可改變按總蛋白標準化的訊號。 | 使用一致的解剖標誌標準化活檢位置,按肌肉特異性蛋白標準化,並同步測量纖維脂肪組成。 |
NSAA 比較組/統計 | 外部自然史隊列並非隨機同期對照。試驗資格、支持治療、參與效應、基線 NSAA、類固醇方案、年齡和外顯子類別,都可能令比較產生偏差。未配對 t 檢驗並不足夠。此外,+1.4 NSAA 變化處於此年齡組的重測變異範圍內。 | 進行隨機同期安慰劑對照研究,或至少使用校正分析,納入基線 NSAA、年齡、類固醇方案、外顯子類別和其他混雜因素。 |
年齡窗口混雜 | 4–7 歲男童處於發育窗口,未治療而可行走的 DMD 患者,在衰退成為主導前可能出現運動功能增長。48 週 NSAA 變化混合了發育增長、疾病進展和可能的治療效果。 | 使用按年齡分層的同期隨機對照,以區分發育軌跡與治療效果。 |
既往臨床先例 | 開放標籤微肌營養不良蛋白功能訊號,並未可靠預測確認性獲益;已發表先例包括微肌營養不良蛋白基因治療確認性試驗,未能重現開放標籤 NSAA 改善。 | 不要依賴開放標籤 NSAA 變化作為決定性支持。應要求受控功能證據。 |
構建體的結構限制 | 138 kDa 構建體刪除了含 nNOS 結合位點的血影蛋白重複 R16/17。nNOS 招募喪失可削弱運動期間的功能性交感抑制和缺血保護,形成獨立於表達水平的機制性救援上限。 | 加入機制研究,顯示此特定構建體是否恢復相關肌營養不良蛋白相關複合體功能、nNOS 定位、運動生理和肌肉保護。 |
AAV 持久性 | 12 週時的載體基因組不能確立持久表達。AAV9 基因組主要是不整合的附加體,可能隨時間下降。載體基因組持續存在不等於蛋白質表達持續存在。 | 測量超過 12 週的縱向轉基因蛋白質表達和功能生物標誌物持久性。 |
免疫/安全性概況 | 12 名患者中有 8 名出現轉氨酶升高,符合對 AAV 轉導細胞的免疫反應,但機制尚未確立。鑑於 AAV9 具有心臟嗜性,一宗心肌炎病例令人關注。 | 提供更深入的免疫監測、肝臟/心臟安全性表徵,以及更密切的心臟後續追蹤。 |
患者選擇/普適性 | 排除抗 AAV9 中和抗體陽性患者會限制普適性。排除外顯子 44 缺失會限制對該 DMD 亞群的適用性。n=12 太小,無法描述更廣泛 DMD 人群的安全性和療效。 | 在可行情況下擴大資格,或在使用結果支持廣泛批准前,預先指定按抗體狀態、基因型/外顯子類別、年齡和基線功能分層的分析。 |
監管結論:該套件或可顯示生物活性,但尚未證明所測得的微肌營養不良蛋白表達,是可靠且合理可能預測臨床獲益的替代指標。主要缺口包括測定特異性、無效的定量標準、可能的返祖纖維混雜、缺乏隨機對照、年齡相關 NSAA 混雜、持久性不確定,以及安全性/普適性問題未解決。
為收窄缺口,該項目需要受控、按年齡分層的臨床設計,並配備轉基因特異表達測定、正交蛋白質定量、組織組成控制、縱向持久性資料、截短構建體的機制性功能測定,以及更強的安全監測,尤其是肝臟和心臟方面。
評分標準和成績
驗證 LifeSciBench
我們透過獨立專家評審驗證了 LifeSciBench。意見來自 453 名未參與撰寫任務的評審。在這些評審中,97% 持有博士學位或同等博士資格,平均有 12 年領域經驗和 14 篇經同行評審的出版物;88% 表示曾獲至少一項獎項或研究獎助金。
評審就每項任務是否具備優質評測基準題目所需的特質評分:與真實研究工作的契合度、是否恰當測試科學推理和領域專長、是否以證據或專家共識為基礎,以及對評估模型表現的整體實用性。每個類別的一致率均超過 96%。
評審意見進一步支持了量化評分:
結果
我們報告兩項互補指標。通過率是指模型在任務層面達到 70% 成功門檻的任務百分比。分數是平均評分準則得分,即使未能完成整項任務,也會對個別標準給予部分分數。兩者都很重要,因為科學任務的回答即使未符合完整答案的所有要求,也可能部分正確或有用。
模型表現會因任務類型、工作流程和回答格式而有顯著差異。
AI 系統初步展現優勢的地方
LifeSciBench 顯示,前沿模型在涉及科學綜合、傳意和結構化解讀的任務上相對最強。絕對通過率仍然不高,因此這些評測基準類別仍有很大提升空間,但 GPT‑Rosalind 相比 GPT‑5.5 顯示出有意義的進展,整體精確通過率由 25.7% 提升至 36.1%。
模型能力進步最明顯的方向出現在科學傳意和轉化研究。例如,科學傳意的通過率由 GPT‑5.5 的 56.3% 升至 GPT‑Rosalind 的 71.1%;此類別規模較小(n=9),因此應審慎解讀,但它顯示前沿模型在組織證據並產生面向專家的有說服力解釋方面正快速改善。轉化研究(藥物開發中「從實驗室到臨床」的過程)呈現類似模式,由 GPT‑5.5 的 36.8% 升至 GPT‑Rosalind 的 57.7%,顯示模型在把臨床前證據連繫至臨床意義方面的能力正迅速提升。
評分準則層面的結果亦指向同一方向。在需要產生對專家有用或可付諸行動輸出的任務上,GPT‑Rosalind 得分為 44.7%,而 GPT‑5.5 為 29.1%。在需要處理不確定性和限制說明的任務上,GPT‑Rosalind 得分為 44.8%,而 GPT‑5.5 則為 29.3%。這一模式顯示,當任務有清晰的證據邊界,並要求作出結構化科學判斷時,模型最為有用。
GPT‑Rosalind 在業界和學術專家認定具科學價值的任務中表現領先。
GPT‑Rosalind 在由業界和學術專家識別的具科學價值任務上表現領先。
GPT‑Rosalind 在由業界和學術專家識別的具科學價值任務上表現領先。
AI 系統仍然不足的地方
在涉及大量附件的情境、涉及大量設計工作和受操作條件限制的科學工作上,表現仍然弱得多。具體而言,設計、優化與預測仍是最困難的工作流程之一,GPT‑Rosalind 通過率為 30.7%;分析同樣困難,通過率為 30.3%。
附件使用是一個特別明顯的缺口。雖然 GPT‑Rosalind 在附件密集環境中的表現優於 GPT‑5.5,但其通過率仍由純文字任務的 45.1% 下降至含附件或 URL 任務的 28.1%。GPT‑5.5 亦呈現相同模式,由 29.9% 下降至 21.9%。更詳細的分析確認,前沿模型難以從複雜圖像或大型序列檔案中提取資訊,並把這些資訊整合到最終答案中。
當任務要求以來源為依據進行推理或處理附件時,通過率會下降
答案格式亦很重要。需要精確序列、結構或構建體層面輸出的任務通過率較低:GPT‑Rosalind 在數值任務上僅達 14.8%,在序列或結構輸出上為 24.0%。構建體生成任務表現亦較不穩定,GPT‑Rosalind 為 27.3%,相較 GPT‑5.5 改善不大。這一缺口部分可能反映精確答案任務的評分要求更嚴格,計算或格式上的細微差異都可能令回答低於通過門檻。不過,這些失誤在科學上具有意義,因為許多生命科學工作流程需要精確到可直接使用的輸出,例如 CRISPR/HDR 供體設計或 siRNA 設計。
模型亦常常只完成部分工作,未能完全解決任務。在約 14% 的任務中,模型雖未達精確通過門檻,仍獲得可觀的評分準則分數。對 GPT‑Rosalind 而言,有 109 項任務的通過率低於 20%,但仍取得至少 50% 的評分準則得分。在實務上,這表示模型可能識別到相關證據或產生看似合理的部分答案,但仍會因遺漏關鍵限制、使用錯誤證據、計算不完整,或未把推理連結至具有科學實用性的最終決策而失敗。
限制與下一步
LifeSciBench 是衡量 AI 系統能在多大程度上有助生命科學研究的一步,但不能取代在實際研究環境中研究模型。此評測基準聚焦於能反映反覆出現的業界工作流程之可獨立完成的任務,同時仍有許多科學專門領域和任務類型未納入目前範圍。真實研究是迭代的:科學家收集新證據、修訂假設、設計後續實驗,並隨結果出現而調整計劃。
因此,LifeSciBench 上的強勁表現應被解讀為具備真實任務層面能力的證據,而非下游研究影響的直接衡量。此評測基準建基於業界工作流程,但未能捕捉實際研究計劃的全部多樣性或動態;在實際研究中,進展取決於會隨時間逐步顯現的因素。
下一步是把評測基準表現連繫至實際研究工作流程中的部署研究。雖然 LifeSciBench 是與執業科學家共同開發,但要衡量 AI 系統是否能加速發現或改善研發成果,仍需在真實研究環境中、更長時間尺度下,並跨多輪推理、意見和實驗跟進,研究模型的使用與表現。


