2026年6月17日

LifeSciBench のご紹介

現実のライフサイエンス研究に基づく、専門家作成・専門家レビュー済みベンチマーク

読み込んでいます...

エージェント型 AI システムは、科学タスクを実行する能力をますます高めています。しかし、ライフサイエンス研究者にとって有用かどうかは、実際の研究の複雑さにどれだけ対応できるかに左右されます。そうした仕事は、単一の知識想起問題や整理された予測問題のような形を取ることはほとんどありません。研究者は、不完全なエビデンスを解釈し、相反する結果を照合し、難しい実験を設計し、アッセイのトラブルシューティングを行い、トランスレーショナルリスクを評価し、不確実性の下で次に何をすべきかを決定します。

現在のベンチマークは、これらの能力を十分には捉えていません。多くのライフサイエンス評価は、狭い領域や孤立したスキルに焦点を当てており、構造化された問題形式と明確な参照回答を持つ設問になっています。それらには価値がありますが、より広範な研究レベルの仕事にわたってモデルが貢献できるかを真に評価できないことが少なくありません。

このギャップを埋めるために、私たちは LifeSciBench を設計しました。すべてのタスクは、博士レベルの訓練を受け、バイオテクノロジーおよび製薬の現場で創薬プログラムを直接推進してきた現役ライフサイエンティストの判断に基づいています。

LifeSciBench には、7 つのワークフローと 7 つの生物学領域にまたがる、専門家作成の 750 タスクが含まれます。

1,062

タスクのアーティファクト

173

科学者コントリビューター

19,020

ルーブリック基準

453

専門家レビュアー

LifeSciBench が測定するもの

LifeSciBench は、AI システムが単に生物学の質問に答えるだけでなく、現実的なライフサイエンス研究タスクを支援できるかを測定します。ベンチマークの分類体系を定義するため、応用研究の現場で最も頻繁に使うワークフローについて現役ライフサイエンティストに調査しました。その回答を、エビデンスの取り扱い、分析、設計と最適化、科学的推論、検証と運用、トランスレーション、科学コミュニケーションという 7 つの反復的なカテゴリに整理しました。

各タスクは、科学者が知識ある共同研究者に依頼するような形式で構成されています。科学的プロンプト、関連する文脈やアーティファクト、自由記述式の回答です。専門家が作成したルーブリックは、特定の問題に対して、科学者が期待する適切な詳細度、根拠、留意点、形式を備えた正しい回答をモデルが生成できるかを評価します。

データセット構築

LifeSciBench は、科学的推論に加えて、現実世界で科学的に使うために必要な、定義しにくい実践的スキルも評価します。そのタスクでは、モデルに現実的な研究課題を解かせます。エビデンスを解釈し、分野に根ざした判断を下し、専門家レビュアーにとって有用な結論を伝えることです。多くのタスクでは、プロンプト本文だけに頼るのではなく、不確実性を扱い、補助データファイルを踏まえて推論することもモデルに求めます。

このベンチマークは、ライフサイエンス業務の複雑さを反映するよう設計されています。全体で、タスクの 79% は複数の推論または意思決定ステップを必要とし、タスクあたり平均 4 ステップです。LifeSciBench には、図、PDF、表、配列ファイル、構造または化学ファイル、Web 参照にまたがる 1,062 件の添付アーティファクトが含まれます。タスクの半数超（53%）は、少なくとも 1 つのアーティファクトから情報を解釈または統合することをモデルに求めます。

タスクは、異なるライフサイエンス分野にわたる 173 名の専門科学者によって作成されました。各科学者は、博士レベルの訓練と、バイオテクノロジーまたは製薬業界での経験を有していました。タスクは採択前に必要なだけ改訂サイクルを重ねることができ、回数に固定上限はありませんでした。採択されたタスクは平均 6 回の自律的な自動レビューサイクルを経て、少なくとも 2 ラウンドの専門家レビューを完了しました。レビューは、検証可能な正解または強固な専門家コンセンサスのいずれかに基づき、関連分野のレビュアー間で少なくとも 90% の一致を得ました。このプロセスにより、採択されたタスクが科学的根拠を持ち、採点に十分な明確さを備え、応用研究を代表するものになるよう担保しました。

ゲノム配列、分子構造、図、文書、スプレッドシート、Web リンクなどのライフサイエンスデータソースを、多段階推論と専門家レビューと組み合わせた LifeSciBench タスクを示す図。

採点とルーブリックの内訳

LifeSciBench のタスクは、期待される回答を具体的な科学的主張、計算、意思決定、根拠などに分解した、詳細なタスク固有のルーブリックで採点されます。ベンチマーク全体で、専門家が作成したルーブリックには 19,020 個の基準（タスクあたり平均 25 個）が含まれ、科学的正確性と研究上の意思決定における有用性の両方を評価します。

この設計は、科学的な仕事が実際にどのように評価されるかを反映しています。多くのライフサイエンスタスクは、最終回答だけを確認して採点することはできません。たとえば、回答が高レベルでは正しい結論に到達していても、重要なアッセイ上の制約を見落としたり、結果に大きく影響する生物学的ニュアンスを能動的に指摘できなかったりすれば、不完全と判断されることがあります。逆に、タスクを完全には解けていなくても、部分的な回答に質の高い推論が含まれることもあります。

細かなルーブリックは、このニュアンスを捉えます。LifeSciBench は、最終回答の正確性だけでなく、モデルが科学的に妥当で実務上有用な方法で答えに到達しているかも評価します。

論文、図、表、実験記録から科学的エビデンスを抽出、照合、監査すること。

評価例

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

回答の候補

結論：提示された内容では、このパッケージは臨床的ベネフィットを予測する可能性が合理的に高い代替エンドポイントとして、マイクロジストロフィン発現に基づく迅速承認を支持するほど強くありません。懐疑的な FDA 審査官は、バイオマーカー、機能、持続性、安全性、一般化可能性のエビデンスが実質的に不十分だと見る可能性が高いです。

パッケージ項目	主な失敗モード	必要となるもの
ウェスタンブロット定量	MANEX1A は内因性の全長ジストロフィンとマイクロジストロフィン導入遺伝子が共有する N 末端エピトープに結合するため、このアッセイは導入遺伝子と残存/リバーティントジストロフィンを明確に区別できません。138 kDa のマイクロジストロフィンを健常な全長ジストロフィン標準に対して定量することも無効です。	組換えマイクロジストロフィン標準と、標的質量分析や導入遺伝子特異的/エピトープ特異的アッセイなど、導入遺伝子を内因性ジストロフィンから区別する直交的手法を使用します。
免疫蛍光	138 kDa コンストラクトは C 末端ドメインを欠くため、C 末端ポリクローナル抗体は適していません。多くの DMD 患者にはリバーティント線維があり、リバーティントジストロフィンは C 末端エピトープを保持し得ます。リバーティント線維は加齢とともにクローン性に拡大し、特に年長男児で IF シグナルにバイアスを生じさせる可能性があります。	導入遺伝子には存在し、リバーティントジストロフィンには存在しないエピトープに対する抗体で IF を再実施します。導入遺伝子陽性線維をリバーティント線維とは別に定量します。
代替エンドポイントの妥当性	このパッケージはタンパク質量と臨床機能を混同しています。「健常対照タンパク質量の 38%」は、マイクロジストロフィンが構造的に短縮されているため、正常ジストロフィン機能の 38% を意味しません。	発現を代替エンドポイントとして扱う前に、マイクロジストロフィン量の割合、筋鞘局在、下流機能回復、臨床的ベネフィットの関係を実証的に検証します。
生検設計	治療前後の対側外側広筋生検は、左右差と筋内の空間的ばらつきを導入します。疾患進行と線維脂肪置換も、総タンパク質正規化シグナルを変化させる可能性があります。	一貫した解剖学的ランドマークで生検部位を標準化し、筋特異的タンパク質で正規化し、線維脂肪組成を並行して測定します。
NSAA 比較対象/統計	外部の自然歴コホートは、ランダム化された同時対照ではありません。試験適格性、支持療法、参加効果、ベースライン NSAA、ステロイドレジメン、年齢、エクソンクラスはいずれも比較にバイアスを与え得ます。対応のない t 検定では不十分です。また、+1.4 の NSAA 変化はこの年齢群のテスト再テスト変動内です。	ランダム化された同時プラセボ対照試験を実施するか、少なくともベースライン NSAA、年齢、ステロイドレジメン、エクソンクラス、その他の交絡因子を考慮した調整解析を使用します。
年齢ウィンドウの交絡	4〜7 歳の男児は、未治療の歩行可能 DMD 患者で低下が支配的になる前に運動機能が向上し得る発達段階にあります。48 週間の NSAA 変化は、発達による向上、疾患進行、治療効果の可能性を混在させます。	年齢層別化を伴う同時ランダム化対照を用いて、発達軌跡を治療効果から分離します。
先行する臨床的前例	オープンラベルのマイクロジストロフィン機能シグナルは、確認的なベネフィットを一貫して予測していません。公表された前例には、マイクロジストロフィン遺伝子治療の確認試験がオープンラベルの NSAA 改善を再現できなかった例が含まれます。	オープンラベルの NSAA 変化を決定的な支持として依拠しないでください。対照付きの機能エビデンスを求めます。
コンストラクトの構造的限界	138 kDa コンストラクトは、nNOS 結合部位を含むスペクトリンリピート R16/17 を欠失しています。nNOS リクルートメントの喪失は、運動中の機能的交感神経溶解と虚血保護を損ない、発現レベルとは独立に救済効果の機序的上限を作る可能性があります。	この特定のコンストラクトが関連するジストロフィン関連複合体機能、nNOS 局在、運動生理、筋保護を回復するかを示す機序研究を追加します。
AAV 持続性	12 週時点のベクターゲノムは、持続的発現を確立しません。AAV9 ゲノムは主に非組込み型エピソームであり、時間とともに減少する可能性があります。ベクターゲノムの持続は、タンパク質発現の持続と同じではありません。	12 週を超えて、導入遺伝子タンパク質発現と機能バイオマーカーの持続性を縦断的に測定します。
免疫/安全性プロファイル	12 例中 8 例のトランスアミナーゼ上昇は、AAV 導入細胞への免疫応答と整合しますが、機序は確立されていません。AAV9 の心臓指向性を考えると、心筋炎 1 例は懸念されます。	より深い免疫モニタリング、肝/心臓安全性の特性評価、強化された心臓フォローアップを提供します。
患者選択/一般化可能性	抗 AAV9 中和抗体陽性患者を除外すると、一般化可能性が制限されます。エクソン 44 欠失を除外すると、その DMD サブグループへの適用可能性が制限されます。n=12 は、より広い DMD 集団で安全性と有効性を特徴付けるには小さすぎます。	結果を広範な承認の支持に使う前に、可能な場合は適格性を広げるか、抗体状態、遺伝子型/エクソンクラス、年齢、ベースライン機能による層別解析を事前規定します。

規制上の結論：このパッケージは生物学的活性を示す可能性はありますが、測定されたマイクロジストロフィン発現が臨床的ベネフィットを予測する可能性が合理的に高い信頼できる代替指標であることは、まだ確立していません。主なギャップは、アッセイ特異性、無効な定量標準、リバーティント線維による交絡の可能性、ランダム化対照の欠如、年齢関連 NSAA 交絡、不確実な持続性、未解決の安全性/一般化可能性の問題です。

ギャップを埋めるには、導入遺伝子特異的発現アッセイ、直交的タンパク質定量、組織組成コントロール、縦断的持続性データ、短縮コンストラクトの機序的機能アッセイ、特に肝臓と心臓のより強力な安全性モニタリングを備えた、対照付き・年齢層別化された臨床設計が必要です。

ルーブリックの条件とグレード

条件

得点

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench の検証

私たちは独立した専門家レビューを通じて LifeSciBench を検証しました。フィードバックは、タスク作成に関与していない 453 名のレビュアーから得られました。これらのレビュアーのうち 97% は博士号または同等の学位を有し、平均 12 年の分野経験と 14 件の査読付き論文を持っていました。また、88% が少なくとも 1 件の賞またはフェローシップを受けたと回答しました。

レビュアーは、各タスクが優れたベンチマーク問題に必要な性質を備えているかを採点しました。現実世界の研究業務との整合性、科学的推論と分野専門性の適切なテスト、エビデンスまたは専門家コンセンサスへの基盤、モデル性能評価における全体的な有用性です。すべてのカテゴリで一致率は 96% を超えました。

現実世界との関連性

このタスクは、現実のライフサイエンス業務を反映していますか？

強く同意: 90.4%
概ね同意: 98.3%

科学的推論 / 分野スキル

このタスクは、適切な科学的推論とライフサイエンス分野のスキルをテストし、評価していますか？

強く同意: 86.4%
概ね同意: 98.1%

科学的根拠

このタスクは科学的根拠があり、回答可能で、適切なエビデンス、データ、アーティファクト、または専門家のコンセンサスに基づいていますか？

強く同意: 77.1%
概ね同意: 96.5%

全体的な有用性

全体として、これは優れたライフサイエンス評価タスクですか？

強く同意: 79.1%
概ね同意: 96.6%

レビュアーのコメントは、定量評価を補強するものでした。

1/3

“全体として、正しい中核的解釈は 1 つありつつ、不確実性の範囲をどれだけ慎重に定めるかでより優れた回答を見分けられるため、優れたタスクです。”

結果

私たちは 2 つの相補的な指標を報告します。合格率は、モデルがタスクレベルの成功閾値である 70% を満たしたタスクの割合です。スコアは平均ルーブリック報酬であり、タスク全体を解決できない場合でも個別基準に対して部分点を与えます。科学タスクへの回答は、完全な回答に必要なすべての要件を満たさなくても、部分的に正しい、または有用である場合があるため、どちらの指標も重要です。

モデル性能は、タスクタイプ、ワークフロー、回答形式によって大きく異なります。

AI システムが早期に強みを示す領域

LifeSciBench は、フロンティアモデルが、科学的統合、コミュニケーション、構造化された解釈を伴うタスクで相対的に最も強いことを示しています。絶対的な合格率はまだ控えめであり、これらのベンチマーク領域は飽和には程遠い状態です。それでも GPT‑Rosalind は GPT‑5.5 に対して有意な進歩を示し、全体の厳密合格率を 25.7% から 36.1% に向上させました。

モデル能力の進歩が最も強く現れている方向は、科学コミュニケーションとトランスレーションです。たとえば、科学コミュニケーションの合格率は GPT‑5.5 の 56.3% から GPT‑Rosalind の 71.1% に上昇します。このカテゴリは小規模（n=9）であるため慎重に解釈すべきですが、フロンティアモデルがエビデンスを整理し、専門家向けの説得力ある説明を作成する能力を急速に高めていることを示唆します。トランスレーション（創薬における「ベンチからベッドサイドへ」のプロセス）も同様のパターンを示し、GPT‑5.5 の 36.8% から GPT‑Rosalind の 57.7% に上昇しています。これは、モデルが前臨床エビデンスを臨床的示唆につなげる能力を急速に高めていることを示唆します。

ルーブリックレベルの結果も同じ方向を示しています。専門家にとって有用または実行可能な出力が求められるタスクでは、GPT‑Rosalind のスコアは 44.7% で、GPT‑5.5 の 29.1% を上回ります。不確実性や留意点の扱いが求められるタスクでは、44.8% を記録し、29.3% を上回ります。このパターンは、タスクに明確なエビデンスの範囲があり、構造化された科学的判断が求められる場合に、モデルが最も有用であることを示唆します。

GPT‑Rosalind は、業界および学術界の専門家が特定した科学的に価値のあるタスク全体で性能をリード

GPT‑Rosalind は、業界および学術界の専門家が特定した科学的価値の高いタスク全体で性能をリードしています。

AI システムがなお力不足の領域

アーティファクトの多い、設計中心の、そして運用上の制約が大きい科学的作業では、性能はなお大きく低下します。具体的には、設計・最適化・予測は依然として最も難しいワークフローの 1 つで、GPT‑Rosalind の合格率は 30.7% です。分析も同様に難しく、30.3% です。

アーティファクトの利用は、特に明確なギャップです。GPT‑Rosalind はアーティファクトの多い設定で GPT‑5.5 より良好に機能しますが、それでも合格率はテキストのみのタスクの 45.1% から、アーティファクトまたは URL を含むタスクの 28.1% へ低下します。GPT‑5.5 も同じパターンを示し、29.9% から 21.9% に低下します。より詳細な分析により、フロンティアモデルは複雑な図や大規模な配列ファイルから情報を抽出し、それを最終回答に統合することに苦戦していることが確認されました。

ソースに基づく推論やアーティファクトの処理が必要なタスクでは合格率が低下

回答形式も重要です。厳密な配列、構造、またはコンストラクトレベルの出力が求められるタスクでは合格率が低く、GPT‑Rosalind は数値タスクで 14.8%、配列または構造の出力で 24.0% にとどまります。コンストラクト生成タスクも脆弱で、GPT‑Rosalind は 27.3% にとどまり、GPT‑5.5 からの改善はわずかです。このギャップの一部は、厳密回答タスクの採点面がより厳しいことを反映している可能性があります。計算や形式の小さな違いで、回答が合格閾値を下回ることがあるためです。それでも、こうした失敗は科学的に意味があります。多くのライフサイエンスワークフローでは、CRISPR/HDR ドナー設計や siRNA 設計のように、そのまま直接使えるほど厳密な出力が必要だからです。

モデルはまた、途中までは到達しても、タスクを完全には解けないことがよくあります。タスクのおよそ 14% で、モデルは厳密合格の閾値に達しなかったにもかかわらず、ルーブリック上で相当な点数を獲得しました。GPT‑Rosalind では、合格率が 20% 未満でありながら、少なくとも 50% のルーブリック報酬を得たタスクが 109 件ありました。実際には、これはモデルが関連するエビデンスを特定したり、もっともらしい部分的回答を生成したりする一方で、重要な制約を見落とす、誤ったエビデンスを使う、不完全な計算を行う、または推論を科学的に有用な最終判断に結び付けられないために、なお失敗する可能性があることを意味します。

限界と今後

LifeSciBench は、AI システムがライフサイエンス研究にどれだけ有用になり得るかを測定する一歩ですが、実際の研究環境でモデルを調べることの代替ではありません。このベンチマークは、反復的に現れる業界ワークフローを反映した自己完結型タスクに焦点を当てていますが、多くの科学専門分野やタスクタイプは現時点の対象範囲外にあります。実際の研究は反復的です。科学者は新たなエビデンスを集め、仮説を見直し、追試実験を設計し、結果が出るにつれて計画を適応させます。

したがって、LifeSciBench での高い性能は、下流の研究インパクトの直接的な尺度ではなく、現実的なタスクレベルの能力を示すエビデンスとして解釈すべきです。このベンチマークは業界ワークフローに基づいていますが、進捗が時間とともに展開する要因に左右される実際の研究プログラムの多様性や動態をすべて捉えているわけではありません。

次のステップは、ベンチマーク性能を実際の研究ワークフローにおける導入研究につなげることです。LifeSciBench は現役科学者とともに開発されましたが、AI システムが発見を加速するか、R&D の成果を改善するかを測定するには、実際の研究環境で、より長い期間にわたり、推論、フィードバック、実験的フォローアップの複数ラウンドを通じて、モデルの利用と性能を研究する必要があります。