Ipinakikilala ang LifeSciBench
Benchmark na isinulat at nirepaso ng eksperto, nakabatay sa tunay na life science research
Lalong nagiging mahusay ang mga agentic AI system sa gawaing siyentipiko. Ngunit kapaki-pakinabang lang sila sa life science researchers kung kaya nila ang liku-liko ng tunay na pananaliksik. Bihira itong maging simpleng fact recall o malinis na prediction problem. Kailangang magbasa ng kulang na ebidensiya, pagtugmain ang salungat na resulta, magdisenyo at mag-troubleshoot ng eksperimento, timbangin ang translational risk, at magpasya sa gitna ng kawalan ng katiyakan.
Hindi pa ito ganap na nasusukat ng kasalukuyang benchmarks. Maraming life science evaluation ang makitid ang domain o hiwa-hiwalay ang skill, kaya structured ang tanong at malinis ang reference answer. Mahalaga ang mga ito, pero madalas hindi nasusukat kung makatutulong ang isang modelo sa mas malawak na research-level work.
Dinisenyo namin ang LifeSciBench para punan ang puwang na ito. Bawat gawain ay nakabatay sa paghatol ng practicing life scientists na may Ph.D.-level training at karanasan sa drug discovery sa biotech at pharma.
May 750 expert-authored tasks ang LifeSciBench sa pitong workflow at pitong biological domain.
1,062
Mga artifact ng gawain
173
Mga scientist contributor
19,020
Pamantayan ng rubric
453
Mga expert reviewer
Sinusukat ng LifeSciBench
Sinusukat ng LifeSciBench kung kayang suportahan ng mga AI system ang makatotohanang life science research tasks, hindi lang sumagot sa biology questions. Para buuin ang taxonomy, sinarbey namin ang practicing life scientists tungkol sa madalas nilang workflow sa applied research. Pinangkat namin ang sagot sa pito: evidence handling, analysis, design at optimization, scientific reasoning, validation at operations, translation, at scientific communication.
Bawat task ay parang hiling ng scientist sa maalam na collaborator: scientific prompt, kaugnay na context o artifact, at free-response answer. Tinitingnan ng expert-written rubrics kung tama ang sagot ng modelo sa problema, kasama ang detalye, paliwanag, caveats, at format na aasahan ng scientist.
Pagbuo ng dataset
Sinusuri ng LifeSciBench ang siyentipikong pangangatwiran at ang praktikal na skills na kailangan sa tunay na paggamit ng agham. Pinapaharap nito ang mga modelo sa totoong research problems: pag-interpret ng ebidensiya, domain-based judgment, at malinaw na konklusyon para sa expert reviewers. Maraming task ang nangangailangan ding humawak ng uncertainty at mangatwiran mula sa data files, hindi lang sa prompt text.
Dinisenyo ang benchmark para ipakita ang complexity ng life science work. Sa kabuuan, 79% ng tasks ang may maraming hakbang ng pangangatwiran o pasya, average na apat bawat task. May 1,062 attached artifacts ang LifeSciBench: figures, PDFs, tables, sequence files, structure o chemical files, at web references. Mahigit kalahati ng tasks (53%) ang nagpapabasa o nagpapasintesis sa modelo ng kahit isang artifact.
Ginawa ang tasks ng 173 expert scientists mula sa iba’t ibang life science discipline. Bawat scientist ay may Ph.D.-level training at karanasan sa biotech o pharmaceutical industry. Maaaring dumaan ang tasks sa ilang revision cycle bago tanggapin; ang accepted tasks ay nag-average ng anim na automated self-review at hindi bababa sa dalawang expert review. Nakaangkla ang reviews sa verifiable correct answer o matibay na expert consensus, na may hindi bababa sa 90% agreement sa domain reviewers. Tiniyak ng prosesong ito na grounded sa agham, malinaw i-grade, at kinatawan ng applied research ang accepted tasks.
Grading at rubric breakdown
Gina-grade ang LifeSciBench tasks gamit ang detalyadong task-specific rubric na hinahati ang inaasahang sagot sa claims, calculations, decisions, justifications, at iba pa. Sa buong benchmark, may 19,020 criteria ang expert rubrics—average na 25 bawat task—para sukatin ang scientific correctness at value sa research decisions.
Ganito sinusuri ang scientific work sa praktika: hindi sapat sa maraming life science tasks ang final answer lang. Maaaring tama ang high-level conclusion pero kulang kung nalampasan ang mahalagang assay limitation o biological nuance. Sa kabaligtaran, maaaring may de-kalidad na pangangatwiran ang partial response kahit hindi buo ang solusyon.
Nahuhuli ito ng granular rubrics. Hindi lang final-answer accuracy ang sinusuri ng LifeSciBench, kundi kung umaabot ang modelo sa sagot sa paraang scientifically valid at operationally useful.
Pagkuha, pagtutugma, at pag-audit ng siyentipikong ebidensya mula sa mga paper, figure, table, at eksperimental na tala.
Halimbawa ng Eval
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Sagot ng Kandidato
Bottom line: Gaya ng ipinakita, hindi sapat ang lakas ng package na ito upang suportahan ang accelerated approval batay sa micro-dystrophin expression bilang surrogate endpoint na makatwirang malamang maghula ng clinical benefit. Malamang na ituturing ng isang mapanuring FDA reviewer na kulang nang mahalaga ang ebidensya sa biomarker, function, durability, safety, at generalizability.
Package Item | Pangunahing Failure Mode | Kakailanganin |
|---|---|---|
Western blot quantification | Ang MANEX1A ay nagbi-bind sa N-terminal epitope na pareho sa endogenous full-length dystrophin at micro-dystrophin transgene, kaya hindi malinaw na naihihiwalay ng assay ang transgene mula sa residual/revertant dystrophin. Hindi rin valid ang pag-quantify ng 138 kDa micro-dystrophin laban sa healthy full-length dystrophin standard. | Gumamit ng recombinant micro-dystrophin standard at orthogonal method na nakaiiba sa transgene mula sa endogenous dystrophin, gaya ng targeted mass spectrometry o transgene-specific/epitope-specific assay. |
Immunofluorescence | Hindi angkop ang C-terminal polyclonal antibody dahil wala sa 138 kDa construct ang C-terminal domain. Maraming pasyenteng DMD ang may revertant fibers, at maaaring mapanatili ng revertant dystrophin ang C-terminal epitopes. Maaaring lumawak nang clonal ang revertant fibers habang tumatanda, na nagbibi-bias sa IF signal, lalo na sa mas matatandang batang lalaki. | Ulitin ang IF gamit ang antibody laban sa epitope na nasa transgene ngunit wala sa revertant dystrophin. I-quantify nang hiwalay ang transgene-positive fibers mula sa revertant fibers. |
Validity ng surrogate endpoint | Pinaghahalo ng package ang dami ng protein at clinical function. Ang “38% ng healthy-control protein mass” ay hindi nangangahulugang 38% ng normal dystrophin function dahil structurally truncated ang micro-dystrophin. | Empirically i-validate ang ugnayan ng micro-dystrophin mass-percent, sarcolemmal localization, downstream functional restoration, at clinical benefit bago ituring ang expression bilang surrogate endpoint. |
Disenyo ng biopsy | Ang pre- at post-treatment contralateral vastus lateralis biopsies ay nagpapasok ng left-right at intramuscular spatial variability. Maaari ring baguhin ng disease progression at fibro-fatty replacement ang total-protein-normalized signal. | I-standardize ang biopsy site gamit ang consistent anatomical landmarks, i-normalize sa muscle-specific proteins, at sukatin nang sabay ang fibro-fatty composition. |
NSAA comparator/statistics | Ang external natural-history cohort ay hindi randomized concurrent control. Maaaring i-bias ng trial eligibility, supportive care, participation effects, baseline NSAA, steroid regimen, age, at exon class ang paghahambing. Hindi sapat ang unpaired t-test. Dagdag pa, ang +1.4 NSAA change ay nasa loob ng test-retest variability para sa age group na ito. | Magsagawa ng randomized concurrent placebo-controlled study, o kahit man lang gumamit ng adjusted analyses na isinasaalang-alang ang baseline NSAA, edad, steroid regimen, exon class, at iba pang confounders. |
Age-window confounding | Ang mga batang lalaki na edad 4–7 ay nasa developmental window kung saan maaaring tumaas ang motor function ng untreated ambulatory DMD patients bago mangibabaw ang decline. Pinaghahalo ng 48-week NSAA change ang developmental gain, disease progression, at posibleng treatment effect. | Gumamit ng concurrent randomized control na may age stratification upang ihiwalay ang developmental trajectory sa treatment effect. |
Naunang clinical precedent | Hindi mapagkakatiwalaang nakapaghula ng confirmatory benefit ang open-label micro-dystrophin functional signals; kabilang sa published precedent ang micro-dystrophin gene therapy confirmatory trials na nabigong ulitin ang open-label NSAA improvements. | Huwag umasa sa open-label NSAA change bilang mapagpasyang suporta. Humiling ng controlled functional evidence. |
Structural limits ng construct | Tinatanggal ng 138 kDa construct ang spectrin repeats R16/17, na naglalaman ng nNOS-binding sites. Ang pagkawala ng nNOS recruitment ay maaaring makasira sa functional sympatholysis at ischemia protection habang nag-eehersisyo, na lumilikha ng mechanistic ceiling sa rescue na independent sa expression level. | Magdagdag ng mechanistic studies na nagpapakita kung ibinabalik ng partikular na construct na ito ang kaugnay na dystrophin-associated complex function, nNOS localization, exercise physiology, at muscle protection. |
AAV durability | Hindi pinatutunayan ng vector genomes sa 12 linggo ang durable expression. Ang AAV9 genomes ay halos non-integrating episomes at maaaring bumaba sa paglipas ng panahon. Ang vector-genome persistence ay hindi pareho sa persistent protein expression. | Sukatin ang longitudinal transgene protein expression at functional biomarker durability lampas 12 linggo. |
Immune/safety profile | Ang transaminitis sa 8/12 pasyente ay naaayon sa immune response sa AAV-transduced cells, ngunit hindi naitatag ang mechanism. Nakababahala ang isang myocarditis case dahil sa AAV9 cardiac tropism. | Magbigay ng mas malalim na immune monitoring, liver/cardiac safety characterization, at pinatinding cardiac follow-up. |
Patient selection/generalizability | Nililimitahan ng pagbubukod sa anti-AAV9 neutralizing-antibody-positive patients ang generalizability. Nililimitahan ng pagbubukod sa exon-44 deletions ang applicability sa DMD subgroup na iyon. Masyadong maliit ang n=12 upang i-characterize ang safety at efficacy sa mas malawak na DMD population. | Palawakin ang eligibility kung maaari o pre-specify stratified analyses ayon sa antibody status, genotype/exon class, edad, at baseline function bago gamitin ang resulta upang suportahan ang broad approval. |
Regulatory conclusion: Maaaring magpakita ang package ng biological activity, ngunit hindi pa nito naitatatag na ang nasukat na micro-dystrophin expression ay maaasahang surrogate na makatwirang malamang maghula ng clinical benefit. Ang pangunahing gaps ay assay specificity, invalid quantification standards, posibleng revertant-fiber confounding, kawalan ng randomized control, age-related NSAA confounding, uncertain durability, at unresolved safety/generalizability issues.
Upang masara ang gap, kakailanganin ng program ang controlled, age-stratified clinical design na may transgene-specific expression assays, orthogonal protein quantification, tissue-composition controls, longitudinal durability data, mechanistic functional assays para sa truncated construct, at mas malakas na safety monitoring, lalo na sa hepatic at cardiac.
Mga Pamantayan at Grado sa Rubric
Pag-validate sa LifeSciBench
Ni-validate namin ang LifeSciBench sa independent expert review. Galing ang feedback sa 453 reviewer na hindi sumulat ng tasks. Sa kanila, 97% ang may Ph.D. o katumbas nito, may average na 12 taong field experience at 14 peer-reviewed publications; 88% ang may award o fellowship.
Sinuri ng reviewers kung ang bawat task ay tugma sa tunay na research work, sumusubok ng scientific reasoning at domain expertise, grounded sa ebidensiya o consensus, at kapaki-pakinabang sa pag-assess ng pagganap ng modelo. Lumampas sa 96% ang agreement sa bawat kategorya.
Pinatibay ito ng reviewer comments:
Mga resulta
Nag-uulat kami ng dalawang complementary metrics. Ang pass rate ay porsiyento ng tasks kung saan naaabot ng modelo ang 70% task-level success threshold. Ang score ay average rubric reward, na nagbibigay ng partial credit sa criteria kahit hindi solve ang buong task. Mahalaga ang dalawa dahil maaaring bahagyang tama o useful ang sagot kahit hindi kumpleto.
Malaki ang agwat sa pagganap ng modelo ayon sa task type, workflow, at response format.
Saan malakas na ang AI systems
Ipinapakita ng LifeSciBench na pinakamatatag ang frontier models sa scientific synthesis, communication, at structured interpretation. Katamtaman pa rin ang absolute pass rates, kaya hindi pa saturated ang domains; ngunit umangat ang GPT‑Rosalind laban sa GPT‑5.5, mula 25.7% hanggang 36.1% overall exact pass rate.
Pinakamalinaw ang pag-unlad ng kakayahan ng modelo sa Scientific Communication at Translation. Halimbawa, tumaas ang Scientific Communication pass rate mula 56.3% sa GPT‑5.5 hanggang 71.1% sa GPT‑Rosalind; maliit ang kategorya (n=9), kaya mag-ingat sa interpretasyon, ngunit nagpapakita ito ng mabilis na paghusay sa pag-aayos ng ebidensiya at expert-facing explanations. Kahawig ang Translation (ang "mula bench hanggang bedside" na proseso ng drug development): mula 36.8% sa GPT‑5.5 hanggang 57.7% sa GPT‑Rosalind, tanda ng paghusay sa pag-uugnay ng preclinical evidence sa clinical implications.
Ganoon din ang ipinapakita ng rubric-level results. Sa tasks na kailangan ng expert-useful o actionable outputs, 44.7% ang score ng GPT‑Rosalind, kumpara sa 29.1% ng GPT‑5.5. Sa tasks na may uncertainty at caveats, 44.8% ito, kumpara sa 29.3%. Ipinahihiwatig nito na pinaka-useful ang mga modelo kapag malinaw ang evidence boundary at kailangan ng structured scientific judgment.
Nangunguna ang GPT‑Rosalind sa pagganap sa mga gawaing mahalaga sa siyensiya na kinilala ng mga eksperto sa industriya at akademiko.
Nangunguna ang GPT‑Rosalind sa performance sa mga gawaing may halagang siyentipiko na tinukoy ng mga eksperto sa industriya at akademya.
Nangunguna ang GPT‑Rosalind sa performance sa mga gawaing may halagang siyentipiko na tinukoy ng mga eksperto sa industriya at akademya.
Saan kulang pa ang AI systems
Mas mahina pa rin ang performance sa gawaing maraming artifact, mabigat sa design, o may operational constraints. Halimbawa, mahirap pa rin ang Design, Optimization, & Prediction, na may 30.7% pass rate ang GPT‑Rosalind; mahirap din ang Analysis sa 30.3%.
Malinaw na gap ang paggamit ng artifacts. Mas mahusay ang GPT‑Rosalind kaysa GPT‑5.5 sa artifact-heavy settings, pero bumababa pa rin ang pass rate nito mula 45.1% sa text-only tasks tungong 28.1% sa tasks na may artifacts o URLs. Ganoon din ang GPT‑5.5: mula 29.9% pababa sa 21.9%. Kinukumpirma ng mas detalyadong analysis na hirap ang frontier models kumuha ng impormasyon mula sa complex figures o malalaking sequence files at isama ito sa final answer.
Bumababa ang mga pass rate kapag kailangan ng mga gawain ang pangangatwirang nakabatay sa source o paggamit ng mga artifact
Mahalaga rin ang answer format. Mas mababa ang pass rates sa tasks na nangangailangan ng exact sequence, structure, o construct-level outputs: 14.8% lang ang GPT‑Rosalind sa numeric tasks at 24.0% sa sequence o structure outputs. Marupok din ang construct-generation tasks: 27.3% ang GPT‑Rosalind at kaunti lang ang pag-angat laban sa GPT‑5.5. Maaaring dahil din ito sa mas istriktong grading ng exact-answer tasks, kung saan maliit na mali sa calculation o format ay puwedeng magpabagsak sa pass threshold. Mahalaga pa rin ang mga failure na ito: maraming life science workflow ang nangangailangan ng eksaktong output na magagamit agad, gaya ng CRISPR/HDR donor design o siRNA design.
Madalas ding bahagya lang naaabot ng mga modelo ang solusyon. Sa halos 14% ng tasks, nakakuha sila ng malaking rubric credit kahit hindi pumasa sa exact-pass threshold. Para sa GPT‑Rosalind, 109 tasks ang may pass rate na mas mababa sa 20% ngunit may hindi bababa sa 50% rubric reward. Ibig sabihin, maaaring makakita ang mga modelo ng kaugnay na ebidensiya o plausible partial answer, pero bumagsak dahil may nalaktawang constraint, maling ebidensiya, kulang na calculation, o hindi naiugnay ang pangangatwiran sa useful na final decision.
Mga limitasyon & susunod
Hakbang ang LifeSciBench sa pagsukat ng gamit ng AI systems sa life science research, ngunit hindi ito kapalit ng pag-aaral sa mga modelo sa live research environments. Nakatuon ito sa self-contained tasks mula sa paulit-ulit na industry workflows; maraming specialty at task type ang wala pa sa saklaw. Iterative ang tunay na pananaliksik: kumakalap ng ebidensiya, nire-revise ang hypotheses, nagdidisenyo ng follow-up experiments, at inaangkop ang plano habang lumalabas ang resulta.
Kaya ang mataas na performance sa LifeSciBench ay ebidensiya ng realistic task-level capability, hindi direktang sukat ng downstream research impact. Grounded ito sa industry workflows, pero hindi saklaw ang buong diversity at dynamics ng live research programs, kung saan umuusad ang progreso sa paglipas ng panahon.
Susunod na hakbang ang pag-uugnay ng benchmark performance sa deployment studies sa live research workflows. Bagama’t binuo ang LifeSciBench kasama ang practicing scientists, para masukat kung napapabilis ng AI systems ang discovery o R&D outcomes, kailangang pag-aralan ang paggamit at pagganap ng modelo sa tunay na research settings, mas mahabang panahon, at maraming round ng pangangatwiran, feedback, at experimental follow-up.


