Introduktion til LifeSciBench
Et ekspertforfattet, ekspertbedømt benchmark forankret i reel life science-forskning
Agentiske AI-systemer bliver stadig bedre til at udføre videnskabelige opgaver. Men hvor nyttige de er for life science-forskere, afhænger af, hvor godt de håndterer kompleksiteten i reel forskning. Det arbejde ligner sjældent et enkelt spørgsmål om faktagenkaldelse eller et klart afgrænset prædiktionsproblem. Forskere fortolker ufuldstændig evidens, forener modstridende resultater, designer vanskelige eksperimenter, fejlfinder assays, vurderer translationel risiko og beslutter under usikkerhed, hvad næste skridt skal være.
Nuværende benchmarks indfanger ikke disse evner fuldt ud. Mange evalueringer inden for life science fokuserer på snævre domæner eller isolerede færdigheder, hvilket giver spørgsmål med strukturerede formater og klare referencesvar. Selvom de er værdifulde, formår de ofte ikke reelt at vurdere, om en model kan bidrage på tværs af det bredere spektrum af forskningsarbejde.
Vi har udviklet LifeSciBench for at hjælpe med at lukke dette hul. Hver opgave er forankret i vurderinger fra praktiserende life science-forskere med ph.d.-niveau og direkte erfaring med at fremme lægemiddeludviklingsprogrammer i biotek- og medicinalmiljøer.
LifeSciBench omfatter 750 ekspertforfattede opgaver fordelt på syv workflows og syv biologiske domæner.
1,062
Opgaveartefakter
173
Videnskabelige bidragydere
19,020
Kriterier i bedømmelsesrubrikken
453
Ekspertbedømmere
Hvad LifeSciBench måler
LifeSciBench måler, om AI-systemer kan understøtte realistiske forskningsopgaver inden for life science, ikke blot besvare biologispørgsmål. For at definere benchmarkets taksonomi spurgte vi praktiserende life science-forskere om de workflows, de oftest bruger i anvendte forskningsmiljøer. Derefter grupperede vi deres svar i syv tilbagevendende kategorier: håndtering af evidens, analyse, design og optimering, videnskabelig ræsonnering, validering og drift, translation samt videnskabelig kommunikation.
Hver opgave er struktureret som en anmodning, en forsker kunne give til en kyndig samarbejdspartner: videnskabeligt prompt, relevant kontekst eller artefakter og et frit formuleret svar. Ekspertskrevne rubrikker vurderer, om en model kan levere det rette svar på et specifikt problem med det niveau af detaljer, begrundelse, forbehold og format, som en forsker ville forvente.
Opbygning af datasæt
LifeSciBench evaluerer videnskabelig ræsonnering sammen med de mindre veldefinerede, praktiske færdigheder, der er nødvendige for videnskabelig brug i den virkelige verden. Opgaverne beder modeller arbejde sig igennem realistiske forskningsproblemer: fortolke evidens, foretage domæneforankrede vurderinger og kommunikere konklusioner, der er nyttige for ekspertbedømmere. Mange opgaver kræver også, at modeller håndterer usikkerhed og ræsonnerer over understøttende datafiler i stedet for kun at basere sig på promptteksten.
Benchmarket er designet til at afspejle kompleksiteten i life science-arbejde. Samlet set kræver 79 % af opgaverne flere ræsonnerings- eller beslutningstrin, med et gennemsnit på fire trin pr. opgave. LifeSciBench omfatter 1.062 vedhæftede artefakter fordelt på figurer, PDF'er, tabeller, sekvensfiler, struktur- eller kemifiler og webreferencer. Mere end halvdelen af opgaverne (53 %) kræver, at modeller fortolker eller syntetiserer information fra mindst ét artefakt.
Opgaverne blev skabt af 173 ekspertforskere på tværs af forskellige life science-discipliner. Hver forsker havde uddannelse på ph.d.-niveau og erfaring fra biotek- eller medicinalindustrien. Opgaver kunne gennemgå så mange revisionsrunder som nødvendigt før accept, uden et fast loft over antallet af runder; accepterede opgaver havde i gennemsnit seks selvstyrede automatiserede reviewcyklusser og gennemførte mindst to runder ekspertreview. Reviewene var forankret i enten et verificerbart korrekt svar eller stærk ekspertkonsensus med mindst 90 % enighed blandt reviewere i det relevante domæne. Denne proces var med til at sikre, at accepterede opgaver var videnskabeligt forankrede, klare nok til at bedømme og repræsentative for anvendt forskning.
Bedømmelse og opdeling af rubrikker
LifeSciBench-opgaver bedømmes med en detaljeret, opgavespecifik rubrik, der opdeler det forventede svar i konkrete videnskabelige påstande, beregninger, beslutninger, begrundelser osv. På tværs af benchmarket omfatter ekspertudviklede rubrikker 19.020 kriterier — i gennemsnit 25 pr. opgave — til at vurdere både videnskabelig korrekthed og anvendelighed for forskningsbeslutninger.
Dette design afspejler, hvordan videnskabeligt arbejde vurderes i praksis: Mange life science-opgaver kan ikke bedømmes ved kun at kontrollere det endelige svar. Et svar kan nå frem til den korrekte overordnede konklusion, men stadig blive vurderet som ufuldstændigt, hvis det for eksempel overser en vigtig assaybegrænsning eller ikke proaktivt fremhæver en biologisk nuance med stor betydning. Omvendt kan et delvist svar indeholde ræsonnering af høj kvalitet, selv om det ikke løser opgaven fuldt ud.
De granulære rubrikker indfanger denne nuance. LifeSciBench evaluerer ikke kun nøjagtigheden af det endelige svar, men også om en model når frem til svaret på en videnskabeligt valid og operationelt nyttig måde.
Udtræk, afstemning og audit af videnskabelig evidens fra artikler, figurer, tabeller og eksperimentelle optegnelser.
Evalueringseksempel
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Kandidatens respons
Bundlinje: Som præsenteret er denne pakke ikke stærk nok til at understøtte accelereret godkendelse baseret på mikrodystrofin-ekspression som et surrogatendepunkt, der med rimelighed sandsynligvis forudsiger klinisk fordel. En skeptisk FDA-reviewer ville sandsynligvis vurdere evidensen for biomarkør, funktion, holdbarhed, sikkerhed og generaliserbarhed som materielt utilstrækkeligt understøttet.
Pakkepunkt | Vigtig fejltilstand | Hvad der ville være nødvendigt |
|---|---|---|
Western blot-kvantificering | MANEX1A binder en N-terminal epitop, der deles af endogent fuldlængde-dystrofin og mikrodystrofin-transgenet, så assayet skelner ikke rent mellem transgen og residual/revertant dystrofin. Kvantificering af en 138 kDa mikrodystrofin mod en sund fuldlængde-dystrofinstandard er også ugyldig. | Brug en rekombinant mikrodystrofinstandard og en ortogonal metode, der skelner transgen fra endogent dystrofin, såsom målrettet massespektrometri eller et transgen-specifikt/epitop-specifikt assay. |
Immunofluorescens | Det C-terminale polyklonale antistof er dårligt egnet, fordi 138 kDa-konstruktionen mangler det C-terminale domæne. Mange DMD-patienter har revertante fibre, og revertant dystrofin kan bevare C-terminale epitoper. Revertante fibre kan ekspandere klonalt med alderen og biasere IF-signalet, især hos ældre drenge. | Gentag IF med et antistof mod en epitop, der findes i transgenet, men ikke i revertant dystrofin. Kvantificer transgen-positive fibre separat fra revertante fibre. |
Surrogatendepunktets validitet | Pakken sammenblander proteinmængde med klinisk funktion. "38 % af proteinmassen i raske kontroller" betyder ikke 38 % af normal dystrofinfunktion, fordi mikrodystrofin er strukturelt trunkeret. | Valider empirisk forholdet mellem mikrodystrofin-masseprocent, sarkolemmal lokalisering, downstream funktionel genopretning og klinisk fordel, før ekspression behandles som surrogatendepunkt. |
Biopsidesign | Kontralaterale vastus lateralis-biopsier før og efter behandling introducerer venstre-højre- og intramuskulær spatial variabilitet. Sygdomsprogression og fibro-fedt-udskiftning kan også ændre totalprotein-normaliseret signal. | Standardiser biopsistedet ved hjælp af ensartede anatomiske pejlemærker, normaliser til muskelspecifikke proteiner, og mål fibro-fedt-sammensætning parallelt. |
NSAA-komparator/statistik | En ekstern natural-history-kohorte er ikke en randomiseret samtidig kontrol. Forsøgsberettigelse, understøttende behandling, deltagelseseffekter, baseline-NSAA, steroidregime, alder og exonklasse kan alle biasere sammenligningen. En uparret t-test er ikke tilstrækkelig. Desuden ligger en +1,4 NSAA-ændring inden for test-retest-variabiliteten for denne aldersgruppe. | Kør et randomiseret samtidigt placebokontrolleret studie, eller brug som minimum justerede analyser, der tager højde for baseline-NSAA, alder, steroidregime, exonklasse og andre confoundere. |
Konfounding af aldersvindue | Drenge i alderen 4–7 er i et udviklingsvindue, hvor ubehandlede ambulante DMD-patienter kan øge motorisk funktion, før nedgang dominerer. En 48-ugers NSAA-ændring blander udviklingsgevinst, sygdomsprogression og mulig behandlingseffekt. | Brug en samtidig randomiseret kontrol med aldersstratificering for at adskille udviklingsforløb fra behandlingseffekt. |
Tidligere klinisk præcedens | Open-label funktionelle signaler for mikrodystrofin har ikke pålideligt forudsagt bekræftende fordel; publiceret præcedens omfatter bekræftende forsøg med mikrodystrofin-genterapi, der ikke reproducerede open-label NSAA-forbedringer. | Stol ikke på open-label NSAA-ændring som afgørende støtte. Kræv kontrolleret funktionel evidens. |
Konstruktionens strukturelle grænser | 138 kDa-konstruktionen sletter spectrin repeats R16/17, som indeholder nNOS-bindingssteder. Tab af nNOS-rekruttering kan forringe funktionel sympatholyse og iskæmibeskyttelse under motion, hvilket skaber et mekanistisk loft for rescue uafhængigt af ekspressionsniveau. | Tilføj mekanistiske studier, der viser, om denne specifikke konstruktion genopretter relevant dystrofin-associeret kompleksfunktion, nNOS-lokalisering, træningsfysiologi og muskelbeskyttelse. |
AAV-holdbarhed | Vektorgenomer ved 12 uger etablerer ikke holdbar ekspression. AAV9-genomer er overvejende ikke-integrerende episomer og kan falde over tid. Vektorgenom-persistens er ikke det samme som vedvarende proteinekspression. | Mål longitudinel transgen-proteinekspression og funktionel biomarkørholdbarhed ud over 12 uger. |
Immun-/sikkerhedsprofil | Transaminitis hos 8/12 patienter er foreneligt med immunrespons mod AAV-transducerede celler, men mekanismen er ikke fastlagt. Ét tilfælde af myokarditis er bekymrende i betragtning af AAV9’s kardiale tropisme. | Lever dybere immunmonitorering, lever-/hjertesikkerhedskarakterisering og intensiveret hjertelig opfølgning. |
Patientudvælgelse/generaliserbarhed | Udelukkelse af anti-AAV9 neutraliserende antistof-positive patienter begrænser generaliserbarheden. Udelukkelse af exon-44-deletioner begrænser anvendeligheden for denne DMD-undergruppe. n=12 er for lille til at karakterisere sikkerhed og effekt på tværs af den bredere DMD-population. | Udvid berettigelsen, hvor det er muligt, eller præspecificer stratificerede analyser efter antistofstatus, genotype/exonklasse, alder og baselinefunktion, før resultatet bruges til at understøtte bred godkendelse. |
Regulatorisk konklusion: Pakken kan vise biologisk aktivitet, men den fastslår endnu ikke, at den målte mikrodystrofin-ekspression er et pålideligt surrogat, der med rimelig sandsynlighed forudsiger klinisk fordel. De vigtigste huller er assayspecificitet, ugyldige kvantificeringsstandarder, mulig revertant-fiber-konfounding, mangel på randomiseret kontrol, aldersrelateret NSAA-konfounding, usikker holdbarhed og uløste sikkerheds-/generaliserbarhedsproblemer.
For at lukke hullet ville programmet kræve et kontrolleret, aldersstratificeret klinisk design med transgen-specifikke ekspressionsassays, ortogonal proteinkvantificering, vævssammensætningskontroller, longitudinelle holdbarhedsdata, mekanistiske funktionelle assays for den trunkerede konstruktion og stærkere sikkerhedsmonitorering, især hepatisk og kardial.
Kriterier og karakterer for rubrikker
Validering af LifeSciBench
Vi validerede LifeSciBench gennem et uafhængigt ekspertreview. Feedbacken kom fra 453 reviewere, som ikke havde været involveret i at skrive opgaverne. Af disse reviewere havde 97 % en ph.d. eller tilsvarende doktorgrad, med i gennemsnit 12 års felterfaring og 14 fagfællebedømte publikationer; 88 % rapporterede at have modtaget mindst én pris eller et fellowship.
Reviewere vurderede, om hver opgave afspejlede de kvaliteter, der kræves af et stærkt benchmarkspørgsmål: overensstemmelse med forskningsarbejde i praksis, passende test af videnskabelig ræsonnering og domæneekspertise, forankring i evidens eller ekspertkonsensus og samlet anvendelighed til at vurdere modelperformance. Enigheden oversteg 96 % i hver kategori.
Reviewernes kommentarer understøttede de kvantitative vurderinger:
Resultater
Vi rapporterer to komplementære målinger. Beståelsesrate er procentdelen af opgaver, hvor en model opfylder opgavens succesgrænse på 70 %. Score er den gennemsnitlige rubrikbelønning, som giver delvis kredit for individuelle kriterier, selv når hele opgaven ikke er løst. Begge er vigtige, fordi et svar på en videnskabelig opgave kan være delvist korrekt eller nyttigt uden at opfylde alle krav til et fuldstændigt svar.
Modelperformance varierer betydeligt efter opgavetype, workflow og svarformat.
Hvor AI-systemer allerede viser styrke
LifeSciBench viser, at frontier-modeller er relativt stærkest på opgaver, der involverer videnskabelig syntese, kommunikation og struktureret fortolkning. De absolutte beståelsesrater er stadig moderate, så disse benchmarkdomæner er langt fra mættede, men GPT‑Rosalind viser meningsfuld fremgang i forhold til GPT‑5.5 og forbedrer den samlede eksakte beståelsesrate fra 25,7 % til 36,1 %.
De tydeligste fremskridt i modellernes evner ses inden for videnskabelig kommunikation og translation. For eksempel stiger beståelsesraten for videnskabelig kommunikation fra 56,3 % for GPT‑5.5 til 71,1 % for GPT‑Rosalind; denne kategori er lille (n=9), så den bør fortolkes med forsigtighed, men den tyder på, at frontier-modeller hurtigt forbedrer deres evne til at organisere evidens og producere overbevisende forklaringer til eksperter. Translation (lægemiddeludviklingens "bench-to-bedside"-proces) viser et lignende mønster og stiger fra 36,8 % for GPT‑5.5 til 57,7 % for GPT‑Rosalind, hvilket tyder på, at modeller hurtigt forbedrer deres evne til at koble præklinisk evidens til kliniske implikationer.
Resultater på rubrikniveau peger i samme retning. På opgaver, der kræver output, som er nyttige eller handlingsrettede for eksperter, scorer GPT‑Rosalind 44,7 % mod 29,1 % for GPT‑5.5. På opgaver, der kræver håndtering af usikkerhed og forbehold, scorer den 44,8 % mod 29,3 %. Dette mønster tyder på, at modeller er mest nyttige, når opgaven har en klar evidensafgrænsning og kræver struktureret videnskabelig vurdering.
GPT‑Rosalind fører på performance på videnskabeligt værdifulde opgaver identificeret af eksperter fra industri og akademia.
GPT‑Rosalind fører i ydeevne på tværs af videnskabeligt værdifulde opgaver identificeret af branche- og akademiske eksperter.
GPT‑Rosalind fører i ydeevne på tværs af videnskabeligt værdifulde opgaver identificeret af branche- og akademiske eksperter.
Hvor AI-systemer stadig kommer til kort
Performance er fortsat langt svagere på videnskabeligt arbejde, der er artefakttungt, designtungt og operationelt begrænset. Design, optimering & prædiktion er fortsat et af de sværeste workflows med en beståelsesrate for GPT‑Rosalind på 30,7 %; analyse er tilsvarende vanskelig med 30,3 %.
Brugen af artefakter er en særlig tydelig mangel. Selv om GPT‑Rosalind klarer sig bedre end GPT‑5.5 i artefakttunge sammenhænge, falder dens beståelsesrate stadig fra 45,1 % på opgaver med kun tekst til 28,1 % på opgaver med artefakter eller URL'er. GPT‑5.5 viser det samme mønster og falder fra 29,9 % til 21,9 %. En mere detaljeret analyse bekræfter, at frontier-modeller har svært ved at udtrække information fra komplekse figurer eller store sekvensfiler og integrere den information i det endelige svar.
Beståelsesrater falder, når opgaver kræver kildeunderbygget ræsonnering eller arbejde med artefakter
Svarformatet har også betydning. Opgaver, der kræver eksakte sekvens-, struktur- eller konstruktoutput, viser lavere beståelsesrater: GPT‑Rosalind når kun 14,8 % på numeriske opgaver og 24,0 % på sekvens- eller strukturoutput. Konstruktgenereringsopgaver er også skrøbelige, hvor GPT‑Rosalind ligger på 27,3 % og kun viser begrænset forbedring i forhold til GPT‑5.5. Noget af dette gab kan skyldes en strengere bedømmelsesflade for opgaver med eksakte svar, hvor små forskelle i beregning eller formatering kan få et svar til at falde under beståelsesgrænsen. Alligevel er disse fejl videnskabeligt meningsfulde, fordi mange life science-workflows kræver output, der er eksakte nok til at blive brugt direkte, for eksempel i CRISPR/HDR-donordesign eller siRNA-design.
Modeller når også ofte noget af vejen uden at løse opgaven fuldt ud. I cirka 14 % af opgaverne opnåede modeller betydelig rubrikkredit, selv om de ikke nåede grænsen for eksakt beståelse. For GPT‑Rosalind havde 109 opgaver beståelsesrater under 20 %, men opnåede stadig mindst 50 % rubrikbelønning. I praksis betyder det, at modeller kan identificere relevant evidens eller levere et plausibelt delvist svar, men stadig fejle, fordi de overser en central begrænsning, bruger den forkerte evidens, laver en ufuldstændig beregning eller ikke kobler deres ræsonnering til en videnskabeligt nyttig endelig beslutning.
Begrænsninger & hvad der kommer nu
LifeSciBench er et skridt mod at måle, hvor nyttige AI-systemer kan være for life science-forskning, men det er ikke en erstatning for at studere modeller i levende forskningsmiljøer. Benchmarket fokuserer på selvstændige opgaver, der afspejler tilbagevendende workflows i industrien, men lader mange videnskabelige specialer og opgavetyper ligge uden for sit nuværende omfang. Reel forskning er iterativ: Forskere indsamler ny evidens, reviderer hypoteser, designer opfølgende eksperimenter og tilpasser deres planer, efterhånden som resultaterne kommer frem.
Stærk performance på LifeSciBench bør derfor fortolkes som evidens for realistiske evner på opgaveniveau, ikke som et direkte mål for efterfølgende forskningsimpact. Benchmarket er forankret i industriens workflows, men indfanger ikke den fulde diversitet eller dynamik i levende forskningsprogrammer, hvor fremskridt afhænger af faktorer, der udfolder sig over tid.
Næste skridt er at koble benchmarkperformance til udrulningsstudier i levende forskningsworkflows. Selvom LifeSciBench blev udviklet sammen med praktiserende forskere, kræver det studier af modelbrug og -performance i reelle forskningsmiljøer, over længere tidshorisonter og på tværs af flere runder med ræsonnering, feedback og eksperimentel opfølgning at måle, om AI-systemer accelererer opdagelser eller forbedrer R&D-resultater.


