Introduksjon til LifeSciBench
En ekspertutviklet og ekspertvurdert benchmark forankret i reell livsvitenskapelig forskning
Agentiske AI-systemer blir stadig bedre i stand til å utføre vitenskapelige oppgaver. Hvor nyttige de er for forskere innen livsvitenskap, avhenger imidlertid av hvor godt de håndterer kompleksiteten i reell forskning. Slikt arbeid ligner sjelden på et enkelt spørsmål om faktagjenkalling eller et ryddig prediksjonsproblem. Forskere tolker ufullstendig evidens, forener motstridende resultater, utformer vanskelige eksperimenter, feilsøker analyser, vurderer translasjonell risiko og bestemmer neste steg under usikkerhet.
Dagens benchmarks fanger ikke fullt ut opp disse evnene. Mange evalueringer innen livsvitenskap fokuserer på smale domener eller isolerte ferdigheter, noe som gir spørsmål med strukturerte spørsmålsformater og ryddige fasitsvar. Selv om de er verdifulle, klarer de ofte ikke å vurdere om en modell virkelig kan bidra på tvers av det bredere spennet av forskningsarbeid.
Vi utviklet LifeSciBench for å bidra til å tette dette gapet. Hver oppgave er forankret i vurderingene til praktiserende livsvitenskapsforskere med opplæring på ph.d.-nivå og direkte erfaring med å drive legemiddelutviklingsprogrammer fremover i bioteknologiske og farmasøytiske miljøer.
LifeSciBench omfatter 750 ekspertforfattede oppgaver som spenner over sju arbeidsflyter og sju biologiske domener.
1,062
Oppgaveartefakter
173
Vitenskapelige bidragsytere
19,020
Rubrikkriterier
453
Ekspertvurderere
Hva LifeSciBench måler
LifeSciBench måler om AI-systemer kan støtte realistiske forskningsoppgaver innen livsvitenskap, ikke bare svare på biologispørsmål. For å definere benchmarkens taksonomi kartla vi hvilke arbeidsflyter praktiserende livsvitenskapsforskere bruker oftest i anvendt forskning. Deretter grupperte vi svarene deres i sju tilbakevendende kategorier: evidenshåndtering, analyse, design og optimalisering, vitenskapelig resonnering, validering og drift, translasjon og vitenskapelig kommunikasjon.
Hver oppgave er strukturert som en forespørsel en forsker kunne gitt til en kunnskapsrik samarbeidspartner: vitenskapelig prompt, relevant kontekst eller artefakter og et fritekstsvar. Ekspertskrevne rubrikker vurderer om en modell kan gi riktig svar på et spesifikt problem, med det detaljnivået, den begrunnelsen, de forbeholdene og den formateringen en forsker ville forvente.
Konstruksjon av datasettet
LifeSciBench evaluerer vitenskapelig resonnering sammen med de mindre klart definerte, praktiske ferdighetene som trengs for reell vitenskapelig bruk. Oppgavene ber modeller arbeide gjennom realistiske forskningsproblemer: tolke evidens, gjøre domeneforankrede vurderinger og kommunisere konklusjoner som vil være nyttige for ekspertvurderere. Mange oppgaver krever også at modeller håndterer usikkerhet og resonnerer over støttende datafiler i stedet for å bare basere seg på prompttekst.
Benchmarken er utformet for å gjenspeile kompleksiteten i livsvitenskapelig arbeid. Samlet krever 79 % av oppgavene flere resonnerings- eller beslutningstrinn, med et gjennomsnitt på fire trinn per oppgave. LifeSciBench omfatter 1 062 vedlagte artefakter som spenner over figurer, PDF-er, tabeller, sekvensfiler, struktur- eller kjemifiler og webreferanser. Mer enn halvparten av oppgavene (53 %) krever at modeller tolker eller syntetiserer informasjon fra minst ett artefakt.
Oppgavene ble laget av 173 ekspertforskere på tvers av ulike livsvitenskapelige disipliner. Hver forsker hadde opplæring på ph.d.-nivå og erfaring fra bioteknologi- eller legemiddelindustrien. Oppgavene kunne gjennomgå så mange revisjonssykluser som nødvendig før godkjenning, uten fast tak på antall runder; godkjente oppgaver hadde i gjennomsnitt seks selvstyrte automatiserte gjennomgangssykluser og fullførte minst to runder med ekspertvurderinger. Vurderingene var forankret i enten et verifiserbart riktig svar eller sterk ekspertkonsensus, med minst 90 % enighet blant vurderere i det relevante domenet. Denne prosessen bidro til å sikre at godkjente oppgaver var vitenskapelig forankret, tydelige nok til å vurderes og representative for anvendt forskning.
Vurdering og rubrikkoppdeling
LifeSciBench-oppgaver vurderes med en detaljert, oppgavespesifikk rubrikk som bryter ned forventet svar i konkrete vitenskapelige påstander, beregninger, beslutninger, begrunnelser og så videre. På tvers av benchmarken omfatter ekspertutviklede rubrikker 19 020 kriterier – i gjennomsnitt 25 per oppgave – for å vurdere både vitenskapelig korrekthet og nytteverdi for forskningsbeslutninger.
Denne utformingen gjenspeiler hvordan vitenskapelig arbeid vurderes i praksis: Mange livsvitenskapelige oppgaver kan ikke vurderes ved å kontrollere sluttresultatet alene. Et svar kan nå riktig overordnet konklusjon, men likevel vurderes som ufullstendig hvis det for eksempel overser en sentral analysebegrensning eller ikke proaktivt tar opp en biologisk nyanse med store konsekvenser. Omvendt kan et delvis svar inneholde resonnering av høy kvalitet selv om det ikke løser oppgaven fullt ut.
De detaljerte rubrikkene fanger opp denne nyansen. LifeSciBench evaluerer ikke bare nøyaktigheten i sluttresultatet, men om en modell kommer frem til svaret på en vitenskapelig gyldig og operasjonelt nyttig måte.
Uttrekk, avstemming og revisjon av vitenskapelig evidens fra artikler, figurer, tabeller og eksperimentelle registreringer.
Evalueringseksempel
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Kandidatsvar
Konklusjon Slik pakken er presentert, er den ikke sterk nok til å støtte fremskyndet godkjenning på grunnlag av mikrodystrofinuttrykk som et surrogatendepunkt som med rimelig sannsynlighet kan forutsi klinisk nytte. En skeptisk FDA-gransker vil sannsynligvis anse dokumentasjonen for biomarkører, funksjonalitet, holdbarhet, sikkerhet og generaliserbarhet som vesentlig underbygget.
Pakkeelement | Nøkkelfeilmodus | Hva som trengs |
|---|---|---|
Western blot-kvantifisering | MANEX1A binder en N-terminal epitop som deles av endogent dystrofin i full lengde og mikrodystrofintransgenet, slik at analysen ikke skiller klart mellom transgenet og gjenværende/revertant dystrofin. Kvantifisering av et 138 kDa mikro-dystrofin mot en frisk dystrofinstandard i full lengde er også ugyldig. | Bruk en rekombinant mikrodystrofinstandard og en ortogonal metode som skiller transgen fra endogent dystrofin, for eksempel målrettet massespektrometri eller en transgenspesifikk/epitopspesifikk analyse. |
Immunfluorescens | Det C-terminale polyklonale antistoffet er dårlig egnet fordi 138 kDa-konstruksjonen mangler det C-terminale domenet. Mange DMD-pasienter har revertante fibre, og revertant dystrofin kan beholde C-terminale epitoper. Revertantfibre kan ekspandere klonalt med alderen og forvrenge IF-signalet, spesielt hos eldre gutter. | Gjenta IF med et antistoff mot en epitop som finnes i transgenet, men som er fraværende i revertant dystrofin. Kvantifiser transgenpositive fibre separat fra revertantfibre. |
Surrogatendepunktets validitet | Pakken blander sammen proteinmengde med klinisk funksjon. "38% av proteinmassen til en frisk kontrollgruppe" betyr ikke 38% av normal dystrofinfunksjon, fordi mikrodystrofin er strukturelt avkortet. | Empirisk validering av forholdet mellom mikrodystrofinmasseprosent, sarkolemmal lokalisering, funksjonell gjenoppretting nedstrøms og klinisk nytte før ekspresjon behandles som et surrogatendepunkt. |
Utforming av biopsi | Biopsier fra den kontralaterale vastus lateralis før og etter behandling viser romlig variasjon mellom venstre og høyre side og intramuskulært. Sykdomsprogresjon og fibro-fettutskiftning kan også endre det totalproteinnormaliserte signalet. | Standardiser biopsiområdet ved hjelp av konsistente anatomiske landemerker, normaliser til muskelspesifikke proteiner, og mål fibro-fettsammensetningen parallelt. |
NSAA-komparator/statistikk | En ekstern naturhistorisk kohort er ikke en randomisert, samtidig kontroll. Deltakelse i studien, støttebehandling, deltagelseseffekter, NSAA ved baseline, steroidregime, alder og eksonklasse kan alle påvirke sammenligningen. En uparet t-test er ikke tilstrekkelig. En endring på +1,4 NSAA ligger også innenfor test-retest-variabiliteten for denne aldersgruppen. | Utfør en randomisert, samtidig placebokontrollert studie, eller bruk som et minimum justerte analyser som tar hensyn til baseline NSAA, alder, steroidregime, eksonklasse og andre konfunderende faktorer. |
Forveksling mellom alder og vindu | Gutter i alderen 4-7 år befinner seg i et utviklingsvindu der ubehandlede, ambulante DMD-pasienter kan få bedre motorisk funksjon før tilbakegangen blir dominerende. En 48-ukers NSAA-endring blander utviklingsgevinst, sykdomsprogresjon og mulig behandlingseffekt. | Bruk en samtidig randomisert kontrollgruppe med aldersstratifisering for å skille utviklingsforløp fra behandlingseffekt. |
Tidligere klinisk presedens | Åpne, funksjonelle signaler om mikrodystrofin har ikke gitt pålitelige prediksjoner av bekreftende fordeler; publisert presedens inkluderer bekreftende studier med genterapi med mikrodystrofin som ikke har klart å reprodusere de åpne NSAA-forbedringene. | Ikke stol på åpen NSAA-endring som avgjørende støtte. Krever kontrollert funksjonell dokumentasjon. |
Konstruksjonens strukturelle grenser | Konstruksjonen på 138 kDa fjerner spektrinrepetisjonene R16/17, som inneholder nNOS-bindingssteder. Tap av nNOS-rekruttering kan svekke funksjonell sympatolyse og iskemibeskyttelse under trening, noe som skaper et mekanistisk tak for redning uavhengig av ekspresjonsnivå. | Legg til mekanistiske studier som viser om denne spesifikke konstruksjonen gjenoppretter relevant dystrofinassosiert kompleksfunksjon, nNOS-lokalisering, treningsfysiologi og muskelbeskyttelse. |
AAV-holdbarhet | Vektorgenomer ved 12 uker etablerer ikke varig uttrykk. AAV9-genomene er i stor grad ikke-integrerende episomer og kan reduseres over tid. Vektor-genompersistens er ikke det samme som persistent proteinuttrykk. | Måle transgenets proteinuttrykk og funksjonelle biomarkørers holdbarhet etter 12 uker. |
Immunitet/sikkerhetsprofil | Transaminitt hos 8/12 pasienter er forenlig med immunrespons på AAV-transduserte celler, men mekanismen er ikke fastslått. Ett tilfelle av myokarditt er bekymringsfullt med tanke på AAV9s hjertetropisme. | Sørg for grundigere immunovervåking, karakterisering av lever- og hjertesikkerhet og intensivert hjerteoppfølging. |
Pasientutvelgelse/generaliserbarhet | Ekskludering av anti-AAV9-nøytraliserende antistoff-positive pasienter begrenser generaliserbarheten. Ekskludering av exon-44-deletjoner begrenser anvendeligheten til denne DMD-undergruppen. n=12 er for lite til å karakterisere sikkerhet og effekt i en bredere DMD-populasjon. | Utvid kvalifiseringen der det er mulig, eller spesifiser på forhånd stratifiserte analyser etter antistoffstatus, genotype/eksonklasse, alder og utgangsfunksjon før resultatet brukes til å støtte bred godkjenning. |
Regulatorisk konklusjon: Pakken kan vise biologisk aktivitet, men det er ennå ikke fastslått at det målte mikro-dystrofinuttrykket er et pålitelig surrogat som med rimelig sannsynlighet kan forutsi klinisk nytte. De største manglene er analysespesifisitet, ugyldige kvantifiseringsstandarder, mulig revertant-fiber-forvirring, mangel på randomisert kontroll, aldersrelatert NSAA-forvirring, usikker holdbarhet og uavklarte spørsmål om sikkerhet/generaliserbarhet.
For å tette gapet trenger programmet et kontrollert, aldersstratifisert klinisk design med transgen-spesifikke ekspresjonsanalyser, ortogonal proteinkvantifisering, kontroller av vevssammensetning, longitudinelle holdbarhetsdata, mekanistiske funksjonelle analyser for den avkortede konstruksjonen og sterkere sikkerhetsovervåking, spesielt av lever og hjerte.
Rubrikkriterier og grader
Validering av LifeSciBench
Vi validerte LifeSciBench gjennom en uavhengig ekspertvurdering. Tilbakemeldingene kom fra 453 vurderere som ikke var involvert i å skrive oppgavene. Av disse vurdererne hadde 97 % ph.d. eller tilsvarende doktorgrad, med i gjennomsnitt 12 års praktisk erfaring og 14 fagfellevurderte publikasjoner; 88 % oppga at de hadde mottatt minst én pris eller ett stipend.
Vurdererne skåret om hver oppgave gjenspeilte kvalitetene som kreves for et sterkt benchmarkspørsmål: samsvar med reelt forskningsarbeid, egnet testing av vitenskapelig resonnering og domenekompetanse, forankring i evidens eller ekspertkonsensus og samlet nytteverdi for å vurdere modellens ytelse. Enigheten oversteg 96 % i hver kategori.
Kommentarene fra vurdererne underbygget de kvantitative vurderingene:
Resultater
Vi rapporterer to komplementære metrikker. Beståttprosent er prosentandelen av oppgaver der en modell når oppgavens suksessgrense på 70 %. Skår er gjennomsnittlig nivå i henhold til vurderingsrubrikken, som gir delvis uttelling for enkeltkriterier selv når hele oppgaven ikke løses. Begge er viktige fordi et svar på en vitenskapelig oppgave kan være delvis riktig eller nyttig uten å oppfylle alle kravene til et fullstendig svar.
Modellens ytelse varierer betydelig etter oppgavetype, arbeidsflyt og svarformat.
Hvor AI-systemer viser tidlig styrke
LifeSciBench viser at frontier-modeller er relativt sterkest på oppgaver som involverer vitenskapelig syntese, kommunikasjon og strukturert tolkning. Absolutte beståttprosenter er fortsatt moderate, så disse benchmarkdomenene er langt fra mettet, men GPT‑Rosalind viser meningsfull fremgang sammenlignet med GPT‑5.5, med en økning i samlet eksakt beståttprosent fra 25,7 % til 36,1 %.
Den sterkeste fremgangen i modellkapabiliteter ser ut til å være innen vitenskapelig kommunikasjon og translasjon. For eksempel øker beståttprosenten for vitenskapelig kommunikasjon fra 56,3 % for GPT‑5.5 til 71,1 % for GPT‑Rosalind; denne kategorien er liten (n=9), så den bør tolkes med forsiktighet, men den tyder på at frontier-modeller raskt blir bedre til å organisere evidens og produsere overbevisende forklaringer rettet mot eksperter. Translasjon («bench-to-bedside»-prosessen i legemiddelutvikling) viser et lignende mønster, med en økning fra 36,8 % for GPT‑5.5 til 57,7 % for GPT‑Rosalind, noe som tyder på at modeller raskt blir bedre til å koble preklinisk evidens til kliniske implikasjoner.
Resultater på rubrikknivå peker i samme retning. På oppgaver som krever ekspertrettede eller handlingsrettede resultater, skårer GPT‑Rosalind 44,7 %, sammenlignet med 29,1 % for GPT‑5.5. På oppgaver som krever håndtering av usikkerhet og forbehold, skårer den 44,8 %, sammenlignet med 29,3 %. Dette mønsteret tyder på at modeller er mest nyttige når oppgaven har en tydelig evidensavgrensning og krever strukturert vitenskapelig skjønn.
GPT‑Rosalind leder ytelsen på vitenskapelig verdifulle oppgaver identifisert av eksperter fra industri og akademia.
GPT‑Rosalind leder an i ytelse på vitenskapelig verdifulle oppgaver identifisert av bransje- og akademiske eksperter.
GPT‑Rosalind leder an i ytelse på vitenskapelig verdifulle oppgaver identifisert av bransje- og akademiske eksperter.
Hvor AI-systemer fortsatt kommer til kort
Ytelsen er fortsatt mye svakere på vitenskapelig arbeid som er artefakttungt, designtungt og operasjonelt begrenset. Design, optimalisering og prediksjon er fortsatt en av de vanskeligste arbeidsflytene, med en beståttandel for GPT‑Rosalind på 30,7 %; analyse er tilsvarende vanskelig med 30,3 %.
Bruk av artefakter er et særlig tydelig gap. Selv om GPT‑Rosalind gjør det bedre enn GPT‑5.5 i artefakttunge settinger, faller beståttprosenten fortsatt fra 45,1 % på oppgaver med bare tekst til 28,1 % på oppgaver med artefakter eller URL-er. GPT‑5.5 viser samme mønster, med et fall fra 29,9 % til 21,9 %. En mer detaljert analyse bekrefter at frontier-modeller strever med å hente ut informasjon fra komplekse figurer eller store sekvensfiler og integrere denne informasjonen i sluttsvaret.
Beståttprosent faller når oppgaver krever kildeforankret resonnering eller arbeid med artefakter
Svarformatet har også betydning. Oppgaver som krever eksakte svar på sekvens-, struktur- eller konstruktnivå, har lavere beståttprosenter: GPT‑Rosalind når bare 14,8 % på numeriske oppgaver og 24,0 % på sekvens- eller strukturresultater. Konstruktgenereringsoppgaver er også skjøre, med GPT‑Rosalind på 27,3 % og liten forbedring sammenlignet med GPT‑5.5. Noe av dette gapet kan skyldes en strengere vurderingsflate for oppgaver med eksakte svar, der små forskjeller i beregning eller formatering kan føre til at et svar faller under beståttgrensen. Likevel er disse feilene vitenskapelig meningsfulle, fordi mange livsvitenskapelige arbeidsflyter krever resultater som er nøyaktige nok til å brukes direkte, for eksempel i CRISPR/HDR-donordesign eller siRNA-design.
Modeller kommer også ofte et stykke på vei uten å løse oppgaven fullt ut. I omtrent 14 % av oppgavene oppnådde modeller betydelig rubrikkpoeng selv om de ikke nådde grensen for eksakt bestått. For GPT‑Rosalind hadde 109 oppgaver beståttprosent under 20 %, samtidig som de fortsatt oppnådde minst 50 % nivå i henhold til vurderingsrubrikken. I praksis betyr dette at modeller kan identifisere relevant evidens eller produsere et plausibelt delsvar, men likevel mislykkes fordi de overser en sentral begrensning, bruker feil evidens, gjør en ufullstendig beregning eller ikke kobler resonneringen sin til en vitenskapelig nyttig endelig beslutning.
Begrensninger og veien videre
LifeSciBench er et skritt mot å måle hvor nyttige AI-systemer kan være for livsvitenskapelig forskning, men det er ikke en erstatning for å studere modeller i levende forskningsmiljøer. Benchmarken fokuserer på selvstendige oppgaver som gjenspeiler tilbakevendende arbeidsflyter i industrien, samtidig som mange vitenskapelige spesialiteter og oppgavetyper ligger utenfor dagens omfang. Reell forskning er iterativ: Forskere samler inn ny evidens, reviderer hypoteser, utformer oppfølgingseksperimenter og tilpasser planene etter hvert som resultater kommer frem.
Sterk ytelse på LifeSciBench bør derfor tolkes som evidens for realistisk oppgavekapabilitet, ikke som et direkte mål på nedstrøms forskningspåvirkning. Benchmarken er forankret i arbeidsflyter fra industrien, men fanger ikke hele mangfoldet eller dynamikken i levende forskningsprogrammer, der fremgang avhenger av faktorer som utvikler seg over tid.
Neste steg er å koble benchmarkytelse til implementeringsstudier i levende forskningsarbeidsflyter. Selv om LifeSciBench ble utviklet sammen med praktiserende forskere, vil det å måle om AI-systemer akselererer oppdagelser eller forbedrer FoU-resultater, kreve studier av modellbruk og ytelse i reelle forskningsmiljøer, over lengre tidshorisonter og på tvers av flere runder med resonnering, tilbakemelding og eksperimentell oppfølging.


