17 juni 2026

Introduktion av LifeSciBench

Ett expertförfattat och expertgranskat benchmark förankrat i verklig livsvetenskaplig forskning

Laddar …

Agentbaserade AI-system blir alltmer kapabla att utföra vetenskapliga uppgifter. Deras nytta för forskare inom livsvetenskap beror dock på hur väl de hanterar komplexiteten i verklig forskning. Det arbetet liknar sällan en enskild fråga om faktakunskap eller ett tydligt prediktionsproblem. Forskare tolkar ofullständig evidens, förenar motstridiga resultat, utformar svåra experiment, felsöker analyser, bedömer translationell risk och beslutar vad som ska göras härnäst under osäkerhet.

Dagens benchmarktester fångar inte dessa förmågor fullt ut. Många utvärderingar inom livsvetenskap fokuserar på smala domäner eller isolerade färdigheter, vilket leder till frågor med strukturerade frågeformat och tydliga facitsvar. De är värdefulla, men de misslyckas ofta med att verkligen bedöma om en modell kan bidra i den bredare spännvidden av arbete på forskningsnivå.

Vi utformade LifeSciBench för att bidra till att täppa till den luckan. Varje uppgift är grundad i omdömet hos yrkesverksamma livsvetare med utbildning på doktorandnivå och direkt erfarenhet av att driva program för läkemedelsutveckling i bioteknik- och läkemedelsmiljöer.

LifeSciBench innehåller 750 expertförfattade uppgifter som spänner över sju arbetsflöden och sju biologiska domäner.

1,062

Uppgiftsartefakter

173

Forskare som bidragit

19,020

Bedömningskriterier

453

Expertgranskare

Vad LifeSciBench mäter

LifeSciBench mäter om AI-system kan stödja realistiska forskningsuppgifter inom livsvetenskap, inte bara besvara biologifrågor. För att definiera benchmarktestets taxonomi frågade vi yrkesverksamma livsvetare om vilka arbetsflöden de oftast använder i tillämpade forskningsmiljöer. Därefter grupperade vi deras svar i sju återkommande kategorier: evidenshantering, analys, design och optimering, vetenskapligt resonemang, validering och drift, translation samt vetenskaplig kommunikation.

Varje uppgift är strukturerad som en begäran som en forskare skulle kunna ge till en kunnig samarbetspartner: en vetenskaplig prompt, relevant kontext eller artefakter och ett fritextsvar. Expertförfattade bedömningsmallar utvärderar om en modell kan ta fram rätt svar på ett specifikt problem, med den detaljnivå, motivering, de förbehåll och det format som en forskare skulle förvänta sig.

Konstruktion av datasetet

LifeSciBench utvärderar vetenskapligt resonemang tillsammans med de mindre väldefinierade, praktiska färdigheter som krävs för verklig vetenskaplig användning. Uppgifterna ber modeller att arbeta igenom realistiska forskningsproblem: tolka evidens, göra domänförankrade bedömningar och kommunicera slutsatser som skulle vara användbara för expertgranskare. Många uppgifter kräver också att modeller hanterar osäkerhet och resonerar över stödjande datafiler i stället för att enbart förlita sig på prompttext.

Benchmarktestet är utformat för att spegla komplexiteten i arbete inom livsvetenskap. Totalt kräver 79 % av uppgifterna flera resonemangs- eller beslutssteg, med i genomsnitt fyra steg per uppgift. LifeSciBench innehåller 1 062 bifogade artefakter som omfattar figurer, PDF-filer, tabeller, sekvensfiler, struktur- eller kemifiler och webbreferenser. Mer än hälften av uppgifterna (53 %) kräver att modeller tolkar eller syntetiserar information från minst en artefakt.

Uppgifterna skapades av 173 expertforskare inom olika livsvetenskapliga discipliner. Varje forskare hade utbildning på doktorandnivå och erfarenhet från bioteknik- eller läkemedelsindustrin. Uppgifter kunde genomgå så många revideringscykler som behövdes före godkännande, utan fast tak för antalet omgångar; godkända uppgifter hade i genomsnitt sex självstyrda automatiserade granskningscykler och genomgick minst två omgångar expertgranskning. Granskningarna var förankrade antingen i ett verifierbart korrekt svar eller i stark expertkonsensus, med minst 90 % samstämmighet bland granskare inom den relevanta domänen. Denna process bidrog till att säkerställa att godkända uppgifter var vetenskapligt förankrade, tillräckligt tydliga för att bedömas och representativa för tillämpad forskning.

Diagram som visar LifeSciBench-uppgifter som kombinerar livsvetenskapliga datakällor som genomiska sekvenser, molekylstrukturer, figurer, dokument, kalkylblad och webblänkar med resonemang i flera steg och expertgranskning.

Bedömning och uppdelning av kriterier

LifeSciBench-uppgifter bedöms med en detaljerad, uppgiftsspecifik bedömningsmall som delar upp det förväntade svaret i specifika vetenskapliga påståenden, beräkningar, beslut, motiveringar och så vidare. I hela benchmarktestet innehåller expertutvecklade bedömningsmallar 19 020 kriterier – i genomsnitt 25 per uppgift – för att bedöma både vetenskaplig korrekthet och nytta för forskningsbeslut.

Denna utformning speglar hur vetenskapligt arbete utvärderas i praktiken: många livsvetenskapliga uppgifter kan inte bedömas enbart genom att kontrollera slutsvaret. Ett svar kan nå rätt övergripande slutsats men ändå bedömas som ofullständigt om det till exempel förbiser en viktig analysbegränsning eller inte proaktivt tar upp en biologisk nyans med stora konsekvenser. Omvänt kan ett partiellt svar innehålla högkvalitativt resonemang även om det inte löser uppgiften fullt ut.

De detaljerade bedömningsmallarna fångar denna nyans. LifeSciBench utvärderar inte bara slutsvarets korrekthet, utan om en modell når sitt svar på ett vetenskapligt giltigt och praktiskt användbart sätt.

Extrahera, sammanjämka och granska vetenskaplig evidens från artiklar, figurer, tabeller och experimentella journaler.

Utv. exempel

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Kandidatens svar

Slutsats: Som det presenteras är detta paket inte tillräckligt starkt för att stödja accelererat godkännande baserat på mikrodystrofinuttryck som en surrogatslutpunkt som rimligen sannolikt förutsäger klinisk nytta. En skeptisk FDA-granskare skulle sannolikt bedöma evidensen för biomarkör, funktion, hållbarhet, säkerhet och generaliserbarhet som väsentligt otillräcklig.

Paketpost	Viktigt felläge	Vad som skulle behövas
Western blot-kvantifiering	MANEX1A binder en N-terminal epitop som delas av endogent fullängdsdystrofin och mikrodystrofintransgenen, så analysen skiljer inte rent transgen från residualt/revertant dystrofin. Att kvantifiera ett 138 kDa mikrodystrofin mot en frisk fullängdsdystrofinstandard är också ogiltigt.	Använd en rekombinant mikrodystrofinstandard och en ortogonal metod som skiljer transgen från endogent dystrofin, såsom riktad masspektrometri eller en transgenspecifik/epitopspecifik analys.
Immunofluorescens	Den C-terminala polyklonala antikroppen är dåligt lämpad eftersom 138 kDa-konstrukten saknar den C-terminala domänen. Många DMD-patienter har revertanta fibrer, och revertant dystrofin kan behålla C-terminala epitoper. Revertanta fibrer kan expandera klonalt med åldern och snedvrida IF-signalen, särskilt hos äldre pojkar.	Upprepa IF med en antikropp mot en epitop som finns i transgenen men saknas i revertant dystrofin. Kvantifiera transgenpositiva fibrer separat från revertanta fibrer.
Surrogatslutpunktens giltighet	Paketet blandar ihop proteinmängd med klinisk funktion. ”38 % av frisk kontrollproteinmassa” betyder inte 38 % av normal dystrofinfunktion, eftersom mikrodystrofin är strukturellt trunkerat.	Validera empiriskt sambandet mellan massprocent mikrodystrofin, sarkolemmal lokalisering, nedströms funktionell återställning och klinisk nytta innan uttryck behandlas som en surrogatslutpunkt.
Biopsidesign	Kontralaterala vastus lateralis-biopsier före och efter behandling introducerar vänster–höger- och intramuskulär spatial variabilitet. Sjukdomsprogression och fibro-fettig ersättning kan också förändra signal normaliserad mot totalprotein.	Standardisera biopsistället med konsekventa anatomiska landmärken, normalisera mot muskelspecifika proteiner och mät fibro-fettig sammansättning parallellt.
NSAA-jämförelse/statistik	En extern naturalförloppskohort är inte en randomiserad samtidig kontroll. Studiebehörighet, stödjande vård, deltagareffekter, baslinje-NSAA, steroidregim, ålder och exonklass kan alla snedvrida jämförelsen. Ett oparat t-test är inte tillräckligt. Dessutom ligger en NSAA-förändring på +1,4 inom test–retest-variabiliteten för denna åldersgrupp.	Genomför en randomiserad samtidig placebokontrollerad studie, eller använd åtminstone justerade analyser som tar hänsyn till baslinje-NSAA, ålder, steroidregim, exonklass och andra confounders.
Confounding av åldersfönster	Pojkar i åldern 4–7 befinner sig i ett utvecklingsfönster där obehandlade ambulanta DMD-patienter kan få bättre motorisk funktion innan försämringen dominerar. En 48-veckors NSAA-förändring blandar utvecklingsvinst, sjukdomsprogression och möjlig behandlingseffekt.	Använd en samtidig randomiserad kontroll med åldersstratifiering för att separera utvecklingsbana från behandlingseffekt.
Tidigare kliniskt prejudikat	Öppna funktionella signaler för mikrodystrofin har inte tillförlitligt förutsagt bekräftande nytta; publicerat prejudikat omfattar bekräftande prövningar av mikrodystrofin-genterapi som inte lyckats reproducera öppna NSAA-förbättringar.	Förlita dig inte på öppen NSAA-förändring som avgörande stöd. Kräv kontrollerad funktionell evidens.
Konstruktens strukturella begränsningar	138 kDa-konstrukten tar bort spektrinrepeats R16/17, som innehåller nNOS-bindningsställen. Förlust av nNOS-rekrytering kan försämra funktionell sympatolys och ischemiskt skydd under träning, vilket skapar ett mekanistiskt tak för räddning oberoende av uttrycksnivå.	Lägg till mekanistiska studier som visar om just denna konstrukt återställer relevant funktion i det dystrofinassocierade komplexet, nNOS-lokalisering, träningsfysiologi och muskelskydd.
AAV-hållbarhet	Vektorgenom vid 12 veckor fastställer inte hållbart uttryck. AAV9-genom är till stor del icke-integrerande episomer och kan minska över tid. Vektorgenompersistens är inte samma sak som bestående proteinuttryck.	Mät longitudinellt transgent proteinuttryck och hållbarhet hos funktionella biomarkörer bortom 12 veckor.
Immun-/säkerhetsprofil	Transaminit hos 8/12 patienter överensstämmer med immunsvar mot AAV-transducerade celler, men mekanismen är inte fastställd. Ett fall av myokardit är oroande med tanke på AAV9:s hjärttropism.	Tillhandahåll djupare immunövervakning, karakterisering av lever-/hjärtsäkerhet och intensifierad hjärtuppföljning.
Patienturval/generaliserbarhet	Att exkludera patienter positiva för neutraliserande anti-AAV9-antikroppar begränsar generaliserbarheten. Att exkludera exon-44-deletioner begränsar tillämpligheten på den DMD-undergruppen. n=12 är för litet för att karakterisera säkerhet och effekt i den bredare DMD-populationen.	Bredda behörigheten där det är möjligt eller förhandspecificera stratifierade analyser efter antikroppsstatus, genotyp/exonklass, ålder och baslinjefunktion innan resultatet används för att stödja brett godkännande.

Regulatorisk slutsats: Paketet kan visa biologisk aktivitet, men det fastställer ännu inte att det uppmätta mikrodystrofinuttrycket är ett tillförlitligt surrogat som rimligen sannolikt förutsäger klinisk nytta. De huvudsakliga luckorna är analysspecificitet, ogiltiga kvantifieringsstandarder, möjlig confounding från revertanta fibrer, avsaknad av randomiserad kontroll, åldersrelaterad NSAA-confounding, osäker hållbarhet och olösta säkerhets-/generaliserbarhetsfrågor.

För att stänga luckan skulle programmet behöva en kontrollerad, åldersstratifierad klinisk design med transgenspecifika uttrycksanalyser, ortogonal proteinkvantifiering, kontroller för vävnadssammansättning, longitudinella hållbarhetsdata, mekanistiska funktionella analyser för den trunkerade konstrukten och starkare säkerhetsövervakning, särskilt hepatisk och kardiell.

Rubrikkriterier och betyg

Kriterium

Poäng

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validering av LifeSciBench

Vi validerade LifeSciBench genom en oberoende expertgranskning. Återkopplingen kom från 453 granskare som inte hade varit involverade i att skriva uppgifterna. Av dessa granskare hade 97 % en doktorsexamen eller motsvarande, med i genomsnitt 12 års erfarenhet inom området och 14 sakkunniggranskade publikationer; 88 % uppgav att de hade fått minst en utmärkelse eller ett stipendium.

Granskarna bedömde om varje uppgift speglade de egenskaper som krävs för en stark benchmarkfråga: koppling till verkligt forskningsarbete, lämplig prövning av vetenskapligt resonemang och domänexpertis, förankring i evidens eller expertkonsensus samt övergripande nytta för att bedöma modellprestanda. Samstämmigheten översteg 96 % i varje kategori.

Verklighetsrelevans

Speglar den här uppgiften realistiskt arbete inom livsvetenskap?

Instämmer helt: 90.4%
Instämmer överlag: 98.3%

Vetenskapligt resonemang/domänkunskap

Testar och bedömer den här uppgiften rätt vetenskapligt resonemang och ämneskunskaper inom livsvetenskap?

Instämmer helt: 86.4%
Instämmer överlag: 98.1%

Vetenskaplig förankring

Är den här uppgiften vetenskapligt förankrad, möjlig att besvara och grundad i lämplig evidens, data, artefakter eller expertkonsensus?

Instämmer helt: 77.1%
Instämmer överlag: 96.5%

Övergripande nytta

Är detta sammantaget en stark utvärderingsuppgift inom livsvetenskap?

Instämmer helt: 79.1%
Instämmer överlag: 96.6%

Granskarnas kommentarer stärkte de kvantitativa betygen:

1 av 3

“Sammantaget är det en stark uppgift eftersom den har en korrekt kärntolkning, samtidigt som den ger utrymme att särskilja bättre svar utifrån hur noggrant de avgränsar osäkerheten.”

Resultat

Vi rapporterar två kompletterande mått. Godkännandefrekvens är andelen uppgifter där en modell uppfyller framgångströskeln på uppgiftsnivå, 70 %. Poäng är den genomsnittliga belöningen enligt bedömningsmallen, där delpoäng ges för enskilda kriterier även när hela uppgiften inte löses. Båda är viktiga eftersom ett svar på en vetenskaplig uppgift kan vara delvis korrekt eller användbart utan att uppfylla alla krav på ett fullständigt svar.

Modellprestanda varierar kraftigt beroende på uppgiftstyp, arbetsflöde och svarsformat.

Där AI-system redan visar styrka

LifeSciBench visar att frontier-modeller är relativt starkast på uppgifter som innefattar vetenskaplig syntes, kommunikation och strukturerad tolkning. De absoluta godkännandefrekvenserna är fortfarande måttliga, så dessa benchmarkdomäner är långt ifrån mättade, men GPT‑Rosalind visar tydliga framsteg jämfört med GPT‑5.5 och förbättrar den totala exakta godkännandefrekvensen från 25,7 % till 36,1 %.

De tydligaste framstegen i modellernas förmågor syns inom vetenskaplig kommunikation och translation. Till exempel ökar godkännandefrekvensen för vetenskaplig kommunikation från 56,3 % för GPT‑5.5 till 71,1 % för GPT‑Rosalind; kategorin är liten (n=9), så den bör tolkas försiktigt, men den tyder på att frontier-modeller snabbt förbättrar sin förmåga att organisera evidens och producera övertygande förklaringar riktade till experter. Translation (processen "från bänk till säng" inom läkemedelsutveckling) visar ett liknande mönster och stiger från 36,8 % för GPT‑5.5 till 57,7 % för GPT‑Rosalind, vilket tyder på att modeller snabbt förbättrar sin förmåga att koppla preklinisk evidens till kliniska implikationer.

Resultaten på kriterie-/bedömningsnivå pekar i samma riktning. På uppgifter som kräver expertanvändbara eller handlingsbara resultat får GPT‑Rosalind 44,7 %, jämfört med 29,1 % för GPT‑5.5. På uppgifter som kräver hantering av osäkerhet och förbehåll får den 44,8 %, jämfört med 29,3 %. Detta mönster tyder på att modeller är mest användbara när uppgiften har en tydlig evidensgräns och kräver strukturerat vetenskapligt omdöme.

GPT‑Rosalind leder prestandan i vetenskapligt värdefulla uppgifter som identifierats av experter från industri och akademi.

GPT‑Rosalind leder prestandan inom vetenskapligt värdefulla uppgifter som identifierats av experter från industri och akademi.

Där AI-system fortfarande brister

Prestandan är fortsatt mycket svagare i vetenskapligt arbete som är artefakttungt, designtungt och operativt begränsat. Design, optimering & prediktion är exempelvis fortsatt ett av de svåraste arbetsflödena, med en godkännandefrekvens för GPT‑Rosalind på 30,7 %; analys är på liknande sätt svårt med 30,3 %.

Användning av artefakter är en särskilt tydlig lucka. Även om GPT‑Rosalind presterar bättre än GPT‑5.5 i artefakttunga miljöer sjunker dess godkännandefrekvens fortfarande från 45,1 % på uppgifter med endast text till 28,1 % på uppgifter med artefakter eller URL:er. GPT‑5.5 visar samma mönster och sjunker från 29,9 % till 21,9 %. En mer detaljerad analys bekräftar att frontier-modeller har svårt att extrahera information från komplexa figurer eller stora sekvensfiler och integrera den informationen i slutsvaret.

Godkännandefrekvensen sjunker när uppgifter kräver källförankrat resonemang eller arbete med artefakter

Svarsformatet spelar också roll. Uppgifter som kräver exakta sekvens-, struktur- eller konstruktresultat visar lägre godkännandefrekvenser: GPT‑Rosalind når bara 14,8 % på numeriska uppgifter och 24,0 % på sekvens- eller strukturresultat. Uppgifter för generering av konstrukter är också sköra, med GPT‑Rosalind på 27,3 % och med liten förbättring jämfört med GPT‑5.5. En del av denna lucka kan spegla en striktare bedömningsyta för uppgifter med exakta svar, där små skillnader i beräkning eller format kan göra att ett svar hamnar under godkännandetröskeln. Ändå är dessa misslyckanden vetenskapligt betydelsefulla, eftersom många livsvetenskapliga arbetsflöden kräver resultat som är tillräckligt exakta för att användas direkt, till exempel vid design av CRISPR/HDR-donorer eller siRNA-design.

Modeller kommer också ofta en bit på vägen utan att lösa uppgiften fullt ut. I ungefär 14 % av uppgifterna fick modeller betydande poäng enligt bedömningsmallen trots att de inte nådde tröskeln för exakt godkännande. För GPT‑Rosalind hade 109 uppgifter godkännandefrekvenser under 20 % samtidigt som de ändå fick minst 50 % belöning enligt bedömningsmallen. I praktiken betyder det att modeller kan identifiera relevant evidens eller producera ett rimligt partiellt svar, men ändå misslyckas eftersom de missar en viktig begränsning, använder fel evidens, gör en ofullständig beräkning eller inte kopplar sitt resonemang till ett vetenskapligt användbart slutbeslut.

Begränsningar & nästa steg

LifeSciBench är ett steg mot att mäta hur användbara AI-system kan vara för livsvetenskaplig forskning, men det ersätter inte studier av modeller i levande forskningsmiljöer. Benchmarktestet fokuserar på fristående uppgifter som speglar återkommande arbetsflöden i industrin, men lämnar många vetenskapliga specialiteter och uppgiftstyper utanför sitt nuvarande omfång. Verklig forskning är iterativ: forskare samlar in ny evidens, reviderar hypoteser, utformar uppföljande experiment och anpassar sina planer när resultat framkommer.

Stark prestanda på LifeSciBench bör därför tolkas som evidens för realistisk förmåga på uppgiftsnivå, inte som ett direkt mått på nedströms forskningspåverkan. Benchmarktestet är grundat i industrins arbetsflöden, men fångar inte hela mångfalden eller dynamiken i levande forskningsprogram, där framsteg beror på faktorer som utvecklas över tid.

Nästa steg är att koppla benchmarkprestanda till implementeringsstudier i levande forskningsarbetsflöden. Även om LifeSciBench utvecklades tillsammans med yrkesverksamma forskare krävs studier av modellanvändning och modellprestanda i verkliga forskningsmiljöer, över längre tidshorisonter och genom flera omgångar av resonemang, återkoppling och experimentell uppföljning för att mäta om AI-system påskyndar upptäckter eller förbättrar FoU-resultat.