Overslaan naar hoofdinhoud
OpenAI

Introductie van LifeSciBench

Een door experts geschreven en beoordeelde benchmark, gebaseerd op echt levenswetenschappelijk onderzoek

Bezig met laden...

Agentic AI-systemen kunnen steeds beter wetenschappelijke taken uitvoeren. Hun waarde voor levenswetenschappers hangt af van hoe goed ze de complexiteit van echt onderzoek aankunnen. Dat werk is zelden een losse feitenvraag of een afgebakende voorspellingstaak. Onderzoekers duiden onvolledig bewijs, wegen conflicterende resultaten, ontwerpen lastige experimenten, lossen assayproblemen op, beoordelen translationeel risico en kiezen onder onzekerheid de volgende stap.

Huidige benchmarks meten die vaardigheden maar beperkt. Veel evaluaties in de levenswetenschappen testen smalle domeinen of losse vaardigheden, met vaste vraagvormen en nette referentieantwoorden. Dat is nuttig, maar laat vaak niet zien of een model breder onderzoekswerk kan ondersteunen.

Daarom ontwikkelden we LifeSciBench. Elke taak is gebaseerd op het oordeel van praktiserende levenswetenschappers met PhD-opleiding en directe ervaring met geneesmiddelenontwikkeling in biotech en farma.

LifeSciBench bevat 750 door experts opgestelde taken in zeven workflows en zeven biologische domeinen.

1,062

Taakartefacten

173

Wetenschappelijke bijdragers

19,020

Rubric-criteria

453

Expertbeoordelaars

Wat LifeSciBench meet

LifeSciBench meet of AI-systemen realistische onderzoekstaken in de levenswetenschappen kunnen ondersteunen, niet alleen biologievragen beantwoorden. Voor de taxonomie vroegen we praktiserende levenswetenschappers welke workflows zij het vaakst gebruiken in toegepast onderzoek. Hun antwoorden groepeerden we in zeven categorieën: bewijsverwerking, analyse, ontwerp en optimalisatie, wetenschappelijke redenering, validatie en operationele uitvoering, translatie en wetenschapscommunicatie.

Elke taak lijkt op een verzoek aan een deskundige collega: een wetenschappelijke prompt, relevante context of artefacten en een vrij antwoord. Door experts opgestelde rubrics beoordelen of een model voor een specifiek probleem het juiste antwoord geeft, met de verwachte details, onderbouwing, kanttekeningen en opmaak.

Datasetopbouw

LifeSciBench toetst wetenschappelijke redenering én de praktische vaardigheden die nodig zijn voor echt wetenschappelijk gebruik. Modellen moeten realistische onderzoeksproblemen oplossen: bewijs interpreteren, oordelen op basis van domeinkennis en conclusies trekken die expertbeoordelaars kunnen gebruiken. Veel taken vereisen ook omgaan met onzekerheid en redeneren over databestanden, niet alleen over de prompttekst.

De benchmark weerspiegelt de complexiteit van werk in de levenswetenschappen. In totaal vraagt 79% van de taken meerdere redeneer- of beslisstappen, gemiddeld vier per taak. LifeSciBench bevat 1.062 bijlagen: figuren, pdf's, tabellen, sequentiebestanden, structuur- of chemiebestanden en webreferenties. Bij 53% van de taken moeten modellen informatie uit minstens één artefact interpreteren of combineren.

De taken zijn gemaakt door 173 expertwetenschappers uit uiteenlopende levenswetenschappelijke disciplines. Allen hadden een PhD-opleiding en ervaring in biotech of farma. Taken kregen vóór acceptatie zoveel revisies als nodig was; geaccepteerde taken doorliepen gemiddeld zes automatische zelfreviews en minstens twee expertreviews. Reviews steunden op een verifieerbaar juist antwoord of sterke expertconsensus, met minstens 90% overeenstemming in het domein. Zo bleven geaccepteerde taken wetenschappelijk onderbouwd, goed beoordeelbaar en representatief voor toegepast onderzoek.

Diagram met LifeSciBench-taken die levenswetenschappelijke databronnen, zoals genomische sequenties, moleculaire structuren, figuren, documenten, spreadsheets en weblinks, combineren met meerstapsredenering en expertreview.

Beoordeling en rubricstructuur

LifeSciBench-taken worden beoordeeld met een taakspecifieke rubric die de verwachte reactie opsplitst in claims, berekeningen, beslissingen, onderbouwingen en meer. Samen bevatten de door experts opgestelde rubrics 19.020 criteria, gemiddeld 25 per taak, voor wetenschappelijke juistheid en bruikbaarheid bij onderzoeksbesluiten.

Dit past bij de praktijk: veel levenswetenschappelijke taken kun je niet beoordelen door alleen het eindantwoord te controleren. Een antwoord kan de juiste hoofdconclusie trekken, maar toch onvolledig zijn als het bijvoorbeeld een assaybeperking of belangrijke biologische nuance mist. Omgekeerd kan een gedeeltelijk antwoord goede redenering bevatten zonder de taak volledig op te lossen.

De fijnmazige rubrics leggen die nuance vast. LifeSciBench beoordeelt niet alleen het eindantwoord, maar ook of een model er wetenschappelijk valide en praktisch bruikbaar toe komt.

Wetenschappelijk bewijs uit papers, figuren, tabellen en experimentele dossiers extraheren, afstemmen en auditen.

Voorbeeld van evaluatie

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Reactie van kandidaat

Kortom: zoals gepresenteerd is dit pakket niet sterk genoeg om versnelde goedkeuring te ondersteunen op basis van micro-dystrofine-expressie als surrogaateindpunt dat redelijkerwijs waarschijnlijk klinisch voordeel voorspelt. Een sceptische FDA-beoordelaar zou het bewijs voor biomarker, functie, duurzaamheid, veiligheid en generaliseerbaarheid waarschijnlijk als materieel onvoldoende onderbouwd zien.

Pakketonderdeel

Belangrijkste faalmodus

Wat nodig zou zijn

Western-blotkwantificatie

MANEX1A bindt een N-terminaal epitoop dat wordt gedeeld door endogeen volledig dystrofine en het micro-dystrofine-transgen, waardoor de assay transgen niet zuiver onderscheidt van residueel/revertant dystrofine. Kwantificatie van een 138 kDa micro-dystrofine tegenover een gezonde volledig-dystrofine-standaard is ook ongeldig.

Gebruik een recombinante micro-dystrofine-standaard en een orthogonale methode die transgen van endogeen dystrofine onderscheidt, zoals gerichte massaspectrometrie of een transgen-specifieke/epitoop-specifieke assay.

Immunofluorescentie

Het C-terminale polyklonale antilichaam is slecht geschikt omdat het 138 kDa-construct het C-terminale domein mist. Veel DMD-patiënten hebben revertante vezels, en revertant dystrofine kan C-terminale epitopen behouden. Revertante vezels kunnen met de leeftijd klonaal uitbreiden, waardoor IF-signaal wordt vertekend, vooral bij oudere jongens.

Herhaal IF met een antilichaam tegen een epitoop dat aanwezig is in het transgen maar afwezig is in revertant dystrofine. Kwantificeer transgen-positieve vezels apart van revertante vezels.

Validiteit van surrogaateindpunt

Het pakket vermengt eiwithoeveelheid met klinische functie. '38% van de eiwitmassa van gezonde controles' betekent niet 38% van de normale dystrofinefunctie, omdat micro-dystrofine structureel verkort is.

Valideer empirisch de relatie tussen micro-dystrofine-massapercentage, sarcolemmale lokalisatie, downstream functioneel herstel en klinisch voordeel voordat expressie als surrogaateindpunt wordt behandeld.

Biopsieontwerp

Contralaterale vastus-lateralisbiopten vóór en na behandeling introduceren links-rechts- en intramusculaire ruimtelijke variabiliteit. Ziekteprogressie en fibro-vettige vervanging kunnen ook het op totaal eiwit genormaliseerde signaal veranderen.

Standaardiseer de biopsielocatie met consistente anatomische herkenningspunten, normaliseer op spierspecifieke eiwitten en meet fibro-vettige samenstelling parallel.

NSAA-comparator/statistiek

Een extern natural-history-cohort is geen gerandomiseerde gelijktijdige controle. Geschiktheid voor de trial, ondersteunende zorg, participatie-effecten, baseline-NSAA, steroïdregime, leeftijd en exonklasse kunnen de vergelijking allemaal vertekenen. Een ongepaarde t-test is niet voldoende. Ook ligt een +1,4 NSAA-verandering binnen de test-hertestvariabiliteit voor deze leeftijdsgroep.

Voer een gerandomiseerde gelijktijdige placebogecontroleerde studie uit, of gebruik minimaal aangepaste analyses die rekening houden met baseline-NSAA, leeftijd, steroïdregime, exonklasse en andere confounders.

Confounding door leeftijdsvenster

Jongens van 4–7 jaar bevinden zich in een ontwikkelingsvenster waarin onbehandelde ambulante DMD-patiënten motorische functie kunnen winnen voordat achteruitgang domineert. Een NSAA-verandering over 48 weken mengt ontwikkelingswinst, ziekteprogressie en mogelijk behandelingseffect.

Gebruik een gelijktijdige gerandomiseerde controle met leeftijdsstratificatie om het ontwikkelingstraject van het behandelingseffect te scheiden.

Eerder klinisch precedent

Open-label functionele signalen van micro-dystrofine hebben bevestigend voordeel niet betrouwbaar voorspeld; gepubliceerd precedent omvat bevestigende trials voor micro-dystrofine-gentherapie die open-label NSAA-verbeteringen niet konden reproduceren.

Vertrouw niet op open-label NSAA-verandering als doorslaggevende ondersteuning. Vereis gecontroleerd functioneel bewijs.

Structurele grenzen van het construct

Het 138 kDa-construct verwijdert spectrin repeats R16/17, die nNOS-bindingsplaatsen bevatten. Verlies van nNOS-rekrutering kan functionele sympatholyse en ischemiebescherming tijdens inspanning verminderen, waardoor een mechanistisch plafond op rescue ontstaat dat onafhankelijk is van expressieniveau.

Voeg mechanistische studies toe die laten zien of dit specifieke construct relevante functie van het dystrofine-geassocieerde complex, nNOS-lokalisatie, inspanningsfysiologie en spierbescherming herstelt.

AAV-duurzaamheid

Vectorgenomen na 12 weken tonen geen duurzame expressie aan. AAV9-genomen zijn grotendeels niet-integrerende episomen en kunnen in de tijd afnemen. Persistentie van vectorgenomen is niet hetzelfde als persistente eiwitexpressie.

Meet longitudinale transgen-eiwitexpressie en duurzaamheid van functionele biomarkers voorbij 12 weken.

Immuun-/veiligheidsprofiel

Transaminitis bij 8/12 patiënten past bij een immuunrespons op AAV-getransduceerde cellen, maar het mechanisme is niet vastgesteld. Eén geval van myocarditis is zorgwekkend gezien het cardiale tropisme van AAV9.

Lever diepere immuunmonitoring, karakterisering van lever-/cardiale veiligheid en geïntensiveerde cardiale follow-up.

Patiëntselectie/generaliseerbaarheid

Het uitsluiten van anti-AAV9-neutraliserende-antilichaam-positieve patiënten beperkt de generaliseerbaarheid. Het uitsluiten van exon-44-deleties beperkt de toepasbaarheid op die DMD-subgroep. n=12 is te klein om veiligheid en werkzaamheid in de bredere DMD-populatie te karakteriseren.

Verbreed de geschiktheid waar mogelijk of specificeer vooraf gestratificeerde analyses op antilichaamstatus, genotype/exonklasse, leeftijd en baselinefunctie voordat het resultaat wordt gebruikt ter ondersteuning van brede goedkeuring.

Regulatoire conclusie: Het pakket kan biologische activiteit tonen, maar bewijst nog niet dat de gemeten micro-dystrofine-expressie een betrouwbaar surrogaat is dat redelijkerwijs waarschijnlijk klinisch voordeel voorspelt. De belangrijkste hiaten zijn assayspecificiteit, ongeldige kwantificatiestandaarden, mogelijke confounding door revertante vezels, gebrek aan een gerandomiseerde controle, leeftijdsgerelateerde NSAA-confounding, onzekere duurzaamheid en onopgeloste veiligheids-/generaliseerbaarheidskwesties.

Om de kloof te dichten heeft het programma een gecontroleerd, leeftijdsgestratificeerd klinisch ontwerp nodig met transgen-specifieke expressieassays, orthogonale eiwitkwantificatie, controles voor weefselsamenstelling, longitudinale duurzaamheidsdata, mechanistische functionele assays voor het verkorte construct en sterkere veiligheidsmonitoring, vooral hepatisch en cardiaal.

Criteria en beoordelingen van rubric

Criterium
Punten
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench valideren

We valideerden LifeSciBench met een onafhankelijke expertreview. De feedback kwam van 453 beoordelaars die de taken niet hadden geschreven. Van hen had 97% een PhD of gelijkwaardig doctoraat, gemiddeld 12 jaar ervaring en 14 peer-reviewed publicaties; 88% meldde minstens één prijs of beurs.

Beoordelaars scoorden of elke taak voldeed aan eisen voor een sterke benchmarkvraag: aansluiting op echt onderzoek, toetsing van redenering en domeinkennis, basis in bewijs of consensus en nut voor het meten van modelprestaties. In elke categorie was de overeenstemming hoger dan 96%.

Relevantie voor de praktijk

Weerspiegelt deze taak realistisch werk in de levenswetenschappenpraktijk?

Helemaal mee eens
90.4%
Over het algemeen mee eens
98.3%

Wetenschappelijke redenering / domeinvaardigheid

Test en beoordeelt deze taak de juiste wetenschappelijke redenering en domeinvaardigheden in de levenswetenschappen?

Helemaal mee eens
86.4%
Over het algemeen mee eens
98.1%

Wetenschappelijke onderbouwing

Is deze taak wetenschappelijk onderbouwd, beantwoordbaar en verankerd in passende bewijsvoering, data, artefacten of expertconsensus?

Helemaal mee eens
77.1%
Over het algemeen mee eens
96.5%

Algemene bruikbaarheid

Is dit over het geheel genomen een sterke evaluatietaak voor de levenswetenschappen?

Helemaal mee eens
79.1%
Over het algemeen mee eens
96.6%

De opmerkingen van beoordelaars bevestigden de cijfers:

1 van 3
Al met al is dit een sterke taak, omdat er één correcte kerninterpretatie is en er tegelijk ruimte blijft om betere antwoorden te onderscheiden op basis van hoe zorgvuldig ze de onzekerheid afbakenen.

Resultaten

We rapporteren twee aanvullende maatstaven. Slagingspercentage: het aandeel taken waarbij een model de taakdrempel van 70% haalt. Score: de gemiddelde rubricscore, met deelpunten voor criteria, ook als de taak niet volledig is opgelost. Beide tellen, omdat een wetenschappelijk antwoord deels juist of nuttig kan zijn zonder volledig te zijn.

Modelprestaties verschillen sterk per taaktype, workflow en antwoordvorm.

Waar AI-systemen al sterk zijn

LifeSciBench laat zien dat frontiermodellen relatief sterk zijn in wetenschappelijke synthese, communicatie en gestructureerde interpretatie. De absolute slagingspercentages blijven bescheiden, dus deze domeinen zijn niet verzadigd. Toch verbetert GPT‑Rosalind duidelijk ten opzichte van GPT‑5.5: het exacte slagingspercentage stijgt van 25,7% naar 36,1%.

De grootste vooruitgang zit in Wetenschapscommunicatie en Translatie. Bij Wetenschapscommunicatie stijgt het slagingspercentage van 56,3% voor GPT‑5.5 naar 71,1% voor GPT‑Rosalind. De categorie is klein (n=9), dus voorzichtigheid is nodig, maar frontiermodellen lijken snel beter te worden in bewijs ordenen en overtuigend uitleggen aan experts. Translatie, het proces van 'lab naar patiënt' in geneesmiddelenontwikkeling, toont hetzelfde patroon: van 36,8% voor GPT‑5.5 naar 57,7% voor GPT‑Rosalind. Modellen koppelen preklinisch bewijs dus steeds beter aan klinische implicaties.

Resultaten op rubric-niveau wijzen dezelfde kant op. Voor taken met output die bruikbaar is voor experts of uitvoerbare output scoort GPT‑Rosalind 44,7%, tegen 29,1% voor GPT‑5.5. Voor taken rond onzekerheid en kanttekeningen scoort het 44,8%, tegen 29,3%. Modellen lijken het nuttigst wanneer de grenzen van het bewijs duidelijk zijn en de taak om gestructureerd wetenschappelijk oordeel vraagt.

GPT‑Rosalind presteert het best op wetenschappelijk waardevolle taken die zijn geïdentificeerd door experts uit de industrie en academische wereld.

GPT‑Rosalind levert topprestaties op wetenschappelijk waardevolle taken die door experts uit industrie en academische wereld zijn geïdentificeerd.

GPT‑Rosalind levert topprestaties op wetenschappelijk waardevolle taken die door experts uit industrie en academische wereld zijn geïdentificeerd.

Waar AI-systemen tekortschieten

Prestaties blijven zwak bij werk met veel artefacten, veel ontwerpkeuzes of strikte operationele eisen. Ontwerp, optimalisatie en voorspelling blijft een van de moeilijkste workflows: GPT‑Rosalind haalt 30,7%; Analyse is met 30,3% vergelijkbaar lastig.

Artefactgebruik is een opvallende kloof. GPT‑Rosalind presteert daar beter dan GPT‑5.5, maar zakt nog steeds van 45,1% op teksttaken naar 28,1% op taken met artefacten of URL's. GPT‑5.5 laat hetzelfde zien: van 29,9% naar 21,9%. Nadere analyse bevestigt dat frontiermodellen moeite hebben om informatie uit complexe figuren of grote sequentiebestanden te halen en in het eindantwoord te verwerken.

Slagingspercentages dalen wanneer taken brongebaseerde redenering vereisen of werken met artefacten

Ook de antwoordvorm telt. Taken met exacte outputs op sequentie-, structuur- of constructniveau scoren lager: GPT‑Rosalind haalt 14,8% op numerieke taken en 24,0% op sequentie- of structuuroutputs. Constructgeneratie is ook kwetsbaar: GPT‑Rosalind haalt 27,3% en verbetert weinig ten opzichte van GPT‑5.5. Een deel van de kloof kan komen door strengere beoordeling bij exacte antwoorden, waar kleine reken- of opmaakverschillen al onder de drempel kunnen uitkomen. Toch zijn deze fouten wetenschappelijk relevant: veel workflows vereisen direct bruikbare, exacte output, zoals bij CRISPR/HDR-donorontwerp of siRNA-ontwerp.

Modellen komen vaak gedeeltelijk tot een oplossing. Bij ongeveer 14% van de taken kregen modellen veel punten op de rubric zonder de exacte slagingsdrempel te halen. Voor GPT‑Rosalind hadden 109 taken een slagingspercentage onder 20%, maar toch minstens 50% rubricscore. In de praktijk vinden modellen soms relevant bewijs of een plausibel deelantwoord, maar falen ze doordat ze een kernbeperking missen, verkeerd bewijs gebruiken, onvolledig rekenen of hun redenering niet koppelen aan een nuttige eindbeslissing.

Beperkingen & vervolgstappen

LifeSciBench helpt meten hoe nuttig AI-systemen kunnen zijn voor levenswetenschappelijk onderzoek, maar vervangt geen studies in echte onderzoeksomgevingen. De benchmark richt zich op op zichzelf staande taken uit terugkerende industriële workflows; veel specialismen en taaktypen vallen er nog buiten. Echt onderzoek is iteratief: wetenschappers verzamelen bewijs, herzien hypothesen, ontwerpen vervolgexperimenten en passen plannen aan op basis van resultaten.

Sterke LifeSciBench-prestaties tonen daarom realistische taakcapaciteit, geen directe downstream onderzoeksimpact. De benchmark steunt op industriële workflows, maar omvat niet de volledige diversiteit en dynamiek van lopende onderzoeksprogramma’s en workflows, waar vooruitgang zich in de loop van de tijd ontwikkelt.

De volgende stap is benchmarkprestaties koppelen aan implementatiestudies in lopende onderzoeksworkflows. Hoewel LifeSciBench met praktiserende wetenschappers is ontwikkeld, vergt meten of AI-systemen ontdekking versnellen of R&D-resultaten verbeteren onderzoek naar modelgebruik en -prestaties in echte onderzoeksomgevingen, over langere perioden en meerdere rondes van redenering, feedback en experimentele follow-up.

Doe mee

Help de volgende generatie AI-benchmarks voor de levenswetenschappen vorm te geven, of vraag toegang tot GPT-Rosalind aan.

Auteur

OpenAI