LifeSciBenchin esittely
Asiantuntijoiden laatima ja arvioima vertailuarviointi, joka perustuu todelliseen biotieteiden tutkimukseen
Agenttisen tekoälyn järjestelmät suoriutuvat yhä paremmin tieteellisistä tehtävistä. Niiden hyöty biotieteilijöille riippuu silti siitä, miten ne hallitsevat aidon tutkimuksen monimutkaisuutta. Tällainen työ on harvoin pelkkä faktakysymys tai siisti ennusteongelma. Tutkijat tulkitsevat vajavaista näyttöä, sovittavat ristiriitoja, suunnittelevat kokeita, ratkovat määrityksiä, arvioivat translaatioriskejä ja päättävät epävarmuudessa seuraavista toimista.
Nykyiset vertailuarvot eivät mittaa näitä kykyjä kattavasti. Monet biotieteiden arvioinnit mittaavat kapeita aloja tai yksittäisiä taitoja, jolloin kysymykset ovat jäsenneltyjä ja mallivastaukset selkeitä. Ne ovat hyödyllisiä, mutta kertovat harvoin, voiko malli auttaa laajasti tutkimustason työssä.
LifeSciBench suunniteltiin kuromaan tätä aukkoa. Jokainen tehtävä perustuu käytännön biotieteilijöiden arvioon; heillä on tohtoritason koulutus ja kokemusta lääkekehityksestä biotekniikka- ja lääkeympäristöissä.
LifeSciBench sisältää 750 asiantuntijatehtävää seitsemästä työnkulusta ja biologisesta alasta.
1,062
Tehtävän artefaktit
173
Tutkijaosallistujat
19,020
Arviointikriteerit
453
Asiantuntija-arvioijat
Mitä LifeSciBench mittaa
LifeSciBench mittaa, pystyvätkö tekoälyjärjestelmät tukemaan realistisia biotieteiden tutkimustehtäviä, eivätkä pelkästään vastaamaan biologisiin kysymyksiin. Vertailuanalyysin luokittelun määrittelemiseksi teimme kyselyn aktiivisille biotieteilijöille siitä, mitä työnkulkuja he käyttävät useimmin soveltavan tutkimuksen ympäristöissä. Sen jälkeen ryhmittelimme vastaukset seitsemään toistuvaan luokkaan: todistusaineiston käsittely, analyysi, suunnittelu ja optimointi, tieteellinen päättely, validointi ja operatiivinen toiminta, soveltaminen sekä tieteellinen viestintä.
Kukin tehtävä muistuttaa pyyntöä asiantuntevalle kollegalle: tieteellinen kehote, tarvittava konteksti tai aineistot ja avovastaus. Asiantuntijoiden laatimien arviointikriteerien avulla arvioidaan, pystyykö malli tuottamaan oikean vastauksen tiettyyn ongelmaan siten, että vastauksessa on oikea yksityiskohtaisuuden taso, perustelut, varoitukset ja muotoilu, joita tutkija odottaisi.
Aineiston rakentaminen
LifeSciBench arvioi tieteellistä päättelyä ja käytännön taitoja, joita todellinen tieteellinen käyttö vaatii. Tehtävät panevat mallit ratkomaan realistisia tutkimusongelmia: tulkitsemaan näyttöä, tekemään alan arvioita ja viestimään päätelmiä asiantuntijoille hyödyllisesti. Monissa tehtävissä mallin on myös käsiteltävä epävarmuutta ja pääteltävä tukitiedostoista, ei vain kehotetekstistä.
Vertailu kuvaa biotieteellisen työn monimutkaisuutta. Kaikkiaan 79 % tehtävistä vaatii useita päättely- tai päätösvaiheita, keskimäärin neljä tehtävää kohti. LifeSciBenchissä on 1 062 liitettä: kuvia, PDF:iä, taulukoita, sekvenssi-, rakenne- ja kemiatiedostoja sekä verkkoviitteitä. Yli puolet tehtävistä (53 %) vaatii tiedon tulkintaa tai yhdistämistä ainakin yhdestä liitteestä.
Tehtävät laati 173 asiantuntijatutkijaa eri biotieteen aloilta. Kaikilla oli tohtoritason koulutus ja kokemusta bioteknologiasta tai lääketeollisuudesta. Tehtäviä muokattiin hyväksyntään asti ilman kierroskattoa; hyväksytyissä tehtävissä oli keskimäärin kuusi automaattista itsearviointia ja vähintään kaksi asiantuntijakierrosta. Arviointi perustui todennettavaan oikeaan vastaukseen tai vahvaan asiantuntijakonsensukseen: alan arvioijista vähintään 90 % oli samaa mieltä. Prosessi varmisti, että hyväksytyt tehtävät olivat tieteellisesti perusteltuja, arvioitavia ja soveltavaa tutkimusta edustavia.
Arviointi ja arviointikriteerien erittely
LifeSciBench-tehtävät arvioidaan tehtäväkohtaisella rubriikilla, joka jakaa odotetun vastauksen väitteisiin, laskelmiin, päätöksiin, perusteluihin ym. Asiantuntijoiden rubriikeissa on 19 020 kriteeriä, keskimäärin 25 tehtävää kohti, joilla mitataan oikeellisuutta ja hyötyä tutkimuspäätöksille.
Rakenne vastaa käytäntöä: monia biotieteen tehtäviä ei voi arvioida pelkän lopputuloksen perusteella. Vastaus voi päätyä oikeaan pääjohtopäätökseen mutta jäädä puutteelliseksi, jos se ohittaa tärkeän määritysrajoitteen tai olennaisen biologisen vivahteen. Toisaalta osittainen vastaus voi sisältää laadukasta päättelyä, vaikka tehtävä ei ratkea täysin.
Yksityiskohtaiset arviointikriteerit tavoittavat tämän. LifeSciBench arvioi lopputuloksen lisäksi, päätyykö malli siihen tieteellisesti pätevästi ja käytännössä hyödyllisesti.
Tieteellisen näytön poimiminen, yhteensovittaminen ja auditointi artikkeleista, kuvioista, taulukoista ja kokeellisista tietueista.
Eval-esimerkki
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Ehdokkaan vastaus
Yhteenvetona: Esitetyssä muodossaan tämä paketti ei ole riittävän vahva tukemaan mikrodystrofiinin ilmentymisen nopeutettua hyväksyntää kliinisen hyödyn ennustamiseen kohtuullisen todennäköisesti vaikuttavana korvikepäätetapahtumana. Skeptinen FDA:n arvioija pitäisi todennäköisesti biomarkkeri-, toiminnallisuus-, kestävyys-, turvallisuus- ja yleistettävyysnäyttöä olennaisesti aliarvioituina.
Pakkauskohta | Näppäinvikatila | Mitä tarvittaisiin |
|---|---|---|
Western blot -kvantifiointi | MANEX1A sitoutuu N-terminaaliseen epitooppiin, jonka sekä endogeeninen täyspitkä dystrofiini että mikrodystrofiinitransgeeni jakavat, joten määritys ei erota transgeeniä selkeästi residuaalisesta/palautuneesta dystrofiinista. 138 kDa:n mikrodystrofiinin kvantifiointi tervettä täyspitkää dystrofiinistandardia vasten on myös virheellistä. | Käytä rekombinanttia mikrodystrofiinistandardia ja ortogonaalista menetelmää, joka erottaa transgeenin endogeenisestä dystrofiinista, kuten kohdennettua massaspektrometriaa tai transgeenispesifistä/epitooppispesifistä määritystä. |
Immunofluoresenssi | C-terminaalinen polyklonaalinen vasta-aine sopii huonosti, koska 138 kDa:n konstruktiosta puuttuu C-terminaalinen domeeni. Monilla DMD-potilailla on palautuvia kuituja, ja palautuva dystrofiini voi säilyttää C-terminaalisia epitooppeja. Palautuvat kuidut voivat laajentua klonaalisesti iän myötä, mikä vääristää IF-signaalia, erityisesti vanhemmilla pojilla. | Toista IF-testi vasta-aineella, joka on suunnattu siirtogeenissä esiintyvää, mutta palautuvasta dystrofiinista puuttuvaa epitooppia vastaan. Määritä transgeenipositiivisten säikeiden määrä erikseen palautuvista säikeistä. |
Korvaavan päätepisteen validiteetti | Pakkaus sekoittaa proteiinin määrän kliiniseen funktioon. ”38 % terveen kontrollin proteiinimassasta” ei tarkoita 38 %:a normaalista dystrofiinin toiminnasta, koska mikrodystrofiini on rakenteellisesti katkaistu. | Empiirisesti validoi mikrodystrofiinin massaprosentin, sarkolemmassa lokalisaation, toiminnallisen palautumisen ja kliinisen hyödyn välinen suhde ennen ilmentymisen käsittelemistä sijaispäätetapahtumana. |
Biopsiasuunnittelu | Hoitoa edeltävät ja sen jälkeiset kontralateraaliset vastus lateralis -biopsiat aiheuttavat vasen-oikea- ja lihaksensisäistä spatiaalista vaihtelua. Taudin eteneminen ja fibro-rasvahappojen korvaaminen voivat myös muuttaa kokonaisproteiinin normalisoitua signaalia. | Standardoi biopsiakohta käyttämällä johdonmukaisia anatomisia maamerkkejä, normalisoi lihaskohtaisten proteiinien mukaan ja mittaa samanaikaisesti fibro-rasvakoostumus. |
NSAA-vertailuryhmä/tilastot | Ulkoinen luonnollisen historian kohortti ei ole satunnaistettu samanaikainen kontrolli. Tutkimukseen osallistumiskelpoisuus, tukeva hoito, osallistumisen vaikutukset, lähtötilanteessa oleva NSAID-lääkitys, steroidihoito, ikä ja eksoniluokka voivat kaikki vääristää vertailua. Parittamaton t-testi ei riitä. Myös +1,4:n NSAA-muutos on tässä ikäryhmässä testien välisen vaihtelun rajoissa. | Suorita satunnaistettu samanaikainen lumekontrolloitu tutkimus tai käytä vähintään vakioituja analyysejä, joissa otetaan huomioon lähtötilanteen NSAID-arvot, ikä, steroidihoito, eksoniluokka ja muut sekoittavat tekijät. |
Ikäikkuna hämmentää | 4–7-vuotiaat pojat ovat kehitysikkunassa, jossa hoitamattomat, liikkuvat DMD-potilaat saattavat saavuttaa motorisen toiminnan ennen kuin heikkeneminen alkaa vallita. 48 viikon NSAA-muutos yhdistää kehityksellisen edistymisen, taudin etenemisen ja mahdollisen hoidon vaikutuksen. | Käytä samanaikaista satunnaistettua kontrolliryhmää ja ikäryhmittelyä kehityksen ja hoidon vaikutuksen erottamiseksi. |
Aiempi kliininen ennakkotapaus | Avoimet mikrodystrofiinin toiminnalliset signaalit eivät ole luotettavasti ennustaneet vahvistavaa hyötyä; julkaistuihin ennakkotapauksiin kuuluu mikrodystrofiinigeeniterapian vahvistavia tutkimuksia, joissa ei ole onnistuttu toistamaan avoimia NSAID-parannuksia. | Älä luota avoimeen NSAA-muutokseen ratkaisevana tukena. Vaaditaan kontrolloitua toiminnallista näyttöä. |
Rakenteen rakenteelliset rajoitukset | 138 kDa:n rakenteesta on poistettu spektriinitoistot R16/17, jotka sisältävät nNOS:n sitoutumiskohdat. nNOS-rekrytoinnin menetys voi heikentää toiminnallista sympatolyysiä ja iskemiasuojaa rasituksen aikana, mikä luo mekanistisen katon pelastustoimille ilmentymistasosta riippumatta. | Lisää mekanistisia tutkimuksia, jotka osoittavat, palauttaako tämä spesifinen konstruktio dystrofiiniin liittyvän kompleksifunktion, nNOS:n lokalisaation, liikuntafysiologian ja lihasten suojan. |
AAV-kestävyys | Vektorigenomit eivät 12 viikon iässä muodosta pysyvää ilmentymistä. AAV9-genomit ovat pääosin integroitumattomia episomeja ja voivat vähentyä ajan myötä. Vektorigenomin pysyvyys ei ole sama asia kuin pysyvä proteiinien ilmentyminen. | Mittaa pitkittäistä transgeeniproteiinin ilmentymistä ja funktionaalisen biomarkkerin kestävyyttä yli 12 viikon ajan. |
Immuuni-/turvallisuusprofiili | Transaminiitti 8/12 potilaalla on yhdenmukainen AAV-transdusoituihin soluihin kohdistuvan immuunivasteen kanssa, mutta mekanismia ei ole selvitetty. Yksi sydänlihastulehdustapaus koskee annettua AAV9-sydäntropismia. | Tarjota syvällisempää immuuniseurantaa, maksan/sydänturvallisuuden kartoitusta ja tehostettua sydämen seurantaa. |
Potilasvalinta/yleistettävyys | AAV9-neutraloivia vasta-aineita tuottavien potilaiden poissulkeminen rajoittaa yleistettävyyttä. Eksonin 44 deleetioiden poissulkeminen rajoittaa sovellettavuutta kyseiseen DMD-alaryhmään. n=12 on liian pieni turvallisuuden ja tehon kuvaamiseksi laajemmassa DMD-populaatiossa. | Laajenna kelpoisuutta mahdollisuuksien mukaan tai määrittele etukäteen stratifioidut analyysit vasta-ainetilan, genotyypin/eksoniluokan, iän ja lähtötason toiminnan mukaan ennen kuin tulosta käytetään laajan hyväksynnän tukena. |
Sääntelyyn liittyvä johtopäätös: Pakkaus saattaa osoittaa biologista aktiivisuutta, mutta se ei vielä vahvista, että mitattu mikrodystrofiinin ilmentyminen on luotettava korvike, joka kohtuullisen todennäköisesti ennustaa kliinistä hyötyä. Tärkeimmät puutteet ovat määritysmenetelmän spesifisyys, virheelliset kvantifiointistandardit, mahdollinen revertantti-kuitu -sekoitus, satunnaistetun kontrollin puute, ikään liittyvä NSAA-sekoitus, epävarma kestävyys ja ratkaisemattomat turvallisuus-/yleistettävyysongelmat.
Tämän aukon kaventamiseksi ohjelmassa tarvittaisiin kontrolloitu, ikäryhmittäin jaettu kliininen tutkimusasetelma, jossa olisi siirtogeenispesifiset ilmentymismääritykset, ortogonaalinen proteiinien kvantifiointi, kudoskoostumuksen kontrollit, pitkittäiset kestävyystiedot, katkaistun rakenteen mekanistiset toiminnalliset määritykset sekä vahvempi turvallisuuden seuranta, erityisesti maksan ja sydämen osalta.
Arviointikriteerit ja arvosanat
LifeSciBenchin validointi
Validoimme LifeSciBenchin riippumattomalla asiantuntija-arvioinnilla. Palautetta antoi 453 arvioijaa, jotka eivät kirjoittaneet tehtäviä. Arvioijista 97 %:lla oli Ph.D. tai vastaava tohtorintutkinto, keskimäärin 12 vuoden kokemus ja 14 vertaisarvioitua julkaisua; 88 % oli saanut palkinnon tai apurahan.
Arvioijat pisteyttivät, täyttikö tehtävä hyvän vertailukysymyksen kriteerit: yhteys todelliseen tutkimukseen, tieteellisen päättelyn ja alaosaamisen testaus, näyttö- tai konsensuspohja sekä hyöty mallin suorituskyvyn arvioinnissa. Yksimielisyys ylitti kaikissa luokissa 96 %.
Arvioijien kommentit tukivat määrällisiä tuloksia:
Tulokset
Raportoimme kaksi täydentävää mittaria. Läpäisyaste on niiden tehtävien osuus, joissa malli saavuttaa 70 %:n onnistumiskynnyksen. Pistemäärä on arviointitaulukon mukaisen palkkion keskiarvo, joka antaa osapisteitä kriteereistä myös, kun tehtävä ei ratkea täysin. Molemmat ovat tärkeitä, koska tieteellinen vastaus voi olla osin oikea tai hyödyllinen täyttämättä kaikkea.
Mallien suoritus vaihtelee paljon tehtävätyypin, työnkulun ja vastausmuodon mukaan.
Missä AI on jo vahvaa
LifeSciBenchissä edistyneet mallit ovat vahvimpia tieteellisessä synteesissä, viestinnässä ja jäsennellyssä tulkinnassa. Absoluuttiset läpäisyasteet ovat yhä maltillisia, joten osa-alueet eivät ole saturoituneet, mutta GPT‑Rosalind etenee selvästi GPT‑5.5:stä: kokonaisläpäisy nousee 25,7 %:sta 36,1 %:iin.
Suurin kykykehitys näkyy tieteellisessä viestinnässä ja translaatiossa. Esimerkiksi tieteellisen viestinnän läpäisy nousee GPT‑5.5:n 56,3 %:sta GPT‑Rosalindin 71,1 %:iin. Luokka on pieni (n=9), joten tulosta on tulkittava varoen, mutta se viittaa edistyneiden mallien nopeaan kehitykseen näytön jäsentämisessä ja asiantuntijaselityksissä. Translaatio eli lääkekehityksen "laboratoriosta potilaalle" -prosessi näyttää saman: läpäisy nousee GPT‑5.5:n 36,8 %:sta GPT‑Rosalindin 57,7 %:iin, mikä viittaa paranevaan kykyyn kytkeä prekliininen näyttö kliinisiin seurauksiin.
Arviointikriteerikohtaiset tulokset tukevat tätä. Asiantuntijalle hyödyllisissä tai toimintakelpoisissa tehtävissä GPT‑Rosalind saa 44,7 %, GPT‑5.5 29,1 %. Epävarmuuden ja varaumien käsittelyssä sen tulos on 44,8 %, vertailuna 29,3 %. Mallit ovat siis hyödyllisimmillään, kun näytön rajat ovat selvät ja tehtävä vaatii jäsenneltyä tieteellistä harkintaa.
GPT‑Rosalind johtaa suorituskyvyssä tieteellisesti arvokkaissa tehtävissä, jotka teollisuuden ja akateemiset asiantuntijat ovat tunnistaneet.
GPT‑Rosalind johtaa suorituskykyä tieteellisesti arvokkaissa tehtävissä, jotka teollisuuden ja akateemiset asiantuntijat ovat tunnistaneet.
GPT‑Rosalind johtaa suorituskykyä tieteellisesti arvokkaissa tehtävissä, jotka teollisuuden ja akateemiset asiantuntijat ovat tunnistaneet.
Missä AI jää yhä vajaaksi
Suoritus on selvästi heikompi liitepainotteisessa, suunnitteluvetoisessa ja operatiivisesti rajatussa tieteellisessä työssä. Suunnittelu, optimointi & ennustaminen on yhä vaikeimpia työnkulkuja: GPT‑Rosalindin läpäisy on 30,7 %. Analyysi on lähes yhtä vaikea, 30,3 %.
Liitteiden käyttö on erityisen selvä aukko. GPT‑Rosalind päihittää GPT‑5.5:n liitepainotteisissa tehtävissä, mutta sen läpäisy putoaa tekstitehtävien 45,1 %:sta 28,1 %:iin, kun mukana on liitteitä tai URL:eja. GPT‑5.5:llä kaava on sama: lasku 29,9 %:sta 21,9 %:iin. Tarkempi analyysi vahvistaa, että edistyneet mallit kamppailevat monimutkaisten kuvien ja suurten sekvenssitiedostojen tiedon poiminnassa ja liittämisessä lopulliseen vastaukseen.
Läpäisyasteet laskevat, kun tehtävät edellyttävät lähteisiin perustuvaa päättelyä tai artefaktien käsittelyä
Myös vastausmuoto vaikuttaa. Tarkkoja sekvenssi-, rakenne- tai konstruktituotoksia vaativissa tehtävissä läpäisy on matalampi: GPT‑Rosalind saa numeerisissa tehtävissä vain 14,8 % ja sekvenssi- tai rakennevastauksissa 24,0 %. Konstruktien luonti on myös haurasta: GPT‑Rosalind saa 27,3 % ja paranee vain vähän GPT‑5.5:stä. Osa erosta voi johtua täsmävastausten tiukasta arvioinnista: pienet laskenta- tai muotoiluerot voivat pudottaa vastauksen kynnyksen alle. Epäonnistumiset ovat silti tieteellisesti merkittäviä, koska monet biotieteen työnkulut vaativat suoraan käyttökelpoista tarkkuutta, kuten CRISPR/HDR-donorien tai siRNA:n suunnittelussa.
Mallit pääsevät usein pitkälle ratkaisematta tehtävää kokonaan. Noin 14 %:ssa tehtävistä mallit saivat paljon rubriikkipisteitä, vaikka täsmäläpäisy jäi saavuttamatta. GPT‑Rosalindilla 109 tehtävän läpäisy jäi alle 20 %:n, mutta rubriikkipalkkio oli silti vähintään 50 %. Käytännössä malli voi tunnistaa oikeaa näyttöä tai antaa uskottavan osavastauksen mutta epäonnistua, koska se ohittaa rajoitteen, käyttää väärää näyttöä, laskee puutteellisesti tai ei kytke päättelyään hyödylliseen päätökseen.
Rajoitukset & seuraavat vaiheet
LifeSciBench mittaa, miten hyödyllistä AI voi olla biotieteen tutkimuksessa, mutta se ei korvaa mallien tutkimista elävissä tutkimusympäristöissä. Benchmark keskittyy itsenäisiin tehtäviin, jotka kuvaavat toistuvia teollisia työnkulkuja; moni erikoisala ja tehtävätyyppi jää vielä ulkopuolelle. Todellinen tutkimus on iteratiivista: tutkijat keräävät näyttöä, tarkistavat hypoteeseja, suunnittelevat jatkokokeita ja mukauttavat suunnitelmia tulosten mukaan.
Vahva LifeSciBench-tulos kertoo siksi realistisesta tehtävätason kyvykkyydestä, ei suoraan myöhemmästä tutkimusvaikutuksesta. Benchmark perustuu teollisuuden työnkulkuihin, mutta ei kata elävien tutkimusohjelmien koko kirjoa ja dynamiikkaa, joissa edistyminen riippuu ajan myötä kehittyvistä tekijöistä.
Seuraavaksi benchmark-tulokset on kytkettävä käyttöönoton tutkimuksiin elävissä tutkimustyönkuluissa. Vaikka LifeSciBench kehitettiin tutkijoiden kanssa, sen selvittäminen, nopeuttaako AI löytöjä tai parantaako se T&K-tuloksia, vaatii mallien käytön ja suorituskyvyn tutkimista oikeissa tutkimusympäristöissä, pidemmällä aikavälillä ja useiden päättely-, palaute- ja kokeilukierrosten yli.


