Predstavujeme LifeSciBench
Benchmark napísaný a recenzovaný expertmi, ukotvený v reálnom výskume v oblasti vied o živote
Agentické AI systémy sú čoraz schopnejšie vykonávať vedecké úlohy. Ich užitočnosť pre výskumníkov v oblasti vied o živote však závisí od toho, ako dobre zvládajú zložitosť skutočného výskumu. Takáto práca zriedka vyzerá ako jednoduchá otázka na vybavenie si faktu alebo čistý predikčný problém. Výskumníci interpretujú neúplné dôkazy, zosúlaďujú protichodné výsledky, navrhujú náročné experimenty, riešia problémy s testami, hodnotia translačné riziko a v neistote rozhodujú o ďalšom postupe.
Súčasné benchmarky tieto schopnosti nezachytávajú v plnej miere. Mnohé hodnotenia v oblasti vied o živote sa sústreďujú na úzke domény alebo izolované zručnosti, čo vedie k otázkam so štruktúrovanými formátmi a čistými referenčnými odpoveďami. Hoci sú cenné, často skutočne neoverujú, či model dokáže prispieť v širšom rozsahu práce na úrovni výskumu.
LifeSciBench sme navrhli tak, aby pomohol túto medzeru zaplniť. Každá úloha vychádza z úsudku praktizujúcich vedcov v oblasti vied o živote s doktorandskou úrovňou vzdelania a priamou skúsenosťou s posúvaním programov objavovania liekov v biotechnologickom a farmaceutickom prostredí.
LifeSciBench obsahuje 750 úloh vytvorených expertmi, ktoré pokrývajú sedem pracovných postupov a sedem biologických domén.
1,062
Artefakty úloh
173
Prispievajúci vedci
19,020
Kritériá hodnotiacej rubriky
453
Odborní recenzenti
Čo LifeSciBench meria
LifeSciBench meria, či AI systémy dokážu podporiť realistické výskumné úlohy v oblasti vied o živote, nielen odpovedať na biologické otázky. Na definovanie taxonómie benchmarku sme sa praktizujúcich vedcov v oblasti vied o živote pýtali, ktoré pracovné postupy najčastejšie používajú v aplikovanom výskume. Potom sme ich odpovede zoskupili do siedmich opakujúcich sa kategórií: práca s dôkazmi, analýza, návrh a optimalizácia, vedecké uvažovanie, validácia a prevádzka, translácia a vedecká komunikácia.
Každá úloha má štruktúru požiadavky, ktorú by vedec mohol zadať znalému spolupracovníkovi: vedecký príkaz, relevantný kontext alebo artefakty a voľne formulovaná odpoveď. Rubriky napísané expertmi hodnotia, či model dokáže pre konkrétny problém vytvoriť správnu odpoveď so správnou mierou detailu, odôvodnenia, upozornení a formátu, akú by vedec očakával.
Tvorba datasetu
LifeSciBench hodnotí vedecké uvažovanie spolu s menej presne vymedzenými praktickými zručnosťami potrebnými na reálne vedecké použitie. Jeho úlohy žiadajú modely, aby riešili realistické výskumné problémy: interpretovali dôkazy, robili úsudky ukotvené v doméne a komunikovali závery užitočné pre odborných recenzentov. Mnohé úlohy tiež vyžadujú, aby modely pracovali s neistotou a uvažovali nad podpornými dátovými súbormi, nie iba nad textom príkazu.
Benchmark je navrhnutý tak, aby odrážal zložitosť práce v oblasti vied o živote. Celkovo 79 % úloh vyžaduje viacero krokov uvažovania alebo rozhodovania, v priemere štyri kroky na úlohu. LifeSciBench obsahuje 1 062 priložených artefaktov vrátane obrázkov, PDF, tabuliek, sekvenčných súborov, štruktúrnych alebo chemických súborov a webových odkazov. Viac než polovica úloh (53 %) vyžaduje, aby modely interpretovali alebo syntetizovali informácie aspoň z jedného artefaktu.
Úlohy vytvorilo 173 odborných vedcov z rôznych disciplín vied o živote. Každý vedec mal vzdelanie na úrovni Ph.D. a skúsenosti z biotechnologického alebo farmaceutického priemyslu. Úlohy mohli pred prijatím prejsť toľkými kolami revízií, koľko bolo potrebné, bez pevného limitu; prijaté úlohy mali v priemere šesť samostatne riadených automatizovaných hodnotiacich cyklov a absolvovali aspoň dve kolá odborných recenzií. Recenzie sa opierali buď o overiteľne správnu odpoveď, alebo o silný odborný konsenzus, pričom medzi recenzentmi v príslušnej doméne bola zhoda aspoň 90 %. Tento proces pomohol zabezpečiť, aby prijaté úlohy boli vedecky podložené, dostatočne jasné na hodnotenie a reprezentatívne pre aplikovaný výskum.
Hodnotenie a rozpis rubriky
Úlohy LifeSciBench sa hodnotia podrobnou rubrikou špecifickou pre danú úlohu, ktorá rozkladá očakávanú odpoveď na konkrétne vedecké tvrdenia, výpočty, rozhodnutia, odôvodnenia a podobne. Naprieč benchmarkom obsahujú expertmi vytvorené rubriky 19 020 kritérií – v priemere 25 na úlohu – na posúdenie vedeckej správnosti aj užitočnosti pre výskumné rozhodnutia.
Tento návrh odráža, ako sa vedecká práca hodnotí v praxi: mnohé úlohy v oblasti vied o živote nemožno hodnotiť len kontrolou konečnej odpovede. Odpoveď môže dospieť k správnemu záveru na vysokej úrovni, no aj tak byť neúplná, ak napríklad prehliadne kľúčové obmedzenie testu alebo proaktívne neuvedie biologickú nuansu s veľkým dosahom. Naopak, čiastočná odpoveď môže obsahovať kvalitné uvažovanie, aj keď úlohu úplne nevyrieši.
Granulárne rubriky túto nuansu zachytávajú. LifeSciBench nehodnotí iba presnosť konečnej odpovede, ale aj to, či model k odpovedi dospeje vedecky platným a prevádzkovo užitočným spôsobom.
Extrahovanie, zosúlaďovanie a auditovanie vedeckých dôkazov z článkov, obrázkov, tabuliek a experimentálnych záznamov.
Príklad hodnotenia
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Odpoveď kandidáta
Záver: V predloženej podobe tento balík nie je dostatočne silný na podporu zrýchleného schválenia na základe expresie mikrodystrofínu ako náhradného koncového bodu, pri ktorom je primerane pravdepodobné, že predpovedá klinický prínos. Skeptický hodnotiteľ FDA by pravdepodobne považoval dôkazy o biomarkeri, funkčnosti, trvácnosti, bezpečnosti a zovšeobecniteľnosti za materiálne nedostatočne podporené.
Položka balíka | Kľúčový režim zlyhania | Čo by bolo potrebné |
|---|---|---|
Kvantifikácia western blot | MANEX1A sa viaže na N-terminálny epitop zdieľaný endogénnym plnodĺžkovým dystrofínom a transgénom mikrodystrofínu, takže test čisto nerozlišuje transgén od reziduálneho/revertantného dystrofínu. Kvantifikácia 138 kDa mikrodystrofínu voči zdravému štandardu plnodĺžkového dystrofínu je tiež neplatná. | Použiť rekombinantný štandard mikrodystrofínu a ortogonálnu metódu, ktorá odlišuje transgén od endogénneho dystrofínu, napríklad cielenú hmotnostnú spektrometriu alebo test špecifický pre transgén/epitop. |
Imunofluorescencia | C-terminálna polyklonálna protilátka je nevhodná, pretože 138 kDa konštrukt nemá C-terminálnu doménu. Mnohí pacienti s DMD majú revertantné vlákna a revertantný dystrofín si môže zachovať C-terminálne epitopy. Revertantné vlákna sa môžu klonálne rozširovať s vekom, čo skresľuje IF signál, najmä u starších chlapcov. | Zopakovať IF s protilátkou proti epitopu prítomnému v transgéne, ale neprítomnému v revertantnom dystrofíne. Kvantifikovať transgén-pozitívne vlákna oddelene od revertantných vlákien. |
Platnosť náhradného koncového bodu | Balík stotožňuje množstvo proteínu s klinickou funkciou. „38 % hmotnosti proteínu zdravých kontrol“ neznamená 38 % normálnej funkcie dystrofínu, pretože mikrodystrofín je štrukturálne skrátený. | Empiricky validovať vzťah medzi hmotnostným percentom mikrodystrofínu, sarkolemálnou lokalizáciou, následnou funkčnou obnovou a klinickým prínosom predtým, než sa expresia bude považovať za náhradný koncový bod. |
Dizajn biopsie | Kontralaterálne biopsie vastus lateralis pred liečbou a po nej zavádzajú ľavo-pravú a intramuskulárnu priestorovú variabilitu. Progresia ochorenia a fibro-tuková náhrada môžu tiež meniť signál normalizovaný na celkový proteín. | Štandardizovať miesto biopsie pomocou konzistentných anatomických orientačných bodov, normalizovať na svalovo špecifické proteíny a paralelne merať fibro-tukové zloženie. |
Komparátor/štatistika NSAA | Externá kohorta prirodzeného priebehu nie je randomizovaná súbežná kontrola. Kritériá zaradenia do štúdie, podporná starostlivosť, účinky účasti, východiskové NSAA, steroidný režim, vek a trieda exónu môžu porovnanie skresliť. Nepárový t-test nestačí. Okrem toho zmena NSAA +1,4 je v rámci variability test-retest pre túto vekovú skupinu. | Vykonať randomizovanú súbežnú placebom kontrolovanú štúdiu alebo prinajmenšom použiť upravené analýzy zohľadňujúce východiskové NSAA, vek, steroidný režim, triedu exónu a ďalšie konfúzory. |
Konfúzia vekového okna | Chlapci vo veku 4 – 7 rokov sú vo vývojovom okne, v ktorom môžu neliečení ambulantní pacienti s DMD získať motorickú funkciu skôr, než začne dominovať pokles. 48-týždňová zmena NSAA mieša vývojový zisk, progresiu ochorenia a možný účinok liečby. | Použiť súbežnú randomizovanú kontrolu so stratifikáciou podľa veku na oddelenie vývojovej trajektórie od účinku liečby. |
Predchádzajúci klinický precedens | Funkčné signály mikrodystrofínu v otvorených štúdiách spoľahlivo nepredpovedali konfirmačný prínos; publikovaný precedens zahŕňa konfirmačné štúdie génovej terapie mikrodystrofínom, ktoré nedokázali reprodukovať zlepšenia NSAA z otvorených štúdií. | Nespoliehať sa na zmenu NSAA v otvorenej štúdii ako rozhodujúcu podporu. Vyžadovať kontrolované funkčné dôkazy. |
Štrukturálne limity konštruktu | 138 kDa konštrukt odstraňuje spektrínové opakovania R16/17, ktoré obsahujú väzbové miesta pre nNOS. Strata náboru nNOS môže zhoršiť funkčnú sympatolýzu a ochranu pred ischémiou počas cvičenia, čím vytvára mechanistický strop záchrany nezávislý od úrovne expresie. | Pridať mechanistické štúdie ukazujúce, či tento konkrétny konštrukt obnovuje relevantnú funkciu komplexu asociovaného s dystrofínom, lokalizáciu nNOS, fyziológiu cvičenia a ochranu svalu. |
Trvácnosť AAV | Vektorové genómy po 12 týždňoch nepreukazujú trvalú expresiu. Genómy AAV9 sú prevažne neintegrujúce epizómy a môžu časom klesať. Perzistencia vektorového genómu nie je to isté ako perzistentná expresia proteínu. | Merať longitudinálnu expresiu transgénového proteínu a trvácnosť funkčných biomarkerov po viac než 12 týždňoch. |
Imunitný/bezpečnostný profil | Transaminitída u 8/12 pacientov je konzistentná s imunitnou odpoveďou na bunky transdukované AAV, ale mechanizmus nie je stanovený. Jeden prípad myokarditídy je znepokojujúci vzhľadom na kardiálny tropizmus AAV9. | Poskytnúť hlbšie imunitné monitorovanie, charakterizáciu bezpečnosti pečene/srdca a zintenzívnené kardiálne sledovanie. |
Výber pacientov/zovšeobecniteľnosť | Vylúčenie pacientov pozitívnych na neutralizačné protilátky proti AAV9 obmedzuje zovšeobecniteľnosť. Vylúčenie delécií exónu 44 obmedzuje použiteľnosť pre túto podskupinu DMD. n=12 je príliš málo na charakterizáciu bezpečnosti a účinnosti v širšej populácii DMD. | Rozšíriť oprávnenosť, kde je to možné, alebo vopred špecifikovať stratifikované analýzy podľa stavu protilátok, genotypu/triedy exónu, veku a východiskovej funkcie pred použitím výsledku na podporu širokého schválenia. |
Regulačný záver: Balík môže ukazovať biologickú aktivitu, ale zatiaľ nepreukazuje, že meraná expresia mikrodystrofínu je spoľahlivý náhradný ukazovateľ s primeranou pravdepodobnosťou predpovedať klinický prínos. Hlavné medzery sú špecificita testu, neplatné kvantifikačné štandardy, možné skreslenie revertantnými vláknami, chýbajúca randomizovaná kontrola, vekové skreslenie NSAA, neistá trvácnosť a nevyriešené otázky bezpečnosti/zovšeobecniteľnosti.
Na odstránenie medzery by program potreboval kontrolovaný, podľa veku stratifikovaný klinický dizajn s testami expresie špecifickými pre transgén, ortogonálnou kvantifikáciou proteínu, kontrolami zloženia tkaniva, longitudinálnymi údajmi o trvácnosti, mechanistickými funkčnými testami pre skrátený konštrukt a silnejším bezpečnostným monitorovaním, najmä hepatálnym a kardiálnym.
Kritériá hodnotenia a známky
Validácia LifeSciBench
LifeSciBench sme validovali prostredníctvom nezávislej odbornej recenzie. Spätná väzba prišla od 453 recenzentov, ktorí sa na písaní úloh nepodieľali. Z týchto recenzentov malo 97 % titul Ph.D. alebo ekvivalentný doktorát, v priemere 12 rokov praxe v odbore a 14 recenzovaných publikácií; 88 % uviedlo, že získalo aspoň jedno ocenenie alebo štipendium.
Recenzenti hodnotili, či každá úloha odráža vlastnosti potrebné pre silnú benchmarkovú otázku: súlad s reálnou výskumnou prácou, primerané testovanie vedeckého uvažovania a doménovej odbornosti, ukotvenie v dôkazoch alebo odbornom konsenze a celkovú užitočnosť pri hodnotení výkonu modelu. Zhoda presiahla 96 % v každej kategórii.
Komentáre recenzentov podporili kvantitatívne hodnotenia:
Výsledky
Uvádzame dve doplnkové metriky. Miera úspešnosti je percento úloh, v ktorých model splní prah úspechu na úrovni úlohy vo výške 70 %. Skóre je priemerná odmena podľa rubriky a priznáva čiastočný kredit za jednotlivé kritériá aj vtedy, keď nie je vyriešená celá úloha. Obe metriky sú dôležité, pretože odpoveď na vedeckú úlohu môže byť čiastočne správna alebo užitočná aj bez splnenia všetkých požiadaviek na úplnú odpoveď.
Výkon modelov sa výrazne líši podľa typu úlohy, pracovného postupu a formátu odpovede.
Kde AI systémy ukazujú prvé silné stránky
LifeSciBench ukazuje, že frontier modely sú relatívne najsilnejšie v úlohách zahŕňajúcich vedeckú syntézu, komunikáciu a štruktúrovanú interpretáciu. Absolútne miery úspešnosti sú stále skromné, takže tieto domény benchmarku zďaleka nie sú saturované, no GPT‑Rosalind vykazuje oproti GPT‑5.5 významný pokrok, keď zlepšil celkovú presnú mieru úspešnosti z 25,7 % na 36,1 %.
Najvýraznejší posun v schopnostiach modelov sa objavuje vo vedeckej komunikácii a translácii. Napríklad miera úspešnosti vo vedeckej komunikácii stúpa z 56,3 % pri GPT‑5.5 na 71,1 % pri GPT‑Rosalind; táto kategória je malá (n=9), preto ju treba interpretovať opatrne, no naznačuje, že frontier modely sa rýchlo zlepšujú v schopnosti usporiadať dôkazy a vytvárať presvedčivé vysvetlenia pre expertov. Translácia (proces vývoja liekov „od laboratórneho stola k lôžku pacienta“) vykazuje podobný vzorec, keď rastie z 36,8 % pri GPT‑5.5 na 57,7 % pri GPT‑Rosalind, čo naznačuje, že modely sa rýchlo zlepšujú v prepájaní predklinických dôkazov s klinickými dôsledkami.
Výsledky na úrovni rubrík ukazujú rovnakým smerom. V úlohách vyžadujúcich výstupy užitočné pre expertov alebo akčné výstupy dosahuje GPT‑Rosalind skóre 44,7 % oproti 29,1 % pri GPT‑5.5. V úlohách vyžadujúcich prácu s neistotou a upozorneniami dosahuje 44,8 % oproti 29,3 %. Tento vzorec naznačuje, že modely sú najužitočnejšie vtedy, keď má úloha jasné hranice dôkazov a vyžaduje štruktúrovaný vedecký úsudok.
GPT‑Rosalind vedie vo výkone pri vedecky hodnotných úlohách identifikovaných priemyselnými a akademickými expertmi.
GPT‑Rosalind vedie vo výkone naprieč vedecky hodnotnými úlohami identifikovanými odborníkmi z priemyslu a akademickej sféry.
GPT‑Rosalind vedie vo výkone naprieč vedecky hodnotnými úlohami identifikovanými odborníkmi z priemyslu a akademickej sféry.
Kde AI systémy stále zaostávajú
Výkon zostáva oveľa slabší pri vedeckej práci náročnej na artefakty, návrh a prevádzkové obmedzenia. Konkrétne návrh, optimalizácia & predikcia zostáva jedným z najťažších pracovných postupov, pričom miera úspešnosti GPT‑Rosalind je 30,7 %; analýza je podobne náročná s 30,3 %.
Používanie artefaktov je mimoriadne zreteľnou medzerou. Hoci GPT‑Rosalind dosahuje v prostrediach náročných na artefakty lepšie výsledky než GPT‑5.5, jeho miera úspešnosti stále klesá zo 45,1 % pri úlohách iba s textom na 28,1 % pri úlohách s artefaktmi alebo URL. GPT‑5.5 vykazuje rovnaký vzorec, s poklesom z 29,9 % na 21,9 %. Podrobnejšia analýza potvrdzuje, že frontier modely majú problém získavať informácie zo zložitých obrázkov alebo veľkých sekvenčných súborov a integrovať ich do konečnej odpovede.
Miera úspešnosti klesá, keď úlohy vyžadujú uvažovanie opreté o zdroje alebo prácu s artefaktmi
Záleží aj na formáte odpovede. Úlohy vyžadujúce presné výstupy na úrovni sekvencie, štruktúry alebo konštruktu majú nižšie miery úspešnosti: GPT‑Rosalind dosahuje len 14,8 % pri numerických úlohách a 24,0 % pri sekvenčných alebo štruktúrnych výstupoch. Úlohy generovania konštruktov sú tiež krehké: GPT‑Rosalind dosahuje 27,3 % a oproti GPT‑5.5 sa zlepšuje len málo. Časť tejto medzery môže odrážať prísnejší hodnotiaci povrch pri úlohách s presnou odpoveďou, kde malé rozdiely vo výpočte alebo formátovaní môžu spôsobiť, že odpoveď klesne pod prah úspešnosti. Tieto zlyhania sú však vedecky významné, pretože mnohé pracovné postupy vo vedách o živote vyžadujú výstupy dostatočne presné na priame použitie, napríklad pri návrhu donorov pre CRISPR/HDR alebo pri návrhu siRNA.
Modely sa tiež často dostanú časť cesty k riešeniu, no úlohu úplne nevyriešia. Približne v 14 % úloh modely získali výrazný kredit podľa rubriky, hoci nesplnili prah presnej úspešnosti. Pri GPT‑Rosalind malo 109 úloh mieru úspešnosti pod 20 %, no zároveň získalo aspoň 50 % odmeny podľa rubriky. V praxi to znamená, že modely môžu identifikovať relevantné dôkazy alebo vytvoriť vierohodnú čiastočnú odpoveď, no aj tak zlyhajú, pretože prehliadnu kľúčové obmedzenie, použijú nesprávne dôkazy, urobia neúplný výpočet alebo neprepoja svoje uvažovanie s vedecky užitočným konečným rozhodnutím.
Obmedzenia a ďalšie kroky
LifeSciBench je krokom k meraniu toho, ako užitočné môžu byť AI systémy pre výskum v oblasti vied o živote, no nenahrádza skúmanie modelov v živých výskumných prostrediach. Benchmark sa zameriava na samostatne uzavreté úlohy, ktoré odrážajú opakujúce sa priemyselné pracovné postupy, pričom mnohé vedecké špecializácie a typy úloh zostávajú mimo jeho súčasného rozsahu. Skutočný výskum je iteratívny: vedci zhromažďujú nové dôkazy, revidujú hypotézy, navrhujú následné experimenty a prispôsobujú plány podľa toho, ako prichádzajú výsledky.
Silný výkon v LifeSciBench by sa preto mal interpretovať ako dôkaz realistickej schopnosti na úrovni úloh, nie ako priame meradlo následného výskumného vplyvu. Benchmark vychádza z priemyselných pracovných postupov, no nezachytáva celú rozmanitosť ani dynamiku živých výskumných programov, kde pokrok závisí od faktorov, ktoré sa rozvíjajú v čase.
Ďalším krokom je prepojiť výkon v benchmarku so štúdiami nasadenia v živých výskumných pracovných postupoch. Hoci LifeSciBench vznikol v spolupráci s praktizujúcimi vedcami, meranie toho, či AI systémy urýchľujú objavy alebo zlepšujú výsledky výskumu a vývoja, si vyžiada skúmanie používania a výkonu modelov v skutočných výskumných prostrediach, počas dlhších období a vo viacerých kolách uvažovania, spätnej väzby a experimentálneho nadviazania.


