Představujeme LifeSciBench
Experty vytvořený a recenzovaný benchmark založený na reálném výzkumu v biologických vědách
Agentní AI systémy jsou stále schopnější plnit vědecké úlohy. Jejich užitečnost pro výzkumníky v biologických vědách však závisí na tom, jak dobře zvládají složitost skutečného výzkumu. Taková práce málokdy vypadá jako otázka na vybavení jediného faktu nebo čistý predikční problém. Výzkumníci interpretují neúplné důkazy, slaďují rozporné výsledky, navrhují obtížné experimenty, řeší problémy s analýzami, hodnotí translační rizika a v nejistotě rozhodují, co dál.
Současné benchmarky tyto schopnosti plně nezachycují. Mnoho evaluací v biologických vědách se zaměřuje na úzké domény nebo izolované dovednosti, což vede k otázkám se strukturovaným formátem a jasnými referenčními odpověďmi. Ačkoli jsou cenné, často skutečně neposoudí, zda model dokáže přispět v širším rozsahu výzkumné práce.
LifeSciBench jsme navrhli tak, aby tuto mezeru pomohl zaplnit. Každá úloha vychází z úsudku aktivně působících vědců v oboru přírodních věd, kteří mají vzdělání na úrovni Ph.D. a přímé zkušenosti s rozvojem programů vývoje léčiv v biotechnologickém a farmaceutickém prostředí.
LifeSciBench obsahuje 750 úloh vytvořených experty napříč sedmi pracovními postupy a sedmi biologickými doménami.
1,062
Artefakty úloh
173
Přispívající vědci
19,020
Kritéria hodnotícího rámce
453
Odborní recenzenti
Co LifeSciBench měří
LifeSciBench měří, zda AI systémy dokáží podporovat realistické výzkumné úlohy v biologických vědách, nejen odpovídat na biologické otázky. Abychom definovali taxonomii benchmarku, oslovili jsme aktivně působící odborníky v biologických vědách a zjišťovali, které pracovní postupy v aplikovaném výzkumu používají nejčastěji. Jejich odpovědi jsme poté seskupili do sedmi opakujících se kategorií: práce s důkazy, analýza, návrh a optimalizace, vědecké uvažování, validace a provoz, translace a vědecká komunikace.
Každá úloha má podobu žádosti, kterou by vědec mohl zadat znalému spolupracovníkovi: vědecký prompt, relevantní kontext či artefakty a volnou odpověď. Rubriky napsané experty hodnotí, zda model dokáže vytvořit správnou odpověď na konkrétní problém, a to s přiměřenou úrovní podrobností, odůvodněním, výhradami a formátováním, jaké by vědec očekával.
Konstrukce datové sady
LifeSciBench hodnotí vědecké uvažování spolu s hůře definovatelnými praktickými dovednostmi nutnými pro reálné vědecké použití. Úlohy vyžadují, aby modely řešily realistické výzkumné problémy: interpretovaly důkazy, činily doménově podložené úsudky a komunikovaly závěry užitečné pro odborné recenzenty. Mnoho úloh také vyžaduje, aby modely zvládaly nejistotu a uvažovaly nad podpůrnými datovými soubory, nikoli jen nad textem promptu.
Benchmark je navržen tak, aby odrážel složitost práce v biologických vědách. Celkem 79 % úloh vyžaduje více kroků uvažování nebo rozhodování, v průměru čtyři kroky na úlohu. LifeSciBench zahrnuje 1 062 přiložených artefaktů, včetně obrázků, PDF, tabulek, sekvenčních souborů, strukturních či chemických souborů a webových odkazů. Více než polovina úloh (53 %) vyžaduje, aby modely interpretovaly nebo syntetizovaly informace alespoň z jednoho artefaktu.
Úlohy vytvořilo 173 expertů z různých oborů biologických věd. Každý vědec měl doktorské vzdělání a zkušenost z biotechnologického nebo farmaceutického průmyslu. Úlohy mohly před přijetím projít libovolným počtem revizí bez pevného limitu kol; přijaté úlohy měly v průměru šest samořízených automatizovaných revizí a absolvovaly alespoň dvě kola expertních recenzí. Recenze se opíraly buď o ověřitelně správnou odpověď, nebo o silný odborný konsenzus, s alespoň 90% shodou recenzentů v příslušné doméně. Tento proces pomohl zajistit, že přijaté úlohy jsou vědecky podložené, dostatečně jasné pro hodnocení a reprezentativní pro aplikovaný výzkum.
Hodnocení a rozbor hodnotícího rámce
Úlohy LifeSciBench se hodnotí podle podrobného hodnotícího rámce specifického pro danou úlohu, která očekávanou odpověď rozkládá na konkrétní vědecká tvrzení, výpočty, rozhodnutí, zdůvodnění a podobně. Napříč benchmarkem zahrnují expertně vytvořené rubriky 19 020 kritérií — průměrně 25 na úlohu — pro posouzení vědecké správnosti i užitečnosti pro výzkumná rozhodnutí.
Tento přístup odráží, jak se vědecká práce hodnotí v praxi: mnoho úloh v biologických vědách nelze hodnotit jen na základě kontroly konečné odpovědi. Odpověď může dojít ke správnému obecnému závěru, ale přitom být neúplná, pokud například přehlédne klíčové omezení daného testu nebo proaktivně nezmiňuje biologický detail s dalekosáhlými důsledky. Naopak částečná odpověď může obsahovat kvalitní uvažování, i když úlohu zcela nevyřeší.
Granulární hodnotící rámce tuto nuanci zachycují. LifeSciBench nehodnotí jen přesnost konečné odpovědi, ale i to, zda k ní model dojde vědecky platným a provozně užitečným způsobem.
Extrakce, slaďování a audit vědeckých důkazů z článků, obrázků, tabulek a experimentálních záznamů.
Příklad hodnocení
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Odpověď kandidáta
To podstatné: V předložené podobě není tento balíček dostatečně silný, aby podpořil zrychlené schválení na základě exprese mikrodystrofinu jako náhradního koncového bodu, u nějž je přiměřeně pravděpodobné, že predikuje klinický přínos. Skeptický hodnotitel FDA by pravděpodobně považoval důkazy o biomarkeru, funkci, trvanlivosti, bezpečnosti a zobecnitelnosti za podstatně nedostatečně podložené.
Položka balíčku | Klíčový způsob selhání | Co by bylo potřeba |
|---|---|---|
Kvantifikace Western blot | MANEX1A váže N-terminální epitop sdílený endogenním plnohodnotným dystrofinem a mikrodystrofinovým transgenem, takže test čistě nerozlišuje transgen od reziduálního/revertantního dystrofinu. Kvantifikace 138 kDa mikrodystrofinu vůči zdravému standardu plnohodnotného dystrofinu je také neplatná. | Použijte rekombinantní standard mikrodystrofinu a ortogonální metodu, která rozlišuje transgen od endogenního dystrofinu, například cílenou hmotnostní spektrometrii nebo transgenově specifický/epitopově specifický test. |
Imunofluorescence | Polyklonální protilátka namířená proti C-konci není vhodná, protože konstruktu o molekulové hmotnosti 138 kDa chybí C-koncová doména. Mnoho pacientů s DMD má revertantní vlákna a revertantní dystrofin si může zachovat epitopy na C-konci. Revertantní vlákna se s věkem mohou klonálně rozšiřovat, což může zkreslovat signál imunofluorescence, zejména u starších chlapců. | Opakujte test IF s protilátkou namířenou proti epitopu, který je přítomen v transgenu, ale chybí v revertantním dystrofinu. Počet vláken pozitivních na transgen stanovte odděleně od počtu revertantních vláken. |
Platnost náhradního koncového bodu | Balíček zaměňuje množství bílkoviny a klinickou funkci. „38 % bílkovinné hmoty zdravé kontrolní skupiny“ neznamená 38 % normální funkce dystrofinu, protože mikrodystrofin je strukturálně zkrácený. | Empiricky validujte vztah mezi hmotnostním procentem mikrodystrofinu, sarkolemální lokalizací, downstream funkční obnovou a klinickým přínosem, než budete expresi považovat za náhradní koncový bod. |
Návrh biopsie | Kontralaterální biopsie m. vastus lateralis před léčbou a po ní zavádějí levo-pravou a intramuskulární prostorovou variabilitu. Progrese onemocnění a fibro-tuková náhrada mohou také měnit signál normalizovaný na celkový protein. | Standardizujte místo biopsie pomocí konzistentních anatomických orientačních bodů, normalizujte na svalově specifické proteiny a paralelně měřte fibro-tukové složení. |
Komparátor/statistika NSAA | Externí kohorta přirozené historie není randomizovaná souběžná kontrola. Způsobilost do studie, podpůrná péče, efekty účasti, výchozí NSAA, steroidní režim, věk a třída exonu mohou srovnání zkreslit. Nepárový t-test není dostačující. Změna NSAA o +1,4 je navíc v rámci variability test-retest pro tuto věkovou skupinu. | Proveďte randomizovanou souběžnou placebem kontrolovanou studii, nebo minimálně použijte upravené analýzy zohledňující výchozí NSAA, věk, steroidní režim, třídu exonu a další matoucí faktory. |
Matoucí vliv věkového okna | Chlapci ve věku 4–7 let jsou ve vývojovém okně, kdy neléčení ambulantní pacienti s DMD mohou získávat motorickou funkci, než začne dominovat pokles. 48týdenní změna NSAA mísí vývojový zisk, progresi onemocnění a možný léčebný efekt. | Použijte souběžnou randomizovanou kontrolu se stratifikací podle věku, aby bylo možné oddělit vývojovou trajektorii od léčebného efektu. |
Předchozí klinický precedent | Otevřené funkční signály mikrodystrofinu spolehlivě nepředpověděly konfirmační přínos; mezi publikovanými příklady jsou potvrzující studie genové terapie mikrodystrofinem, které nedokázaly reprodukovat zlepšení zaznamenaná v otevřených studiích s NSAA. | Nespoléhejte na otevřenou změnu NSAA jako rozhodující podporu. Vyžadujte kontrolované funkční důkazy. |
Strukturální limity konstruktu | 138 kDa konstrukt odstraňuje spektrinové repetice R16/17, které obsahují vazebná místa pro nNOS. Ztráta náboru nNOS může zhoršit funkční sympatolýzu a ochranu před ischemií během cvičení, čímž vytváří mechanistický strop záchrany nezávislý na úrovni exprese. | Doplňte mechanistické studie ukazující, zda tento konkrétní konstrukt obnovuje relevantní funkci komplexu asociovaného s dystrofinem, lokalizaci nNOS, fyziologii cvičení a ochranu svalu. |
Trvanlivost AAV | Vektorové genomy po 12 týdnech neprokazují trvalou expresi. Genomy AAV9 jsou převážně neintegrující episomy a mohou v čase klesat. Perzistence vektorového genomu není totéž co přetrvávající exprese proteinu. | Měřte longitudinální expresi transgenového proteinu a trvanlivost funkčních biomarkerů nad rámec 12 týdnů. |
Imunitní/bezpečnostní profil | Transaminitida u 8/12 pacientů je v souladu s imunitní odpovědí na buňky transdukované AAV, ale mechanismus není stanoven. Jeden případ myokarditidy je znepokojivý vzhledem ke kardiálnímu tropismu AAV9. | Poskytněte hlubší imunitní monitorování, charakterizaci jaterní/kardiální bezpečnosti a zesílené kardiální sledování. |
Výběr pacientů/zobecnitelnost | Vyloučení pacientů pozitivních na neutralizační protilátky proti AAV9 omezuje zobecnitelnost. Vyloučení delecí exonu 44 omezuje použitelnost pro tuto podskupinu DMD. n=12 je příliš málo pro charakterizaci bezpečnosti a účinnosti napříč širší populací DMD. | Pokud je to možné, rozšířte kritéria způsobilosti nebo předem stanovte stratifikované analýzy podle protilátkového statusu, genotypu/třídy exonů, věku a výchozího stavu, než výsledky použijete k podpoře širokého schválení. |
Regulační závěr: Balíček může ukazovat biologickou aktivitu, ale zatím neprokazuje, že měřená exprese mikrodystrofinu je spolehlivý náhradní ukazatel, u nějž je přiměřeně pravděpodobné, že predikuje klinický přínos. Hlavní mezery jsou specificita testu, neplatné kvantifikační standardy, možné matoucí vlivy revertantních vláken, absence randomizované kontroly, věkem podmíněné zkreslení NSAA, nejistá trvanlivost a nevyřešené otázky bezpečnosti/zobecnitelnosti.
K uzavření mezery by program potřeboval kontrolovaný, věkově stratifikovaný klinický design s transgenově specifickými testy exprese, ortogonální kvantifikací proteinu, kontrolami tkáňového složení, longitudinálními daty o trvanlivosti, mechanistickými funkčními testy zkráceného konstruktu a silnějším bezpečnostním monitorováním, zejména jaterním a kardiálním.
Kritéria hodnotící rubriky a známkování
Validace LifeSciBench
LifeSciBench jsme validovali nezávislou expertní recenzí. Zpětnou vazbu poskytlo 453 recenzentů, kteří se na psaní úloh nepodíleli. Z nich 97 % mělo Ph.D. nebo ekvivalentní doktorát, v průměru 12 let praxe v oboru a 14 recenzovaných publikací; 88 % uvedlo alespoň jedno ocenění nebo stipendium.
Recenzenti hodnotili, zda každá úloha splňuje vlastnosti kvalitní benchmarkové otázky: soulad s reálnou výzkumnou prací, vhodné testování vědeckého uvažování a odborných znalostí v dané oblasti, oporu v důkazech nebo odborném konsenzu a celkovou užitečnost pro hodnocení výkonu modelu. Shoda přesáhla 96 % ve všech kategoriích.
Kvantitativní hodnocení dále potvrdily komentáře recenzentů:
Výsledky
Uvádíme dva vzájemně se doplňující ukazatele. Míra úspěšnosti je procento úloh, v nichž model dosáhne úlohového prahu úspěchu 70 %. Skóre je průměrná odměna podle hodnotícího klíče, přičemž se udělují částečné body za jednotlivá kritéria i tehdy, když úloha není vyřešena celá. Obě metriky jsou důležité, protože odpověď na vědeckou úlohu může být částečně správná nebo užitečná, aniž splní všechny požadavky na úplnou odpověď.
Výkon modelů se výrazně liší podle typu úlohy, pracovního postupu a formátu odpovědi.
V jakých oblastech se systémy umělé inteligence již nyní projevují jako silné
LifeSciBench ukazuje, že frontier modely jsou relativně nejsilnější v úlohách zahrnujících vědeckou syntézu, komunikaci a strukturovanou interpretaci. Absolutní míry úspěšnosti jsou stále skromné, takže tyto domény benchmarku zdaleka nejsou saturované, ale GPT‑Rosalind vykazuje proti GPT‑5.5 významný posun: celkovou přesnou míru úspěšnosti zvyšuje z 25,7 % na 36,1 %.
Nejsilnější posun ve schopnostech modelů se objevuje ve vědecké komunikaci a translaci. Například míra úspěšnosti ve vědecké komunikaci u GPT‑Rosalind roste z 56,3 % u GPT‑5.5 na 71,1 %; tato kategorie je malá (n=9), a proto je třeba ji vykládat opatrně, ale naznačuje rychlé zlepšování frontier modelů v organizaci důkazů a tvorbě přesvědčivých vysvětlení pro experty. Translace (proces vývoje léčiv „bench-to-bedside“) vykazuje podobný vzorec: roste z 36,8 % u GPT‑5.5 na 57,7 % u GPT‑Rosalind, což naznačuje, že se modely rychle zlepšují v propojování preklinických důkazů s klinickými důsledky.
Výsledky na úrovni hodnotících klíčů ukazují stejným směrem. V úlohách vyžadujících expertně užitečné nebo akční výstupy dosahuje GPT‑Rosalind skóre 44,7 %, oproti 29,1 % u GPT‑5.5. V úlohách vyžadujících práci s nejistotou a výhradami dosahuje 44,8 %, oproti 29,3 %. Tento vzorec naznačuje, že modely jsou nejužitečnější, když má úloha jasné hranice důkazů a vyžaduje strukturovaný vědecký úsudek.
GPT‑Rosalind vede ve výkonu napříč vědecky hodnotnými úlohami určenými průmyslovými a akademickými experty.
GPT‑Rosalind vede ve výkonu napříč vědecky hodnotnými úlohami identifikovanými odborníky z průmyslu a akademické sféry.
GPT‑Rosalind vede ve výkonu napříč vědecky hodnotnými úlohami identifikovanými odborníky z průmyslu a akademické sféry.
Kde AI systémy stále zaostávají
Výkon zůstává mnohem slabší u vědecké práce náročné na artefakty, návrh a provozní omezení. Konkrétně návrh, optimalizace a predikce zůstávají jedním z nejtěžších pracovních postupů, s mírou úspěšnosti u GPT‑Rosalind 30,7 %; analýza je podobně obtížná s 30,3 %
Zvlášť zřetelnou mezerou je používání artefaktů. Ačkoli GPT‑Rosalind v prostředích náročných na artefakty překonává GPT‑5.5, jeho míra splnění stále klesá ze 45,1 % u čistě textových úloh na 28,1 % u úloh s artefakty nebo URL. GPT‑5.5 vykazuje stejný vzorec, s poklesem z 29,9 % na 21,9 %. Podrobnější analýza potvrzuje, že frontier modely mají potíže vytěžit informace ze složitých obrázků nebo velkých sekvenčních souborů a začlenit je do konečné odpovědi.
Míra splnění klesá, když úlohy vyžadují uvažování podložené zdroji nebo práci s artefakty
Záleží také na formátu odpovědi. Úlohy vyžadující přesné sekvenční, strukturní nebo konstrukční výstupy mají nižší míru úspěšnosti: GPT‑Rosalind dosahuje jen 14,8 % u numerických úloh a 24,0 % u sekvenčních nebo strukturních výstupů. Úlohy generování konstruktů jsou také křehké: GPT‑Rosalind dosahuje 27,3 % a proti GPT‑5.5 se zlepšuje jen málo. Část této mezery může odrážet přísnější hodnocení úloh s přesnou odpovědí, kde malé rozdíly ve výpočtu nebo formátování mohou dostat odpověď pod práh úspěšnosti. Přesto jsou tato selhání vědecky významná, protože mnoho pracovních postupů v biologických vědách vyžaduje výstupy dost přesné pro přímé použití, například v návrhu donorů pro CRISPR/HDR nebo návrhu siRNA.
Modely také často zvládnou část cesty, aniž úlohu plně vyřeší. Zhruba ve 14 % úloh získaly modely podstatné body v dílčím hodnotícím klíči, přestože nedosáhly na práh přesného úspěšnosti. U GPT‑Rosalind mělo 109 úloh míru splnění pod 20 %, ale přesto získalo alespoň 50 % odměny podle rubriky. V praxi to znamená, že modely mohou najít relevantní důkazy nebo vytvořit věrohodnou částečnou odpověď, ale selžou, protože nevezmou v úvahu klíčové omezení, použijí špatné důkazy, provedou neúplný výpočet nebo své uvažování nepropojí s vědecky užitečným konečným rozhodnutím.
Omezení a co bude dál
LifeSciBench je krokem k měření užitečnosti AI systémů pro výzkum v biologických vědách, nenahrazuje však studium modelů v reálných výzkumných prostředích. Benchmark se zaměřuje na samostatné úlohy odrážející opakující se pracovní postupy v oboru, zatímco mnoho vědeckých specializací a typů úloh zůstává mimo jeho současný záběr. Skutečný výzkum je iterativní: vědci shromažďují nové důkazy, revidují hypotézy, navrhují navazující experimenty a upravují plány podle nových výsledků.
Silný výkon v LifeSciBench je proto třeba chápat jako důkaz realistické schopnosti na úrovni úloh, nikoli jako přímé měřítko dopadu na navazující výzkum. Benchmark vychází z průmyslových pracovních postupů, ale nezachycuje plnou rozmanitost ani dynamiku reálných výzkumných programů, kde pokrok závisí na faktorech rozvíjejících se v čase.
Dalším krokem je propojit výkon v benchmarku se studiemi nasazení v živých výzkumných pracovních postupech. Ačkoli byl LifeSciBench vyvinut s vědci z praxe, posouzení, zda AI systémy urychlují objevy nebo zlepšují výsledky výzkumu a vývoje, bude vyžadovat studium používání a výkonu modelů v reálných výzkumných prostředích, v delších horizontech a napříč více koly uvažování, zpětné vazby a experimentálního navazování.


