Predstavljamo LifeSciBench
Mjerilo koje su napisali i recenzirali stručnjaci, utemeljeno u stvarnim istraživanjima u znanostima o životu
AI sustavi s agentskim mogućnostima sve su sposobniji obavljati znanstvene zadatke. No njihova korisnost istraživačima u znanostima o životu ovisi o tome koliko se dobro nose sa složenošću stvarnog istraživanja. Taj rad rijetko izgleda kao jedno pitanje za provjeru znanja ili uredan problem predviđanja. Istraživači tumače nepotpune dokaze, usklađuju proturječne rezultate, osmišljavaju zahtjevne eksperimente, otklanjaju probleme u testovima, procjenjuju rizik prijenosa u kliničku primjenu i odlučuju što dalje u uvjetima neizvjesnosti.
Postojeća mjerila ne obuhvaćaju u potpunosti te sposobnosti. Mnoge evaluacije u znanostima o životu usmjerene su na uska područja ili izolirane vještine, pa nastaju pitanja strukturiranog formata i jasni referentni odgovori. Iako su vrijedne, često ne procjenjuju stvarno može li model pridonijeti širem rasponu istraživačkog rada.
LifeSciBench smo osmislili kako bismo pomogli zatvoriti taj jaz. Svaki zadatak temelji se na prosudbi aktivnih znanstvenika s doktorskom razinom izobrazbe i izravnim iskustvom u programima otkrivanja lijekova u biotehnološkom i farmaceutskom okruženju.
LifeSciBench obuhvaća 750 zadataka koje su napisali stručnjaci, kroz sedam tijekova rada i sedam bioloških domena.
1,062
Artefakti zadatka
173
Znanstveni suradnici
19,020
Kriteriji rubrike
453
Stručni recenzenti
Što LifeSciBench mjeri
LifeSciBench mjeri mogu li AI sustavi podržati realistične istraživačke zadatke u znanostima o životu, a ne samo odgovarati na biološka pitanja. Kako bismo definirali taksonomiju mjerila, ispitali smo aktivne znanstvenike o tijekovima rada koje najčešće koriste u primijenjenom istraživanju. Zatim smo odgovore svrstali u sedam ponavljajućih kategorija: rad s dokazima, analiza, dizajn i optimizacija, znanstveno rasuđivanje, validacija i operacije, translacijska primjena te znanstvena komunikacija.
Svaki je zadatak strukturiran kao zahtjev koji bi znanstvenik uputio upućenom suradniku: znanstveni upit, relevantan kontekst ili artefakti te slobodan odgovor. Rubrike koje pišu stručnjaci ocjenjuju može li model dati točan odgovor na konkretan problem, s razinom detalja, obrazloženjem, ogradama i formatom koje bi znanstvenik očekivao.
Izrada skupa podataka
LifeSciBench procjenjuje znanstveno rasuđivanje zajedno sa slabije definiranim praktičnim vještinama potrebnima za stvarnu znanstvenu primjenu. Zadaci od modela traže da rješavaju realistične istraživačke probleme: tumače dokaze, donose prosudbe utemeljene u domeni i komuniciraju zaključke koji bi bili korisni stručnim recenzentima. Mnogi zadaci zahtijevaju i rad s neizvjesnošću te rasuđivanje na temelju pomoćnih podatkovnih datoteka, umjesto oslanjanja samo na tekst upita.
Mjerilo je osmišljeno tako da odražava složenost rada u znanostima o životu. Ukupno 79 % zadataka zahtijeva više koraka rasuđivanja ili odlučivanja, u prosjeku četiri koraka po zadatku. LifeSciBench uključuje 1.062 priložena artefakta, uključujući slike, PDF-ove, tablice, sekvencijske datoteke, strukturne ili kemijske datoteke i web-reference. Više od polovice zadataka (53 %) zahtijeva da modeli protumače ili sintetiziraju informacije iz barem jednog artefakta.
Zadatke je izradilo 173 stručnih znanstvenika iz različitih disciplina znanosti o životu. Svaki je znanstvenik imao doktorsku razinu izobrazbe i iskustvo u biotehnološkoj ili farmaceutskoj industriji. Zadaci su mogli proći onoliko ciklusa revizije koliko je bilo potrebno prije prihvaćanja, bez fiksnog ograničenja; prihvaćeni zadaci u prosjeku su prošli šest samostalnih automatiziranih pregleda i najmanje dva kruga stručne recenzije. Recenzije su se temeljile na provjerljivo točnom odgovoru ili snažnom stručnom konsenzusu, uz najmanje 90 % slaganja recenzenata u relevantnoj domeni. Taj je postupak pomogao osigurati da prihvaćeni zadaci budu znanstveno utemeljeni, dovoljno jasni za ocjenjivanje i reprezentativni za primijenjeno istraživanje.
Ocjenjivanje i razrada rubrike
Zadaci u LifeSciBenchu ocjenjuju se detaljnom rubrikom specifičnom za zadatak, koja očekivani odgovor razlaže na konkretne znanstvene tvrdnje, izračune, odluke, obrazloženja i drugo. U cijelom mjerilu rubrike koje su razvili stručnjaci sadržavaju 19 020 kriterija – u prosjeku 25 po zadatku – za procjenu znanstvene točnosti i korisnosti za istraživačke odluke.
Taj dizajn odražava kako se znanstveni rad ocjenjuje u praksi: mnogi zadaci u znanostima o životu ne mogu se ocijeniti samo provjerom konačnog odgovora. Odgovor može doći do točnog zaključka na visokoj razini, ali ipak biti nepotpun ako, primjerice, previdi ključno ograničenje testa ili ne istakne važnu biološku nijansu. Suprotno tome, djelomičan odgovor može sadržavati kvalitetno rasuđivanje iako ne rješava zadatak u cijelosti.
Detaljne rubrike obuhvaćaju tu nijansu. LifeSciBench ne procjenjuje samo točnost konačnog odgovora, nego i dolazi li model do odgovora na znanstveno valjan i operativno koristan način.
Izdvajanje, usklađivanje i revizija znanstvenih dokaza iz radova, slika, tablica i eksperimentalnih zapisa.
Primjer evaluacije
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Odgovor kandidata
Zaključak: Kako je prikazan, ovaj paket nije dovoljno snažan da podrži ubrzano odobrenje na temelju ekspresije mikrodistrofina kao surogatne krajnje točke za koju je razumno vjerojatno da predviđa kliničku korist. Skeptični recenzent FDA-e vjerojatno bi smatrao da su dokazi o biomarkeru, funkciji, trajnosti, sigurnosti i mogućnosti generalizacije znatno nedostatno potkrijepljeni.
Stavka paketa | Ključni način neuspjeha | Što bi bilo potrebno |
|---|---|---|
Kvantifikacija Western blotom | MANEX1A veže N-terminalni epitop koji dijele endogeni distrofin pune duljine i transgen mikrodistrofina, pa test ne razlikuje čisto transgen od rezidualnog/revertantnog distrofina. Kvantificiranje mikrodistrofina od 138 kDa prema standardu zdravog distrofina pune duljine također je nevaljano. | Upotrijebite rekombinantni standard mikrodistrofina i ortogonalnu metodu koja razlikuje transgen od endogenog distrofina, poput ciljane masene spektrometrije ili testa specifičnog za transgen/epitop. |
Imunofluorescencija | C-terminalno poliklonsko antitijelo nije prikladno jer konstruktu od 138 kDa nedostaje C-terminalna domena. Mnogi pacijenti s DMD-om imaju revertantna vlakna, a revertantni distrofin može zadržati C-terminalne epitope. Revertantna vlakna mogu se klonalno širiti s dobi, što može pristrano povećati IF signal, osobito u starijih dječaka. | Ponovite IF s antitijelom protiv epitopa prisutnog u transgenu, ali odsutnog iz revertantnog distrofina. Kvantificirajte transgen-pozitivna vlakna odvojeno od revertantnih vlakana. |
Valjanost surogatne krajnje točke | Paket izjednačava količinu proteina s kliničkom funkcijom. „38 % proteinske mase zdrave kontrole“ ne znači 38 % normalne funkcije distrofina jer je mikrodistrofin strukturno skraćen. | Empirijski validirajte odnos između masenog postotka mikrodistrofina, sarkolemalne lokalizacije, nizvodne funkcionalne obnove i kliničke koristi prije tretiranja ekspresije kao surogatne krajnje točke. |
Dizajn biopsije | Kontralateralne biopsije vastus lateralisa prije i poslije liječenja uvode lijevo-desnu i intramuskularnu prostornu varijabilnost. Napredovanje bolesti i fibro-masna zamjena također mogu promijeniti signal normaliziran na ukupni protein. | Standardizirajte mjesto biopsije dosljednim anatomskim orijentirima, normalizirajte na mišićno specifične proteine i paralelno mjerite fibro-masni sastav. |
NSAA komparator/statistika | Vanjska kohorta prirodnog tijeka bolesti nije randomizirana istodobna kontrola. Kriteriji uključivanja u ispitivanje, potporna skrb, učinci sudjelovanja, početni NSAA, režim steroida, dob i klasa egzona mogu pristrano utjecati na usporedbu. T-test za neovisne uzorke nije dovoljan. Također, promjena NSAA od +1,4 unutar je varijabilnosti ponovljenog testiranja u ovoj dobnoj skupini. | Provedite randomiziranu istodobnu placebo-kontroliranu studiju ili barem primijenite prilagođene analize koje uzimaju u obzir početni NSAA, dob, režim steroida, klasu egzona i druge zbunjujuće čimbenike. |
Zbunjujući učinak dobnog prozora | Dječaci u dobi 4–7 godina nalaze se u razvojnom prozoru u kojem neliječeni ambulantni pacijenti s DMD-om mogu poboljšavati motoričku funkciju prije nego što počne prevladavati pad. Promjena NSAA tijekom 48 tjedana miješa razvojni napredak, napredovanje bolesti i mogući učinak liječenja. | Upotrijebite istodobnu randomiziranu kontrolu sa stratifikacijom po dobi kako biste odvojili razvojnu putanju od učinka liječenja. |
Prethodni klinički presedan | Funkcionalni signali mikrodistrofina u otvorenim ispitivanjima nisu pouzdano predvidjeli potvrđujuću korist; objavljeni presedan uključuje potvrđujuća ispitivanja genske terapije mikrodistrofinom koja nisu reproducirala poboljšanja NSAA iz otvorenih ispitivanja. | Ne oslanjajte se na promjenu NSAA u otvorenom ispitivanju kao odlučujuću potporu. Zahtijevajte kontrolirane funkcionalne dokaze. |
Strukturna ograničenja konstrukta | Konstrukt od 138 kDa briše spektinske ponavljajuće domene R16/17, koje sadrže mjesta vezanja nNOS-a. Gubitak regrutacije nNOS-a može narušiti funkcionalnu simpatolizu i zaštitu od ishemije tijekom vježbanja, stvarajući mehanističko ograničenje učinka spašavanja neovisno o razini ekspresije. | Dodajte mehanističke studije koje pokazuju obnavlja li ovaj specifični konstrukt relevantnu funkciju kompleksa povezanog s distrofinom, lokalizaciju nNOS-a, fiziologiju vježbanja i zaštitu mišića. |
Trajnost AAV-a | Genomi vektora nakon 12 tjedana ne uspostavljaju trajnu ekspresiju. Genomi AAV9 uglavnom su neintegrirajući episomi i mogu se s vremenom smanjivati. Postojanost genoma vektora nije isto što i postojana ekspresija proteina. | Mjerite longitudinalnu ekspresiju transgenskog proteina i trajnost funkcionalnih biomarkera nakon više od 12 tjedana. |
Imunosni/sigurnosni profil | Transaminitis u 8/12 pacijenata u skladu je s imunosnim odgovorom na stanice transducirane AAV-om, ali mehanizam nije utvrđen. Jedan slučaj miokarditisa zabrinjava s obzirom na srčani tropizam AAV9. | Pružite dublje imunosno praćenje, karakterizaciju sigurnosti jetre/srca i pojačano kardiološko praćenje. |
Odabir pacijenata/generalizabilnost | Isključivanje pacijenata pozitivnih na neutralizirajuća protutijela protiv AAV9 ograničava generalizabilnost. Isključivanje delecija egzona 44 ograničava primjenjivost na tu podskupinu DMD-a. n=12 je premalo za karakterizaciju sigurnosti i učinkovitosti u široj DMD populaciji. | Proširite prihvatljivost gdje je moguće ili unaprijed specificirajte stratificirane analize prema statusu protutijela, genotipu/klasi egzona, dobi i početnoj funkciji prije korištenja rezultata za potporu širokom odobrenju. |
Regulatorni zaključak: Paket može pokazivati biološku aktivnost, ali još ne utvrđuje da je izmjerena ekspresija mikrodistrofina pouzdana surogatna krajnja točka za koju je razumno vjerojatno da predviđa kliničku korist. Glavni nedostaci odnose se na specifičnost testa, nevaljane standarde kvantifikacije, moguće zbunjujuće učinke revertantnih vlakana, nedostatak randomizirane kontrole, zbunjujući učinak dobi na NSAA, neizvjesnu trajnost i neriješena pitanja sigurnosti/mogućnosti generalizacije.
Kako bi se ti nedostaci uklonili, program bi trebao kontroliran, dobno stratificiran klinički dizajn s testovima ekspresije specifičnima za transgen, ortogonalnom kvantifikacijom proteina, kontrolama sastava tkiva, longitudinalnim podacima o trajnosti, mehanističkim funkcionalnim testovima za skraćeni konstrukt i snažnijim sigurnosnim praćenjem, osobito jetrenim i srčanim.
Kriteriji ocjenjivanja i ocjene
Validacija LifeSciBencha
LifeSciBench smo validirali neovisnom stručnom recenzijom. Povratne informacije dali su 453 recenzenta koji nisu sudjelovali u pisanju zadataka. Među njima je 97 % imalo doktorat ili jednakovrijednu doktorsku titulu, prosječno 12 godina iskustva u području i 14 recenziranih publikacija; 88 % navelo je barem jednu nagradu ili stipendiju.
Recenzenti su ocjenjivali odražava li svaki zadatak obilježja snažnog mjerila: usklađenost sa stvarnim istraživačkim radom, prikladno testiranje znanstvenog rasuđivanja i domenske stručnosti, utemeljenost u dokazima ili stručnom konsenzusu te ukupnu korisnost za procjenu performansi modela. Slaganje je u svakoj kategoriji premašilo 96 %.
Komentari recenzenata potvrdili su kvantitativne ocjene:
Rezultati
Izvještavamo o dvije komplementarne metrike. Stopa prolaznosti postotak je zadataka u kojima model doseže prag uspjeha na razini zadatka od 70 %. Rezultat je prosječni broj bodova prema rubrici, pri čemu se dodjeljuju djelomični bodovi za pojedinačne kriterije čak i kada cijeli zadatak nije riješen. Obje su metrike važne jer odgovor na znanstveni zadatak može biti djelomično točan ili koristan i bez ispunjavanja svih zahtjeva za potpun odgovor.
Performanse modela znatno se razlikuju prema vrsti zadatka, tijeku rada i formatu odgovora.
Gdje AI sustavi već pokazuju snagu
LifeSciBench pokazuje da su najnapredniji modeli relativno najjači u zadacima koji uključuju znanstvenu sintezu, komunikaciju i strukturirano tumačenje. Apsolutne stope prolaznosti još su skromne, pa te domene mjerila nisu ni blizu zasićenja, ali GPT‑Rosalind pokazuje stvaran napredak u odnosu na GPT‑5.5, uz porast ukupne stope točne prolaznosti s 25,7 % na 36,1 %.
Najizraženiji napredak sposobnosti modela vidi se u znanstvenoj komunikaciji i translacijskoj primjeni. Primjerice, stopa prolaznosti u znanstvenoj komunikaciji raste s 56,3 % za GPT‑5.5 na 71,1 % za GPT‑Rosalind; kategorija je mala (n=9), pa nalaz treba tumačiti oprezno, ali upućuje na brz napredak najnaprednijih modela u organiziranju dokaza i izradi uvjerljivih objašnjenja namijenjenih stručnjacima. Translacijska primjena (proces razvoja lijekova „od laboratorija do pacijenta”) pokazuje sličan obrazac, s rastom s 36,8 % za GPT‑5.5 na 57,7 % za GPT‑Rosalind, što sugerira da modeli brzo napreduju u povezivanju pretkliničkih dokaza s kliničkim implikacijama.
Rezultati na razini rubrike upućuju u istom smjeru. Na zadacima koji traže korisne ili provedive izlaze za stručnjake GPT‑Rosalind postiže 44,7 %, u usporedbi s 29,1 % za GPT‑5.5. Na zadacima koji traže rad s neizvjesnošću i ogradama postiže 44,8 %, u usporedbi s 29,3 %. Taj obrazac sugerira da su modeli najkorisniji kada zadatak ima jasno omeđen dokazni okvir i traži strukturiranu znanstvenu prosudbu.
GPT‑Rosalind ostvaruje najbolje performanse na znanstveno vrijednim zadacima koje su identificirali stručnjaci iz industrije i akademske zajednice.
GPT‑Rosalind predvodi performanse na znanstveno vrijednim zadacima koje su identificirali stručnjaci iz sektora i akademske zajednice.
GPT‑Rosalind predvodi performanse na znanstveno vrijednim zadacima koje su identificirali stručnjaci iz sektora i akademske zajednice.
Gdje AI sustavi još zaostaju
Performanse su i dalje znatno slabije u znanstvenom radu koji se uvelike oslanja na artefakte, dizajn i operativna ograničenja. Konkretno, dizajn, optimizacija i predviđanje ostaju među najtežim tijekovima rada, uz stopu prolaznosti GPT‑Rosalinda od 30,7 %; analiza je slično zahtjevna, sa stopom od 30,3 %.
Upotreba artefakata osobito je jasan jaz. Iako je GPT‑Rosalind bolji od GPT‑5.5 u okruženjima s mnogo artefakata, njegova stopa prolaznosti i dalje pada s 45,1 % na tekstualnim zadacima na 28,1 % na zadacima s artefaktima ili URL-ovima. GPT‑5.5 pokazuje isti obrazac, s padom s 29,9 % na 21,9 %. Detaljnija analiza potvrđuje da frontier modeli teško izdvajaju informacije iz složenih slika ili velikih sekvencijskih datoteka i ugrađuju ih u konačan odgovor.
Stope prolaznosti padaju kad zadaci zahtijevaju rasuđivanje utemeljeno u izvorima ili rad s artefaktima
Važan je i format odgovora. Zadaci koji traže točne sekvence, strukture ili izlaze na razini konstrukta imaju niže stope prolaznosti: GPT‑Rosalind doseže samo 14,8 % na numeričkim zadacima i 24,0 % na izlazima koji uključuju sekvence ili strukture. Zadaci generiranja konstrukata također su osjetljivi: GPT‑Rosalind postiže 27,3 % i pokazuje malo poboljšanja u odnosu na GPT‑5.5. Dio tog jaza može biti posljedica strožeg načina ocjenjivanja zadataka s točnim odgovorom, gdje male razlike u izračunu ili formatu mogu spustiti odgovor ispod praga prolaznosti. Ipak, ti su neuspjesi znanstveno važni jer mnogi tijekovi rada u znanostima o životu traže izlaze dovoljno točne za izravnu uporabu, primjerice u dizajnu donora za CRISPR/HDR ili dizajnu siRNA.
Modeli često dođu dio puta prema rješenju, ali ne riješe zadatak do kraja. U približno 14 % zadataka modeli su osvojili znatan broj bodova po rubrici iako nisu dosegnuli prag točne prolaznosti. U slučaju GPT‑Rosalinda, 109 zadataka imalo je stope prolaznosti ispod 20 %, a ipak su ostvarili barem 50 % bodova prema rubrici. U praksi to znači da modeli mogu prepoznati relevantne dokaze ili dati uvjerljiv djelomičan odgovor, ali ipak ne uspjeti jer propuste ključno ograničenje, upotrijebe pogrešne dokaze, nepotpuno provedu izračun ili ne povežu rasuđivanje sa znanstveno korisnom konačnom odlukom.
Ograničenja i sljedeći koraci
LifeSciBench je korak prema mjerenju korisnosti AI sustava za istraživanja u znanostima o životu, ali nije zamjena za proučavanje modela u stvarnim istraživačkim okruženjima. Mjerilo se usredotočuje na samostalne zadatke koji odražavaju ponavljajuće industrijske tijekove rada, dok mnoge znanstvene specijalnosti i vrste zadataka ostaju izvan njegova trenutačnog opsega. Stvarno je istraživanje iterativno: znanstvenici prikupljaju nove dokaze, revidiraju hipoteze, osmišljavaju dodatne eksperimente i prilagođavaju planove kako rezultati pristižu.
Snažnu izvedbu na LifeSciBenchu stoga treba tumačiti kao dokaz realistične sposobnosti na razini zadatka, a ne kao izravnu mjeru učinka na kasnije istraživanje. Mjerilo je utemeljeno u industrijskim tijekovima rada, ali ne obuhvaća punu raznolikost ni dinamiku živih istraživačkih programa, u kojima napredak ovisi o čimbenicima koji se razvijaju tijekom vremena.
Sljedeći je korak povezati performanse na mjerilu sa studijama primjene u stvarnim istraživačkim tijekovima rada. Iako je LifeSciBench razvijen s aktivnim znanstvenicima, za mjerenje toga ubrzavaju li AI sustavi otkrića ili poboljšavaju ishode istraživanja i razvoja bit će potrebno proučavati upotrebu i performanse modela u stvarnim istraživačkim okruženjima, tijekom duljih razdoblja i kroz više krugova rasuđivanja, povratnih informacija i eksperimentalnog praćenja.


