17. lipnja 2026.

Predstavljamo LifeSciBench

Mjerilo koje su napisali i recenzirali stručnjaci, utemeljeno u stvarnim istraživanjima u znanostima o životu

Učitavanje…

AI sustavi s agentskim mogućnostima sve su sposobniji obavljati znanstvene zadatke. No njihova korisnost istraživačima u znanostima o životu ovisi o tome koliko se dobro nose sa složenošću stvarnog istraživanja. Taj rad rijetko izgleda kao jedno pitanje za provjeru znanja ili uredan problem predviđanja. Istraživači tumače nepotpune dokaze, usklađuju proturječne rezultate, osmišljavaju zahtjevne eksperimente, otklanjaju probleme u testovima, procjenjuju rizik prijenosa u kliničku primjenu i odlučuju što dalje u uvjetima neizvjesnosti.

Postojeća mjerila ne obuhvaćaju u potpunosti te sposobnosti. Mnoge evaluacije u znanostima o životu usmjerene su na uska područja ili izolirane vještine, pa nastaju pitanja strukturiranog formata i jasni referentni odgovori. Iako su vrijedne, često ne procjenjuju stvarno može li model pridonijeti širem rasponu istraživačkog rada.

LifeSciBench smo osmislili kako bismo pomogli zatvoriti taj jaz. Svaki zadatak temelji se na prosudbi aktivnih znanstvenika s doktorskom razinom izobrazbe i izravnim iskustvom u programima otkrivanja lijekova u biotehnološkom i farmaceutskom okruženju.

LifeSciBench obuhvaća 750 zadataka koje su napisali stručnjaci, kroz sedam tijekova rada i sedam bioloških domena.

1,062

Artefakti zadatka

173

Znanstveni suradnici

19,020

Kriteriji rubrike

453

Stručni recenzenti

Što LifeSciBench mjeri

LifeSciBench mjeri mogu li AI sustavi podržati realistične istraživačke zadatke u znanostima o životu, a ne samo odgovarati na biološka pitanja. Kako bismo definirali taksonomiju mjerila, ispitali smo aktivne znanstvenike o tijekovima rada koje najčešće koriste u primijenjenom istraživanju. Zatim smo odgovore svrstali u sedam ponavljajućih kategorija: rad s dokazima, analiza, dizajn i optimizacija, znanstveno rasuđivanje, validacija i operacije, translacijska primjena te znanstvena komunikacija.

Svaki je zadatak strukturiran kao zahtjev koji bi znanstvenik uputio upućenom suradniku: znanstveni upit, relevantan kontekst ili artefakti te slobodan odgovor. Rubrike koje pišu stručnjaci ocjenjuju može li model dati točan odgovor na konkretan problem, s razinom detalja, obrazloženjem, ogradama i formatom koje bi znanstvenik očekivao.

Izrada skupa podataka

LifeSciBench procjenjuje znanstveno rasuđivanje zajedno sa slabije definiranim praktičnim vještinama potrebnima za stvarnu znanstvenu primjenu. Zadaci od modela traže da rješavaju realistične istraživačke probleme: tumače dokaze, donose prosudbe utemeljene u domeni i komuniciraju zaključke koji bi bili korisni stručnim recenzentima. Mnogi zadaci zahtijevaju i rad s neizvjesnošću te rasuđivanje na temelju pomoćnih podatkovnih datoteka, umjesto oslanjanja samo na tekst upita.

Mjerilo je osmišljeno tako da odražava složenost rada u znanostima o životu. Ukupno 79 % zadataka zahtijeva više koraka rasuđivanja ili odlučivanja, u prosjeku četiri koraka po zadatku. LifeSciBench uključuje 1.062 priložena artefakta, uključujući slike, PDF-ove, tablice, sekvencijske datoteke, strukturne ili kemijske datoteke i web-reference. Više od polovice zadataka (53 %) zahtijeva da modeli protumače ili sintetiziraju informacije iz barem jednog artefakta.

Zadatke je izradilo 173 stručnih znanstvenika iz različitih disciplina znanosti o životu. Svaki je znanstvenik imao doktorsku razinu izobrazbe i iskustvo u biotehnološkoj ili farmaceutskoj industriji. Zadaci su mogli proći onoliko ciklusa revizije koliko je bilo potrebno prije prihvaćanja, bez fiksnog ograničenja; prihvaćeni zadaci u prosjeku su prošli šest samostalnih automatiziranih pregleda i najmanje dva kruga stručne recenzije. Recenzije su se temeljile na provjerljivo točnom odgovoru ili snažnom stručnom konsenzusu, uz najmanje 90 % slaganja recenzenata u relevantnoj domeni. Taj je postupak pomogao osigurati da prihvaćeni zadaci budu znanstveno utemeljeni, dovoljno jasni za ocjenjivanje i reprezentativni za primijenjeno istraživanje.

Dijagram prikazuje zadatke LifeSciBencha koji kombiniraju izvore podataka iz znanosti o životu, poput genomskih sekvenci, molekularnih struktura, slika, dokumenata, proračunskih tablica i web-poveznica, s rasuđivanjem u više koraka i stručnom recenzijom.

Ocjenjivanje i razrada rubrike

Zadaci u LifeSciBenchu ocjenjuju se detaljnom rubrikom specifičnom za zadatak, koja očekivani odgovor razlaže na konkretne znanstvene tvrdnje, izračune, odluke, obrazloženja i drugo. U cijelom mjerilu rubrike koje su razvili stručnjaci sadržavaju 19 020 kriterija – u prosjeku 25 po zadatku – za procjenu znanstvene točnosti i korisnosti za istraživačke odluke.

Taj dizajn odražava kako se znanstveni rad ocjenjuje u praksi: mnogi zadaci u znanostima o životu ne mogu se ocijeniti samo provjerom konačnog odgovora. Odgovor može doći do točnog zaključka na visokoj razini, ali ipak biti nepotpun ako, primjerice, previdi ključno ograničenje testa ili ne istakne važnu biološku nijansu. Suprotno tome, djelomičan odgovor može sadržavati kvalitetno rasuđivanje iako ne rješava zadatak u cijelosti.

Detaljne rubrike obuhvaćaju tu nijansu. LifeSciBench ne procjenjuje samo točnost konačnog odgovora, nego i dolazi li model do odgovora na znanstveno valjan i operativno koristan način.

Izdvajanje, usklađivanje i revizija znanstvenih dokaza iz radova, slika, tablica i eksperimentalnih zapisa.

Primjer evaluacije

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Odgovor kandidata

Zaključak: Kako je prikazan, ovaj paket nije dovoljno snažan da podrži ubrzano odobrenje na temelju ekspresije mikrodistrofina kao surogatne krajnje točke za koju je razumno vjerojatno da predviđa kliničku korist. Skeptični recenzent FDA-e vjerojatno bi smatrao da su dokazi o biomarkeru, funkciji, trajnosti, sigurnosti i mogućnosti generalizacije znatno nedostatno potkrijepljeni.

Stavka paketa	Ključni način neuspjeha	Što bi bilo potrebno
Kvantifikacija Western blotom	MANEX1A veže N-terminalni epitop koji dijele endogeni distrofin pune duljine i transgen mikrodistrofina, pa test ne razlikuje čisto transgen od rezidualnog/revertantnog distrofina. Kvantificiranje mikrodistrofina od 138 kDa prema standardu zdravog distrofina pune duljine također je nevaljano.	Upotrijebite rekombinantni standard mikrodistrofina i ortogonalnu metodu koja razlikuje transgen od endogenog distrofina, poput ciljane masene spektrometrije ili testa specifičnog za transgen/epitop.
Imunofluorescencija	C-terminalno poliklonsko antitijelo nije prikladno jer konstruktu od 138 kDa nedostaje C-terminalna domena. Mnogi pacijenti s DMD-om imaju revertantna vlakna, a revertantni distrofin može zadržati C-terminalne epitope. Revertantna vlakna mogu se klonalno širiti s dobi, što može pristrano povećati IF signal, osobito u starijih dječaka.	Ponovite IF s antitijelom protiv epitopa prisutnog u transgenu, ali odsutnog iz revertantnog distrofina. Kvantificirajte transgen-pozitivna vlakna odvojeno od revertantnih vlakana.
Valjanost surogatne krajnje točke	Paket izjednačava količinu proteina s kliničkom funkcijom. „38 % proteinske mase zdrave kontrole“ ne znači 38 % normalne funkcije distrofina jer je mikrodistrofin strukturno skraćen.	Empirijski validirajte odnos između masenog postotka mikrodistrofina, sarkolemalne lokalizacije, nizvodne funkcionalne obnove i kliničke koristi prije tretiranja ekspresije kao surogatne krajnje točke.
Dizajn biopsije	Kontralateralne biopsije vastus lateralisa prije i poslije liječenja uvode lijevo-desnu i intramuskularnu prostornu varijabilnost. Napredovanje bolesti i fibro-masna zamjena također mogu promijeniti signal normaliziran na ukupni protein.	Standardizirajte mjesto biopsije dosljednim anatomskim orijentirima, normalizirajte na mišićno specifične proteine i paralelno mjerite fibro-masni sastav.
NSAA komparator/statistika	Vanjska kohorta prirodnog tijeka bolesti nije randomizirana istodobna kontrola. Kriteriji uključivanja u ispitivanje, potporna skrb, učinci sudjelovanja, početni NSAA, režim steroida, dob i klasa egzona mogu pristrano utjecati na usporedbu. T-test za neovisne uzorke nije dovoljan. Također, promjena NSAA od +1,4 unutar je varijabilnosti ponovljenog testiranja u ovoj dobnoj skupini.	Provedite randomiziranu istodobnu placebo-kontroliranu studiju ili barem primijenite prilagođene analize koje uzimaju u obzir početni NSAA, dob, režim steroida, klasu egzona i druge zbunjujuće čimbenike.
Zbunjujući učinak dobnog prozora	Dječaci u dobi 4–7 godina nalaze se u razvojnom prozoru u kojem neliječeni ambulantni pacijenti s DMD-om mogu poboljšavati motoričku funkciju prije nego što počne prevladavati pad. Promjena NSAA tijekom 48 tjedana miješa razvojni napredak, napredovanje bolesti i mogući učinak liječenja.	Upotrijebite istodobnu randomiziranu kontrolu sa stratifikacijom po dobi kako biste odvojili razvojnu putanju od učinka liječenja.
Prethodni klinički presedan	Funkcionalni signali mikrodistrofina u otvorenim ispitivanjima nisu pouzdano predvidjeli potvrđujuću korist; objavljeni presedan uključuje potvrđujuća ispitivanja genske terapije mikrodistrofinom koja nisu reproducirala poboljšanja NSAA iz otvorenih ispitivanja.	Ne oslanjajte se na promjenu NSAA u otvorenom ispitivanju kao odlučujuću potporu. Zahtijevajte kontrolirane funkcionalne dokaze.
Strukturna ograničenja konstrukta	Konstrukt od 138 kDa briše spektinske ponavljajuće domene R16/17, koje sadrže mjesta vezanja nNOS-a. Gubitak regrutacije nNOS-a može narušiti funkcionalnu simpatolizu i zaštitu od ishemije tijekom vježbanja, stvarajući mehanističko ograničenje učinka spašavanja neovisno o razini ekspresije.	Dodajte mehanističke studije koje pokazuju obnavlja li ovaj specifični konstrukt relevantnu funkciju kompleksa povezanog s distrofinom, lokalizaciju nNOS-a, fiziologiju vježbanja i zaštitu mišića.
Trajnost AAV-a	Genomi vektora nakon 12 tjedana ne uspostavljaju trajnu ekspresiju. Genomi AAV9 uglavnom su neintegrirajući episomi i mogu se s vremenom smanjivati. Postojanost genoma vektora nije isto što i postojana ekspresija proteina.	Mjerite longitudinalnu ekspresiju transgenskog proteina i trajnost funkcionalnih biomarkera nakon više od 12 tjedana.
Imunosni/sigurnosni profil	Transaminitis u 8/12 pacijenata u skladu je s imunosnim odgovorom na stanice transducirane AAV-om, ali mehanizam nije utvrđen. Jedan slučaj miokarditisa zabrinjava s obzirom na srčani tropizam AAV9.	Pružite dublje imunosno praćenje, karakterizaciju sigurnosti jetre/srca i pojačano kardiološko praćenje.
Odabir pacijenata/generalizabilnost	Isključivanje pacijenata pozitivnih na neutralizirajuća protutijela protiv AAV9 ograničava generalizabilnost. Isključivanje delecija egzona 44 ograničava primjenjivost na tu podskupinu DMD-a. n=12 je premalo za karakterizaciju sigurnosti i učinkovitosti u široj DMD populaciji.	Proširite prihvatljivost gdje je moguće ili unaprijed specificirajte stratificirane analize prema statusu protutijela, genotipu/klasi egzona, dobi i početnoj funkciji prije korištenja rezultata za potporu širokom odobrenju.

Regulatorni zaključak: Paket može pokazivati biološku aktivnost, ali još ne utvrđuje da je izmjerena ekspresija mikrodistrofina pouzdana surogatna krajnja točka za koju je razumno vjerojatno da predviđa kliničku korist. Glavni nedostaci odnose se na specifičnost testa, nevaljane standarde kvantifikacije, moguće zbunjujuće učinke revertantnih vlakana, nedostatak randomizirane kontrole, zbunjujući učinak dobi na NSAA, neizvjesnu trajnost i neriješena pitanja sigurnosti/mogućnosti generalizacije.

Kako bi se ti nedostaci uklonili, program bi trebao kontroliran, dobno stratificiran klinički dizajn s testovima ekspresije specifičnima za transgen, ortogonalnom kvantifikacijom proteina, kontrolama sastava tkiva, longitudinalnim podacima o trajnosti, mehanističkim funkcionalnim testovima za skraćeni konstrukt i snažnijim sigurnosnim praćenjem, osobito jetrenim i srčanim.

Kriteriji ocjenjivanja i ocjene

Kriterij

Bodovi

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validacija LifeSciBencha

LifeSciBench smo validirali neovisnom stručnom recenzijom. Povratne informacije dali su 453 recenzenta koji nisu sudjelovali u pisanju zadataka. Među njima je 97 % imalo doktorat ili jednakovrijednu doktorsku titulu, prosječno 12 godina iskustva u području i 14 recenziranih publikacija; 88 % navelo je barem jednu nagradu ili stipendiju.

Recenzenti su ocjenjivali odražava li svaki zadatak obilježja snažnog mjerila: usklađenost sa stvarnim istraživačkim radom, prikladno testiranje znanstvenog rasuđivanja i domenske stručnosti, utemeljenost u dokazima ili stručnom konsenzusu te ukupnu korisnost za procjenu performansi modela. Slaganje je u svakoj kategoriji premašilo 96 %.

Relevantnost u stvarnom svijetu

Odražava li ovaj zadatak realističan rad u znanostima o životu u stvarnom svijetu?

U potpunosti se slažem: 90.4%
Općenito se slažem: 98.3%

Znanstveno rasuđivanje / domenska vještina

Provjerava li ovaj zadatak i ocjenjuje odgovarajuće znanstveno rasuđivanje i domenske vještine u znanostima o životu?

U potpunosti se slažem: 86.4%
Općenito se slažem: 98.1%

Znanstvena utemeljenost

Je li ovaj zadatak znanstveno utemeljen, rješiv i oslonjen na odgovarajuće dokaze, podatke, artefakte ili stručni konsenzus?

U potpunosti se slažem: 77.1%
Općenito se slažem: 96.5%

Ukupna korisnost

Sveukupno, je li ovo snažan evaluacijski zadatak za znanosti o životu?

U potpunosti se slažem: 79.1%
Općenito se slažem: 96.6%

Komentari recenzenata potvrdili su kvantitativne ocjene:

1 od 3

“Sveukupno je riječ o snažnom zadatku jer ima jednu točnu temeljnu interpretaciju, a ipak ostavlja prostor za razlikovanje boljih odgovora prema tome koliko pažljivo omeđuju neizvjesnost.”

Rezultati

Izvještavamo o dvije komplementarne metrike. Stopa prolaznosti postotak je zadataka u kojima model doseže prag uspjeha na razini zadatka od 70 %. Rezultat je prosječni broj bodova prema rubrici, pri čemu se dodjeljuju djelomični bodovi za pojedinačne kriterije čak i kada cijeli zadatak nije riješen. Obje su metrike važne jer odgovor na znanstveni zadatak može biti djelomično točan ili koristan i bez ispunjavanja svih zahtjeva za potpun odgovor.

Performanse modela znatno se razlikuju prema vrsti zadatka, tijeku rada i formatu odgovora.

Gdje AI sustavi već pokazuju snagu

LifeSciBench pokazuje da su najnapredniji modeli relativno najjači u zadacima koji uključuju znanstvenu sintezu, komunikaciju i strukturirano tumačenje. Apsolutne stope prolaznosti još su skromne, pa te domene mjerila nisu ni blizu zasićenja, ali GPT‑Rosalind pokazuje stvaran napredak u odnosu na GPT‑5.5, uz porast ukupne stope točne prolaznosti s 25,7 % na 36,1 %.

Najizraženiji napredak sposobnosti modela vidi se u znanstvenoj komunikaciji i translacijskoj primjeni. Primjerice, stopa prolaznosti u znanstvenoj komunikaciji raste s 56,3 % za GPT‑5.5 na 71,1 % za GPT‑Rosalind; kategorija je mala (n=9), pa nalaz treba tumačiti oprezno, ali upućuje na brz napredak najnaprednijih modela u organiziranju dokaza i izradi uvjerljivih objašnjenja namijenjenih stručnjacima. Translacijska primjena (proces razvoja lijekova „od laboratorija do pacijenta”) pokazuje sličan obrazac, s rastom s 36,8 % za GPT‑5.5 na 57,7 % za GPT‑Rosalind, što sugerira da modeli brzo napreduju u povezivanju pretkliničkih dokaza s kliničkim implikacijama.

Rezultati na razini rubrike upućuju u istom smjeru. Na zadacima koji traže korisne ili provedive izlaze za stručnjake GPT‑Rosalind postiže 44,7 %, u usporedbi s 29,1 % za GPT‑5.5. Na zadacima koji traže rad s neizvjesnošću i ogradama postiže 44,8 %, u usporedbi s 29,3 %. Taj obrazac sugerira da su modeli najkorisniji kada zadatak ima jasno omeđen dokazni okvir i traži strukturiranu znanstvenu prosudbu.

GPT‑Rosalind ostvaruje najbolje performanse na znanstveno vrijednim zadacima koje su identificirali stručnjaci iz industrije i akademske zajednice.

GPT‑Rosalind predvodi performanse na znanstveno vrijednim zadacima koje su identificirali stručnjaci iz sektora i akademske zajednice.

Gdje AI sustavi još zaostaju

Performanse su i dalje znatno slabije u znanstvenom radu koji se uvelike oslanja na artefakte, dizajn i operativna ograničenja. Konkretno, dizajn, optimizacija i predviđanje ostaju među najtežim tijekovima rada, uz stopu prolaznosti GPT‑Rosalinda od 30,7 %; analiza je slično zahtjevna, sa stopom od 30,3 %.

Upotreba artefakata osobito je jasan jaz. Iako je GPT‑Rosalind bolji od GPT‑5.5 u okruženjima s mnogo artefakata, njegova stopa prolaznosti i dalje pada s 45,1 % na tekstualnim zadacima na 28,1 % na zadacima s artefaktima ili URL-ovima. GPT‑5.5 pokazuje isti obrazac, s padom s 29,9 % na 21,9 %. Detaljnija analiza potvrđuje da frontier modeli teško izdvajaju informacije iz složenih slika ili velikih sekvencijskih datoteka i ugrađuju ih u konačan odgovor.

Stope prolaznosti padaju kad zadaci zahtijevaju rasuđivanje utemeljeno u izvorima ili rad s artefaktima

Važan je i format odgovora. Zadaci koji traže točne sekvence, strukture ili izlaze na razini konstrukta imaju niže stope prolaznosti: GPT‑Rosalind doseže samo 14,8 % na numeričkim zadacima i 24,0 % na izlazima koji uključuju sekvence ili strukture. Zadaci generiranja konstrukata također su osjetljivi: GPT‑Rosalind postiže 27,3 % i pokazuje malo poboljšanja u odnosu na GPT‑5.5. Dio tog jaza može biti posljedica strožeg načina ocjenjivanja zadataka s točnim odgovorom, gdje male razlike u izračunu ili formatu mogu spustiti odgovor ispod praga prolaznosti. Ipak, ti su neuspjesi znanstveno važni jer mnogi tijekovi rada u znanostima o životu traže izlaze dovoljno točne za izravnu uporabu, primjerice u dizajnu donora za CRISPR/HDR ili dizajnu siRNA.

Modeli često dođu dio puta prema rješenju, ali ne riješe zadatak do kraja. U približno 14 % zadataka modeli su osvojili znatan broj bodova po rubrici iako nisu dosegnuli prag točne prolaznosti. U slučaju GPT‑Rosalinda, 109 zadataka imalo je stope prolaznosti ispod 20 %, a ipak su ostvarili barem 50 % bodova prema rubrici. U praksi to znači da modeli mogu prepoznati relevantne dokaze ili dati uvjerljiv djelomičan odgovor, ali ipak ne uspjeti jer propuste ključno ograničenje, upotrijebe pogrešne dokaze, nepotpuno provedu izračun ili ne povežu rasuđivanje sa znanstveno korisnom konačnom odlukom.

Ograničenja i sljedeći koraci

LifeSciBench je korak prema mjerenju korisnosti AI sustava za istraživanja u znanostima o životu, ali nije zamjena za proučavanje modela u stvarnim istraživačkim okruženjima. Mjerilo se usredotočuje na samostalne zadatke koji odražavaju ponavljajuće industrijske tijekove rada, dok mnoge znanstvene specijalnosti i vrste zadataka ostaju izvan njegova trenutačnog opsega. Stvarno je istraživanje iterativno: znanstvenici prikupljaju nove dokaze, revidiraju hipoteze, osmišljavaju dodatne eksperimente i prilagođavaju planove kako rezultati pristižu.

Snažnu izvedbu na LifeSciBenchu stoga treba tumačiti kao dokaz realistične sposobnosti na razini zadatka, a ne kao izravnu mjeru učinka na kasnije istraživanje. Mjerilo je utemeljeno u industrijskim tijekovima rada, ali ne obuhvaća punu raznolikost ni dinamiku živih istraživačkih programa, u kojima napredak ovisi o čimbenicima koji se razvijaju tijekom vremena.

Sljedeći je korak povezati performanse na mjerilu sa studijama primjene u stvarnim istraživačkim tijekovima rada. Iako je LifeSciBench razvijen s aktivnim znanstvenicima, za mjerenje toga ubrzavaju li AI sustavi otkrića ili poboljšavaju ishode istraživanja i razvoja bit će potrebno proučavati upotrebu i performanse modela u stvarnim istraživačkim okruženjima, tijekom duljih razdoblja i kroz više krugova rasuđivanja, povratnih informacija i eksperimentalnog praćenja.