17. junij 2026

Predstavljamo LifeSciBench

Strokovno napisano in pregledano merilo, utemeljeno v resničnih raziskavah v vedah o življenju

Nalaganje …

Sistemi agentske umetne inteligence postajajo vse bolj sposobni opravljati znanstvene naloge. Vendar je njihova uporabnost za raziskovalce v vedah o življenju odvisna od tega, kako dobro obvladujejo kompleksnost resničnih raziskav. Takšno delo je le redko podobno vprašanju za priklic enega dejstva ali jasnemu napovednemu problemu. Raziskovalci interpretirajo nepopolne dokaze, usklajujejo nasprotujoče si rezultate, načrtujejo zahtevne poskuse, odpravljajo težave v testih, ocenjujejo translacijsko tveganje in se v negotovosti odločajo o naslednjih korakih.

Obstoječa merila teh zmožnosti ne zajamejo v celoti. Številne evalvacije v vedah o življenju se osredotočajo na ozka področja ali izolirane spretnosti, zato uporabljajo strukturirane oblike vprašanj in jasne referenčne odgovore. Čeprav so dragocene, pogosto ne ocenijo zares, ali lahko model prispeva v širšem razponu raziskovalnega dela.

LifeSciBench smo zasnovali, da bi pomagali zapolniti to vrzel. Vsaka naloga temelji na presoji dejavnih znanstvenikov z doktorsko ravnjo usposobljenosti in neposrednimi izkušnjami pri razvoju programov odkrivanja zdravil v biotehnološkem in farmacevtskem okolju.

LifeSciBench vključuje 750 nalog, ki so jih pripravili strokovnjaki in zajemajo sedem delovnih tokov ter sedem bioloških področij.

1,062

Artefakti nalog

173

Sodelujoči znanstveniki

19,020

Merila rubrike

453

Strokovni ocenjevalci

Kaj meri LifeSciBench

LifeSciBench meri, ali lahko sistemi AI podpirajo realistične raziskovalne naloge v vedah o življenju, ne le odgovarjajo na biološka vprašanja. Za opredelitev taksonomije merila smo dejavne znanstvenike v vedah o življenju vprašali, katere delovne tokove najpogosteje uporabljajo v uporabnih raziskovalnih okoljih. Nato smo njihove odgovore združili v sedem ponavljajočih se kategorij: obravnava dokazov, analiza, načrtovanje in optimizacija, znanstveno sklepanje, validacija in operacije, translacija ter znanstveno komuniciranje.

Vsaka naloga je strukturirana kot zahteva, ki bi jo znanstvenik lahko dal dobro poučenemu sodelavcu: znanstveni poziv, morebiten ustrezen kontekst ali artefakti ter odgovor v prosti obliki. Rubrike, ki so jih napisali strokovnjaki, ocenjujejo, ali lahko model za konkreten problem pripravi pravilen odgovor z ravnjo podrobnosti, utemeljitve, zadržkov in oblikovanja, ki bi jo pričakoval znanstvenik.

Izgradnja nabora podatkov

LifeSciBench poleg znanstvenega sklepanja ocenjuje tudi manj jasno opredeljene praktične spretnosti, potrebne za resnično znanstveno uporabo. Naloge od modelov zahtevajo reševanje realističnih raziskovalnih problemov: interpretacijo dokazov, presoje, utemeljene v stroki, in sporočanje sklepov, ki bi bili koristni strokovnim ocenjevalcem. Številne naloge od modelov zahtevajo tudi obravnavo negotovosti in sklepanje na podlagi podpornih podatkovnih datotek, ne le besedila poziva.

Merilo je zasnovano tako, da odraža kompleksnost dela v vedah o življenju. Skupno 79 % nalog zahteva več korakov sklepanja ali odločanja, v povprečju štiri korake na nalogo. LifeSciBench vključuje 1.062 priloženih artefaktov, med njimi slike, PDF-je, tabele, datoteke zaporedij, strukturne ali kemijske datoteke in spletne reference. Več kot polovica nalog (53 %) od modelov zahteva interpretacijo ali sintezo informacij iz vsaj enega artefakta.

Naloge je ustvarilo 173 strokovnih znanstvenikov iz različnih disciplin ved o življenju. Vsak znanstvenik je imel doktorsko raven usposobljenosti ter izkušnje v biotehnološki ali farmacevtski industriji. Naloge so lahko pred sprejetjem opravile toliko ciklov revizije, kot je bilo potrebno, brez fiksne zgornje meje; sprejete naloge so imele v povprečju šest samousmerjenih avtomatiziranih preglednih ciklov in opravile vsaj dva kroga strokovnih pregledov. Pregledi so temeljili na preverljivem pravilnem odgovoru ali močnem strokovnem konsenzu, z vsaj 90-odstotnim soglasjem med ocenjevalci na ustreznem področju. Ta postopek je pomagal zagotoviti, da so sprejete naloge znanstveno utemeljene, dovolj jasne za ocenjevanje in reprezentativne za uporabne raziskave.

Diagram prikazuje naloge LifeSciBench, ki združujejo vire podatkov iz ved o življenju, kot so genomska zaporedja, molekularne strukture, slike, dokumenti, preglednice in spletne povezave, z večstopenjskim sklepanjem in strokovnim pregledom.

Ocenjevanje in razčlenitev rubrike

Naloge LifeSciBench se ocenjujejo s podrobno, za nalogo specifično rubriko, ki pričakovani odgovor razdeli na konkretne znanstvene trditve, izračune, odločitve, utemeljitve in podobno. V celotnem merilu rubrike, ki so jih razvili strokovnjaki, vključujejo 19.020 meril — v povprečju 25 na nalogo — za oceno znanstvene pravilnosti in uporabnosti pri raziskovalnih odločitvah.

Ta zasnova odraža, kako se znanstveno delo ocenjuje v praksi: številnih nalog v vedah o življenju ni mogoče oceniti zgolj s preverjanjem končnega odgovora. Odgovor lahko doseže pravilen sklep na visoki ravni, a je še vedno ocenjen kot nepopoln, če na primer spregleda ključno omejitev testa ali ne izpostavi zelo pomembne biološke nianse. Nasprotno pa lahko delni odgovor vsebuje kakovostno sklepanje, tudi če naloge ne reši v celoti.

Granularne rubrike zajamejo to nianso. LifeSciBench ne ocenjuje le točnosti končnega odgovora, temveč tudi, ali model do odgovora pride na znanstveno veljaven in operativno uporaben način.

Pridobivanje, usklajevanje in revidiranje znanstvenih dokazov iz člankov, slik, tabel in eksperimentalnih zapisov.

Primer evalvacije

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Odziv kandidata

Bistvo: Kot je predstavljen, ta paket ni dovolj močan, da bi podprl pospešeno odobritev na podlagi izražanja mikrodistrofina kot nadomestne končne točke, za katero je razumno verjetno, da napoveduje klinično korist. Skeptični pregledovalec FDA bi dokaze o biomarkerjih, funkcionalnosti, trajnosti, varnosti in posplošljivosti verjetno ocenil kot materialno premalo podprte.

Postavka paketa	Ključni način odpovedi	Kaj bi bilo potrebno
Kvantifikacija Western blot	MANEX1A veže N-terminalni epitop, ki si ga delita endogeni polnodolžinski distrofin in transgen mikrodistrofina, zato test ne razlikuje čisto transgena od preostalega/revertantnega distrofina. Kvantifikacija 138 kDa mikrodistrofina glede na zdravi standard polnodolžinskega distrofina je prav tako neveljavna.	Uporabite rekombinantni standard mikrodistrofina in ortogonalno metodo, ki razlikuje transgen od endogenega distrofina, kot je ciljana masna spektrometrija ali transgensko/epitopsko specifičen test.
Imunofluorescenca	C-terminalno poliklonsko protitelo je slabo primerno, ker 138 kDa konstrukt nima C-terminalne domene. Mnogi bolniki z DMD imajo revertantna vlakna, revertantni distrofin pa lahko ohrani C-terminalne epitope. Revertantna vlakna se lahko s starostjo klonsko širijo, kar pristrani signal IF, zlasti pri starejših dečkih.	Ponovite IF s protitelesom proti epitopu, ki je prisoten v transgenu, odsoten pa v revertantnem distrofinu. Vlakna, pozitivna na transgen, kvantificirajte ločeno od revertantnih vlaken.
Veljavnost nadomestne končne točke	Paket združuje količino proteina s klinično funkcijo. »38 % mase proteina zdrave kontrole« ne pomeni 38 % normalne funkcije distrofina, ker je mikrodistrofin strukturno skrajšan.	Empirično validirajte razmerje med masnim odstotkom mikrodistrofina, sarkolemalno lokalizacijo, obnovo spodnjih funkcij in klinično koristjo, preden izražanje obravnavate kot nadomestno končno točko.
Zasnova biopsije	Kontralateralne biopsije mišice vastus lateralis pred zdravljenjem in po njem uvajajo levo-desno in intramuskularno prostorsko variabilnost. Napredovanje bolezni in fibro-maščobna zamenjava lahko spremenita tudi signal, normaliziran na skupne proteine.	Standardizirajte mesto biopsije z doslednimi anatomskimi orientirji, normalizirajte na mišično specifične proteine in vzporedno merite fibro-maščobno sestavo.
Primerjalnik/statistika NSAA	Zunanja kohorta naravnega poteka ni randomizirana sočasna kontrola. Upravičenost do preskušanja, podporna oskrba, učinki sodelovanja, izhodiščni NSAA, steroidni režim, starost in razred eksona lahko pristranijo primerjavo. Neparni t-test ni zadosten. Poleg tega je sprememba NSAA +1,4 znotraj variabilnosti test–ponovni test za to starostno skupino.	Izvedite randomizirano sočasno s placebom kontrolirano študijo ali vsaj uporabite prilagojene analize, ki upoštevajo izhodiščni NSAA, starost, steroidni režim, razred eksona in druge motilce.
Motnja zaradi starostnega okna	Dečki, stari 4–7 let, so v razvojnem oknu, ko lahko nezdravljeni ambulantni bolniki z DMD pridobivajo motorično funkcijo, preden prevlada upad. 48-tedenska sprememba NSAA meša razvojni prirast, napredovanje bolezni in možni učinek zdravljenja.	Uporabite sočasno randomizirano kontrolo s stratifikacijo po starosti, da ločite razvojno trajektorijo od učinka zdravljenja.
Prejšnji klinični precedens	Funkcionalni signali mikrodistrofina v odprtih študijah niso zanesljivo napovedali potrditvene koristi; objavljeni precedens vključuje potrditvena preskušanja genske terapije z mikrodistrofinom, ki niso ponovila izboljšav NSAA iz odprtih študij.	Na spremembo NSAA v odprti študiji se ne zanašajte kot na odločilno podporo. Zahtevajte kontrolirane funkcionalne dokaze.
Strukturne omejitve konstrukta	138 kDa konstrukt izbriše spektinske ponovitve R16/17, ki vsebujejo vezavna mesta nNOS. Izguba rekrutacije nNOS lahko oslabi funkcionalno simpatolizo in zaščito pred ishemijo med vadbo, kar ustvari mehanistično zgornjo mejo reševanja, neodvisno od ravni izražanja.	Dodajte mehanistične študije, ki pokažejo, ali ta specifični konstrukt obnavlja relevantno funkcijo kompleksa, povezanega z distrofinom, lokalizacijo nNOS, fiziologijo vadbe in zaščito mišic.
Trajnost AAV	Vektorski genomi pri 12 tednih ne dokazujejo trajnega izražanja. Genomi AAV9 so večinoma neintegrirajoči episomi in se lahko sčasoma zmanjšajo. Vztrajanje vektorskega genoma ni enako vztrajnemu izražanju proteina.	Merite vzdolžno izražanje transgenskega proteina in trajnost funkcionalnih biomarkerjev po 12 tednih.
Imunski/varnostni profil	Transaminitis pri 8/12 bolnikih je skladen z imunskim odzivom na celice, transducirane z AAV, vendar mehanizem ni ugotovljen. En primer miokarditisa je zaskrbljujoč glede na srčni tropizem AAV9.	Zagotovite globlje imunsko spremljanje, opredelitev jetrne/srčne varnosti in okrepljeno srčno spremljanje.
Izbor bolnikov/posplošljivost	Izključitev bolnikov, pozitivnih na nevtralizirajoča protitelesa anti-AAV9, omejuje posplošljivost. Izključitev delecij eksona 44 omejuje uporabnost za to podskupino DMD. n=12 je premajhno za opredelitev varnosti in učinkovitosti v širši populaciji DMD.	Kjer je mogoče, razširite upravičenost ali vnaprej določite stratificirane analize po statusu protiteles, genotipu/razredu eksona, starosti in izhodiščni funkciji, preden rezultat uporabite za podporo široki odobritvi.

Regulativni sklep: Paket lahko kaže biološko aktivnost, vendar še ne dokazuje, da je izmerjeno izražanje mikrodistrofina zanesljiv nadomestek, za katerega je razumno verjetno, da napoveduje klinično korist. Glavne vrzeli so specifičnost testa, neveljavni standardi kvantifikacije, možna motnja zaradi revertantnih vlaken, pomanjkanje randomizirane kontrole, starostna motnja NSAA, negotova trajnost ter nerešena vprašanja varnosti/posplošljivosti.

Za zapolnitev vrzeli bi program potreboval kontrolirano, po starosti stratificirano klinično zasnovo s transgensko specifičnimi testi izražanja, ortogonalno kvantifikacijo proteinov, kontrolami sestave tkiva, vzdolžnimi podatki o trajnosti, mehanističnimi funkcionalnimi testi za skrajšani konstrukt in močnejšim varnostnim spremljanjem, zlasti jetrnim in srčnim.

Merila in ocene po ocenjevalni lestvici

Kriterij

Točke

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Validacija LifeSciBench

LifeSciBench smo validirali z neodvisnim strokovnim pregledom. Povratne informacije je podalo 453 ocenjevalcev, ki niso sodelovali pri pisanju nalog. Med temi ocenjevalci jih je 97 % imelo doktorat ali enakovredno doktorsko izobrazbo, v povprečju 12 let izkušenj na področju in 14 recenziranih objav; 88 % jih je poročalo o vsaj eni nagradi ali štipendiji.

Ocenjevalci so presojali, ali posamezna naloga odraža lastnosti močnega merilnega vprašanja: usklajenost z resničnim raziskovalnim delom, ustrezno preverjanje znanstvenega sklepanja in strokovnega znanja, utemeljenost v dokazih ali strokovnem konsenzu ter splošno uporabnost za ocenjevanje uspešnosti modela. Soglasje je v vsaki kategoriji preseglo 96 %.

Relevantnost v resničnem svetu

Ali ta naloga odraža realistično delo v vedah o življenju v resničnem svetu?

Močno se strinjam: 90.4%
Na splošno se strinjam: 98.3%

Znanstveno sklepanje / področna spretnost

Ali ta naloga preverja in ocenjuje ustrezno znanstveno sklepanje ter domenske veščine v vedah o življenju?

Močno se strinjam: 86.4%
Na splošno se strinjam: 98.1%

Znanstvena utemeljenost

Ali je ta naloga znanstveno utemeljena, rešljiva in zasidrana v ustreznih dokazih, podatkih, artefaktih ali strokovnem konsenzu?

Močno se strinjam: 77.1%
Na splošno se strinjam: 96.5%

Splošna uporabnost

Ali je to na splošno močna evalvacijska naloga za vede o življenju?

Močno se strinjam: 79.1%
Na splošno se strinjam: 96.6%

Komentarji ocenjevalcev so podprli kvantitativne ocene:

1 od 3

“Na splošno je to močna naloga, ker ima eno pravilno jedrno interpretacijo, hkrati pa še vedno omogoča razlikovanje boljših odgovorov po tem, kako skrbno omejijo negotovost.”

Rezultati

Poročamo o dveh dopolnjujočih se metrikah. Delež uspešno opravljenih nalog je odstotek nalog, pri katerih model doseže prag uspeha na ravni naloge, določen pri 70 %. Rezultat je povprečna nagrada po rubriki, ki dodeli delne točke za posamezna merila tudi, kadar celotna naloga ni rešena. Oboje je pomembno, ker je lahko odgovor na znanstveno nalogo delno pravilen ali uporaben, tudi če ne izpolni vseh zahtev za popoln odgovor.

Uspešnost modela se precej razlikuje glede na vrsto naloge, delovni tok in obliko odgovora.

Kje sistemi AI že kažejo moč

LifeSciBench kaže, da so najnaprednejši modeli razmeroma najmočnejši pri nalogah, ki vključujejo znanstveno sintezo, komuniciranje in strukturirano interpretacijo. Absolutni deleži uspešno opravljenih nalog so še vedno skromni, zato ta področja merila še zdaleč niso zasičena, vendar GPT‑Rosalind kaže pomemben napredek v primerjavi z GPT‑5.5, saj se skupni natančni delež uspešno opravljenih nalog izboljša s 25,7 % na 36,1 %.

Najmočnejše smeri napredka v zmožnostih modelov se kažejo pri znanstvenem komuniciranju in translaciji. Na primer, delež uspešno opravljenih nalog pri znanstvenem komuniciranju se poveča s 56,3 % za GPT‑5.5 na 71,1 % za GPT‑Rosalind; ta kategorija je majhna (n=9), zato jo je treba razlagati previdno, vendar nakazuje, da se najnaprednejši modeli hitro izboljšujejo pri organiziranju dokazov in pripravi prepričljivih razlag za strokovnjake. Translacija (proces razvoja zdravil »od laboratorijske klopi do bolniške postelje«) kaže podoben vzorec, saj naraste s 36,8 % za GPT‑5.5 na 57,7 % za GPT‑Rosalind, kar nakazuje, da se modeli hitro izboljšujejo pri povezovanju predkliničnih dokazov s kliničnimi posledicami.

Rezultati na ravni rubrik kažejo v isto smer. Pri nalogah, ki zahtevajo za strokovnjake uporabne ali izvedljive izhode, GPT‑Rosalind doseže 44,7 %, v primerjavi z 29,1 % za GPT‑5.5. Pri nalogah, ki zahtevajo obravnavo negotovosti in zadržkov, doseže 44,8 %, v primerjavi z 29,3 %. Ta vzorec nakazuje, da so modeli najbolj uporabni, kadar ima naloga jasno mejo dokazov in zahteva strukturirano znanstveno presojo.

GPT‑Rosalind vodi po uspešnosti pri znanstveno dragocenih nalogah, ki so jih opredelili industrijski in akademski strokovnjaki.

GPT‑Rosalind izboljša uspešnost v primerjavi z GPT‑5.5 v ključnih delovnih tokovih ved o življenju, z največjimi napredki pri translaciji in znanstvenem komuniciranju.

Kje sistemi AI še vedno zaostajajo

Uspešnost ostaja precej šibkejša pri znanstvenem delu, ki je močno odvisno od artefaktov, načrtovanja in operativnih omejitev. Na primer, načrtovanje, optimizacija in napovedovanje ostajajo med najtežjimi delovnimi tokovi, pri čemer je delež uspešno opravljenih nalog GPT‑Rosalind 30,7 %; analiza je podobno zahtevna pri 30,3 %.

Uporaba artefaktov je posebej jasna vrzel. Čeprav je GPT‑Rosalind v okoljih z veliko artefakti uspešnejši od GPT‑5.5, njegov delež uspešno opravljenih nalog še vedno pade s 45,1 % pri nalogah samo z besedilom na 28,1 % pri nalogah z artefakti ali URL-ji. GPT‑5.5 kaže enak vzorec, s padcem z 29,9 % na 21,9 %. Podrobnejša analiza potrjuje, da imajo najnaprednejši modeli težave z izluščenjem informacij iz kompleksnih slik ali velikih datotek zaporedij in z vključevanjem teh informacij v končni odgovor.

Deleži uspešno opravljenih nalog padejo, ko naloge zahtevajo sklepanje, utemeljeno v virih, ali delo z artefakti

Pomembna je tudi oblika odgovora. Naloge, ki zahtevajo natančne izhode na ravni zaporedja, strukture ali konstrukta, imajo nižje deleže uspešno opravljenih nalog: GPT‑Rosalind doseže le 14,8 % pri numeričnih nalogah in 24,0 % pri izhodih zaporedij ali struktur. Naloge generiranja konstruktov so prav tako krhke, pri čemer GPT‑Rosalind doseže 27,3 % in kaže le malo izboljšanja v primerjavi z GPT‑5.5. Del te vrzeli lahko odraža strožjo ocenjevalno površino pri nalogah z natančnim odgovorom, kjer lahko majhne razlike v izračunu ali oblikovanju povzročijo, da odgovor ne doseže praga uspeha. Kljub temu so ti neuspehi znanstveno pomembni, ker številni delovni tokovi v vedah o življenju zahtevajo izhode, ki so dovolj natančni za neposredno uporabo, na primer pri načrtovanju donorjev CRISPR/HDR ali načrtovanju siRNA.

Modeli pogosto pridejo tudi del poti, ne da bi nalogo rešili v celoti. Pri približno 14 % nalog so modeli pridobili precejšen delež točk po rubriki, čeprav niso dosegli praga natančnega uspeha. Pri GPT‑Rosalind je imelo 109 nalog deleže uspeha pod 20 %, hkrati pa so še vedno dosegle vsaj 50 % nagrade po rubriki. V praksi to pomeni, da modeli lahko prepoznajo relevantne dokaze ali pripravijo verjeten delni odgovor, vendar še vedno odpovejo, ker spregledajo ključno omejitev, uporabijo napačne dokaze, naredijo nepopoln izračun ali svojega sklepanja ne povežejo z znanstveno uporabno končno odločitvijo.

Omejitve in naslednji koraki

LifeSciBench je korak k merjenju uporabnosti sistemov AI za raziskave v vedah o življenju, vendar ni nadomestilo za preučevanje modelov v živih raziskovalnih okoljih. Merilo se osredotoča na samozadostne naloge, ki odražajo ponavljajoče se industrijske delovne tokove, pri tem pa številne znanstvene specialnosti in vrste nalog ostajajo zunaj njegovega trenutnega obsega. Resnične raziskave so iterativne: znanstveniki zbirajo nove dokaze, popravljajo hipoteze, načrtujejo nadaljnje poskuse in prilagajajo načrte, ko se pojavijo rezultati.

Močno uspešnost na LifeSciBench je zato treba razumeti kot dokaz realistične zmožnosti na ravni nalog, ne kot neposredno mero vpliva na poznejše raziskave. Merilo temelji na industrijskih delovnih tokovih, vendar ne zajame celotne raznolikosti ali dinamike živih raziskovalnih programov, kjer je napredek odvisen od dejavnikov, ki se razvijajo skozi čas.

Naslednji korak je povezati uspešnost na merilu s študijami uvedbe v živih raziskovalnih delovnih tokovih. Čeprav je bil LifeSciBench razvit z dejavnimi znanstveniki, bo merjenje, ali sistemi AI pospešujejo odkritja ali izboljšujejo rezultate raziskav in razvoja, zahtevalo preučevanje uporabe in uspešnosti modelov v resničnih raziskovalnih okoljih, v daljših časovnih obdobjih ter skozi več krogov sklepanja, povratnih informacij in eksperimentalnega nadaljevanja.