Preskočite na glavni sadržaj
OpenAI

Predstavljamo LifeSciBench

Mjerilo koje pišu i recenziraju stručnjaci, utemeljeno u stvarnim istraživanjima nauka o životu

Učitavanje…

Agentički AI sistemi postaju sve sposobniji za obavljanje naučnih zadataka. Međutim, njihova korisnost istraživačima u naukama o životu zavisi od toga koliko dobro savladavaju složenost stvarnog istraživanja. Takav rad rijetko izgleda kao jedno pitanje provjere činjenica ili uredan problem predviđanja. Istraživači tumače nepotpune dokaze, usklađuju proturječne rezultate, osmišljavaju teške eksperimente, otklanjaju probleme u testovima, procjenjuju translacijski rizik i pod neizvjesnošću odlučuju šta dalje.

Postojeća mjerila ne obuhvataju u potpunosti te sposobnosti. Mnoge evaluacije u naukama o životu fokusiraju se na uska područja ili izolirane vještine, pa nastaju pitanja sa strukturiranim formatima i jasnim referentnim odgovorima. Iako su vrijedne, često ne procjenjuju zaista može li model doprinijeti širem rasponu istraživačkog rada.

LifeSciBench smo osmislili da pomogne zatvoriti taj jaz. Svaki zadatak utemeljen je na prosudbi praktičara u naukama o životu, s doktorskom obukom i direktnim iskustvom u vođenju programa otkrivanja lijekova u biotehnološkom i farmaceutskom okruženju.

LifeSciBench sadrži 750 zadataka koje su napisali stručnjaci, kroz sedam tokova rada i sedam bioloških domena.

1,062

Artefakti zadatka

173

Naučnici saradnici

19,020

Kriteriji rubrike

453

Stručni recenzenti

Šta LifeSciBench mjeri

LifeSciBench mjeri mogu li AI sistemi podržati realne istraživačke zadatke u naukama o životu, a ne samo odgovarati na biološka pitanja. Da bismo definisali taksonomiju mjerila, anketirali smo praktičare o tokovima rada koje najčešće koriste u primijenjenim istraživanjima. Zatim smo njihove odgovore grupisali u sedam ponavljajućih kategorija: rukovanje dokazima, analiza, dizajn i optimizacija, naučno rezonovanje, validacija i operacije, translacija i naučna komunikacija.

Svaki zadatak strukturiran je kao zahtjev koji bi naučnik uputio stručnom saradniku: naučni upit, relevantan kontekst ili artefakti i odgovor slobodnog formata. Rubrike koje pišu stručnjaci procjenjuju može li model dati ispravan odgovor za konkretan problem, uz nivo detalja, opravdanja, ograda i formatiranja koji bi naučnik očekivao.

Izrada skupa podataka

LifeSciBench procjenjuje naučno rezonovanje zajedno s manje jasno definisanim praktičnim vještinama potrebnim za stvarnu naučnu upotrebu. Zadaci traže od modela da rješavaju realne istraživačke probleme: tumače dokaze, donose domenski utemeljene prosudbe i saopćavaju zaključke korisne stručnim recenzentima. Mnogi zadaci traže i da modeli obrade neizvjesnost i rezoniraju nad pratećim datotekama, umjesto da se oslanjaju samo na tekst upita.

Mjerilo je osmišljeno da odražava složenost rada u naukama o životu. Ukupno, 79% zadataka zahtijeva više koraka rezonovanja ili odlučivanja, u prosjeku četiri koraka po zadatku. LifeSciBench uključuje 1.062 priložena artefakta: slike, PDF-ove, tabele, datoteke sekvenci, strukturne ili hemijske datoteke i web reference. Više od polovine zadataka (53%) traži da modeli protumače ili sintetiziraju informacije iz najmanje jednog artefakta.

Zadatke su kreirala 173 stručna naučnika iz različitih disciplina nauka o životu. Svaki naučnik imao je doktorsku obuku i iskustvo u biotehnološkoj ili farmaceutskoj industriji. Zadaci su mogli proći onoliko ciklusa revizije koliko je potrebno prije prihvatanja, bez fiksnog limita; prihvaćeni zadaci imali su u prosjeku šest samostalnih automatiziranih ciklusa pregleda i najmanje dva kruga stručnih recenzija. Recenzije su se oslanjale na provjerljivo tačan odgovor ili snažan stručni konsenzus, uz najmanje 90% slaganja recenzenata iz relevantnog domena. Taj proces pomogao je osigurati da prihvaćeni zadaci budu naučno utemeljeni, dovoljno jasni za ocjenjivanje i reprezentativni za primijenjeno istraživanje.

Dijagram koji prikazuje zadatke LifeSciBench-a koji kombiniraju izvore podataka iz nauka o životu, kao što su genomske sekvence, molekularne strukture, slike, dokumenti, proračunske tabele i web linkovi, s višekoračnim rezonovanjem i stručnom recenzijom.

Ocjenjivanje i struktura rubrike

Zadaci u LifeSciBench-u ocjenjuju se detaljnom rubrikom specifičnom za zadatak, koja očekivani odgovor razlaže na konkretne naučne tvrdnje, izračune, odluke, opravdanja i slično. U cijelom mjerilu rubrike koje su razvili stručnjaci sadrže 19.020 kriterija — u prosjeku 25 po zadatku — za procjenu naučne tačnosti i korisnosti za istraživačke odluke.

Ovaj dizajn odražava kako se naučni rad procjenjuje u praksi: mnogi zadaci iz nauka o životu ne mogu se ocijeniti samo provjerom konačnog odgovora. Odgovor može doći do tačnog općeg zaključka, ali ipak biti nepotpun ako, naprimjer, previdi ključno ograničenje testa ili ne istakne važnu biološku nijansu. S druge strane, djelimičan odgovor može sadržavati kvalitetno rezonovanje čak i ako ne rješava zadatak u potpunosti.

Granularne rubrike bilježe tu nijansu. LifeSciBench ne procjenjuje samo tačnost konačnog odgovora, nego i da li model do njega dolazi na naučno validan i operativno koristan način.

Izdvajanje, usklađivanje i revizija naučnih dokaza iz radova, slika, tabela i eksperimentalnih zapisa.

Eval Primjer

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Odgovor kandidata

Suština: Kako je predstavljeno, ovaj paket nije dovoljno snažan da podrži ubrzano odobrenje na osnovu ekspresije mikro-distrofina kao surogatne krajnje tačke koja je razumno vjerovatna za predviđanje kliničke koristi. Skeptični FDA recenzent vjerovatno bi smatrao da su dokazi o biomarkeru, funkciji, trajnosti, sigurnosti i generalizabilnosti materijalno nedovoljno potkrijepljeni.

Stavka paketa

Ključni način neuspjeha

Šta bi bilo potrebno

Western blot kvantifikacija

MANEX1A veže N-terminalni epitop koji dijele endogeni distrofin pune dužine i mikro-distrofinski transgen, pa test ne razlikuje jasno transgen od rezidualnog/revertantnog distrofina. Kvantifikacija mikro-distrofina od 138 kDa prema zdravom standardu distrofina pune dužine također je nevalidna.

Koristite rekombinantni mikro-distrofinski standard i ortogonalnu metodu koja razlikuje transgen od endogenog distrofina, poput ciljane masene spektrometrije ili testa specifičnog za transgen/epitop.

Imunofluorescencija

C-terminalno poliklonsko antitijelo je slabo prikladno jer konstrukat od 138 kDa nema C-terminalni domen. Mnogi DMD pacijenti imaju revertantna vlakna, a revertantni distrofin može zadržati C-terminalne epitope. Revertantna vlakna mogu se klonalno širiti s godinama, pristrasno utičući na IF signal, posebno kod starijih dječaka.

Ponovite IF s antitijelom protiv epitopa prisutnog u transgenu, ali odsutnog iz revertantnog distrofina. Kvantificirajte transgen-pozitivna vlakna odvojeno od revertantnih vlakana.

Validnost surogatne krajnje tačke

Paket poistovjećuje količinu proteina s kliničkom funkcijom. „38% proteinske mase zdrave kontrole“ ne znači 38% normalne funkcije distrofina jer je mikro-distrofin strukturno skraćen.

Empirijski validirajte odnos između masenog procenta mikro-distrofina, sarkolemalne lokalizacije, nizvodne funkcionalne obnove i kliničke koristi prije tretiranja ekspresije kao surogatne krajnje tačke.

Dizajn biopsije

Kontralateralne biopsije vastus lateralis prije i nakon tretmana uvode lijevo-desnu i intramuskularnu prostornu varijabilnost. Progresija bolesti i fibro-masna zamjena također mogu promijeniti signal normalizovan na ukupni protein.

Standardizirajte mjesto biopsije koristeći dosljedne anatomske orijentire, normalizirajte na mišićno-specifične proteine i paralelno mjerite fibro-masni sastav.

NSAA komparator/statistika

Eksterna kohorta prirodne historije nije randomizirana istovremena kontrola. Kriteriji uključenja u ispitivanje, suportivna njega, efekti učešća, početni NSAA, steroidni režim, dob i klasa egzona mogu pristrasno uticati na poređenje. Neupareni t-test nije dovoljan. Također, promjena NSAA od +1,4 unutar je test-retest varijabilnosti za ovu dobnu grupu.

Provedite randomiziranu istovremenu placebo-kontrolisanu studiju ili barem koristite prilagođene analize koje uzimaju u obzir početni NSAA, dob, steroidni režim, klasu egzona i druge konfuzore.

Konfuzija dobnog prozora

Dječaci dobi 4–7 godina nalaze se u razvojnom prozoru u kojem neliječeni ambulantni DMD pacijenti mogu dobiti motoričku funkciju prije nego što opadanje dominira. NSAA promjena tokom 48 sedmica miješa razvojni dobitak, progresiju bolesti i mogući efekat tretmana.

Koristite istovremenu randomiziranu kontrolu sa stratifikacijom po dobi da odvojite razvojnu putanju od efekta tretmana.

Prethodni klinički presedan

Otvoreni funkcionalni signali mikro-distrofina nisu pouzdano predvidjeli potvrdnu korist; objavljeni presedan uključuje potvrdna ispitivanja genske terapije mikro-distrofinom koja nisu reproducirala otvorena NSAA poboljšanja.

Ne oslanjajte se na otvorenu NSAA promjenu kao odlučujuću podršku. Zahtijevajte kontrolisane funkcionalne dokaze.

Strukturna ograničenja konstrukta

Konstrukat od 138 kDa briše spektinske ponovke R16/17, koje sadrže mjesta vezivanja nNOS-a. Gubitak regrutacije nNOS-a može narušiti funkcionalnu simpatolizu i zaštitu od ishemije tokom vježbanja, stvarajući mehanistički plafon oporavka nezavisan od nivoa ekspresije.

Dodajte mehanističke studije koje pokazuju da li ovaj specifični konstrukat obnavlja relevantnu funkciju kompleksa povezanog s distrofinom, lokalizaciju nNOS-a, fiziologiju vježbanja i zaštitu mišića.

Trajnost AAV-a

Vektorski genomi nakon 12 sedmica ne uspostavljaju trajnu ekspresiju. AAV9 genomi su uglavnom neintegrirajući episomi i mogu opadati s vremenom. Perzistencija vektorskog genoma nije isto što i trajna ekspresija proteina.

Mjerite longitudinalnu ekspresiju transgenskog proteina i trajnost funkcionalnih biomarkera nakon 12 sedmica.

Imuni/sigurnosni profil

Transaminitis kod 8/12 pacijenata u skladu je s imunim odgovorom na ćelije transducirane AAV-om, ali mehanizam nije utvrđen. Jedan slučaj miokarditisa zabrinjava s obzirom na srčani tropizam AAV9.

Pružite dublje imuno praćenje, karakterizaciju jetrene/srčane sigurnosti i intenzivirano srčano praćenje.

Odabir pacijenata/generalizabilnost

Isključivanje pacijenata pozitivnih na neutralizirajuća antitijela anti-AAV9 ograničava generalizabilnost. Isključivanje delecija egzona 44 ograničava primjenjivost na tu DMD podgrupu. n=12 je premalo za karakterizaciju sigurnosti i efikasnosti u široj DMD populaciji.

Proširite podobnost gdje je moguće ili unaprijed specificirajte stratificirane analize prema statusu antitijela, genotipu/klasi egzona, dobi i početnoj funkciji prije korištenja rezultata za podršku širokom odobrenju.

Regulatorni zaključak: Paket može pokazati biološku aktivnost, ali još ne uspostavlja da je izmjerena ekspresija mikro-distrofina pouzdan surogat koji je razumno vjerovatno prediktivan za kliničku korist. Glavne praznine su specifičnost testa, nevalidni standardi kvantifikacije, moguća konfuzija revertantnih vlakana, nedostatak randomizirane kontrole, dobna konfuzija NSAA, neizvjesna trajnost i neriješena pitanja sigurnosti/generalizabilnosti.

Da bi se praznina zatvorila, program bi trebao kontrolisani, dobno stratificirani klinički dizajn s testovima ekspresije specifičnim za transgen, ortogonalnom kvantifikacijom proteina, kontrolama sastava tkiva, longitudinalnim podacima o trajnosti, mehanističkim funkcionalnim testovima za skraćeni konstrukt i jačim sigurnosnim praćenjem, posebno jetrenim i srčanim.

Kriteriji ocjenjivanja i ocjene

Kriterijum
Tačke
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Validacija LifeSciBench-a

LifeSciBench smo validirali kroz nezavisnu stručnu recenziju. Povratne informacije dali su 453 recenzenta koji nisu učestvovali u pisanju zadataka. Među njima, 97% je imalo Ph.D. ili ekvivalentan doktorat, prosječno 12 godina iskustva u području i 14 recenziranih publikacija; 88% je navelo da je dobilo barem jednu nagradu ili stipendiju.

Recenzenti su ocjenjivali odražava li svaki zadatak kvalitete potrebne za snažno pitanje mjerila: usklađenost sa stvarnim istraživačkim radom, odgovarajuće testiranje naučnog rezonovanja i domenske stručnosti, utemeljenost u dokazima ili stručnom konsenzusu i ukupnu korisnost za procjenu performansi modela. Slaganje je u svakoj kategoriji premašilo 96%.

Relevantnost u stvarnom svijetu

Da li ovaj zadatak odražava realan rad u naukama o životu?

U potpunosti se slažem
90.4%
Uglavnom se slažem
98.3%

Naučno rezonovanje / domenska vještina

Da li ovaj zadatak testira i ocjenjuje odgovarajuće naučno rezonovanje i domenske vještine iz nauka o životu?

U potpunosti se slažem
86.4%
Uglavnom se slažem
98.1%

Naučna utemeljenost

Da li je ovaj zadatak naučno utemeljen, rješiv i oslonjen na odgovarajuće dokaze, podatke, artefakte ili stručni konsenzus?

U potpunosti se slažem
77.1%
Uglavnom se slažem
96.5%

Ukupna korisnost

Sveukupno, je li ovo snažan evaluacijski zadatak iz nauka o životu?

U potpunosti se slažem
79.1%
Uglavnom se slažem
96.6%

Komentari recenzenata potvrdili su kvantitativne ocjene:

1 od 3
Sveukupno, to je snažan zadatak jer ima jedno ispravno osnovno tumačenje, a ipak ostavlja prostor da se bolji odgovori razlikuju po tome koliko pažljivo omeđuju neizvjesnost.

Rezultati

Izvještavamo o dvije komplementarne metrike. Stopa prolaznosti je postotak zadataka na kojima model ispunjava prag uspjeha na nivou zadatka od 70%. Rezultat je prosječna nagrada po rubrici, s djelimičnim kreditom za pojedinačne kriterije čak i kada cijeli zadatak nije riješen. Oboje je važno jer odgovor na naučni zadatak može biti djelimično tačan ili koristan, a da ne ispuni sve zahtjeve potpunog odgovora.

Performanse modela znatno se razlikuju prema tipu zadatka, toku rada i formatu odgovora.

Gdje AI sistemi već pokazuju snagu

LifeSciBench pokazuje da su frontier modeli relativno najjači na zadacima naučne sinteze, komunikacije i strukturiranog tumačenja. Apsolutne stope prolaznosti još su skromne, pa ovi domeni mjerila nisu ni blizu zasićenja, ali GPT‑Rosalind pokazuje značajan napredak u odnosu na GPT‑5.5, podižući ukupnu tačnu stopu prolaznosti s 25,7% na 36,1%.

Najizraženiji pravci napretka u sposobnostima modela vide se u Naučnoj komunikaciji i Translaciji. Naprimjer, stopa prolaznosti u Naučnoj komunikaciji raste s 56,3% za GPT‑5.5 na 71,1% za GPT‑Rosalind; kategorija je mala (n=9), pa je treba tumačiti oprezno, ali ukazuje da se frontier modeli brzo poboljšavaju u organiziranju dokaza i izradi uvjerljivih objašnjenja za stručnjake. Translacija ("od klupe do kreveta" u razvoju lijekova) pokazuje sličan obrazac, rastući s 36,8% za GPT‑5.5 na 57,7% za GPT‑Rosalind, što sugeriše da modeli brzo napreduju u povezivanju pretkliničkih dokaza s kliničkim implikacijama.

Rezultati na nivou rubrike upućuju u istom smjeru. Na zadacima koji traže rezultate korisne stručnjacima ili primjenjive u praksi, GPT‑Rosalind postiže 44,7%, u poređenju s 29,1% za GPT‑5.5. Na zadacima koji traže obradu neizvjesnosti i ograda postiže 44,8%, u poređenju s 29,3%. Ovaj obrazac sugeriše da su modeli najkorisniji kada zadatak ima jasne granice dokaza i traži strukturiranu naučnu prosudbu.

GPT‑Rosalind predvodi po performansama na naučno vrijednim zadacima koje su identificirali industrijski i akademski stručnjaci.

GPT‑Rosalind vodi po performansama kroz naučno vrijedne zadatke koje su identificirali industrijski i akademski stručnjaci.

GPT‑Rosalind vodi po performansama kroz naučno vrijedne zadatke koje su identificirali industrijski i akademski stručnjaci.

Gdje AI sistemi još zaostaju

Performanse su mnogo slabije na naučnom radu opterećenom artefaktima, dizajnom i operativnim ograničenjima. Naime, Dizajn, optimizacija i predikcija ostaje jedan od najtežih tokova rada, sa stopom prolaznosti GPT‑Rosalind‑a od 30,7%; Analiza je slično teška, na 30,3%.

Upotreba artefakata posebno je jasan jaz. Iako GPT‑Rosalind nadmašuje GPT‑5.5 u okruženjima s mnogo artefakata, njegova stopa prolaznosti ipak pada s 45,1% na tekstualnim zadacima na 28,1% na zadacima s artefaktima ili URL-ovima. GPT‑5.5 pokazuje isti obrazac, s padom s 29,9% na 21,9%. Detaljnija analiza potvrđuje da frontier modeli teško izdvajaju informacije iz složenih slika ili velikih datoteka sekvenci i ugrađuju ih u konačni odgovor.

Stope prolaznosti padaju kada zadaci traže rezonovanje zasnovano na izvorima ili rad s artefaktima

Važan je i format odgovora. Zadaci koji traže tačne sekvence, strukture ili izlaze na nivou konstrukta imaju niže stope prolaznosti: GPT‑Rosalind doseže samo 14,8% na numeričkim zadacima i 24,0% na izlazima sekvence ili strukture. Zadaci generiranja konstrukata također su krhki, s GPT‑Rosalind‑om na 27,3% i malo napretka u odnosu na GPT‑5.5. Dio tog jaza može odražavati strožiju površinu ocjenjivanja za zadatke s tačnim odgovorom, gdje male razlike u izračunu ili formatu mogu spustiti odgovor ispod praga prolaznosti. Ipak, ti neuspjesi su naučno značajni jer mnogi tokovi rada u naukama o životu traže izlaze dovoljno tačne za direktnu upotrebu, kao u dizajnu donora za CRISPR/HDR ili dizajnu siRNA.

Modeli također često stignu dio puta, ali ne riješe zadatak do kraja. U približno 14% zadataka modeli su ostvarili značajan kredit po rubrici, iako nisu dosegli prag tačne prolaznosti. Za GPT‑Rosalind, 109 zadataka imalo je stope prolaznosti ispod 20%, a ipak su ostvarili najmanje 50% nagrade po rubrici. U praksi to znači da modeli mogu prepoznati relevantne dokaze ili dati uvjerljiv djelimičan odgovor, ali ipak ne uspjeti jer propuste ključno ograničenje, koriste pogrešan dokaz, naprave nepotpun izračun ili ne povežu rezonovanje s naučno korisnom konačnom odlukom.

Ograničenja i šta slijedi

LifeSciBench je korak ka mjerenju korisnosti AI sistema za istraživanja u naukama o životu, ali nije zamjena za proučavanje modela u živim istraživačkim okruženjima. Mjerilo se fokusira na samostalne zadatke koji odražavaju ponavljajuće industrijske tokove rada, dok mnoge naučne specijalnosti i tipovi zadataka ostaju izvan njegovog trenutnog obima. Stvarno istraživanje je iterativno: naučnici prikupljaju nove dokaze, revidiraju hipoteze, osmišljavaju nastavne eksperimente i prilagođavaju planove kako rezultati pristižu.

Snažne performanse na LifeSciBench-u zato treba tumačiti kao dokaz realne sposobnosti na nivou zadatka, a ne kao direktnu mjeru kasnijeg istraživačkog učinka. Mjerilo je utemeljeno u industrijskim tokovima rada, ali ne obuhvata punu raznolikost ni dinamiku živih istraživačkih programa, gdje napredak zavisi od faktora koji se razvijaju tokom vremena.

Sljedeći korak je povezati performanse na mjerilu sa studijama primjene u živim istraživačkim tokovima rada. Iako je LifeSciBench razvijen s praktičarima, mjerenje da li AI sistemi ubrzavaju otkrića ili poboljšavaju R&D ishode zahtijevat će proučavanje upotrebe i performansi modela u stvarnim istraživačkim okruženjima, kroz duže periode i više krugova rezonovanja, povratnih informacija i eksperimentalnog praćenja.

Uključite se

Pomozite oblikovati sljedeću generaciju AI mjerila za nauke o životu ili zatražite pristup GPT-Rosalind-u.

Autor

OpenAI