2026 m. birželio 17 d.

Pristatome LifeSciBench

Ekspertų parašytas ir recenzuotas etalonas, pagrįstas realiais gyvybės mokslų tyrimais

Įkeliama...

Agentinis DI tampa vis pajėgesnis atlikti mokslines užduotis. Tačiau jų nauda gyvybės mokslų tyrėjams priklauso nuo to, kaip gerai jie susitvarko su tikrų tyrimų sudėtingumu. Toks darbas retai primena vieną klausimą faktams prisiminti ar tvarkingą prognozavimo problemą. Tyrėjai interpretuoja neišsamius įrodymus, derina prieštaringus rezultatus, projektuoja sudėtingus eksperimentus, sprendžia tyrimų metodikų problemas, vertina transliacinę riziką ir neapibrėžtumo sąlygomis sprendžia, ką daryti toliau.

Dabartiniai etalonai šių gebėjimų iki galo neaprėpia. Daugelis gyvybės mokslų vertinimų sutelkia dėmesį į siauras sritis arba izoliuotus įgūdžius, todėl klausimai būna struktūruoto formato ir turi aiškius etaloninius atsakymus. Nors jie vertingi, dažnai jie iš tiesų neįvertina, ar modelis gali prisidėti prie platesnio tyrimų lygmens darbo spektro.

LifeSciBench sukūrėme tam, kad padėtume užpildyti šią spragą. Kiekviena užduotis grindžiama praktikuojančių gyvybės mokslų specialistų, turinčių doktorantūros lygio pasirengimą ir tiesioginės patirties plėtojant vaistų atradimo programas biotechnologijų bei farmacijos aplinkoje, vertinimu.

LifeSciBench apima 750 ekspertų parengtų užduočių, aprėpiančių septynias darbo eigas ir septynias biologijos sritis.

1,062

Užduoties artefaktai

173

Mokslininkai bendradarbiai

19,020

Vertinimo kriterijai

453

Ekspertai recenzentai

Ką matuoja LifeSciBench

LifeSciBench matuoja, ar AI sistemos gali padėti atlikti realias gyvybės mokslų tyrimų užduotis, o ne tik atsakyti į biologijos klausimus. Siekdami apibrėžti etalono taksonomiją, apklausėme praktikuojančius gyvybės mokslų specialistus apie darbo eigas, kurias jie dažniausiai naudoja taikomųjų tyrimų aplinkoje. Tada jų atsakymus suskirstėme į septynias pasikartojančias kategorijas: įrodymų tvarkymą, analizę, projektavimą ir optimizavimą, mokslinį protavimą, validavimą ir operacijas, transliaciją bei mokslinę komunikaciją.

Kiekviena užduotis suformuota kaip prašymas, kurį mokslininkas galėtų pateikti kompetentingam bendradarbiui: mokslinė užklausa, bet koks aktualus kontekstas ar artefaktai ir laisvos formos atsakymas. Ekspertų parašytos vertinimo rubrikos vertina, ar modelis gali pateikti teisingą atsakymą į konkrečią problemą, su tinkamu detalumu, pagrindimu, išlygomis ir formatavimu, kurio tikėtųsi mokslininkas.

Duomenų rinkinio sudarymas

LifeSciBench vertina mokslinį protavimą kartu su ne taip aiškiai apibrėžtais praktiniais įgūdžiais, būtinais realiam moksliniam naudojimui. Jo užduotys prašo modelių spręsti realistiškas tyrimų problemas: interpretuoti įrodymus, priimti sritimi pagrįstus sprendimus ir perteikti išvadas, kurios būtų naudingos ekspertams recenzentams. Daugelyje užduočių modeliai taip pat turi tvarkytis su neapibrėžtumu ir protauti remdamiesi pagalbiniais duomenų failais, o ne vien užklausos tekstu.

Etalonas sukurtas taip, kad atspindėtų gyvybės mokslų darbo sudėtingumą. Apskritai 79 % užduočių reikalauja kelių protavimo arba sprendimų priėmimo žingsnių; vidutiniškai vienai užduočiai tenka keturi žingsniai. LifeSciBench apima 1 062 pridėtus artefaktus: paveikslus, PDF failus, lenteles, sekų failus, struktūrų ar cheminių junginių failus ir žiniatinklio nuorodas. Daugiau nei pusei užduočių (53 %) modeliai turi interpretuoti arba susintetinti informaciją bent iš vieno artefakto.

Užduotis sukūrė 173 ekspertai mokslininkai iš skirtingų gyvybės mokslų disciplinų. Kiekvienas mokslininkas turėjo doktorantūros lygio pasirengimą ir patirties biotechnologijų arba farmacijos pramonėje. Prieš priimant užduotis jos galėjo pereiti tiek taisymo ciklų, kiek reikėjo, be nustatytos raundų skaičiaus ribos; priimtos užduotys vidutiniškai praėjo šešis savarankiškus automatizuotos peržiūros ciklus ir bent du ekspertinių peržiūrų raundus. Peržiūros rėmėsi arba patikrinamu teisingu atsakymu, arba tvirtu ekspertų sutarimu, kai atitinkamos srities recenzentų sutarimas siekė bent 90 %. Šis procesas padėjo užtikrinti, kad priimtos užduotys būtų moksliškai pagrįstos, pakankamai aiškios vertinti ir reprezentuotų taikomuosius tyrimus.

Diagrama, rodanti LifeSciBench užduotis, kuriose gyvybės mokslų duomenų šaltiniai, tokie kaip genominės sekos, molekulinės struktūros, paveikslai, dokumentai, skaičiuoklės ir žiniatinklio nuorodos, derinami su kelių žingsnių protavimu ir ekspertų peržiūra.

Vertinimas ir rubrikų suskirstymas

LifeSciBench užduotys vertinamos pagal išsamią, konkrečiai užduočiai pritaikytą rubriką, kuri laukiamą atsakymą suskaido į konkrečius mokslinius teiginius, skaičiavimus, sprendimus, pagrindimus ir pan. Visame etalone ekspertų parengtos rubrikos apima 19 020 kriterijų — vidutiniškai po 25 vienai užduočiai — kad būtų įvertintas tiek mokslinis teisingumas, tiek naudingumas tyrimų sprendimams.

Šis dizainas atspindi, kaip mokslinis darbas vertinamas praktiškai: daugelio gyvybės mokslų užduočių negalima įvertinti tik patikrinus galutinį atsakymą. Atsakymas gali pasiekti teisingą aukšto lygio išvadą, bet vis tiek būti laikomas neišsamiu, jei, pavyzdžiui, praleidžia esminį tyrimo metodikos apribojimą arba proaktyviai nepamini labai reikšmingo biologinio niuanso. Ir atvirkščiai, dalinis atsakymas gali turėti aukštos kokybės protavimo, net jei užduoties iki galo neišsprendžia.

Smulkios rubrikos šį niuansą užfiksuoja. LifeSciBench vertina ne tik galutinio atsakymo tikslumą, bet ir tai, ar modelis prie atsakymo prieina moksliškai pagrįstu ir operaciniu požiūriu naudingu būdu.

Mokslinių įrodymų iš straipsnių, iliustracijų, lentelių ir eksperimentinių įrašų išgavimas, derinimas ir tikrinimas.

Įvertinimo pavyzdys

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Kandidato atsakymas

Esmė: kaip pateikta, šis paketas nėra pakankamai stiprus palaikyti pagreitintam patvirtinimui, remiantis mikrodistrofino raiška kaip pakaitine baigtimi, pagrįstai tikėtina prognozuoti klinikinę naudą. Skeptiškas FDA vertintojas tikriausiai manytų, kad biomarkerio, funkciniai, ilgalaikiškumo, saugumo ir rezultatų pritaikomumo populiacijai įrodymai yra reikšmingai nepakankamai pagrįsti.

Paketo elementas	Pagrindinis nesėkmės režimas	Ko reikėtų
„Western blot“ kiekybinis įvertinimas	MANEX1A jungiasi prie N-galinio epitopo, bendro endogeniniam pilno ilgio distrofinui ir mikrodistrofino transgenui, todėl tyrimas aiškiai neatskiria transgeno nuo likutinio / revertantinio distrofino. 138 kDa mikrodistrofino kiekybinis vertinimas pagal sveiko pilno ilgio distrofino standartą taip pat netinkamas.	Naudokite rekombinantinį mikrodistrofino standartą ir ortogonalinį metodą, kuris atskiria transgeną nuo endogeninio distrofino, pvz., tikslinę masių spektrometriją arba transgenui / epitopui specifinį tyrimą.
Imunofluorescencija	C galui specifinis polikloninis antikūnas prastai tinka, nes 138 kDa konstrukte nėra C-galinio domeno. Daugelis DMD pacientų turi revertantinių skaidulų, o revertantinis distrofinas gali išlaikyti C-galinius epitopus. Revertantinės skaidulos su amžiumi gali kloniškai plėstis, iškraipydamos IF signalą, ypač vyresniems berniukams.	Pakartokite IF su antikūnu prieš epitopą, esantį transgene, bet nesantį revertantiniame distrofine. Atskirai kiekybiškai įvertinkite transgeną ekspresuojančias skaidulas ir revertantines skaidulas.
Pakaitinės baigties galiojimas	Paketas sutapatina baltymo kiekį su klinikine funkcija. „38 % sveikos kontrolės baltymų masės“ nereiškia 38 % normalios distrofino funkcijos, nes mikrodistrofinas struktūriškai sutrumpintas.	Empiriškai validuokite ryšį tarp mikrodistrofino masės procento, sarkoleminės lokalizacijos, paskesnio funkcinio atkūrimo ir klinikinės naudos, prieš laikydami raišką pakaitine baigtimi.
Biopsijos dizainas	Prieš ir po poveikio atliekamos kontralateralinio šoninio plačiojo šlaunies raumens biopsijos sukelia kairės–dešinės ir intraraumeninį erdvinį kintamumą. Ligos progresavimas ir fibrozinis bei riebalinis audinio pavadavimas taip pat gali keisti pagal bendrą baltymą normalizuotą signalą.	Standartizuokite biopsijos vietą naudodami nuoseklius anatominius orientyrus, normalizuokite pagal raumeniui specifinius baltymus ir lygiagrečiai matuokite fibro-riebalinę sudėtį.
NSAA palyginamasis metodas / statistika	Išorinė natūralios eigos kohorta nėra randomizuota tuo pat metu vykdoma kontrolė. Tyrimo tinkamumas, palaikomoji priežiūra, dalyvavimo efektai, pradinė NSAA, steroidų režimas, amžius ir egzono klasė gali iškreipti palyginimą. Neporinių imčių t testas nėra pakankamas. Be to, +1,4 NSAA pokytis patenka į šios amžiaus grupės pakartotinių tyrimų kintamumo ribas.	Atlikite randomizuotą tuo pat metu vykdomą placebu kontroliuojamą tyrimą arba bent jau naudokite pakoreguotas analizes, atsižvelgiančias į pradinę NSAA, amžių, steroidų režimą, egzono klasę ir kitus konfūnderius.
Amžiaus lango klaidinantis poveikis	4–7 metų berniukai yra raidos etape, kuriame negydomi vaikščiojantys DMD pacientai gali įgyti motorinės funkcijos, prieš pradedant vyrauti būklės blogėjimui. 48 savaičių NSAA pokytis sumaišo raidos prieaugį, ligos progresavimą ir galimą gydymo poveikį.	Naudokite tuo pat metu vykdomą randomizuotą kontrolę su stratifikavimu pagal amžių, kad atskirtumėte raidos trajektoriją nuo gydymo poveikio.
Ankstesnis klinikinis precedentas	Atvirųjų tyrimų mikrodistrofino funkciniai signalai nepatikimai prognozavo patvirtinamąją naudą; paskelbti precedentai apima mikrodistrofino genų terapijos patvirtinamuosius tyrimus, kuriems nepavyko atkartoti atvirųjų tyrimų NSAA pagerėjimų.	Nesiremkite atvirųjų tyrimų NSAA pokyčiu kaip lemiamu palaikymu. Reikalaukite kontroliuojamų funkcinių įrodymų.
Konstrukto struktūrinės ribos	138 kDa konstruktas pašalina spektrino pasikartojimus R16/17, kuriuose yra nNOS jungimosi vietos. nNOS įtraukimo praradimas gali sutrikdyti funkcinę simpatolizę ir apsaugą nuo išemijos fizinio krūvio metu, sukurdamas mechanistinę funkcijų atstatymo ribą, nepriklausomą nuo raiškos lygio.	Pridėkite mechanistinius tyrimus, rodančius, ar šis konkretus konstruktas atkuria atitinkamą su distrofinu susijusio komplekso funkciją, nNOS lokalizaciją, fizinio krūvio fiziologiją ir raumenų apsaugą.
AAV ilgalaikiškumas	Vektoriaus genomai po 12 savaičių neįrodo ilgalaikės raiškos. AAV9 genomai daugiausia yra neintegruojančios episomos ir jų kiekis laikui bėgant gali mažėti. Vektoriaus genomo išlikimas nėra tas pats, kas nuolatinė baltymo raiška.	Matuokite ilgalaikę transgeno baltymo raišką ir funkcinio biomarkerio ilgalaikiškumą ilgiau nei 12 savaičių.
Imuninis / saugumo profilis	Transaminazių aktyvumo padidėjimas 8/12 pacientų atitinka imuninį atsaką į AAV transdukuotas ląsteles, bet mechanizmas nenustatytas. Vienas miokardito atvejis kelia susirūpinimą, atsižvelgiant į AAV9 širdies tropizmą.	Užtikrinkite išsamesnę imuninę stebėseną, kepenų / širdies saugumo charakterizavimą ir sustiprintą širdies stebėjimą.
Pacientų atranka / rezultatų pritaikomumas populiacijai	Pacientų, turinčių neutralizuojančių anti-AAV9 antikūnų, neįtraukimas riboja rezultatų pritaikomumą populiacijai. 44 egzono delecijų neįtraukimas riboja taikymą tam DMD pogrupiui. n=12 per maža saugumui ir veiksmingumui platesnėje DMD populiacijoje apibūdinti.	Kur įmanoma, išplėskite tinkamumą arba iš anksto nurodykite stratifikuotas analizes pagal antikūnų statusą, genotipą / egzono klasę, amžių ir pradinę funkciją prieš naudodami rezultatą plačiam patvirtinimui pagrįsti.

Reguliacinė išvada: paketas gali rodyti biologinį aktyvumą, bet dar neįrodo, kad išmatuota mikrodistrofino raiška yra patikimas pakaitinis rodiklis, pagrįstai tikėtinas prognozuoti klinikinę naudą. Pagrindinės spragos yra tyrimo specifiškumas, netinkami kiekybinio vertinimo standartai, galimas revertantinių skaidulų klaidinantis poveikis, randomizuotos kontrolės stoka, su amžiumi susijęs NSAA klaidinantis poveikis, neaiškus ilgalaikiškumas ir neišspręstos saugumo / rezultatų pritaikomumo populiacijai problemos.

Spragai uždaryti programai reikėtų kontroliuojamo, pagal amžių stratifikuoto klinikinio dizaino su transgenui specifiniais raiškos tyrimais, ortogonaliniu baltymų kiekybiniu vertinimu, audinio sudėties kontrolėmis, ilgalaikiais išsilaikymo duomenimis, mechanistiniais funkciniais sutrumpinto konstrukto tyrimais ir stipresne saugumo stebėsena, ypač kepenų ir širdies.

Rubrikos kriterijai ir pažymiai

Kriterijus

Taškai

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench validavimas

LifeSciBench validavome atlikdami nepriklausomą ekspertų peržiūrą. Atsiliepimus pateikė 453 recenzentai, kurie nedalyvavo rašant užduotis. Iš šių recenzentų 97 % turėjo Ph.D. arba lygiavertį daktaro laipsnį, vidutiniškai 12 metų srities patirties ir 14 recenzuotų publikacijų; 88 % nurodė gavę bent vieną apdovanojimą arba stipendiją.

Recenzentai vertino, ar kiekviena užduotis atspindi savybes, reikalingas stipriam etaloniniam klausimui: atitiktį realiam tyrimų darbui, tinkamą mokslinio protavimo ir srities kompetencijos tikrinimą, pagrindimą įrodymais arba ekspertų sutarimu ir bendrą naudingumą vertinant modelių našumą. Visose kategorijose sutarimas viršijo 96 %.

Reikšmė realiame pasaulyje

Ar ši užduotis atspindi realų gyvybės mokslų darbą?

Visiškai sutinku: 90.4%
Iš esmės sutinku: 98.3%

Mokslinis protavimas / srities įgūdis

Ar ši užduotis tikrina ir vertina tinkamus mokslinio protavimo bei gyvybės mokslų srities įgūdžius?

Visiškai sutinku: 86.4%
Iš esmės sutinku: 98.1%

Mokslinis pagrįstumas

Ar ši užduotis yra moksliškai pagrįsta, į ją galima atsakyti ir ji remiasi tinkamais įrodymais, duomenimis, artefaktais arba ekspertų sutarimu?

Visiškai sutinku: 77.1%
Iš esmės sutinku: 96.5%

Bendras naudingumas

Apskritai, ar tai stipri gyvybės mokslų vertinimo užduotis?

Visiškai sutinku: 79.1%
Iš esmės sutinku: 96.6%

Recenzentų komentarai sustiprino kiekybinius įvertinimus:

1 iš 3

“Apskritai tai stipri užduotis, nes ji turi vieną teisingą pagrindinę interpretaciją, tačiau vis tiek leidžia atskirti geresnius atsakymus pagal tai, kaip kruopščiai jie apibrėžia neapibrėžtumą.”

Rezultatai

Pateikiame dvi viena kitą papildančias metrikas. Sėkmės rodiklis yra užduočių procentas, kuriose modelis pasiekia 70 % užduoties lygmens sėkmės slenkstį. Balas yra vidutinis rubrikos atlygis, suteikiantis dalinį kreditą už atskirus kriterijus net tada, kai visa užduotis neišspręsta. Abu svarbūs, nes atsakymas į mokslinę užduotį gali būti iš dalies teisingas arba naudingas, nors ir neatitinka visų išsamaus atsakymo reikalavimų.

Modelių našumas labai skiriasi pagal užduoties tipą, darbo eigą ir atsakymo formatą.

Kur AI sistemos jau rodo stiprybę

LifeSciBench rodo, kad pažangiausi modeliai santykinai stipriausi užduotyse, susijusiose su moksline sinteze, komunikacija ir struktūruota interpretacija. Absoliutūs sėkmės rodikliai vis dar kuklūs, todėl šios etalono sritys dar toli gražu nėra prisotintos, tačiau GPT‑Rosalind rodo reikšmingą pažangą, palyginti su GPT‑5.5: bendras tikslus sėkmės rodiklis pakilo nuo 25,7 % iki 36,1 %.

Ryškiausios modelių gebėjimų pažangos kryptys matomos mokslinės komunikacijos ir transliacijos srityse. Pavyzdžiui, mokslinės komunikacijos sėkmės rodiklis padidėja nuo 56,3 % GPT‑5.5 atveju iki 71,1 % GPT‑Rosalind atveju; ši kategorija maža (n=9), todėl ją reikėtų interpretuoti atsargiai, bet ji rodo, kad pažangiausi modeliai sparčiai gerina gebėjimą organizuoti įrodymus ir rengti įtikinamus ekspertams skirtus paaiškinimus. Transliacija („nuo laboratorinio stendo iki paciento lovos“ vaistų kūrimo procesas) rodo panašų modelį: rodiklis kyla nuo 36,8 % GPT‑5.5 atveju iki 57,7 % GPT‑Rosalind atveju, o tai leidžia manyti, kad modeliai sparčiai gerina gebėjimą susieti ikiklinikinius įrodymus su klinikinėmis pasekmėmis.

Rubrikų lygmens rezultatai rodo tą pačią kryptį. Užduotyse, kuriose reikia ekspertams naudingų arba veiksmingų rezultatų, GPT‑Rosalind surenka 44,7 %, palyginti su 29,1 % GPT‑5.5. Užduotyse, kuriose reikia tvarkytis su neapibrėžtumu ir išlygomis, jis surenka 44,8 %, palyginti su 29,3 %. Šis modelis leidžia manyti, kad modeliai naudingiausi tada, kai užduotis turi aiškias įrodymų ribas ir reikalauja struktūruoto mokslinio sprendimo.

GPT‑Rosalind pirmauja pagal našumą moksliškai vertingose užduotyse, kurias nustatė pramonės ir akademiniai ekspertai.

„GPT‑Rosalind“ pirmauja pagal našumą moksliškai vertingose užduotyse, kurias nustatė pramonės ir akademiniai ekspertai.

Kur AI sistemoms vis dar trūksta pajėgumo

Našumas tebėra gerokai silpnesnis atliekant mokslinį darbą, kuriame daug artefaktų, daug projektavimo ir yra griežtų operacinių apribojimų. Konkrečiai, projektavimas, optimizavimas ir prognozavimas išlieka viena sunkiausių darbo eigų: GPT‑Rosalind sėkmės rodiklis siekia 30,7 %; analizė panašiai sudėtinga — 30,3 %.

Artefaktų naudojimas yra ypač aiški spraga. Nors GPT‑Rosalind aplinkose, kuriose daug artefaktų, veikia geriau nei GPT‑5.5, jo sėkmės rodiklis vis tiek sumažėja nuo 45,1 % tik teksto užduotyse iki 28,1 % užduotyse su artefaktais arba URL. GPT‑5.5 rodo tą patį modelį: rodiklis mažėja nuo 29,9 % iki 21,9 %. Išsamesnė analizė patvirtina, kad pažangiausiems modeliams sunku išgauti informaciją iš sudėtingų paveikslų ar didelių sekų failų ir integruoti tą informaciją į galutinį atsakymą.

Sėkmės rodikliai mažėja, kai užduotims reikia šaltiniais pagrįsto protavimo arba darbo su artefaktais

Atsakymo formatas taip pat svarbus. Užduotys, kurioms reikia tikslių sekos, struktūros arba konstrukto lygmens rezultatų, rodo mažesnius sėkmės rodiklius: GPT‑Rosalind skaitinėse užduotyse pasiekia tik 14,8 %, o sekos arba struktūros rezultatuose — 24,0 %. Konstrukto generavimo užduotys taip pat trapios: GPT‑Rosalind pasiekia 27,3 % ir rodo nedidelį pagerėjimą, palyginti su GPT‑5.5. Dalis šios spragos gali atspindėti griežtesnį tikslaus atsakymo užduočių vertinimo paviršių, kai nedideli skaičiavimo ar formatavimo skirtumai gali nulemti, kad atsakymas nepasieks sėkmės slenksčio. Vis dėlto šios nesėkmės yra moksliškai reikšmingos, nes daugeliui gyvybės mokslų darbo eigų reikia rezultatų, pakankamai tikslių tiesioginiam naudojimui, pavyzdžiui, CRISPR/HDR donoro projektavime arba siRNA projektavime.

Modeliai taip pat dažnai nueina dalį kelio, bet užduoties iki galo neišsprendžia. Maždaug 14 % užduočių modeliai surinko reikšmingą rubrikos kreditą, nors nepasiekė tikslaus sėkmės slenksčio. GPT‑Rosalind atveju 109 užduotys turėjo mažesnius nei 20 % sėkmės rodiklius, bet vis tiek surinko bent 50 % rubrikos atlygio. Praktiškai tai reiškia, kad modeliai gali nustatyti aktualius įrodymus arba pateikti įtikinamą dalinį atsakymą, bet vis tiek nesėkmingai atlikti užduotį, nes praleidžia esminį apribojimą, naudoja netinkamus įrodymus, atlieka neišsamų skaičiavimą arba nesusieja savo protavimo su moksliškai naudingu galutiniu sprendimu.

Apribojimai ir kas toliau

LifeSciBench yra žingsnis link matavimo, kiek AI sistemos gali būti naudingos gyvybės mokslų tyrimams, tačiau jis nepakeičia modelių tyrimo gyvose tyrimų aplinkose. Etalonas sutelktas į savarankiškas užduotis, atspindinčias pasikartojančias pramonės darbo eigas, tačiau daugelis mokslinių specializacijų ir užduočių tipų lieka už dabartinės jo aprėpties ribų. Tikri tyrimai yra iteraciniai: mokslininkai renka naujus įrodymus, peržiūri hipotezes, projektuoja tolesnius eksperimentus ir pritaiko planus, kai atsiranda rezultatų.

Todėl stiprų LifeSciBench rezultatą reikėtų interpretuoti kaip realistiškos užduoties lygmens gebėjimo įrodymą, o ne kaip tiesioginį vėlesnio poveikio tyrimams matą. Etalonas grindžiamas pramonės darbo eigomis, tačiau neužfiksuoja visos gyvų tyrimų programų įvairovės ar dinamikos, kai pažanga priklauso nuo laikui bėgant besiskleidžiančių veiksnių.

Kitas žingsnis — susieti etalono rezultatus su diegimo tyrimais gyvose tyrimų darbo eigose. Nors LifeSciBench buvo kuriamas kartu su praktikuojančiais mokslininkais, norint įvertinti, ar AI sistemos pagreitina atradimus arba pagerina MTP rezultatus, reikės tirti modelių naudojimą ir našumą tikrose tyrimų aplinkose, ilgesniais laikotarpiais ir per kelis protavimo, grįžtamojo ryšio bei eksperimentinio tęsinio raundus.