2026. gada 17. jūnijs

Iepazīstinām ar LifeSciBench

Ekspertu rakstīts un recenzēts etalons, kas balstīts reālā dzīvības zinātņu pētniecībā

Notiek ielāde…

Autonomā MI sistēmas kļūst arvien spējīgākas veikt zinātniskus uzdevumus. Tomēr to lietderība dzīvības zinātņu pētniekiem ir atkarīga no tā, cik labi tās tiek galā ar reālas pētniecības sarežģītību. Šis darbs reti izskatās pēc viena faktu atcerēšanās jautājuma vai skaidras prognozēšanas problēmas. Pētnieki interpretē nepilnīgus pierādījumus, saskaņo pretrunīgus rezultātus, izstrādā sarežģītus eksperimentus, novērš testu problēmas, vērtē translācijas risku un nenoteiktības apstākļos lemj, ko darīt tālāk.

Pašreizējie etaloni šīs spējas pilnībā neaptver. Daudzi dzīvības zinātņu novērtējumi koncentrējas uz šaurām jomām vai izolētām prasmēm, tāpēc jautājumiem ir strukturēti formāti un skaidras atsauces atbildes. Lai gan tie ir vērtīgi, tie bieži vien īsti nenovērtē, vai modelis spēj dot ieguldījumu plašākā pētniecības līmeņa darbā.

Mēs izveidojām LifeSciBench, lai palīdzētu mazināt šo plaisu. Katrs uzdevums balstās praktizējošu dzīvības zinātnieku spriedumā — ar doktora līmeņa sagatavotību un tiešu pieredzi zāļu atklāšanas programmu virzīšanā biotehnoloģiju un farmācijas vidē.

LifeSciBench ietver 750 ekspertu veidotus uzdevumus, kas aptver septiņas darbplūsmas un septiņas bioloģijas jomas.

1,062

Uzdevuma artefakti

173

Zinātnieki līdzautori

19,020

Vērtēšanas rubrikas kritēriji

453

Eksperti recenzenti

Ko mēra LifeSciBench

LifeSciBench mēra, vai AI sistēmas spēj atbalstīt reālistiskus dzīvības zinātņu pētniecības uzdevumus, nevis tikai atbildēt uz bioloģijas jautājumiem. Lai definētu etalona taksonomiju, mēs aptaujājām praktizējošus dzīvības zinātniekus par darbplūsmām, ko viņi visbiežāk izmanto lietišķās pētniecības vidē. Pēc tam mēs sagrupējām viņu atbildes septiņās atkārtotās kategorijās: pierādījumu apstrāde, analīze, dizains un optimizācija, zinātniskā spriestspēja, validācija un operācijas, translācija un zinātniskā komunikācija.

Katrs uzdevums ir strukturēts kā lūgums, ko zinātnieks varētu izteikt zinošam kolēģim: zinātniska uzvedne, jebkāds atbilstošs konteksts vai artefakti un brīvas formas atbilde. Ekspertu rakstītas rubrikas vērtē, vai modelis spēj sniegt pareizo atbildi konkrētai problēmai ar tādu detalizācijas, pamatojuma, atrunu un formatējuma līmeni, kādu sagaidītu zinātnieks.

Datu kopas izveide

LifeSciBench vērtē zinātnisko spriestspēju līdztekus mazāk skaidri definētām praktiskām prasmēm, kas nepieciešamas reālai zinātniskai lietošanai. Tā uzdevumi prasa modeļiem risināt reālistiskas pētniecības problēmas: interpretēt pierādījumus, pieņemt jomā pamatotus spriedumus un komunicēt secinājumus, kas būtu noderīgi ekspertiem recenzentiem. Daudzi uzdevumi arī prasa modeļiem tikt galā ar nenoteiktību un spriest par atbalsta datu failiem, nevis paļauties tikai uz uzvednes tekstu.

Etalons ir veidots tā, lai atspoguļotu dzīvības zinātņu darba sarežģītību. Kopumā 79% uzdevumu prasa vairākus spriestspējas vai lēmumu pieņemšanas soļus, vidēji četrus soļus vienā uzdevumā. LifeSciBench ietver 1 062 pievienotus artefaktus, aptverot attēlus, PDF failus, tabulas, secību failus, struktūru vai ķīmiskos failus un tīmekļa atsauces. Vairāk nekā puse uzdevumu (53%) prasa modeļiem interpretēt vai sintezēt informāciju no vismaz viena artefakta.

Uzdevumus izveidoja 173 eksperti zinātnieki no dažādām dzīvības zinātņu disciplīnām. Katram zinātniekam bija doktora līmeņa sagatavotība un pieredze biotehnoloģiju vai farmācijas nozarē. Pirms pieņemšanas uzdevumiem varēja veikt tik daudz pārskatīšanas ciklu, cik nepieciešams, bez fiksēta raundu skaita ierobežojuma; pieņemtajiem uzdevumiem vidēji bija seši pašvadīti automatizētas pārskatīšanas cikli un vismaz divi ekspertu recenziju raundi. Recenzijas balstījās vai nu pārbaudāmā pareizā atbildē, vai spēcīgā ekspertu konsensā, ar vismaz 90% piekrišanu attiecīgās jomas recenzentu vidū. Šis process palīdzēja nodrošināt, ka pieņemtie uzdevumi ir zinātniski pamatoti, pietiekami skaidri vērtēšanai un reprezentē lietišķo pētniecību.

Diagramma, kurā parādīti LifeSciBench uzdevumi, kas apvieno dzīvības zinātņu datu avotus, piemēram, genoma sekvences, molekulārās struktūras, attēlus, dokumentus, izklājlapas un tīmekļa saites, ar vairāku soļu spriestspēju un ekspertu recenziju.

Vērtēšana un rubriku sadalījums

LifeSciBench uzdevumi tiek vērtēti ar detalizētu, uzdevumam specifisku rubriku, kas sadala sagaidāmo atbildi konkrētos zinātniskos apgalvojumos, aprēķinos, lēmumos, pamatojumos un citos elementos. Visā etalonā ekspertu izstrādātās rubrikas ietver 19 020 kritērijus — vidēji 25 uzdevumam —, lai vērtētu gan zinātnisko pareizību, gan lietderību pētniecības lēmumiem.

Šis dizains atspoguļo to, kā zinātniskais darbs tiek vērtēts praksē: daudzus dzīvības zinātņu uzdevumus nevar novērtēt, pārbaudot tikai gala atbildi. Atbilde var nonākt pie pareiza augsta līmeņa secinājuma, bet tomēr tikt uzskatīta par nepilnīgu, ja, piemēram, tajā palaists garām būtisks testa ierobežojums vai proaktīvi nav izcelta ļoti nozīmīga bioloģiska nianse. Savukārt daļēja atbilde var saturēt augstas kvalitātes spriestspēju pat tad, ja tā uzdevumu pilnībā neatrisina.

Detalizētās rubrikas uztver šo niansi. LifeSciBench vērtē ne tikai gala atbildes precizitāti, bet arī to, vai modelis līdz atbildei nonāk zinātniski derīgā un operacionāli lietderīgā veidā.

Zinātnisko pierādījumu izgūšana, saskaņošana un auditēšana no publikācijām, attēliem, tabulām un eksperimentu ierakstiem.

Novērtējuma piemērs

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Kandidāta atbilde

Galvenais secinājums: Šī pakete, kā iesniegta, nav pietiekami spēcīga, lai atbalstītu paātrinātu apstiprināšanu, balstoties uz mikrodistrofīna ekspresiju kā surogātgalapunktu, kas ar saprātīgu varbūtību prognozē klīnisku ieguvumu. Skeptisks FDA recenzents, visticamāk, uzskatītu, ka biomarķiera, funkcionālie, noturības, drošības un vispārināmības pierādījumi ir būtiski nepietiekami pamatoti.

Paketes elements	Galvenais neveiksmes veids	Kas būtu nepieciešams
Western blot kvantifikācija	MANEX1A saistās ar N-gala epitopu, kas kopīgs endogēnajam pilna garuma distrofīnam un mikrodistrofīna transgēnam, tāpēc tests skaidri neatšķir transgēnu no atlikušā/revertantā distrofīna. Arī 138 kDa mikrodistrofīna kvantificēšana pret veselīgu pilna garuma distrofīna standartu nav derīga.	Izmantojiet rekombinanta mikrodistrofīna standartu un ortogonālu metodi, kas atšķir transgēnu no endogēnā distrofīna, piemēram, mērķētu masas spektrometriju vai transgēnam/epitopam specifisku testu.
Imūnfluorescence	C-gala poliklonālā antiviela ir slikti piemērota, jo 138 kDa konstruktam trūkst C-gala domēna. Daudziem DMD pacientiem ir revertantas šķiedras, un revertantais distrofīns var saglabāt C-gala epitopus. Revertantās šķiedras ar vecumu var klonāli paplašināties, nobīdot IF signālu, īpaši vecākiem zēniem.	Atkārtojiet IF ar antivielu pret epitopu, kas atrodas transgēnā, bet nav revertantajā distrofīnā. Kvantificējiet transgēna pozitīvās šķiedras atsevišķi no revertantajām šķiedrām.
Surogātgalapunkta derīgums	Pakete sapludina olbaltumvielas daudzumu ar klīnisko funkciju. „38% no veselās kontroles olbaltumvielu masas” nenozīmē 38% no normālas distrofīna funkcijas, jo mikrodistrofīns ir strukturāli saīsināts.	Empīriski validējiet saistību starp mikrodistrofīna masas procentu, sarkolemmas lokalizāciju, pakārtotu funkcionālo atjaunošanos un klīnisko ieguvumu, pirms ekspresiju uzskatīt par surogātgalapunktu.
Biopsijas dizains	Pirms un pēc ārstēšanas veiktas pretējās puses vastus lateralis biopsijas ievieš kreisās-labās puses un intramuskulāru telpisko mainīgumu. Slimības progresēšana un fibro-taukainā aizvietošana var mainīt arī pret kopējo olbaltumvielu normalizēto signālu.	Standartizējiet biopsijas vietu ar konsekventiem anatomiskiem orientieriem, normalizējiet pret muskuļiem specifiskām olbaltumvielām un paralēli mēriet fibro-taukaino sastāvu.
NSAA salīdzinātājs/statistika	Ārēja dabiskās vēstures kohorta nav randomizēta vienlaicīga kontrole. Pētījuma atbilstība, atbalstošā aprūpe, dalības efekti, sākotnējais NSAA, steroīdu režīms, vecums un eksonu klase var nobīdīt salīdzinājumu. Nepārots t-tests nav pietiekams. Turklāt +1,4 NSAA izmaiņa šai vecuma grupai ietilpst testa–atkārtota testa mainīgumā.	Veiciet randomizētu vienlaicīgu placebo kontrolētu pētījumu vai vismaz izmantojiet koriģētas analīzes, ņemot vērā sākotnējo NSAA, vecumu, steroīdu režīmu, eksonu klasi un citus jauktājfaktorus.
Vecuma loga jaukšana	Zēni 4–7 gadu vecumā ir attīstības logā, kur neārstētiem ambulatoriem DMD pacientiem motora funkcija var uzlaboties, pirms dominē pasliktināšanās. 48 nedēļu NSAA izmaiņa sajauc attīstības ieguvumu, slimības progresēšanu un iespējamu ārstēšanas efektu.	Izmantojiet vienlaicīgu randomizētu kontroli ar vecuma stratifikāciju, lai atdalītu attīstības trajektoriju no ārstēšanas efekta.
Iepriekšējs klīniskais precedents	Atklāta marķējuma mikrodistrofīna funkcionālie signāli nav droši prognozējuši apstiprinošu ieguvumu; publicētajos precedentos ir mikrodistrofīna gēnu terapijas apstiprinoši pētījumi, kas nespēja reproducēt atklāta marķējuma NSAA uzlabojumus.	Nepaļaujieties uz atklāta marķējuma NSAA izmaiņām kā izšķirošu atbalstu. Pieprasiet kontrolētus funkcionālus pierādījumus.
Konstrukta strukturālie ierobežojumi	138 kDa konstrukts dzēš spektrīna atkārtojumus R16/17, kas satur nNOS saistīšanās vietas. nNOS piesaistes zudums var traucēt funkcionālo simpatolīzi un aizsardzību pret išēmiju slodzes laikā, radot mehānistisku glābšanas griestu neatkarīgi no ekspresijas līmeņa.	Pievienojiet mehānistiskus pētījumus, kas parāda, vai šis konkrētais konstrukts atjauno attiecīgo ar distrofīnu saistītā kompleksa funkciju, nNOS lokalizāciju, slodzes fizioloģiju un muskuļu aizsardzību.
AAV noturība	Vektora genomi 12. nedēļā nepierāda noturīgu ekspresiju. AAV9 genomi lielākoties ir neintegrējošas episomas un laika gaitā var samazināties. Vektora genoma persistēšana nav tas pats, kas pastāvīga olbaltumvielas ekspresija.	Mēriet transgēna olbaltumvielas ekspresiju un funkcionālā biomarķiera noturību garengriezumā pēc 12 nedēļām.
Imūnais/drošības profils	Transaminīts 8/12 pacientiem atbilst imūnreakcijai pret AAV transducētām šūnām, bet mehānisms nav pierādīts. Viens miokardīta gadījums rada bažas, ņemot vērā AAV9 sirds tropismu.	Nodrošiniet dziļāku imūno monitoringu, aknu/sirds drošības raksturojumu un pastiprinātu sirds novērošanu.
Pacientu atlase/vispārināmība	Anti-AAV9 neitralizējošo antivielu pozitīvu pacientu izslēgšana ierobežo vispārināmību. Eksona 44 delēciju izslēgšana ierobežo piemērojamību šai DMD apakšgrupai. n=12 ir pārāk maz, lai raksturotu drošību un efektivitāti plašākā DMD populācijā.	Paplašiniet atbilstību, kur iespējams, vai iepriekš specificējiet stratificētas analīzes pēc antivielu statusa, genotipa/eksona klases, vecuma un sākotnējās funkcijas, pirms rezultātu izmantot plaša apstiprinājuma atbalstam.

Regulatīvais secinājums: Pakete var parādīt bioloģisku aktivitāti, bet tā vēl nepierāda, ka izmērītā mikrodistrofīna ekspresija ir uzticams surogāts, kas ar saprātīgu varbūtību prognozē klīnisku ieguvumu. Galvenās plaisas ir testa specifiskums, nederīgi kvantifikācijas standarti, iespējamā revertanto šķiedru jaukšana, randomizētas kontroles trūkums, ar vecumu saistīta NSAA jaukšana, neskaidra noturība un neatrisināti drošības/vispārināmības jautājumi.

Lai plaisu aizvērtu, programmai būtu nepieciešams kontrolēts, pēc vecuma stratificēts klīnisks dizains ar transgēnam specifiskiem ekspresijas testiem, ortogonālu olbaltumvielu kvantifikāciju, audu sastāva kontrolēm, garengriezuma noturības datiem, mehānistiskiem funkcionāliem testiem saīsinātajam konstruktam un spēcīgāku drošības monitoringu, īpaši aknu un sirds jomā.

Rubrikas kritēriji un novērtējumi

Kritērijs

Punkti

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench validācija

Mēs validējām LifeSciBench ar neatkarīgu ekspertu recenziju. Atsauksmes sniedza 453 recenzenti, kuri nebija iesaistīti uzdevumu rakstīšanā. No šiem recenzentiem 97% bija Ph.D. vai līdzvērtīgs doktora grāds, vidēji 12 gadu pieredze jomā un 14 recenzētas publikācijas; 88% ziņoja, ka saņēmuši vismaz vienu balvu vai stipendiju.

Recenzenti vērtēja, vai katrs uzdevums atspoguļo īpašības, kas nepieciešamas spēcīgam etalona jautājumam: saskaņu ar reālu pētniecības darbu, atbilstošu zinātniskās spriestspējas un jomas kompetences pārbaudi, balstījumu pierādījumos vai ekspertu konsensā un kopējo lietderību modeļa veiktspējas vērtēšanai. Piekrišana katrā kategorijā pārsniedza 96%.

Atbilstība reālajai pasaulei

Vai šis uzdevums atspoguļo reālistisku dzīvības zinātņu darbu reālajā pasaulē?

Pilnīgi piekrītu: 90.4%
Kopumā piekrītu: 98.3%

Zinātniskā spriestspēja / jomas prasme

Vai šis uzdevums pārbauda un vērtē pareizo zinātnisko spriestspēju un dzīvības zinātņu jomas prasmes?

Pilnīgi piekrītu: 86.4%
Kopumā piekrītu: 98.1%

Zinātniskais pamatojums

Vai šis uzdevums ir zinātniski pamatots, atbildams un balstīts atbilstošos pierādījumos, datos, artefaktos vai ekspertu konsensā?

Pilnīgi piekrītu: 77.1%
Kopumā piekrītu: 96.5%

Kopējā lietderība

Vai kopumā šis ir spēcīgs dzīvības zinātņu novērtēšanas uzdevums?

Pilnīgi piekrītu: 79.1%
Kopumā piekrītu: 96.6%

Recenzentu komentāri apstiprināja kvantitatīvos vērtējumus:

1 no 3

“Kopumā tas ir spēcīgs uzdevums, jo tam ir viena pareiza pamata interpretācija, tomēr tas ļauj atšķirt labākas atbildes pēc tā, cik rūpīgi tās ierobežo nenoteiktību.”

Rezultāti

Mēs ziņojam divas savstarpēji papildinošas metrikas. Sekmīgas izpildes rādītājs ir to uzdevumu procentuālā daļa, kuros modelis sasniedz uzdevuma līmeņa panākumu slieksni — 70%. Rezultāts ir vidējā rubrikas atlīdzība, piešķirot daļēju ieskaiti par atsevišķiem kritērijiem pat tad, ja viss uzdevums nav atrisināts. Abas ir svarīgas, jo atbilde uz zinātnisku uzdevumu var būt daļēji pareiza vai noderīga, pat ja tā neatbilst visām pilnīgas atbildes prasībām.

Modeļa veiktspēja būtiski atšķiras atkarībā no uzdevuma veida, darbplūsmas un atbildes formāta.

Kur AI sistēmām jau parādās stiprās puses

LifeSciBench rāda, ka pierobežas modeļi ir relatīvi spēcīgākie uzdevumos, kas ietver zinātnisko sintēzi, komunikāciju un strukturētu interpretāciju. Absolūtie sekmīgas izpildes rādītāji joprojām ir mēreni, tāpēc šīs etalona jomas nebūt nav piesātinātas, taču GPT‑Rosalind rāda nozīmīgu progresu salīdzinājumā ar GPT‑5.5, uzlabojot kopējo precīzās sekmīgās izpildes rādītāju no 25,7% līdz 36,1%.

Spēcīgākie modeļu spēju progresa virzieni parādās zinātniskajā komunikācijā un translācijā. Piemēram, zinātniskās komunikācijas sekmīgas izpildes rādītājs pieaug no 56,3% GPT‑5.5 līdz 71,1% GPT‑Rosalind; šī kategorija ir maza (n=9), tāpēc tā jāinterpretē piesardzīgi, tomēr tas liecina, ka pierobežas modeļi strauji uzlabo spēju organizēt pierādījumus un veidot pārliecinošus skaidrojumus ekspertiem. Translācija (zāļu izstrādes process „no laboratorijas līdz pacienta gultai”) rāda līdzīgu modeli, pieaugot no 36,8% GPT‑5.5 līdz 57,7% GPT‑Rosalind, kas liecina, ka modeļi strauji uzlabo spēju sasaistīt preklīniskos pierādījumus ar klīniskām implikācijām.

Rubriku līmeņa rezultāti norāda tajā pašā virzienā. Uzdevumos, kuros nepieciešami ekspertiem noderīgi vai rīcībā pārvēršami rezultāti, GPT‑Rosalind iegūst 44,7%, salīdzinot ar 29,1% GPT‑5.5. Uzdevumos, kuros jāapstrādā nenoteiktība un atrunas, tas iegūst 44,8%, salīdzinot ar 29,3%. Šis modelis liecina, ka modeļi ir visnoderīgākie tad, ja uzdevumam ir skaidra pierādījumu robeža un tas prasa strukturētu zinātnisku spriedumu.

GPT‑Rosalind ir veiktspējas līderis zinātniski vērtīgos uzdevumos, ko noteikuši nozares un akadēmiskie eksperti.

GPT‑Rosalind ir līderis zinātniski vērtīgos uzdevumos, ko identificējuši nozares un akadēmiskie eksperti.

Kur AI sistēmas joprojām atpaliek

Veiktspēja joprojām ir daudz vājāka zinātniskā darbā, kas ir artefaktu smags, dizaina smags un operacionāli ierobežots. Proti, dizains, optimizācija un prognozēšana joprojām ir viena no grūtākajām darbplūsmām, GPT‑Rosalind sekmīgas izpildes rādītājam sasniedzot 30,7%; analīze ir līdzīgi sarežģīta — 30,3%.

Artefaktu izmantošana ir īpaši skaidra nepilnība. Lai gan GPT‑Rosalind artefaktu ietilpīgos apstākļos darbojas labāk nekā GPT‑5.5, tā sekmīgas izpildes rādītājs joprojām krītas no 45,1% tikai teksta uzdevumos līdz 28,1% uzdevumos ar artefaktiem vai URL. GPT‑5.5 rāda to pašu modeli, krītot no 29,9% līdz 21,9%. Detalizētāka analīze apstiprina, ka pierobežas modeļiem ir grūtības iegūt informāciju no sarežģītiem attēliem vai lieliem secību failiem un integrēt šo informāciju gala atbildē.

Sekmīgas izpildes rādītāji krītas, kad uzdevumos vajadzīga avotos balstīta spriestspēja vai darbs ar artefaktiem

Svarīgs ir arī atbildes formāts. Uzdevumos, kuros nepieciešamas precīzas secības, struktūras vai konstrukta līmeņa atbildes, sekmīgas izpildes rādītāji ir zemāki: GPT‑Rosalind sasniedz tikai 14,8% skaitliskos uzdevumos un 24,0% secību vai struktūru atbildēs. Konstruktu ģenerēšanas uzdevumi arī ir trausli: GPT‑Rosalind sasniedz 27,3% un rāda nelielu uzlabojumu salīdzinājumā ar GPT‑5.5. Daļa šīs plaisas var atspoguļot stingrāku vērtēšanas virsmu uzdevumiem ar precīzu atbildi, kuros nelielas aprēķinu vai formatējuma atšķirības var novest pie tā, ka atbilde nesasniedz sekmīgas izpildes slieksni. Tomēr šīs kļūmes ir zinātniski nozīmīgas, jo daudzās dzīvības zinātņu darbplūsmās nepieciešami rezultāti, kas ir pietiekami precīzi tiešai izmantošanai, piemēram, CRISPR/HDR donoru dizainā vai siRNA dizainā.

Modeļi arī bieži tiek daļu ceļa uz priekšu, bet uzdevumu pilnībā neatrisina. Aptuveni 14% uzdevumu modeļi nopelnīja būtisku rubrikas ieskaiti, lai gan nesasniedza precīzās sekmīgās izpildes slieksni. GPT‑Rosalind gadījumā 109 uzdevumiem sekmīgas izpildes rādītāji bija zem 20%, tomēr tie nopelnīja vismaz 50% rubrikas atlīdzības. Praksē tas nozīmē, ka modeļi var identificēt atbilstošus pierādījumus vai sniegt ticamu daļēju atbildi, bet tomēr izgāzties, jo tie palaiž garām būtisku ierobežojumu, izmanto nepareizos pierādījumus, veic nepilnīgu aprēķinu vai nesaista savu spriestspēju ar zinātniski noderīgu gala lēmumu.

Ierobežojumi un turpmākais

LifeSciBench ir solis ceļā uz to, lai mērītu, cik noderīgas AI sistēmas var būt dzīvības zinātņu pētniecībā, taču tas neaizstāj modeļu izpēti dzīvos pētniecības apstākļos. Etalons koncentrējas uz pašpietiekamiem uzdevumiem, kas atspoguļo atkārtotas nozares darbplūsmas, vienlaikus atstājot daudzas zinātniskās specialitātes un uzdevumu veidus ārpus pašreizējā tvēruma. Reāla pētniecība ir iteratīva: zinātnieki ievāc jaunus pierādījumus, pārskata hipotēzes, izstrādā turpmākus eksperimentus un pielāgo plānus, kad parādās rezultāti.

Tāpēc spēcīga veiktspēja LifeSciBench jāinterpretē kā pierādījums reālistiskai uzdevuma līmeņa spējai, nevis kā tiešs pakārtotās ietekmes uz pētniecību mērījums. Etalons balstās nozares darbplūsmās, taču tas neaptver visu dzīvu pētniecības programmu daudzveidību vai dinamiku, kur progress ir atkarīgs no faktoriem, kas izvēršas laika gaitā.

Nākamais solis ir sasaistīt etalona veiktspēju ar ieviešanas pētījumiem dzīvajās pētniecības darbplūsmās. Lai gan LifeSciBench tika izstrādāts kopā ar praktizējošiem zinātniekiem, lai izmērītu, vai AI sistēmas paātrina atklājumus vai uzlabo pētniecības un izstrādes rezultātus, būs jāpēta modeļu izmantošana un veiktspēja reālā pētniecības vidē, ilgākā laika horizontā un vairākos spriestspējas, atgriezeniskās saites un eksperimentālas turpināšanas raundos.