17 հունիսի, 2026 թ.

Ներկայացնում ենք LifeSciBench-ը

Փորձագետների գրած և գրախոսած բենչմարք՝ հիմնված կենսագիտության իրական հետազոտության վրա

Բեռնվում է…

Գործուն ԱԲ համակարգերը գնալով ավելի լավ են կատարում գիտական առաջադրանքներ։ Սակայն կենսագետների համար դրանց արժեքը կախված է իրական հետազոտության բարդությունը հաղթահարելուց։ Այդ աշխատանքը հազվադեպ է մեկ փաստ հիշելու հարց կամ պարզ կանխատեսում։ Հետազոտողները մեկնաբանում են թերի ապացույցներ, հաշտեցնում հակասական արդյունքներ, նախագծում բարդ փորձեր, շտկում անալիզները, գնահատում տրանսլյացիոն ռիսկը և անորոշության մեջ որոշում հաջորդ քայլը։

Ներկայիս բենչմարքները այս կարողությունները լիովին չեն չափում։ Կենսագիտության շատ գնահատումներ նեղ ոլորտներ կամ առանձին հմտություններ են ստուգում, ուստի ունեն կառուցվածքային հարցեր և մաքուր հղումային պատասխաններ։ Դրանք արժեքավոր են, բայց հաճախ չեն պարզում՝ կարող է արդյոք մոդելը օգնել հետազոտական աշխատանքի լայն շրջանակում։

LifeSciBench-ը ստեղծեցինք այս բացը լրացնելու համար։ Յուրաքանչյուր առաջադրանք հիմնված է Ph.D. մակարդակի գործող կենսագետների դատողության վրա, որոնք դեղերի հայտնաբերման փորձ ունեն բիոտեխում և դեղագործությունում։

LifeSciBench-ը ներառում է փորձագետների գրած 750 առաջադրանք՝ յոթ workflow-ում և յոթ կենսաբանական ոլորտում։

1,062

Առաջադրանքի արտիֆակտներ

173

Գիտնական մասնակիցներ

19,020

Գնահատման ռուբրիկայի չափանիշներ

453

Փորձագետ գրախոսներ

Ինչ է չափում LifeSciBench-ը

LifeSciBench-ը չափում է՝ կարող են արդյոք AI համակարգերը աջակցել կենսագիտության իրատեսական հետազոտությանը, ոչ միայն պատասխանել կենսաբանության հարցերին։ Տաքսոնոմիան սահմանելու համար գործող կենսագետներին հարցրինք, թե կիրառական հետազոտությունում որ workflow-ներն են առավել հաճախ օգտագործում։ Պատասխանները խմբավորեցինք յոթ կատեգորիայում՝ ապացույցների մշակում, վերլուծություն, նախագծում և օպտիմալացում, գիտական հիմնավորում, վավերացում և գործառնություններ, տրանսլացիա, գիտական հաղորդակցություն։

Յուրաքանչյուր առաջադրանք նման է բանիմաց գործընկերոջն ուղղված խնդրանքի՝ գիտական հարցում, անհրաժեշտ համատեքստ կամ նյութեր և ազատ պատասխան։ Փորձագիտական ռուբրիկաները ստուգում են՝ տալիս է արդյոք մոդելը տվյալ խնդրի ճիշտ պատասխանը՝ սպասված մանրամասնությամբ, հիմնավորմամբ, վերապահումներով և ձևաչափով։

Տվյալակազմի կառուցում

LifeSciBench-ը գիտական հիմնավորումը գնահատում է նաև իրական կիրառման համար պետքական, պակաս հստակ գործնական հմտությունների հետ։ Առաջադրանքները մոդելներից պահանջում են լուծել իրատեսական խնդիրներ՝ մեկնաբանել ապացույցներ, անել ոլորտային դատողություններ և փորձագետներին օգտակար եզրակացություններ ներկայացնել։ Շատ առաջադրանքներ նաև պահանջում են աշխատել անորոշության հետ և հիմնվել կից տվյալների ֆայլերի, ոչ միայն հարցման տեքստի վրա։

Բենչմարքը արտացոլում է կենսագիտական աշխատանքի բարդությունը։ Ընդհանուր՝ առաջադրանքների 79%-ը պահանջում է հիմնավորման կամ որոշման մի քանի քայլ, միջինը՝ չորս քայլ։ LifeSciBench-ն ունի 1,062 կցված նյութ՝ նկարներ, PDF-ներ, աղյուսակներ, հաջորդականության, կառուցվածքային կամ քիմիական ֆայլեր և վեբ հղումներ։ Առաջադրանքների ավելի քան կեսը (53%) պահանջում է առնվազն մեկ նյութից տեղեկություն մեկնաբանել կամ համադրել։

Առաջադրանքները ստեղծել են կենսագիտության տարբեր ուղղությունների 173 փորձագետ գիտնականներ։ Յուրաքանչյուրն ուներ Ph.D. մակարդակի պատրաստվածություն և բիոտեխի կամ դեղարդյունաբերության փորձ։ Ընդունումից առաջ առաջադրանքները կարող էին անցնել անսահմանափակ վերանայումներ. ընդունվածները միջինը անցել են վեց ավտոմատ ինքնավերանայում և առնվազն երկու փորձագիտական փուլ։ Գրախոսումը հիմնվում էր ստուգելի ճիշտ պատասխանի կամ ուժեղ կոնսենսուսի վրա՝ համապատասխան ոլորտի գրախոսների առնվազն 90% համաձայնությամբ։ Այս գործընթացը ապահովեց, որ ընդունված առաջադրանքները լինեն գիտականորեն հիմնավոր, գնահատելի և կիրառական հետազոտությանը համապատասխան։

Գծապատկեր, որը ցույց է տալիս LifeSciBench-ի առաջադրանքներ, որոնք համատեղում են կենսանբանական գիտությունների տվյալների աղբյուրներ՝ գենոմային հաջորդականություններ, մոլեկուլային կառուցվածքներ, նկարներ, փաստաթղթեր, աղյուսակներ և վեբ հղումներ, բազմաքայլ հիմնավորման և փորձագիտական գրախոսման հետ։

Գնահատում և ռուբրիկա

LifeSciBench-ի առաջադրանքները գնահատվում են մանրամասն, տվյալ առաջադրանքին հատուկ ռուբրիկայով, որը պատասխանը բաժանում է պնդումների, հաշվարկների, որոշումների, հիմնավորումների և այլ չափանիշների։ Բենչմարքի ռուբրիկաները ներառում են 19,020 չափանիշ՝ միջինը 25 յուրաքանչյուր առաջադրանքի համար, և գնահատում են թե՛ գիտական ճշտությունը, թե՛ որոշումների օգտակարությունը։

Այս մոտեցումը նման է իրական գիտական գնահատմանը. շատ կենսագիտական առաջադրանքներ միայն վերջնական պատասխանով չեն ստուգվում։ Պատասխանը կարող է ճիշտ ընդհանուր եզրակացության գալ, բայց թերի համարվել, եթե անտեսում է կարևոր անալիզային սահմանափակում կամ կենսաբանական էական նրբություն։ Հակառակը՝ մասնակի պատասխանը կարող է լավ հիմնավորում ունենալ, թեև խնդիրը լիովին չլուծի։

Մանր ռուբրիկաները որսում են այս նրբությունը։ LifeSciBench-ը գնահատում է ոչ միայն վերջնական ճշտությունը, այլև՝ հասնում է արդյոք մոդելը պատասխանին գիտականորեն վավեր և գործնականորեն օգտակար ձևով։

Գիտական ապացույցների քաղում, համադրում և աուդիտ հոդվածներից, նկարներից, աղյուսակներից և փորձարարական գրառումներից։

Գնահատման օրինակ

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Թեկնածուի պատասխանը

Եզրակացություն. Ներկայացված տեսքով այս փաթեթը բավարար ուժեղ չէ՝ աջակցելու արագացված հաստատումը միկրո-դիստրոֆինի արտահայտման հիման վրա որպես փոխնակ վերջնակետ, որը ողջամտորեն հավանական է կանխատեսի կլինիկական օգուտ։ Սկեպտիկ FDA վերանայողը, հավանաբար, կենսամարկերի, ֆունկցիոնալ, դիմացկունության, անվտանգության և ընդհանրացվելիության ապացույցները կհամարեր էապես անբավարար աջակցված։

Փաթեթի տարր	Հիմնական ձախողման ռեժիմ	Ինչ է անհրաժեշտ
Western blot քանակավորում	MANEX1A-ն կապում է N-ծայրային էպիտոպ, որը ընդհանուր է էնդոգեն ամբողջական դիստրոֆինի և միկրո-դիստրոֆին տրանսգենի համար, ուստի անալիզը մաքուր կերպով չի տարբերակում տրանսգենը մնացորդային/ռևերտանտ դիստրոֆինից։ 138 kDa միկրո-դիստրոֆինի քանակավորումը առողջ ամբողջական դիստրոֆինի ստանդարտի նկատմամբ նույնպես անվավեր է։	Օգտագործեք ռեկոմբինանտ միկրո-դիստրոֆինի ստանդարտ և օրթոգոնալ մեթոդ, որը տարբերակում է տրանսգենը էնդոգեն դիստրոֆինից, օրինակ՝ թիրախավորված զանգվածային սպեկտրոմետրիա կամ տրանսգեն-սպեցիֆիկ/էպիտոպ-սպեցիֆիկ անալիզ։
Իմունոֆլուորեսցենցիա	C-ծայրային պոլիկլոնալ հակամարմինը վատ է համապատասխանում, քանի որ 138 kDa կոնստրուկտը չունի C-ծայրային դոմեն։ Շատ DMD հիվանդներ ունեն ռևերտանտ թելեր, իսկ ռևերտանտ դիստրոֆինը կարող է պահպանել C-ծայրային էպիտոպներ։ Ռևերտանտ թելերը կարող են տարիքի հետ կլոնալորեն ընդարձակվել՝ շեղելով IF ազդանշանը, հատկապես ավելի մեծ տղաների մոտ։	Կրկնեք IF-ը հակամարմնով այն էպիտոպի դեմ, որը առկա է տրանսգենում, բայց բացակայում է ռևերտանտ դիստրոֆինում։ Քանակավորեք տրանսգեն-դրական թելերը ռևերտանտ թելերից առանձին։
Փոխնակ վերջնակետի վավերություն	Փաթեթը խառնում է սպիտակուցի քանակը կլինիկական ֆունկցիայի հետ։ «Առողջ հսկիչ սպիտակուցային զանգվածի 38%»-ը չի նշանակում նորմալ դիստրոֆինի ֆունկցիայի 38%, քանի որ միկրո-դիստրոֆինը կառուցվածքով կրճատված է։	Էմպիրիկորեն վավերացրեք կապը միկրո-դիստրոֆինի զանգվածային տոկոսի, սարկոլեմալ տեղակայման, ներքևային ֆունկցիոնալ վերականգնման և կլինիկական օգուտի միջև՝ նախքան արտահայտումը որպես փոխնակ վերջնակետ դիտարկելը։
Բիոպսիայի դիզայն	Բուժումից առաջ և հետո հակակողմնային vastus lateralis բիոպսիաները ներմուծում են ձախ-աջ և ներմկանային տարածական փոփոխականություն։ Հիվանդության առաջընթացը և ֆիբրո-ճարպային փոխարինումը կարող են նաև փոխել ընդհանուր սպիտակուցով նորմալացված ազդանշանը։	Ստանդարտացրեք բիոպսիայի տեղը՝ օգտագործելով հետևողական անատոմիական կողմնորոշիչներ, նորմալացրեք մկան-սպեցիֆիկ սպիտակուցներով և զուգահեռ չափեք ֆիբրո-ճարպային կազմը։
NSAA համեմատիչ/վիճակագրություն	Արտաքին բնական պատմության կոհորտը պատահականացված համաժամանակյա հսկիչ չէ։ Փորձարկման իրավասությունը, աջակցող խնամքը, մասնակցության ազդեցությունները, սկզբնական NSAA-ն, ստերոիդային ռեժիմը, տարիքը և էքսոնի դասը կարող են բոլորը շեղել համեմատությունը։ Չզույգված t-թեստը բավարար չէ։ Բացի այդ, +1.4 NSAA փոփոխությունը այս տարիքային խմբի համար թեստ-վերաթեստ փոփոխականության սահմաններում է։	Կատարեք պատահականացված համաժամանակյա պլացեբո-վերահսկվող ուսումնասիրություն կամ առնվազն օգտագործեք ճշգրտված վերլուծություններ՝ հաշվի առնելով սկզբնական NSAA-ն, տարիքը, ստերոիդային ռեժիմը, էքսոնի դասը և այլ խառնիչ գործոններ։
Տարիքային պատուհանի խառնում	4–7 տարեկան տղաները զարգացման պատուհանում են, որտեղ չբուժված քայլող DMD հիվանդները կարող են ձեռք բերել շարժողական ֆունկցիա, նախքան անկումը գերակշռի։ 48-շաբաթյա NSAA փոփոխությունը խառնում է զարգացման աճը, հիվանդության առաջընթացը և հնարավոր բուժման ազդեցությունը։	Օգտագործեք համաժամանակյա պատահականացված հսկիչ՝ տարիքային շերտավորմամբ, որպեսզի առանձնացնեք զարգացման հետագիծը բուժման ազդեցությունից։
Նախորդ կլինիկական նախադեպ	Բաց պիտակով միկրո-դիստրոֆինի ֆունկցիոնալ ազդանշանները հուսալիորեն չեն կանխատեսել հաստատող օգուտը. հրապարակված նախադեպը ներառում է միկրո-դիստրոֆինի գենային թերապիայի հաստատող փորձարկումներ, որոնք չեն վերարտադրել բաց պիտակով NSAA բարելավումները։	Մի ապավինեք բաց պիտակով NSAA փոփոխությանը որպես վճռորոշ աջակցություն։ Պահանջեք վերահսկվող ֆունկցիոնալ ապացույցներ։
Կոնստրուկտի կառուցվածքային սահմանափակումներ	138 kDa կոնստրուկտը ջնջում է spectrin կրկնությունները R16/17, որոնք պարունակում են nNOS կապման տեղեր։ nNOS-ի հավաքագրման կորուստը կարող է խաթարել ֆունկցիոնալ սիմպաթոլիզը և իշեմիայից պաշտպանությունը վարժության ժամանակ՝ ստեղծելով փրկման մեխանիստական առաստաղ՝ անկախ արտահայտման մակարդակից։	Ավելացրեք մեխանիստական ուսումնասիրություններ, որոնք ցույց են տալիս՝ արդյոք այս կոնկրետ կոնստրուկտը վերականգնում է համապատասխան դիստրոֆին-կապված համալիրի ֆունկցիան, nNOS տեղակայումը, վարժության ֆիզիոլոգիան և մկանային պաշտպանությունը։
AAV դիմացկունություն	Վեկտորային գենոմները 12 շաբաթում չեն հաստատում դիմացկուն արտահայտում։ AAV9 գենոմները հիմնականում ոչ ինտեգրվող էպիսոմներ են և ժամանակի ընթացքում կարող են նվազել։ Վեկտոր-գենոմի պահպանությունը նույնը չէ, ինչ սպիտակուցի կայուն արտահայտությունը։	Չափեք տրանսգեն սպիտակուցի երկայնական արտահայտումը և ֆունկցիոնալ կենսամարկերի դիմացկունությունը 12 շաբաթից հետո։
Իմունային/անվտանգության պրոֆիլ	Տրանսամինիտը 8/12 հիվանդների մոտ համահունչ է AAV-տրանսդուկցված բջիջների նկատմամբ իմունային պատասխանին, բայց մեխանիզմը հաստատված չէ։ Միոկարդիտի մեկ դեպքը մտահոգիչ է՝ հաշվի առնելով AAV9-ի սրտային տրոպիզմը։	Տրամադրեք ավելի խորը իմունային մոնիթորինգ, լյարդի/սրտի անվտանգության բնութագրում և ուժեղացված սրտային հետևում։
Հիվանդների ընտրություն/ընդհանրացվելիություն	Հակա-AAV9 չեզոքացնող հակամարմին-դրական հիվանդների բացառումը սահմանափակում է ընդհանրացվելիությունը։ Էքսոն-44 ջնջումներով հիվանդների բացառումը սահմանափակում է կիրառելիությունը DMD-ի այդ ենթախմբի համար։ n=12-ը չափազանց փոքր է՝ ավելի լայն DMD պոպուլյացիայում անվտանգությունն ու արդյունավետությունը բնութագրելու համար։	Հնարավորության դեպքում ընդլայնեք իրավասությունը կամ նախապես սահմանեք շերտավորված վերլուծություններ ըստ հակամարմնային կարգավիճակի, գենոտիպի/էքսոնի դասի, տարիքի և սկզբնական ֆունկցիայի՝ նախքան արդյունքը լայն հաստատման համար օգտագործելը։

Կարգավորող եզրակացություն. Փաթեթը կարող է ցույց տալ կենսաբանական ակտիվություն, բայց դեռ չի հաստատում, որ չափված միկրո-դիստրոֆինի արտահայտումը հուսալի փոխնակ է, որը ողջամտորեն հավանական է կանխատեսի կլինիկական օգուտ։ Հիմնական բացերն են անալիզի սպեցիֆիկությունը, անվավեր քանակավորման ստանդարտները, ռևերտանտ թելերի հնարավոր խառնող ազդեցությունը, պատահականացված հսկիչի բացակայությունը, տարիքային NSAA խառնումը, անորոշ դիմացկունությունը և չլուծված անվտանգության/ընդհանրացվելիության խնդիրները։

Բացը փակելու համար ծրագրին պետք է վերահսկվող, տարիքով շերտավորված կլինիկական դիզայն՝ տրանսգեն-սպեցիֆիկ արտահայտման անալիզներով, օրթոգոնալ սպիտակուցային քանակավորմամբ, հյուսվածքային կազմի վերահսկումներով, երկայնական դիմացկունության տվյալներով, կրճատված կոնստրուկտի մեխանիստական ֆունկցիոնալ անալիզներով և ավելի ուժեղ անվտանգության մոնիթորինգով, հատկապես լյարդային և սրտային։

Ցուցանիշների չափանիշներ և գնահատականներ

Չափանիշ

Միավորներ

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench-ի վավերացում

LifeSciBench-ը վավերացրինք անկախ փորձագիտական գրախոսմամբ։ Կարծիք տվեցին 453 գրախոսներ, որոնք առաջադրանքների հեղինակներ չէին։ Նրանց 97%-ն ուներ Ph.D. կամ համարժեք դոկտորական աստիճան, միջինը՝ 12 տարվա փորձ և 14 գրախոսվող հոդված. 88%-ը նշել էր առնվազն մեկ մրցանակ կամ fellowship։

Գրախոսները գնահատեցին՝ արդյոք առաջադրանքը համապատասխանում է ուժեղ բենչմարքի պահանջներին՝ իրական հետազոտության հետ կապ, գիտական հիմնավորման և ոլորտային փորձի ստուգում, ապացույցների կամ կոնսենսուսի հիմք և մոդելի կատարողականը չափելու օգտակարություն։ Բոլոր կատեգորիաներում համաձայնությունը գերազանցեց 96%-ը։

Իրական կյանքի կիրառելիություն

Արդյո՞ք այս առաջադրանքն արտացոլում է կենսաբանական գիտությունների ոլորտում իրական աշխատանքային պրակտիկան։

Լիովին համաձայն եմ: 90.4%
Ընդհանուր առմամբ համաձայն եմ: 98.3%

Գիտական հիմնավորում / ոլորտային հմտություն

Արդյո՞ք այս առաջադրանքը պատշաճ կերպով ստուգում և գնահատում է գիտական հիմնավորումների և կենսաբանական գիտությունների ոլորտային հմտությունները։

Լիովին համաձայն եմ: 86.4%
Ընդհանուր առմամբ համաձայն եմ: 98.1%

Գիտական հիմնավորվածություն

Արդյո՞ք այս առաջադրանքը գիտականորեն հիմնավորված է, պատասխանելի և խարսխված համապատասխան ապացույցների, տվյալների, արտիֆակտների կամ փորձագիտական կոնսենսուսի վրա։

Լիովին համաձայն եմ: 77.1%
Ընդհանուր առմամբ համաձայն եմ: 96.5%

Ընդհանուր օգտակարություն

Ընդհանուր առմամբ, արդյո՞ք սա կենսաբանական գիտությունների ոլորտի արդյունավետ գնահատման առաջադրանք է։

Լիովին համաձայն եմ: 79.1%
Ընդհանուր առմամբ համաձայն եմ: 96.6%

Գրախոսների մեկնաբանությունները հաստատեցին քանակական գնահատականները.

1 -ը 3-ից

“Ընդհանուր առմամբ, սա ուժեղ առաջադրանք է, քանի որ այն ենթադրում է մեկ ճիշտ հիմնական մեկնաբանություն՝ միաժամանակ հնարավորություն տալով տարբերակել ավելի որակյալ պատասխանները՝ ըստ այն բանի, թե որքան զգուշորեն և հիմնավորված են դրանցում սահմանազատված անորոշությունները։”

Արդյունքներ

Ներկայացնում ենք երկու փոխլրացնող չափանիշ։ Անցողիկությունը այն առաջադրանքների տոկոսն է, որտեղ մոդելը հասնում է 70% հաջողության շեմին։ Միավորը ռուբրիկայի միջին պարգևն է՝ մասնակի կրեդիտ տալով առանձին չափանիշների համար, նույնիսկ երբ առաջադրանքը լիովին լուծված չէ։ Երկուսն էլ կարևոր են, քանի որ գիտական պատասխանը կարող է մասնակի ճիշտ կամ օգտակար լինել՝ առանց բոլոր պահանջները կատարելու։

Մոդելի կատարողականը զգալիորեն փոխվում է ըստ առաջադրանքի տեսակի, workflow-ի և պատասխանի ձևաչափի։

Որտեղ AI համակարգերը արդեն ուժեղ են

LifeSciBench-ը ցույց է տալիս, որ frontier մոդելներն առավել ուժեղ են գիտական համադրման, հաղորդակցության և կառուցվածքային մեկնաբանության մեջ։ Անցողիկության բացարձակ ցուցանիշները դեռ համեստ են, բայց GPT‑Rosalind‑ը GPT‑5.5‑ի համեմատ առաջընթաց ունի՝ ընդհանուր ճշգրիտ անցողիկությունը 25.7%-ից հասցնելով 36.1%-ի։

Ամենամեծ առաջընթացը երևում է գիտական հաղորդակցության և տրանսլացիայի մեջ։ Օրինակ՝ գիտական հաղորդակցության անցողիկությունը GPT‑5.5‑ի 56.3%-ից հասնում է 71.1%-ի GPT‑Rosalind‑ի համար։ Կատեգորիան փոքր է (n=9), ուստի պետք է զգույշ մեկնաբանել, բայց այն հուշում է, որ frontier մոդելներն արագ են բարելավում ապացույցներ կազմակերպելու և փորձագետներին համոզիչ բացատրություններ տալու կարողությունը։ Տրանսլացիան՝ դեղերի մշակման «լաբորատորիայից կլինիկա» գործընթացը, նույն պատկերն ունի՝ GPT‑5.5‑ի 36.8%-ից հասնելով 57.7%-ի GPT‑Rosalind‑ի համար։ Սա հուշում է, որ մոդելներն արագ ավելի լավ են կապում նախակլինիկական ապացույցները կլինիկական հետևանքների հետ։

Ռուբրիկայի մակարդակի արդյունքներն էլ նույնն են ցույց տալիս։ Փորձագետին օգտակար կամ գործողելի արդյունք պահանջող առաջադրանքներում GPT‑Rosalind‑ը ստանում է 44.7%, իսկ GPT‑5.5‑ը՝ 29.1%։ Անորոշություն և վերապահումներ մշակող առաջադրանքներում այն ստանում է 44.8%, համեմատ՝ 29.3%։ Այս պատկերը հուշում է, որ մոդելներն առավել օգտակար են, երբ ապացույցների սահմանը հստակ է, իսկ խնդիրը պահանջում է կառուցվածքային գիտական դատողություն։

GPT‑Rosalind‑ը առաջատար է արդյունաբերության և ակադեմիական փորձագետների կողմից որպես գիտականորեն արժեքավոր ճանաչված առաջադրանքներում։

GPT‑Rosalind‑ը առաջատար արդյունավետություն է ցույց տալիս ոլորտի և ակադեմիական փորձագետների կողմից բացահայտված գիտականորեն արժեքավոր առաջադրանքներում։

Որտեղ AI համակարգերը դեռ թերանում են

Կատարողականը շատ թույլ է նյութերով ծանր, նախագծում պահանջող և գործառնական սահմանափակումներով գիտական աշխատանքում։ Մասնավորապես, նախագծում, օպտիմալացում և կանխատեսում workflow-ը մնում է ամենադժվարներից՝ GPT‑Rosalind‑ի 30.7% անցողիկությամբ. վերլուծությունն էլ դժվար է՝ 30.3%։

Նյութերի օգտագործումը հատկապես հստակ բաց է։ Թեև GPT‑Rosalind‑ը նյութերով հարուստ միջավայրերում գերազանցում է GPT‑5.5‑ին, նրա անցողիկությունը տեքստային առաջադրանքների 45.1%-ից իջնում է 28.1%-ի՝ նյութերով կամ URL-ներով առաջադրանքներում։ GPT‑5.5‑ի մոտ նույն պատկերն է՝ 29.9%-ից իջնելով 21.9%-ի։ Ավելի մանր վերլուծությունը հաստատում է, որ frontier մոդելները դժվարանում են բարդ նկարներից կամ մեծ հաջորդականության ֆայլերից տեղեկություն հանել և ներառել վերջնական պատասխանում։

Անցողիկության ցուցանիշները նվազում են, երբ առաջադրանքները պահանջում են աղբյուրահեն հիմնավորում կամ աշխատանք արտիֆակտների հետ

Պատասխանի ձևաչափը նույնպես կարևոր է։ Ճշգրիտ հաջորդականություն, կառուցվածք կամ կոնստրուկտ պահանջող առաջադրանքներն ավելի ցածր անցողիկություն ունեն. GPT‑Rosalind‑ը թվային առաջադրանքներում հասնում է միայն 14.8%-ի, իսկ հաջորդականության կամ կառուցվածքի արդյունքներում՝ 24.0%-ի։ Կոնստրուկտների ստեղծումն էլ փխրուն է՝ GPT‑Rosalind‑ի 27.3% ցուցանիշով և GPT‑5.5‑ի համեմատ փոքր բարելավմամբ։ Բացի մի մասը կարող է լինել ճշգրիտ պատասխանների խիստ գնահատումից, որտեղ հաշվարկի կամ ձևաչափի փոքր տարբերությունը կարող է պատասխանը թողնել շեմից ցածր։ Այդուհանդերձ, այս ձախողումները գիտականորեն կարևոր են, քանի որ շատ workflow-ներ պահանջում են անմիջապես կիրառելի ճշգրտություն, օրինակ՝ CRISPR/HDR դոնորի կամ siRNA-ի նախագծում։

Մոդելները հաճախ նաև մոտենում են լուծմանը, բայց լիովին չեն լուծում առաջադրանքը։ Առաջադրանքների մոտ 14%-ում մոդելները ստացել են ռուբրիկայի զգալի կրեդիտ, թեև չեն անցել ճշգրիտ շեմը։ GPT‑Rosalind‑ի դեպքում 109 առաջադրանքի անցողիկությունը 20%-ից ցածր էր, բայց ռուբրիկայի պարգևը՝ առնվազն 50%։ Գործնականում մոդելները կարող են գտնել ճիշտ ապացույցներ կամ տալ հավանական մասնակի պատասխան, բայց ձախողվել՝ բաց թողնելով հիմնական սահմանափակում, օգտագործելով սխալ ապացույց, թերի հաշվարկ անելով կամ հիմնավորումը չկապելով գիտականորեն օգտակար վերջնական որոշման հետ։

Սահմանափակումներ և հաջորդ քայլեր

LifeSciBench-ը քայլ է՝ չափելու, թե որքան օգտակար կարող են լինել AI համակարգերը կենսագիտության համար, բայց չի փոխարինում կենդանի հետազոտական միջավայրերում մոդելների ուսումնասիրությանը։ Բենչմարքը կենտրոնանում է ինքնաբավ առաջադրանքների վրա, որոնք արտացոլում են կրկնվող արդյունաբերական workflow-ներ, բայց ներկայում դուրս է թողնում շատ մասնագիտություններ և առաջադրանքի տեսակներ։ Իրական հետազոտությունը կրկնվող է. գիտնականները հավաքում են նոր ապացույցներ, վերանայում վարկածները, նախագծում հաջորդ փորձերը և արդյունքներին զուգահեռ փոխում պլանները։

Ուստի LifeSciBench-ում ուժեղ կատարողականը պետք է դիտել որպես իրատեսական առաջադրանքի մակարդակի կարողության ապացույց, ոչ թե հետազոտական ազդեցության ուղիղ չափում։ Բենչմարքը հիմնված է արդյունաբերական workflow-ների վրա, բայց չի ընդգրկում կենդանի հետազոտական ծրագրերի ամբողջ բազմազանությունն ու դինամիկան, որտեղ առաջընթացը ձևավորվում է ժամանակի ընթացքում։

Հաջորդ քայլը բենչմարքի կատարողականը կենդանի հետազոտական workflow-ներում ներդրման ուսումնասիրություններին կապելն է։ Թեև LifeSciBench-ը մշակվել է գործող գիտնականների հետ, պարզելու համար՝ արագացնում են արդյոք AI համակարգերը հայտնագործությունը կամ բարելավում R&D արդյունքները, պետք է ուսումնասիրել մոդելների օգտագործումն ու կատարողականը իրական միջավայրերում, ավելի երկար ժամկետներով և հիմնավորման, հետադարձ կապի ու փորձարարական շարունակության մի քանի փուլերով։