17 జూన్, 2026

LifeSciBench పరిచయం

వాస్తవ జీవ శాస్త్ర పరిశోధనపై ఆధారపడిన, నిపుణులు రాసి సమీక్షించిన బెంచ్‌మార్క్

లోడ్ అవుతోంది…

ఏజెంటిక్ AI వ్యవస్థలు శాస్త్రీయ పనులు చేయడంలో మరింత సామర్థ్యం సాధిస్తున్నాయి. అయితే జీవ శాస్త్ర పరిశోధకులకు వాటి ఉపయోగం, నిజ పరిశోధన సంక్లిష్టతను అవి ఎంత బాగా నిర్వహిస్తాయన్నదానిపై ఆధారపడి ఉంటుంది. ఆ పని అరుదుగా ఒకే వాస్తవాన్ని గుర్తుచేసే ప్రశ్నలా లేదా సరళమైన అంచనా సమస్యలా ఉంటుంది. పరిశోధకులు అసంపూర్ణ సాక్ష్యాన్ని అర్థం చేసుకుని, విరుద్ధ ఫలితాలను సమన్వయించి, కఠిన ప్రయోగాలను రూపకల్పన చేసి, అసేలను ట్రబుల్‌షూట్ చేసి, ట్రాన్స్‌లేషనల్ రిస్క్‌ను అంచనా వేసి, అనిశ్చితిలో తదుపరి చర్యను నిర్ణయిస్తారు.

ప్రస్తుత బెంచ్‌మార్క్‌లు ఈ సామర్థ్యాలను పూర్తిగా పట్టుకోవు. అనేక జీవ శాస్త్ర మూల్యాంకనాలు సంకుచిత డొమైన్‌లు లేదా విడి నైపుణ్యాలపై దృష్టి పెట్టి, నిర్మిత ప్రశ్న రూపాలు మరియు స్పష్టమైన రిఫరెన్స్ సమాధానాలతో ముగుస్తాయి. అవి విలువైనవే అయినా, పరిశోధన-స్థాయి పనుల విస్తృత పరిధిలో మోడల్ తోడ్పడగలదా అనే విషయాన్ని నిజంగా అంచనా వేయలేవు.

ఈ లోటును తగ్గించడానికే మేము LifeSciBenchను రూపొందించాము. ప్రతి పని Ph.D.-స్థాయి శిక్షణతో, బయోటెక్ మరియు ఫార్మా వాతావరణాల్లో ఔషధ ఆవిష్కరణ కార్యక్రమాలను ముందుకు నడిపిన ప్రత్యక్ష అనుభవం ఉన్న జీవ శాస్త్రవేత్తల తీర్పుపై ఆధారపడి ఉంటుంది.

LifeSciBenchలో ఏడు వర్క్‌ఫ్లోలు, ఏడు జీవ డొమైన్‌లను కవర్ చేసే 750 నిపుణుల రచిత పనులు ఉన్నాయి.

1,062

పని ఆర్టిఫాక్ట్‌లు

173

శాస్త్రవేత్త కంట్రిబ్యూటర్లు

19,020

రూబ్రిక్ ప్రమాణాలు

453

నిపుణ సమీక్షకులు

LifeSciBench కొలిచేది

LifeSciBench, AI వ్యవస్థలు జీవ శాస్త్ర పరిశోధన పనులకు మద్దతు ఇవ్వగలవా అని కొలుస్తుంది; కేవలం బయాలజీ ప్రశ్నలకు సమాధానమివ్వడాన్ని కాదు. బెంచ్‌మార్క్ టాక్సానమీని నిర్వచించడానికి, అనువర్తిత పరిశోధనలో వారు ఎక్కువగా ఉపయోగించే వర్క్‌ఫ్లోలపై జీవ శాస్త్రవేత్తలను సర్వే చేశాము. తర్వాత వారి స్పందనలను ఏడు పునరావృత వర్గాలుగా గుంపు చేశాము: సాక్ష్య నిర్వహణ, విశ్లేషణ, రూపకల్పన మరియు ఆప్టిమైజేషన్, శాస్త్రీయ రీజనింగ్, ధృవీకరణ మరియు ఆపరేషన్లు, ట్రాన్స్‌లేషన్, శాస్త్రీయ కమ్యూనికేషన్.

ప్రతి పని, శాస్త్రవేత్త పరిజ్ఞానం ఉన్న సహకారికి ఇచ్చే అభ్యర్థనలా ఉంటుంది: శాస్త్రీయ ప్రాంప్ట్, సంబంధిత సందర్భం లేదా ఆర్టిఫాక్ట్‌లు, స్వేచ్ఛా-ప్రతిస్పందన సమాధానం. నిపుణులు రాసిన రూబ్రిక్‌లు, నిర్దిష్ట సమస్యకు సరైన సమాధానం, తగిన వివరాలు, న్యాయీకరణ, జాగ్రత్తలు, ఫార్మాటింగ్‌ను మోడల్ ఇవ్వగలదా అని అంచనా వేస్తాయి.

డేటాసెట్ నిర్మాణం

LifeSciBench శాస్త్రీయ రీజనింగ్‌తో పాటు, నిజ జీవిత శాస్త్రీయ వినియోగానికి అవసరమైన కానీ తక్కువ స్పష్టంగా నిర్వచితమైన ప్రాయోగిక నైపుణ్యాలను అంచనా వేస్తుంది. దాని పనులు మోడళ్లను వాస్తవ పరిశోధన సమస్యలను పరిష్కరించమంటాయి: సాక్ష్యాన్ని అర్థం చేసుకోవడం, డొమైన్ ఆధారిత తీర్పులు ఇవ్వడం, నిపుణ సమీక్షకులకు ఉపయోగపడే నిర్ణయాలను తెలియజేయడం. అనేక పనులు మోడళ్లు ప్రాంప్ట్ వచనంపై మాత్రమే ఆధారపడకుండా, అనిశ్చితిని నిర్వహించి మద్దతు డేటా ఫైళ్లపై రీజనింగ్ చేయాలనికూడా కోరుతాయి.

ఈ బెంచ్‌మార్క్ జీవ శాస్త్ర పనుల సంక్లిష్టతను ప్రతిబింబించేలా రూపొందించబడింది. మొత్తంగా, 79% పనులకు బహుళ రీజనింగ్ లేదా నిర్ణయ దశలు అవసరం; సగటున ప్రతి పనికి నాలుగు దశలు ఉంటాయి. LifeSciBenchలో ఫిగర్‌లు, PDFలు, పట్టికలు, సీక్వెన్స్ ఫైళ్లు, నిర్మాణ లేదా రసాయన ఫైళ్లు, వెబ్ రిఫరెన్స్‌లు కలిపి 1,062 అనుబంధ ఆర్టిఫాక్ట్‌లు ఉన్నాయి. సగానికి పైగా పనులు (53%) కనీసం ఒక ఆర్టిఫాక్ట్‌లోని సమాచారాన్ని అర్థం చేసుకోవడం లేదా సమన్వయించడం కోరుతాయి.

వివిధ జీవ శాస్త్ర విభాగాల 173 మంది నిపుణ శాస్త్రవేత్తలు ఈ పనులను సృష్టించారు. ప్రతి శాస్త్రవేత్తకు Ph.D.-స్థాయి శిక్షణతో పాటు బయోటెక్నాలజీ లేదా ఫార్మా పరిశ్రమ అనుభవం ఉంది. అంగీకారానికి ముందు పనులు అవసరమైనన్ని సవరణ చక్రాలు పొందగలిగాయి; స్థిర పరిమితి లేదు. అంగీకరించిన పనులు సగటున ఆరు స్వీయ ఆటోమేటెడ్ సమీక్ష చక్రాలు, కనీసం రెండు నిపుణ సమీక్ష రౌండ్లు పూర్తి చేశాయి. సమీక్షలు ధృవీకరించగల సరైన సమాధానం లేదా బలమైన నిపుణ ఏకాభిప్రాయంపై ఆధారపడ్డాయి; సంబంధిత డొమైన్ సమీక్షకులలో కనీసం 90% అంగీకారం ఉంది. ఈ ప్రక్రియ అంగీకరించిన పనులు శాస్త్రీయంగా నిలబెట్టబడినవి, గ్రేడ్ చేయడానికి తగినంత స్పష్టమైనవి, అనువర్తిత పరిశోధనకు ప్రతినిధిగానున్నవి అని నిర్ధారించడంలో సహాయపడింది.

జెనోమిక్ సీక్వెన్స్‌లు, మాలిక్యులర్ నిర్మాణాలు, ఫిగర్‌లు, పత్రాలు, స్ప్రెడ్‌షీట్‌లు, వెబ్ లింక్‌లు వంటి జీవ శాస్త్ర డేటా మూలాలను బహుళ-దశల రీజనింగ్ మరియు నిపుణ సమీక్షతో కలిపే LifeSciBench పనులను చూపించే డయాగ్రామ్.

గ్రేడింగ్ మరియు రూబ్రిక్ విభజన

LifeSciBench పనులు వివరణాత్మక, పని-నిర్దిష్ట రూబ్రిక్‌తో గ్రేడ్ చేయబడతాయి; అది ఆశించిన ప్రతిస్పందనను శాస్త్రీయ క్లెయిమ్‌లు, లెక్కలు, నిర్ణయాలు, న్యాయీకరణలు మొదలైనవిగా విభజిస్తుంది. మొత్తం బెంచ్‌మార్క్‌లో, నిపుణులు రూపొందించిన రూబ్రిక్‌లలో 19,020 ప్రమాణాలు ఉన్నాయి—ప్రతి పనికి సగటు 25—ఇవి శాస్త్రీయ సరైనదనంతో పాటు పరిశోధన నిర్ణయాలకు ఉపయోగకరతను అంచనా వేస్తాయి.

ఈ రూపకల్పన ప్రాక్టీస్‌లో శాస్త్రీయ పనిని ఎలా అంచనా వేస్తారో ప్రతిబింబిస్తుంది: అనేక జీవ శాస్త్ర పనులను తుది సమాధానాన్ని మాత్రమే చూసి గ్రేడ్ చేయలేరు. ప్రతిస్పందన సరైన ఉన్నత-స్థాయి నిర్ణయానికి చేరినా, కీలక అసే పరిమితిని మిస్ చేస్తే లేదా ముఖ్యమైన జీవశాస్త్ర న్యూయాన్స్‌ను ముందుగా చెప్పకపోతే అది అసంపూర్ణంగా పరిగణించబడవచ్చు. మరోవైపు, పని పూర్తిగా పరిష్కరించకపోయినా, భాగిక ప్రతిస్పందనలో అధిక-నాణ్యత రీజనింగ్ ఉండవచ్చు.

సూక్ష్మ రూబ్రిక్‌లు ఈ న్యూయాన్స్‌ను పట్టుకుంటాయి. LifeSciBench తుది సమాధాన ఖచ్చితత్వాన్ని మాత్రమే కాదు, మోడల్ తన సమాధానానికి శాస్త్రీయంగా సరైన, ఆపరేషనల్‌గా ఉపయోగకరమైన మార్గంలో చేరుతుందా అని కూడా అంచనా వేస్తుంది.

పేపర్లు, ఫిగర్లు, పట్టికలు, ప్రయోగ రికార్డుల నుండి శాస్త్రీయ ఆధారాలను వెలికితీయడం, సరిపోల్చడం, ఆడిట్ చేయడం.

మూల్యాంకన ఉదాహరణ

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

అభ్యర్థి సమాధానం

ముఖ్యాంశం: ప్రస్తుతం సమర్పించిన రూపంలో, క్లినికల్ ప్రయోజనాన్ని అంచనా వేయగల అవకాశం ఉన్న surrogate endpoint‌గా micro-dystrophin expression ఆధారంగా accelerated approval‌కు మద్దతు ఇవ్వడానికి ఈ డేటా ప్యాకేజ్ తగినంత బలంగా లేదు. సందేహాస్పద దృక్పథం కలిగిన FDA సమీక్షకుడు biomarker, functional, durability, safety మరియు generalizability కు సంబంధించిన ఆధారాలను గణనీయంగా తగిన మద్దతు లేనివిగా పరిగణించే అవకాశం ఉంది.

ప్యాకేజీ అంశం	కీలక వైఫల్య విధానం	ఏది అవసరం అవుతుంది
Western blot పరిమాణీకరణ	MANEX1A, అంతర్జన్య పూర్తి-పొడవు dystrophin మరియు micro-dystrophin transgene రెండింటికీ సాధారణంగా ఉండే N-terminal epitope‌తో బంధిస్తుంది. అందువల్ల, ఈ assay transgene‌ను మిగిలి ఉన్న/revertant dystrophin నుండి స్పష్టంగా వేరు చేయలేకపోతుంది. అలాగే, 138 kDa micro-dystrophin‌ను ఆరోగ్యకరమైన పూర్తి-పొడవు dystrophin ప్రమాణంతో పోల్చి పరిమాణాన్ని నిర్ణయించడం కూడా చెల్లుబాటు కాదు.	recombinant micro-dystrophin ప్రమాణాన్ని మరియు transgene‌ను అంతర్జన్య dystrophin నుండి వేరు చేయగల orthogonal పద్ధతిని ఉపయోగించాలి. ఉదాహరణకు, targeted mass spectrometry లేదా transgene-specific/epitope-specific assayలను ఉపయోగించవచ్చు.
Immunofluorescence	C-terminal polyclonal antibody ఈ ప్రయోజనానికి తగినది కాదు, ఎందుకంటే 138 kDa construct‌లో C-terminal domain ఉండదు. చాలా మంది DMD రోగుల్లో revertant fibers ఉంటాయి, మరియు revertant dystrophin C-terminal epitopes‌ను నిలుపుకోవచ్చు. వయస్సు పెరిగే కొద్దీ revertant fibers క్లోనల్‌గా విస్తరించే అవకాశం ఉండటం వల్ల, ముఖ్యంగా పెద్ద వయస్సు బాలురలో IF signal పక్షపాతానికి గురయ్యే అవకాశం ఉంది.	transgene‌లో ఉండి revertant dystrophin‌లో లేని epitope‌ను లక్ష్యంగా చేసుకున్న antibodyతో IFను మళ్లీ నిర్వహించాలి. transgene-positive fibers‌ను revertant fibers నుండి వేరుగా పరిమాణాత్మకంగా అంచనా వేయాలి.
Surrogate endpoint చెల్లుబాటు	ఈ డేటా ప్యాకేజ్ ప్రోటీన్ పరిమాణాన్ని క్లినికల్ పనితీరుతో కలిపి పరిగణిస్తోంది. “ఆరోగ్యకరమైన నియంత్రణ సమూహంలోని ప్రోటీన్ పరిమాణంలో 38%” ఉండటం అనేది సాధారణ dystrophin పనితీరులో 38% ఉందని అర్థం కాదు, ఎందుకంటే micro-dystrophin నిర్మాణపరంగా సంక్షిప్తీకరించబడిన రూపం.	expressionను surrogate endpoint‌గా పరిగణించే ముందు, micro-dystrophin mass-percent, sarcolemmal localization, downstream functional restoration మరియు clinical benefit మధ్య సంబంధాన్ని అనుభవాధారంగా ధృవీకరించాలి.
Biopsy రూపకల్పన	చికిత్సకు ముందు మరియు తర్వాత వ్యతిరేక వైపుల vastus lateralis బయాప్సీలను ఉపయోగించడం వల్ల ఎడమ-కుడి వైపు తేడాలు మరియు కండరాల లోపలి స్థానిక వైవిధ్యం ప్రభావం చూపవచ్చు. అలాగే, వ్యాధి పురోగతి మరియు fibro-fatty replacement కూడా total-protein-normalized signal‌ను మార్చవచ్చు.	స్థిరమైన శరీర నిర్మాణ సూచికలను ఉపయోగించి బయాప్సీ స్థలాన్ని ప్రామాణీకరించాలి, కండరాలకు-నిర్దిష్టమైన ప్రోటీన్లకు అనుగుణంగా normalization చేయాలి, అలాగే fibro-fatty composition‌ను సమాంతరంగా కొలవాలి.
NSAA comparator/statistics	బాహ్య natural-history cohort అనేది randomized concurrent control కాదు. ట్రయల్ అర్హత ప్రమాణాలు, సహాయక చికిత్స, పాల్గొనడం వల్ల కలిగే ప్రభావాలు, baseline NSAA, steroid regimen, వయస్సు మరియు exon class వంటి అంశాలు పోలికలో పక్షపాతాన్ని కలిగించవచ్చు. కేవలం unpaired t-test మాత్రమే సరిపోదు. అలాగే, +1.4 NSAA మార్పు ఈ వయస్సు సమూహంలో test-retest variability పరిధిలోనే ఉంటుంది.	randomized concurrent placebo-controlled అధ్యయనాన్ని నిర్వహించాలి. లేకపోతే, కనీసం baseline NSAA, వయస్సు, steroid regimen, exon class మరియు ఇతర confounders‌ను పరిగణనలోకి తీసుకునే సర్దుబాటు చేసిన విశ్లేషణలను ఉపయోగించాలి.
వయస్సు-పరిధి గందరగోళ ప్రభావం	4–7 సంవత్సరాల వయస్సు గల బాలురు ఒక అభివృద్ధి దశలో ఉంటారు, ఇందులో చికిత్స పొందని నడవగలిగే DMD రోగులు క్షీణత ప్రధానంగా మారే ముందు కొంత మోటార్ పనితీరు మెరుగుదలను చూపవచ్చు. 48-వారాల NSAA మార్పు అభివృద్ధి కారణంగా వచ్చిన మెరుగుదల, వ్యాధి పురోగతి మరియు సంభావ్య చికిత్స ప్రభావం అనే మూడు అంశాల మిశ్రమాన్ని ప్రతిబింబిస్తుంది.	అభివృద్ధి పథాన్ని చికిత్స ప్రభావం నుండి వేరు చేయడానికి, వయస్సు-ఆధారిత stratification‌తో కూడిన concurrent randomized control‌ను ఉపయోగించాలి.
మునుపటి క్లినికల్ precedent	open-label micro-dystrophin functional సంకేతాలు నిర్ధారణాత్మక ప్రయోజనాన్ని విశ్వసనీయంగా అంచనా వేయలేకపోయాయి. ప్రచురిత ఆధారాల్లో, open-label NSAA మెరుగుదలను పునరుత్పత్తి చేయడంలో విఫలమైన micro-dystrophin gene therapy నిర్ధారణాత్మక ట్రయల్స్ కూడా ఉన్నాయి.	నిర్ణయాత్మక ఆధారంగా open-label NSAA మార్పుపై ఆధారపడకూడదు. నియంత్రిత functional ఆధారాలు అవసరం.
construct యొక్క నిర్మాణ పరిమితులు	138 kDa construct‌లో nNOS-binding site‌లను కలిగి ఉన్న spectrin repeats R16/17 తొలగించబడ్డాయి. nNOS recruitment కోల్పోవడం వల్ల వ్యాయామ సమయంలో functional sympatholysis మరియు ischemia నుండి రక్షణ దెబ్బతినవచ్చు. ఫలితంగా, expression స్థాయికి సంబంధం లేకుండా చికిత్స ప్రభావంపై ఒక యాంత్రిక పరిమితి ఏర్పడే అవకాశం ఉంది.	ఈ నిర్దిష్ట construct సంబంధిత dystrophin-associated complex పనితీరు, nNOS localization, exercise physiology మరియు కండరాల రక్షణను పునరుద్ధరిస్తుందో లేదో చూపించే mechanistic అధ్యయనాలను జోడించాలి.
AAV durability	12 వారాల వద్ద గుర్తించిన vector genomes దీర్ఘకాలిక expression‌ను నిర్ధారించవు. AAV9 genomes ప్రధానంగా genome‌లో కలిసిపోని episome‌ల రూపంలో ఉంటాయి మరియు కాలక్రమేణా తగ్గిపోయే అవకాశం ఉంది. Vector-genome నిలకడ అనేది స్థిరమైన ప్రోటీన్ expression‌తో సమానం కాదు.	12 వారాల తర్వాత కూడా దీర్ఘకాలంలో transgene ప్రోటీన్ expression మరియు functional biomarker నిలకడను కొలవాలి.
Immune/safety profile	12 మందిలో 8 మంది రోగుల్లో కనిపించిన transaminitis, AAV-transduced కణాలపై ఏర్పడే రోగనిరోధక ప్రతిస్పందనకు అనుగుణంగా ఉంది, అయితే దాని ఖచ్చితమైన యాంత్రిక కారణం ఇంకా నిర్ధారించబడలేదు. అదనంగా, AAV9 యొక్క cardiac tropism‌ను దృష్టిలో ఉంచుకుంటే, myocarditis యొక్క ఒక కేసు ఆందోళనకరమైనది.	మరింత సమగ్ర రోగనిరోధక పర్యవేక్షణ, కాలేయ/గుండె భద్రతకు సంబంధించిన విశదమైన మూల్యాంకనం మరియు మరింత కట్టుదిట్టమైన గుండె సంబంధిత ఫాలో-అప్‌ను అందించాలి.
రోగుల ఎంపిక/సాధారణీకరణ సామర్థ్యం	anti-AAV9 neutralizing antibody-పాజిటివ్ రోగులను మినహాయించడం వల్ల సాధారణీకరణ సామర్థ్యం పరిమితమవుతుంది. exon-44 deletion లు ఉన్న రోగులను మినహాయించడం వల్ల ఆ DMD ఉపసమూహానికి ఫలితాల వర్తన పరిమితమవుతుంది. అలాగే, విస్తృత DMD జనాభాలో భద్రత మరియు ప్రభావకారితను అంచనా వేయడానికి n=12 నమూనా పరిమాణం చాలా చిన్నది.	సాధ్యమైన చోట అర్హత ప్రమాణాలను విస్తరించాలి లేదా విస్తృత ఆమోదానికి మద్దతుగా ఈ ఫలితాలను ఉపయోగించే ముందు antibody స్థితి, genotype/exon class, వయస్సు మరియు baseline function ఆధారంగా stratified analyses‌ను ముందుగానే నిర్దేశించాలి.

నియంత్రణపరమైన ముగింపు: ఈ డేటా ప్యాకేజ్ జీవసంబంధిత కార్యకలాపాన్ని చూపించవచ్చు, కానీ కొలిచిన micro-dystrophin expression క్లినికల్ ప్రయోజనాన్ని అంచనా వేయగల విశ్వసనీయ surrogate అని నిర్ధారించడానికి ఇది ఇంకా సరిపోదు. ప్రధాన లోపాల్లో assay specificity, చెల్లుబాటు కాని quantification ప్రమాణాలు, సంభావ్య revertant-fiber confounding, randomized control లేకపోవడం, వయస్సుతో సంబంధమైన NSAA confounding, స్పష్టత లేని durability, అలాగే ఇంకా పరిష్కరించని భద్రత మరియు సాధారణీకరణ సామర్థ్యానికి సంబంధించిన సమస్యలు ఉన్నాయి.

ఈ లోపాలను పరిష్కరించడానికి, కార్యక్రమంలో transgene-specific expression assay లు, orthogonal protein quantification, tissue-composition control లు, దీర్ఘకాలిక durability డేటా, truncated construct‌కు సంబంధించిన mechanistic functional assay లు, అలాగే ముఖ్యంగా కాలేయం మరియు గుండెకు సంబంధించిన మరింత బలమైన భద్రతా పర్యవేక్షణతో కూడిన, వయస్సు-ఆధారిత stratification ఉన్న నియంత్రిత క్లినికల్ రూపకల్పన అవసరం.

రూబ్రిక్ ప్రమాణం & గ్రేడ్స్

ప్రమాణం

పాయింట్లు

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench ధృవీకరణ

మేము స్వతంత్ర నిపుణ సమీక్ష ద్వారా LifeSciBenchను ధృవీకరించాము. పనుల రచనలో పాల్గొనని 453 సమీక్షకుల నుండి ఫీడ్‌బ్యాక్ వచ్చింది. ఆ సమీక్షకులలో 97% మందికి Ph.D. లేదా సమాన డాక్టరేట్ ఉంది; సగటున 12 ఏళ్ల ఫీల్డ్ అనుభవం, 14 పీర్-రివ్యూడ్ ప్రచురణలు ఉన్నాయి; 88% కనీసం ఒక అవార్డు లేదా ఫెలోషిప్ పొందినట్లు తెలిపారు.

ప్రతి పని బలమైన బెంచ్‌మార్క్ ప్రశ్నకు అవసరమైన లక్షణాలను ప్రతిబింబిస్తుందా అని సమీక్షకులు స్కోర్ చేశారు: వాస్తవ పరిశోధన పనికి అనుసరణ, శాస్త్రీయ రీజనింగ్ మరియు డొమైన్ నైపుణ్యాన్ని తగినట్లు పరీక్షించడం, సాక్ష్యం లేదా నిపుణ ఏకాభిప్రాయంలో నిలబెట్టడం, మోడల్ పనితీరు అంచనాకు మొత్తం ఉపయోగకరత. ప్రతి వర్గంలో అంగీకారం 96% దాటింది.

వాస్తవ ప్రపంచ సంబంధితత

ఈ పని వాస్తవ ప్రపంచంలోని జీవ శాస్త్ర పనిని ప్రతిబింబిస్తుందా?

బలంగా అంగీకరిస్తున్నాను: 90.4%
మొత్తంగా అంగీకరిస్తున్నాను: 98.3%

శాస్త్రీయ రీజనింగ్ / డొమైన్ నైపుణ్యం

ఈ పని సరైన శాస్త్రీయ రీజనింగ్ మరియు జీవ శాస్త్ర డొమైన్ నైపుణ్యాలను పరీక్షించి గ్రేడ్ చేస్తుందా?

బలంగా అంగీకరిస్తున్నాను: 86.4%
మొత్తంగా అంగీకరిస్తున్నాను: 98.1%

శాస్త్రీయ ఆధారం

ఈ పని శాస్త్రీయంగా నిలబెట్టబడిందా, సమాధానయోగ్యమా, తగిన సాక్ష్యం, డేటా, ఆర్టిఫాక్ట్‌లు లేదా నిపుణుల ఏకాభిప్రాయంపై ఆధారపడిందా?

బలంగా అంగీకరిస్తున్నాను: 77.1%
మొత్తంగా అంగీకరిస్తున్నాను: 96.5%

మొత్తం ఉపయోగకరత

మొత్తంగా, ఇది బలమైన జీవ శాస్త్ర మూల్యాంకన పనినా?

బలంగా అంగీకరిస్తున్నాను: 79.1%
మొత్తంగా అంగీకరిస్తున్నాను: 96.6%

సమీక్షకుల వ్యాఖ్యలు పరిమాణాత్మక రేటింగ్‌లను బలపరిచాయి:

3లో 1

“మొత్తంగా ఇది బలమైన పని, ఎందుకంటే దీనికి ఒక సరైన ప్రధాన వ్యాఖ్యానం ఉంది; అదే సమయంలో అనిశ్చితిని ఎంత జాగ్రత్తగా పరిమితం చేస్తారనే దాని ఆధారంగా మెరుగైన సమాధానాలను వేరు చేసే అవకాశం ఇస్తుంది.”

ఫలితాలు

మేము రెండు పరస్పరపూరక మెట్రిక్‌లను నివేదిస్తాము. పాస్ రేట్ అంటే మోడల్ 70% పని-స్థాయి విజయ పరిమితిని చేరిన పనుల శాతం. స్కోర్ అంటే సగటు రూబ్రిక్ రివార్డ్; పూర్తి పని పరిష్కరించకపోయినా వ్యక్తిగత ప్రమాణాలకు భాగిక క్రెడిట్ ఇస్తుంది. రెండూ ముఖ్యం, ఎందుకంటే శాస్త్రీయ పనికి ఇచ్చే ప్రతిస్పందన పూర్తి సమాధానానికి కావాల్సిన ప్రతిదీ చేరకపోయినా భాగంగా సరైనది లేదా ఉపయోగకరమైనది కావచ్చు.

మోడల్ పనితీరు పని రకం, వర్క్‌ఫ్లో, ప్రతిస్పందన రూపంపై బాగా మారుతుంది.

AI వ్యవస్థలు మొదట బలంగా కనిపించే చోటు

శాస్త్రీయ సింథసిస్, కమ్యూనికేషన్, నిర్మిత వ్యాఖ్యానం ఉన్న పనుల్లో ఫ్రంటియర్ మోడళ్లు తగినంత బలంగా ఉన్నాయని LifeSciBench చూపిస్తుంది. నిజమైన పాస్ రేట్లు ఇంకా పరిమితమే, కాబట్టి ఈ బెంచ్‌మార్క్ డొమైన్‌లు సంతృప్తికి దూరంగా ఉన్నాయి; కానీ GPT‑Rosalind, GPT‑5.5తో పోలిస్తే మొత్తం ఎగ్జాక్ట్ పాస్ రేటును 25.7% నుండి 36.1%కి పెంచి గణనీయ పురోగతి చూపిస్తుంది.

మోడల్ సామర్థ్యాల్లో అత్యంత బలమైన పురోగతి దిశలు శాస్త్రీయ కమ్యూనికేషన్ మరియు ట్రాన్స్‌లేషన్‌లో కనిపిస్తాయి. ఉదాహరణకు, శాస్త్రీయ కమ్యూనికేషన్ పాస్ రేట్ GPT‑5.5కు 56.3% నుండి GPT‑Rosalindకు 71.1%కి పెరుగుతుంది; ఈ వర్గం చిన్నది (n=9), కాబట్టి జాగ్రత్తగా అర్థం చేసుకోవాలి, కానీ సాక్ష్యాన్ని నిర్వహించి నిపుణులకు నమ్మదగిన వివరణలు ఇవ్వడంలో ఫ్రంటియర్ మోడళ్లు వేగంగా మెరుగుపడుతున్నాయని సూచిస్తుంది. ట్రాన్స్‌లేషన్ (ఔషధ అభివృద్ధిలో "bench-to-bedside" ప్రక్రియ) కూడా ఇదే నమూనా చూపిస్తుంది: GPT‑5.5కు 36.8% నుండి GPT‑Rosalindకు 57.7%కి పెరుగుతూ, ప్రీక్లినికల్ సాక్ష్యాన్ని క్లినికల్ ప్రభావాలతో అనుసంధానించడంలో మోడళ్లు వేగంగా మెరుగుపడుతున్నాయని సూచిస్తుంది.

రూబ్రిక్-స్థాయి ఫలితాలు కూడా అదే దిశను చూపిస్తాయి. నిపుణులకు ఉపయోగకరమైన లేదా చర్య తీసుకోదగిన అవుట్‌పుట్‌లు అవసరమైన పనుల్లో GPT‑Rosalind 44.7% స్కోర్ చేస్తుంది; GPT‑5.5కు ఇది 29.1%. అనిశ్చితి మరియు జాగ్రత్తల నిర్వహణ అవసరమైన పనుల్లో ఇది 44.8% స్కోర్ చేస్తుంది; పోలికగా 29.3%. పనికి స్పష్టమైన సాక్ష్య పరిమితి ఉండి, నిర్మిత శాస్త్రీయ తీర్పు అవసరమైనప్పుడు మోడళ్లు అత్యంత ఉపయోగకరమని ఈ నమూనా సూచిస్తుంది.

పరిశ్రమ మరియు అకాడెమిక్ నిపుణులు గుర్తించిన శాస్త్రీయంగా విలువైన పనుల్లో GPT‑Rosalind పనితీరులో ముందంజలో ఉంది.

పరిశ్రమ మరియు విద్యా రంగ నిపుణులు గుర్తించిన శాస్త్రీయంగా విలువైన పనుల్లో GPT‑Rosalind అత్యుత్తమ పనితీరును ప్రదర్శిస్తుంది.

AI వ్యవస్థలు ఇంకా వెనుకబడే చోటు

ఆర్టిఫాక్ట్‌లు ఎక్కువగా ఉన్న, డిజైన్‌పై ఎక్కువగా ఆధారపడిన, ఆపరేషనల్ పరిమితులు ఉన్న శాస్త్రీయ పనుల్లో పనితీరు చాలా బలహీనంగా ఉంది. ప్రత్యేకంగా, Design, Optimization, & Prediction అత్యంత కఠిన వర్క్‌ఫ్లోల్లో ఒకటిగానే ఉంది; GPT‑Rosalind పాస్ రేట్ 30.7%; Analysis కూడా 30.3% వద్ద అంతే కష్టం.

ఆర్టిఫాక్ట్ వినియోగం ప్రత్యేకంగా స్పష్టమైన లోటు. ఆర్టిఫాక్ట్‌లు ఎక్కువగా ఉన్న సందర్భాల్లో GPT‑Rosalind, GPT‑5.5కంటే మెరుగ్గా పనిచేసినా, దాని పాస్ రేట్ కేవలం వచన పనుల్లో 45.1% నుండి ఆర్టిఫాక్ట్‌లు లేదా URLలు ఉన్న పనుల్లో 28.1%కి పడిపోతుంది. GPT‑5.5లో కూడా ఇదే నమూనా కనిపిస్తుంది; 29.9% నుండి 21.9%కి పడిపోతుంది. వివరమైన విశ్లేషణ ప్రకారం, సంక్లిష్ట ఫిగర్‌లు లేదా పెద్ద సీక్వెన్స్ ఫైళ్ల నుండి సమాచారాన్ని తీసి, దాన్ని తుది సమాధానంలో కలపడం ఫ్రంటియర్ మోడళ్లకు కష్టంగా ఉంది.

పనులు మూలాధార రీజనింగ్ లేదా ఆర్టిఫాక్ట్‌లతో పని చేయడం కోరినప్పుడు పాస్ రేట్లు తగ్గుతాయి

సమాధాన రూపం కూడా ముఖ్యం. ఖచ్చితమైన సీక్వెన్స్, నిర్మాణం లేదా కన్స్ట్రక్ట్-స్థాయి అవుట్‌పుట్‌లు కావాల్సిన పనుల్లో పాస్ రేట్లు తక్కువ: GPT‑Rosalind సంఖ్యాత్మక పనుల్లో కేవలం 14.8%, సీక్వెన్స్ లేదా నిర్మాణ అవుట్‌పుట్‌లలో 24.0% మాత్రమే చేరుతుంది. కన్స్ట్రక్ట్-జనరేషన్ పనులు కూడా సున్నితమైనవి; GPT‑Rosalind 27.3% వద్ద ఉంది, GPT‑5.5తో పోలిస్తే పెద్ద మెరుగుదల చూపదు. ఈ లోటులో కొంత భాగం ఎగ్జాక్ట్-ఆన్సర్ పనులకు ఉన్న కఠిన గ్రేడింగ్ వల్ల కావచ్చు; లెక్క లేదా ఫార్మాటింగ్‌లో చిన్న తేడాలు ప్రతిస్పందనను పాస్ పరిమితికి దిగువకు దించవచ్చు. అయినా, ఈ వైఫల్యాలు శాస్త్రీయంగా ముఖ్యమైనవి, ఎందుకంటే CRISPR/HDR డోనర్ డిజైన్ లేదా siRNA డిజైన్ వంటి అనేక జీవ శాస్త్ర వర్క్‌ఫ్లోలకు నేరుగా వాడగలిగేంత ఖచ్చితమైన అవుట్‌పుట్‌లు అవసరం.

మోడళ్లు చాలాసార్లు పనిని పూర్తిగా పరిష్కరించకుండానే కొంత దూరం వెళ్తాయి. సుమారు 14% పనుల్లో, మోడళ్లు ఎగ్జాక్ట్-పాస్ పరిమితిని చేరకపోయినా గణనీయమైన రూబ్రిక్ క్రెడిట్ పొందాయి. GPT‑Rosalindలో, 109 పనుల పాస్ రేట్లు 20% కంటే తక్కువగా ఉన్నప్పటికీ కనీసం 50% రూబ్రిక్ రివార్డ్ పొందాయి. అభ్యాసంలో దీని అర్థం: మోడళ్లు సంబంధిత సాక్ష్యాన్ని గుర్తించవచ్చు లేదా నమ్మదగిన భాగిక సమాధానం ఇవ్వవచ్చు; కానీ కీలక పరిమితిని మిస్ చేయడం, తప్పు సాక్ష్యం వాడటం, అసంపూర్ణ లెక్క చేయడం, లేదా రీజనింగ్‌ను శాస్త్రీయంగా ఉపయోగకరమైన తుది నిర్ణయానికి అనుసంధానించకపోవడం వల్ల విఫలమవుతాయి.

పరిమితులు & తదుపరి దారి

LifeSciBench, జీవ శాస్త్ర పరిశోధనకు AI వ్యవస్థలు ఎంత ఉపయోగకరమవగలవో కొలవడానికి ఒక అడుగు; కానీ ప్రత్యక్ష పరిశోధన వాతావరణాల్లో మోడళ్లను అధ్యయనం చేయడానికి ఇది ప్రత్యామ్నాయం కాదు. ఈ బెంచ్‌మార్క్ పునరావృత పరిశ్రమ వర్క్‌ఫ్లోలను ప్రతిబింబించే స్వతంత్ర పనులపై దృష్టి పెడుతుంది; అనేక శాస్త్రీయ ప్రత్యేకతలు మరియు పని రకాలు దాని ప్రస్తుత పరిధికి బయటే ఉన్నాయి. నిజ పరిశోధన పునరావృత ప్రక్రియ: శాస్త్రవేత్తలు కొత్త సాక్ష్యాన్ని సేకరిస్తారు, ఊహలను సవరిస్తారు, తదుపరి ప్రయోగాలను రూపకల్పన చేస్తారు, ఫలితాలు వచ్చినప్పుడు ప్రణాళికలను మార్చుకుంటారు.

కాబట్టి LifeSciBenchలో బలమైన పనితీరును, డౌన్‌స్ట్రీమ్ పరిశోధన ప్రభావానికి ప్రత్యక్ష కొలమానంగా కాకుండా, వాస్తవ పని-స్థాయి సామర్థ్యానికి సాక్ష్యంగా అర్థం చేసుకోవాలి. బెంచ్‌మార్క్ పరిశ్రమ వర్క్‌ఫ్లోలపై ఆధారపడినా, కాలక్రమంలో బయటపడే కారకాలపై పురోగతి ఆధారపడే ప్రత్యక్ష పరిశోధన కార్యక్రమాల పూర్తి వైవిధ్యం లేదా గతి దీంట్లో పట్టబడదు.

తదుపరి అడుగు, బెంచ్‌మార్క్ పనితీరును ప్రత్యక్ష పరిశోధన వర్క్‌ఫ్లోలలోని డిప్లాయ్‌మెంట్ అధ్యయనాలతో అనుసంధానించడం. LifeSciBenchను ప్రాక్టీసింగ్ శాస్త్రవేత్తలతో కలిసి అభివృద్ధి చేసినప్పటికీ, AI వ్యవస్థలు ఆవిష్కరణను వేగవంతం చేస్తాయా లేదా R&D ఫలితాలను మెరుగుపరుస్తాయా అని కొలవాలంటే, నిజ పరిశోధన వాతావరణాల్లో, దీర్ఘకాలంగా, రీజనింగ్, ఫీడ్‌బ్యాక్, ప్రయోగాత్మక ఫాలో-అప్‌ల అనేక రౌండ్లలో మోడల్ వినియోగం మరియు పనితీరును అధ్యయనం చేయాలి.