17 ஜூன், 2026

LifeSciBench அறிமுகம்

உண்மை உலக உயிரியல் ஆராய்ச்சியில் நிலைநிறுத்தப்பட்ட, நிபுணர்கள் எழுதி மதிப்பாய்வு செய்த பெஞ்ச்மார்க்

ஏற்றுகிறது…

ஏஜென்டிக் AI அமைப்புகள் அறிவியல் பணிகளைச் செய்யும் திறனில் தொடர்ந்து முன்னேறுகின்றன. ஆனால் உயிரியல் ஆராய்ச்சியாளர்களுக்கு அவற்றின் பயன், உண்மையான ஆராய்ச்சியின் சிக்கல்களை அவை எவ்வளவு நன்றாக கையாளுகின்றன என்பதில் உள்ளது. அந்த வேலை பொதுவாக ஒரு தனி தகவல்-நினைவுகூரல் கேள்வி அல்லது தெளிவான கணிப்பு பிரச்சினை போல இருக்காது. ஆராய்ச்சியாளர்கள் முழுமையற்ற ஆதாரத்தை விளக்குகின்றனர், முரண்பட்ட முடிவுகளை ஒத்திசைக்கின்றனர், கடினமான பரிசோதனைகளை வடிவமைக்கின்றனர், assays-ஐ troubleshoot செய்கின்றனர், translational risk-ஐ மதிப்பிடுகின்றனர், மேலும் நிச்சயமின்மையில் அடுத்து என்ன செய்வது என்று தீர்மானிக்கின்றனர்.

தற்போதைய பெஞ்ச்மார்க்குகள் இந்த திறன்களை முழுமையாகப் பிடிக்கவில்லை. பல உயிரியல் மதிப்பீடுகள் குறுகிய துறைகள் அல்லது தனித்திறன்களில் கவனம் செலுத்துகின்றன; இதனால் கட்டமைக்கப்பட்ட கேள்வி வடிவங்களும் தெளிவான reference பதில்களும் கொண்ட கேள்விகள் உருவாகின்றன. அவை பயனுள்ளவையாக இருந்தாலும், ஆராய்ச்சி-நிலை பணியின் விரிந்த பரப்பில் ஒரு மாடல் உண்மையில் பங்களிக்குமா என்பதை அடிக்கடி மதிப்பிடத் தவறுகின்றன.

இந்த இடைவெளியை குறைக்க உதவ LifeSciBench-ஐ வடிவமைத்தோம். ஒவ்வொரு பணியும் Ph.D.-நிலை பயிற்சி பெற்ற, biotech மற்றும் pharmaceutical சூழல்களில் மருந்து கண்டுபிடிப்பு திட்டங்களை முன்னேற்றிய நேரடி அனுபவம் கொண்ட செயல்படும் உயிரியல் விஞ்ஞானிகளின் தீர்ப்பில் நிலைநிறுத்தப்பட்டுள்ளது.

LifeSciBench ஏழு பணிச்சூழல்களையும் ஏழு உயிரியல் துறைகளையும் உள்ளடக்கும் 750 நிபுணர்-எழுதிய பணிகளை கொண்டுள்ளது.

1,062

பணி ஆர்டிஃபாக்ட்கள்

173

அறிவியலாளர் பங்களிப்பாளர்கள்

19,020

ரூப்ரிக் அளவுகோல்கள்

453

நிபுணர் மதிப்பாய்வாளர்கள்

LifeSciBench அளவிடுவது

AI அமைப்புகள் உயிரியல் கேள்விகளுக்குப் பதில் அளிப்பதைக் கடந்தும், உண்மையான உயிரியல் ஆராய்ச்சி பணிகளை ஆதரிக்க முடியுமா என்பதை LifeSciBench அளவிடுகிறது. பெஞ்ச்மார்க் taxonomy-ஐ வரையறுக்க, applied research சூழல்களில் அவர்கள் அதிகம் பயன்படுத்தும் workflows பற்றி செயல்படும் உயிரியல் விஞ்ஞானிகளிடம் கருத்துக்கணிப்பு நடத்தினோம். பிறகு, அவர்களின் பதில்களை ஏழு மீள்நிகழும் பிரிவுகளாக தொகுத்தோம்: ஆதார கையாளல், பகுப்பாய்வு, வடிவமைப்பு மற்றும் மேம்படுத்தல், அறிவியல் ரீஸனிங், சரிபார்ப்பு மற்றும் செயல்பாடுகள், மொழிபெயர்ப்பு, மற்றும் அறிவியல் தொடர்பாடல்.

ஒவ்வொரு பணியும் அறிவுள்ள கூட்டாளியிடம் ஒரு விஞ்ஞானி வைக்கக்கூடிய கோரிக்கைபோல் அமைக்கப்பட்டுள்ளது: அறிவியல் ப்ராம்ப்ட், தொடர்புடைய context அல்லது ஆர்டிஃபாக்ட்கள், மற்றும் free-response பதில். நிபுணர்-எழுதிய rubrics, ஒரு குறிப்பிட்ட பிரச்சினைக்கான சரியான பதிலை ஒரு மாடல் உருவாக்குமா என்பதையும், விஞ்ஞானி எதிர்பார்க்கும் விவரம், நியாயப்படுத்தல், எச்சரிக்கைகள், மற்றும் வடிவமைப்பின் சரியான அளவையும் மதிப்பிடுகின்றன.

தரவுத்தொகுப்பு உருவாக்கம்

உண்மை உலக அறிவியல் பயன்பாட்டிற்கு தேவையான தெளிவாக வரையறுக்கப்படாத நடைமுறைத் திறன்களுடன் சேர்த்து அறிவியல் ரீஸனிங்-ஐ LifeSciBench மதிப்பிடுகிறது. அதன் பணிகள் மாடல்களிடம் உண்மையான ஆராய்ச்சி பிரச்சினைகளைத் தீர்க்கச் சொல்கின்றன: ஆதாரத்தை விளக்குதல், துறை-அடிப்படையிலான தீர்ப்புகள் எடுதல், மற்றும் நிபுணர் மதிப்பாய்வாளர்களுக்கு பயனுள்ள முடிவுகளைத் தெரிவிப்பது. பல பணிகளில் மாடல்கள் ப்ராம்ப்ட் உரையை மட்டும் சாராமல், நிச்சயமின்மையை கையாளவும் ஆதரவு தரவு கோப்புகள் மீது ரீஸனிங் செய்யவும் வேண்டியுள்ளது.

இந்த பெஞ்ச்மார்க் உயிரியல் பணியின் சிக்கலை பிரதிபலிக்க வடிவமைக்கப்பட்டுள்ளது. மொத்தத்தில், 79% பணிகளுக்கு பல ரீஸனிங் அல்லது முடிவெடுக்கும் படிகள் தேவை; சராசரியாக ஒவ்வொரு பணிக்கும் நான்கு படிகள் உள்ளன. LifeSciBench-இல் figures, PDFs, tables, sequence files, structure அல்லது chemical files, மற்றும் web references ஆகியவற்றை உள்ளடக்கும் 1,062 இணைக்கப்பட்ட ஆர்டிஃபாக்ட்கள் உள்ளன. பணிகளில் பாதிக்குமேல் (53%) குறைந்தது ஒரு ஆர்டிஃபாக்டிலிருந்து தகவலை விளக்க அல்லது தொகுக்க மாடல்களை வேண்டுகின்றன.

வித்தியாசமான உயிரியல் துறைகளில் உள்ள 173 நிபுணர் விஞ்ஞானிகள் பணிகளை உருவாக்கினர். ஒவ்வொரு விஞ்ஞானிக்கும் Ph.D.-நிலை பயிற்சியும் biotechnology அல்லது pharmaceutical industry அனுபவமும் இருந்தது. ஏற்கப்படும் முன் பணிகள் தேவையான அளவு திருத்தச் சுழற்சிகளை கடக்க முடிந்தது; சுற்றுகளின் எண்ணிக்கைக்கு நிலையான உச்சவரம்பு இல்லை. ஏற்றுக்கொள்ளப்பட்ட பணிகள் சராசரியாக ஆறு self-directed automated review cycles மற்றும் குறைந்தது இரண்டு expert review சுற்றுகளை நிறைவு செய்தன. மதிப்பாய்வுகள் சரிபார்க்கக்கூடிய சரியான பதில் அல்லது வலுவான நிபுணர் ஒற்றுமை அடிப்படையில் அமைந்தன; தொடர்புடைய துறையில் மதிப்பாய்வாளர்களிடையே குறைந்தது 90% ஒப்புதல் இருந்தது. இந்த செயல்முறை, ஏற்றுக்கொள்ளப்பட்ட பணிகள் அறிவியல் அடிப்படை கொண்டவை, மதிப்பிடத் தேவையான தெளிவுடையவை, மற்றும் applied research-ஐ பிரதிநிதித்துவப்படுத்துபவை என்பதை உறுதிசெய்ய உதவியது.

ஜீனோமிக் வரிசைகள், மூலக்கூறு கட்டமைப்புகள், படங்கள், ஆவணங்கள், விரிதாள்கள் மற்றும் இணைய இணைப்புகள் போன்ற உயிரியல் தரவு மூலங்களை பல-படி ரீஸனிங் மற்றும் நிபுணர் மதிப்பாய்வுடன் இணைக்கும் LifeSciBench பணிகளை காட்டும் வரைபடம்.

மதிப்பீடு மற்றும் ரூப்ரிக் பிரிவாக்கம்

LifeSciBench பணிகள் விரிவான, பணி-சார்ந்த rubric மூலம் மதிப்பிடப்படுகின்றன; அது எதிர்பார்க்கப்படும் பதிலை குறிப்பிட்ட அறிவியல் கூற்றுகள், கணக்கீடுகள், முடிவுகள், நியாயப்படுத்தல்கள் போன்றவற்றாகப் பிரிக்கிறது. முழு பெஞ்ச்மார்க்கில், நிபுணர்கள் உருவாக்கிய rubrics-இல் 19,020 அளவுகோல்கள் உள்ளன—ஒவ்வொரு பணிக்கும் சராசரியாக 25—அவை அறிவியல் சரியானதன்மையையும் ஆராய்ச்சி முடிவுகளுக்கான பயனையும் மதிப்பிடுகின்றன.

அறிவியல் வேலை நடைமுறையில் எவ்வாறு மதிப்பிடப்படுகிறது என்பதையே இந்த வடிவமைப்பு பிரதிபலிக்கிறது: பல உயிரியல் பணிகளை இறுதி பதிலை மட்டும் சரிபார்த்து மதிப்பிட முடியாது. ஒரு பதில் சரியான உயர்நிலை முடிவை அடைந்தாலும், உதாரணமாக முக்கிய assay வரம்பை கவனிக்காமல் விட்டால் அல்லது மிகவும் விளைவுள்ள உயிரியல் நுணுக்கத்தை முன்கூட்டியே எடுத்துரைக்கத் தவறினால், அது முழுமையற்றதாக மதிக்கப்படலாம். மாறாக, பணியை முழுவதும் தீர்க்காவிட்டாலும் ஒரு பகுதி பதிலில் உயர் தரமான ரீஸனிங் இருக்கலாம்.

நுணுக்கமான rubrics இந்த வேறுபாட்டைப் பிடிக்கின்றன. LifeSciBench இறுதி பதிலின் துல்லியத்தையே அல்லாமல், ஒரு மாடல் அறிவியல் ரீதியாக செல்லுபடியாகவும் செயல்பாடுகளுக்கு பயனுள்ளதாகவும் அதன் பதிலை அடைகிறதா என்பதையும் மதிப்பிடுகிறது.

ஆய்வுக் கட்டுரைகள், படங்கள், அட்டவணைகள், மற்றும் பரிசோதனை பதிவுகளிலிருந்து அறிவியல் ஆதாரங்களை எடுப்பது, இணக்கமாக்குவது மற்றும் தணிக்கை செய்வது.

எவல் உதாரணம்

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

கேண்டிடேட் பதில்

முக்கிய முடிவு: வழங்கப்பட்டபடி, மருத்துவப் பலனைக் கணிக்க வாய்ப்புள்ளது என நியாயமாகக் கருதப்படும் மாற்று இறுதிப்புள்ளி ஆக மைக்ரோ-டிஸ்ட்ரோஃபின் வெளிப்பாட்டின் அடிப்படையில் விரைவு ஒப்புதலை ஆதரிக்க இந்தத் தொகுப்பு போதுமான வலிமை கொண்டதல்ல. ஒரு சந்தேகத்துடன் பார்க்கும் FDA மதிப்பாய்வாளர், உயிரிக்குறியீடு, செயல்பாடு, நீடித்த தன்மை, பாதுகாப்பு மற்றும் பொதுமைப்படுத்தல் ஆதாரங்கள் பொருள்மட்டத்தில் போதிய ஆதரவு பெறவில்லை என்று கருதுவார்.

தொகுப்புப் பொருள்	முக்கிய தோல்வி முறை	தேவைப்படுவது
வெஸ்டர்ன் பிளாட் அளவீடு	MANEX1A, உள்ளார்ந்த முழு நீள டிஸ்ட்ரோஃபின் மற்றும் மைக்ரோ-டிஸ்ட்ரோஃபின் டிரான்ஸ்ஜீன் பகிரும் N-முனை எபிடோப்புடன் பிணைகிறது; எனவே சோதனையானது டிரான்ஸ்ஜீனை எஞ்சிய/மீள்மாற்ற டிஸ்ட்ரோஃபினிலிருந்து தெளிவாக வேறுபடுத்தாது. 138 kDa மைக்ரோ-டிஸ்ட்ரோஃபினின் அளவை ஆரோக்கியமான முழு நீள டிஸ்ட்ரோஃபின் தரத்துடன் மதிப்பிடுவதும் செல்லாது.	மறுசேர்க்கை மைக்ரோ-டிஸ்ட்ரோஃபின் தரநிலையையும், இலக்கு நிறை நிறமாலை அளவியல் அல்லது டிரான்ஸ்ஜீன்-குறிப்பிட்ட/எபிடோப்-குறிப்பிட்ட மதிப்பீடு போன்ற டிரான்ஸ்ஜீனை உள்ளார்ந்த டிஸ்ட்ரோஃபினிலிருந்து வேறுபடுத்தும் செங்குத்து முறையையும் பயன்படுத்தவும்.
நோயெதிர்ப்பு ஒளிர்தன்மை	138 kDa கட்டமைப்புக்கு C-முனைப் பகுதி இல்லாததால், C-முனைப் பல்கிளை ஆன்டிபாடி பொருத்தமற்றது. பல DMD நோயாளிகளுக்கு மீள்நார் இழைகள் உள்ளன, மேலும் மீள்நார் டிஸ்ட்ரோஃபின் C-முனை எபிடோப்களைத் தக்க வைத்திருக்கலாம். மீள்நார் இழைகள் வயதுடன் குளோனல் முறையில் விரிவடைந்து, குறிப்பாக வயதான சிறுவர்களில் IF சிக்னலில் ஒரு சார்புநிலையை ஏற்படுத்தக்கூடும்.	டிரான்ஸ்ஜீனில் உள்ள ஆனால் மீள்மாற்ற டிஸ்ட்ரோஃபினில் இல்லாத எபிடோப்க்கு எதிரான ஆன்டிபாடி உடன் IF-ஐ மீண்டும் செய்யவும். டிரான்ஸ்ஜீன் நேர்மறை இழைகளை மீள்மாற்ற இழைகளிலிருந்து தனியாக அளவிடவும்.
மாற்று இறுதிப்புள்ளி செல்லுபடியாகும் தன்மை	தொகுப்பு புரத அளவை மருத்துவச் செயல்பாடு உடன் கலக்கிறது. “ஆரோக்கியமான கட்டுப்பாட்டுக் குழுவின் புரத நிறையில் 38%” என்பது இயல்பான டிஸ்ட்ரோஃபின் செயல்பாட்டில் 38% என்று பொருள் அல்ல, ஏனெனில் மைக்ரோ-டிஸ்ட்ரோஃபின் அதன் கட்டமைப்பில் சுருக்கப்பட்டுள்ளது.	வெளிப்பாட்டை ஒரு மாற்று இறுதிப்புள்ளி ஆக கருதுவதற்கு முன், மைக்ரோ-டிஸ்ட்ரோஃபின் நிறை சதவீதம், சர்கோலெம்மல் இருப்பிடம், தொடர் செயல்பாட்டு மீட்சி மற்றும் மருத்துவப் பலன் ஆகியவற்றுக்கிடையிலான உறவை அனுபவப்பூர்வமாக உறுதிப்படுத்தவும்.
திசுப்பரிசோதனை வடிவமைப்பு	சிகிச்சைக்கு முன்னும் பின்னும் எதிர் பக்கத்தில் எடுக்கப்படும் வாஸ்டஸ் லேட்டராலிஸ் திசுப் பரிசோதனைகள், இடது-வலது மற்றும் தசைக்குள்ளான இடஞ்சார்ந்த மாறுபாடுகளை அறிமுகப்படுத்துகின்றன. நோயின் முன்னேற்றம் மற்றும் நாரிழை-கொழுப்பு மாற்று சிகிச்சையும், மொத்தப் புரதத்தால் இயல்பாக்கப்பட்ட சிக்னலை மாற்றலாம்.	நிலையான உடற்கூறியல் அடையாளங்களைப் பயன்படுத்தி திசு மாதிரி எடுக்கும் இடத்தைத் தரப்படுத்தவும், தசை-சார்ந்த புரதங்களின் அடிப்படையில் சீராக்கவும், அத்துடன் இழை-கொழுப்புக் கலவையை இணையாக அளவிடவும்.
NSAA ஒப்பீட்டுக் கருவி/புள்ளிவிவரம்	வெளிப்புற இயற்கை வரலாற்றுத் தொகுதி என்பது ஒரு சீரற்ற சமகாலக் கட்டுப்பாடு அல்ல. சோதனைக்கான தகுதி, ஆதரவுப் பராமரிப்பு, பங்கேற்பு விளைவுகள், அடிப்படை NSAA, ஸ்டீராய்டு சிகிச்சை முறை, வயது மற்றும் எக்ஸான் வகை ஆகியவை அனைத்தும் ஒப்பீட்டில் சார்புத்தன்மையை ஏற்படுத்தலாம். இணைக்கப்படாத t-சோதனை போதுமானதல்ல. மேலும், +1.4 NSAA மாற்றம் இந்த வயது குழுவுக்கான சோதனை-மறுசோதனை மாறுபாட்டிற்குள் உள்ளது.	ஒரு சமவாய்ப்புசார், ஒருங்கமைந்த, மருந்துப்போலி-கட்டுப்பாட்டு ஆய்வை நடத்தவும், அல்லது குறைந்தபட்சம் தொடக்கநிலை NSAA, வயது, ஸ்டீராய்டு சிகிச்சை முறை, எக்ஸான் வகை மற்றும் பிற குழப்பக் காரணிகளைக் கணக்கில் கொள்ளும் சரிசெய்யப்பட்ட பகுப்பாய்வுகளைப் பயன்படுத்தவும்.
வயது வரம்பு சார்ந்த குழப்பக் காரணி விளைவு	4–7 வயது சிறுவர்கள், கிச்சை அளிக்கப்படாத, நடமாடும் திறன் கொண்ட DMD நோயாளிகள் இயக்கச் செயல்பாடு மோசமடைவதற்கு முன்பு, இயக்கத் திறனைப் பெறக்கூடிய ஒரு வளர்ச்சிக் காலகட்டத்தில் உள்ளனர். 48-வார NSAA மாற்றம் வளர்ச்சி மேம்பாடு, நோயின் முன்னேற்றம் மற்றும் சாத்தியமான சிகிச்சை விளைவு ஆகியவற்றைக் கலக்கிறது.	வளர்ச்சிப் போக்கை சிகிச்சை விளைவிலிருந்து பிரிக்க, வயது வாரியான ஒரு சமகால சமவாய்ப்பு கட்டுப்பாட்டு முறையைப் பயன்படுத்தவும்.
முந்தைய மருத்துவ முன்னுதாரணம்	வெளிப்படையான மைக்ரோ-டிஸ்ட்ரோஃபின் செயல்பாட்டு சிக்னல்கள் உறுதிப்படுத்தும் நன்மையை நம்பகமாகக் கணிக்கவில்லை; வெளியிடப்பட்ட முன்னுதாரணங்களில் வெளிப்படையான NSAA மேம்பாடுகளை மீண்டும் உருவாக்கத் தவறிய மைக்ரோ-டிஸ்ட்ரோஃபின் மரபணு சிகிச்சை உறுதிப்படுத்தும் சோதனைகள் அடங்கும்.	வெளிப்படையான லேபிள் NSAA மாற்றத்தைத் தீர்மானிக்கும் ஆதாரமாக நம்ப வேண்டாம். கட்டுப்படுத்தப்பட்ட செயல்பாட்டுச் சான்றுகள் தேவைப்படுத்தவும்.
கட்டமைப்பின் அமைப்புசார் வரம்புகள்	138 kDa கட்டமைப்பு, nNOS-பிணைப்புத் தளங்களைக் கொண்ட ஸ்பெக்ட்ரின் மீள்வரிசைகளான R16/17-ஐ நீக்குகிறது. nNOS சேர்ப்பின் இழப்பு, உடற்பயிற்சியின் போது செயல்பாட்டுப் பரிவு நரம்பு மண்டலச் சிதைவையும் இரத்த ஓட்டக்குறைவுப் பாதுகாப்பையும் பாதித்து, வெளிப்பாட்டு அளவைப் பொருட்படுத்தாமல், மீட்புக்கான ஒரு செயல்முறை உச்சவரம்பை உருவாக்கலாம்.	இந்த குறிப்பிட்ட கட்டமைப்பு, தொடர்புடைய டிஸ்ட்ரோஃபின் சார்ந்த கூட்டு அமைப்பின் செயல்பாடு, nNOS அமைவிடம், உடற்பயிற்சி உடலியங்கியல் மற்றும் தசைப் பாதுகாப்பை மீட்டெடுக்கிறதா என்பதைக் காட்டும் செயல்முறை சார்ந்த ஆய்வுகளைச் சேர்க்கவும்.
AAV நீடித்து உழைக்கும் திறன்	12 வாரங்களில் வெக்டர் ஜீனோம்கள் இருப்பது நீடித்த வெளிப்பாட்டை நிரூபிக்காது. AAV9 ஜீனோம்கள் பெரும்பாலும் ஒருங்கிணைக்கப்படாத எபிசோம்கள் ஆக உள்ளன; காலப்போக்கில் குறையலாம். வெக்டர் ஜீனோம்கள் தொடர்ந்து நிலைத்திருப்பது என்பது புரத வெளிப்பாடு தொடர்ந்து நீடிப்பதற்குச் சமம் அல்ல.	12 வாரங்களைத் தாண்டி டிரான்ஸ்ஜீன் புரத வெளிப்பாடு மற்றும் செயல்பாட்டு உயிரிக்குறியீட்டின் நீடித்த தன்மையை அளவிடவும்.
நோய் எதிர்ப்பு சக்தி / பாதுகாப்புத் தன்மை விவரம்	12 நோயாளிகளில் 8 பேரில் டிரான்சமைனிடிஸ், AAV-உட்செலுத்தப்பட்ட செல்களுக்கு எதிரான நோயெதிர்ப்புத் துலங்கலுடன் உடன் ஒத்துள்ளது; ஆனால் செயல்முறை நிறுவப்படவில்லை. AAV9 இதய நாட்டத்தைக் கருத்தில் கொண்டால் ஒருவருக்கு ஏற்பட்ட இதயத்தசை அழற்சி கவலைக்குரியது.	ஆழமான நோய் எதிர்ப்பு மண்டலக் கண்காணிப்பு, கல்லீரல்/இதயப் பாதுகாப்பு குறித்த விரிவான மதிப்பீடு மற்றும் தீவிரமான இதயச் செயல்பாடு சார்ந்த பின்தொடர் கண்காணிப்பு ஆகியவற்றை வழங்கவும்.
நோயாளித் தேர்வு / பொதுமைப்படுத்தக்கூடிய தன்மை	ஆன்டி-AAV9 நடுநிலையாக்கும் எதிர்ப்பொருள்-நேர்மறை நோயாளிகளை விலக்குவது பொதுமைப்படுத்தலை வரையறுக்கிறது. எக்ஸான்-44 நீக்கங்களை விலக்குவது அந்த DMD துணைக்குழுவுக்குப் பொருந்துவதை வரையறுக்கிறது. n=12 என்பது விரிவான DMD மக்கள்தொகை முழுவதும் பாதுகாப்பு மற்றும் செயல்திறனை விவரிக்க மிகவும் சிறியது.	சாத்தியமான இடங்களில் தகுதியை விரிவுபடுத்தவும் அல்லது முடிவை பரந்த ஒப்புதல் ஆதரவாகப் பயன்படுத்துவதற்கு முன் ஆன்டிபாடி நிலை, மரபணுவகை/எக்ஸான் வகை, வயது மற்றும் அடிப்படைச் செயல்பாடு ஆகியவற்றின் அடிப்படையில் அடுக்குமுறைப் பகுப்பாய்வுகளை முன்கூட்டியே குறிப்பிடவும்.

ஒழுங்குமுறை முடிவு: தொகுப்பு உயிரியல் செயல்பாட்டைக் காட்டலாம்; ஆனால் அளவிடப்பட்ட டிஸ்ட்ரோஃபின் வெளிப்பாடானது, மருத்துவப் பலனைக் கணிக்க வாய்ப்புள்ள நம்பகமான பதிலீடு என்பதை இன்னும் நிறுவவில்லை. முக்கிய இடைவெளிகள் பரிசோதனையின் தனித்தன்மை, செல்லாத அளவு நிர்ணயத் தரநிலைகள், மீள்நார் இழைகளால் ஏற்படக்கூடிய குழப்பம், சீரற்ற கட்டுப்பாட்டு முறை இல்லாமை, வயது தொடர்பான NSAA குழப்பம், நிச்சயமற்ற நீடித்த தன்மை மற்றும் தீர்க்கப்படாத பாதுகாப்பு/பொதுமைப்படுத்தல் பிரச்சனைகள்.

இடைவெளியை நிரப்ப, கட்டுப்படுத்தப்பட்ட மற்றும் வயது வாரியாகப் பகுக்கப்பட்ட மருத்துவ ஆய்வு வடிவமைப்பு தேவைப்படும்; அத்துடன் டிரான்ஸ்ஜீன்-குறிப்பிட்ட வெளிப்பாடு சோதனைகள், ஆர்த்தோகனல் புரத அளவு நிர்ணயம், திசு-கட்டமைப்பு கட்டுப்பாடுகள், நீண்ட கால நிலைத்தன்மை தரவு, துண்டிக்கப்பட்ட கட்டமைப்பிற்கான செயல்பாட்டு வழிமுறை சோதனைகள் மற்றும் குறிப்பாக கல்லீரல் மற்றும் இதயம் சார்ந்த வலுவான பாதுகாப்பு கண்காணிப்பு ஆகியவையும் அவசியமாகும்.

ரூப்ரிக் அளவுகோல்கள் & மதிப்பீடுகள்

அளவுகோல்

புள்ளிகள்

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench சரிபார்ப்பு

சுயாதீன நிபுணர் மதிப்பாய்வு மூலம் LifeSciBench-ஐ சரிபார்த்தோம். பணிகளை எழுதுவதில் ஈடுபடாத 453 மதிப்பாய்வாளர்களிடமிருந்து கருத்துகள் பெறப்பட்டன. அந்த மதிப்பாய்வாளர்களில் 97% பேருக்கு Ph.D. அல்லது அதற்கு இணையான முனைவர் பட்டம் இருந்தது; சராசரியாக 12 ஆண்டுகள் துறை அனுபவமும் 14 peer-reviewed வெளியீடுகளும் இருந்தன; 88% பேர் குறைந்தது ஒரு விருது அல்லது fellowship பெற்றதாக தெரிவித்தனர்.

வலுவான பெஞ்ச்மார்க் கேள்விக்குத் தேவையான பண்புகளை ஒவ்வொரு பணியும் பிரதிபலிக்கிறதா என்பதை மதிப்பாய்வாளர்கள் மதிப்பிட்டனர்: உண்மை உலக ஆராய்ச்சி பணியுடன் ஒத்திசைவு, அறிவியல் ரீஸனிங் மற்றும் துறை நிபுணத்துவத்தை உரிய முறையில் சோதித்தல், ஆதாரம் அல்லது நிபுணர் ஒற்றுமையில் நிலைநிறுத்தம், மற்றும் மாடல் செயல்திறனை மதிப்பிடுவதற்கான மொத்தப் பயன். ஒவ்வொரு பிரிவிலும் ஒப்புதல் 96%-ஐ கடந்தது.

உண்மை உலகப் பொருத்தம்

இந்தப் பணி உண்மை உலக உயிரியல் பணியை பிரதிபலிக்கிறதா?

உறுதியாக ஏற்றுக்கொள்கிறேன்: 90.4%
மொத்தத்தில் ஒப்புக்கொள்கிறேன்: 98.3%

அறிவியல் ரீஸனிங் / துறைத் திறன்

இந்தப் பணி சரியான அறிவியல் ரீஸனிங் மற்றும் உயிரியல் துறைத் திறன்களைச் சோதித்து மதிப்பிடுகிறதா?

உறுதியாக ஏற்றுக்கொள்கிறேன்: 86.4%
மொத்தத்தில் ஒப்புக்கொள்கிறேன்: 98.1%

அறிவியல் அடிப்படை

இந்தப் பணி அறிவியல் அடிப்படை கொண்டதா, பதிலளிக்கக்கூடியதா, மேலும் பொருத்தமான ஆதாரம், தரவு, ஆர்டிஃபாக்ட்கள் அல்லது நிபுணர் ஒற்றுமையில் நிலைநிறுத்தப்பட்டதா?

உறுதியாக ஏற்றுக்கொள்கிறேன்: 77.1%
மொத்தத்தில் ஒப்புக்கொள்கிறேன்: 96.5%

மொத்தப் பயன்தன்மை

மொத்தத்தில், இது வலுவான உயிரியல் மதிப்பீட்டுப் பணியா?

உறுதியாக ஏற்றுக்கொள்கிறேன்: 79.1%
மொத்தத்தில் ஒப்புக்கொள்கிறேன்: 96.6%

மதிப்பாய்வாளர் கருத்துகள் அளக்கப்பட்ட மதிப்பீடுகளை வலுப்படுத்தின:

3இல் 1

“மொத்தத்தில் இது வலுவான பணி; ஏனெனில் இதில் ஒரு சரியான மைய விளக்கம் உள்ளது, அதேசமயம் நிச்சயமின்மையை எவ்வளவு கவனமாக வரையறுக்கிறார்கள் என்பதன் மூலம் சிறந்த பதில்களை வேறுபடுத்த இடமளிக்கிறது.”

“இது ஒரு சிறந்த ப்ராம்ப்ட்... இது கட்டமைப்பு உயிரியல், மருத்துவ வேதியியல், ஏற்பி மருந்தியல் மற்றும் லிகண்ட் செயல்பாட்டு வழிமுறைகள் ஆகிய கூறுகளை ஒருங்கிணைக்கிறது.”

“ஒரு மாடல் தகவலை நினைவுகூர முடியுமா என்பதையே இது சோதிப்பதில்லை; அந்நேரத்தில் காட்டப்படும் ஆதாரத்திலிருந்து மாடல் ரீஸனிங் செய்ய முடியுமா என்பதைச் சோதிக்கிறது.”

முடிவுகள்

நாங்கள் இரண்டு பரஸ்பரपूरக அளவுகோல்களை அறிக்கையிடுகிறோம். தேர்ச்சி விகிதம் என்பது 70% என்ற பணி-நிலை வெற்றி வரம்பை ஒரு மாடல் பூர்த்தி செய்யும் பணிகளின் சதவீதம். மதிப்பெண் என்பது சராசரி rubric reward; முழுப் பணி தீர்க்கப்படாவிட்டாலும் தனித்தனி அளவுகோல்களுக்கு பகுதி credit அளிக்கிறது. இரண்டும் முக்கியம்; ஏனெனில் ஒரு அறிவியல் பணிக்கான பதில் முழுமையான பதிலின் எல்லா தேவைகளையும் பூர்த்தி செய்யாமல் இருந்தாலும் பகுதி சரியானதாகவோ பயனுள்ளதாகவோ இருக்கலாம்.

மாடல் செயல்திறன் பணி வகை, workflow, மற்றும் பதில் வடிவமைப்பின்படி கணிசமாக மாறுகிறது.

AI அமைப்புகள் ஆரம்ப வலிமை காட்டும் பகுதிகள்

அறிவியல் synthesis, தொடர்பாடல், மற்றும் கட்டமைக்கப்பட்ட விளக்கம் அடங்கிய பணிகளில் frontier மாடல்கள் ஒப்பீட்டளவில் வலுவாக இருப்பதை LifeSciBench காட்டுகிறது. முழுமையான தேர்ச்சி விகிதங்கள் இன்னும் மிதமானவையே; எனவே இந்த பெஞ்ச்மார்க் துறைகள் இன்னும் பூரணமடையவில்லை. ஆனால் GPT‑Rosalind, GPT‑5.5‑ஐ விட தெளிவான முன்னேற்றம் காட்டி, மொத்த exact pass rate-ஐ 25.7%-இலிருந்து 36.1%-ஆக உயர்த்துகிறது.

மாடல் திறன்களில் மிக வலுவான முன்னேற்ற திசைகள் Scientific Communication மற்றும் Translation-இல் தெரிகின்றன. உதாரணமாக, Scientific Communication தேர்ச்சி விகிதம் GPT‑5.5‑க்கு 56.3%-இலிருந்து GPT‑Rosalind‑க்கு 71.1%-ஆக உயர்கிறது; இந்தப் பிரிவு சிறியது (n=9), எனவே கவனமாக விளக்க வேண்டும். ஆனால் frontier மாடல்கள் ஆதாரத்தை ஒழுங்குபடுத்தி நிபுணர்களுக்கான நம்பகமான விளக்கங்களை உருவாக்கும் திறனில் வேகமாக முன்னேறுகின்றன என்பதை இது காட்டுகிறது. Translation (மருந்து மேம்பாட்டின் "bench-to-bedside" செயல்முறை) இதே மாதிரியை காட்டுகிறது: GPT‑5.5‑க்கு 36.8%-இலிருந்து GPT‑Rosalind‑க்கு 57.7%-ஆக உயர்கிறது. இது preclinical ஆதாரத்தை clinical implications-உடன் இணைக்கும் திறனில் மாடல்கள் வேகமாக மேம்படுகின்றன என்பதைச் சுட்டுகிறது.

Rubric-நிலை முடிவுகளும் அதே திசையைக் காட்டுகின்றன. நிபுணர்களுக்கு பயனுள்ள அல்லது செயல்படுத்தக்கூடிய outputs தேவைப்படும் பணிகளில், GPT‑5.5‑க்கு 29.1% ஆக இருக்கையில் GPT‑Rosalind 44.7% பெறுகிறது. நிச்சயமின்மை மற்றும் caveat கையாளல் தேவைப்படும் பணிகளில், 29.3%-க்கு ஒப்பிடும்போது அது 44.8% பெறுகிறது. பணிக்கு தெளிவான ஆதார எல்லை இருந்து, கட்டமைக்கப்பட்ட அறிவியல் தீர்ப்பை கோரும் போது மாடல்கள் அதிகம் பயனுள்ளதாக இருப்பதை இந்த மாதிரி காட்டுகிறது.

தொழில்துறை மற்றும் கல்வி நிபுணர்கள் அடையாளம் கண்ட அறிவியல் மதிப்புள்ள பணிகளில் GPT‑Rosalind செயல்திறனில் முன்னிலை வகிக்கிறது.

துறை மற்றும் கல்வி நிபுணர்கள் அடையாளம் கண்ட அறிவியல் மதிப்புள்ள பணிகளில் GPT‑Rosalind செயல்திறனில் முன்னிலை வகிக்கிறது.

AI அமைப்புகள் இன்னும் குறைவாக இருக்கும் பகுதிகள்

ஆர்டிஃபாக்ட்-அதிகம், வடிவமைப்பு-அதிகம், மற்றும் செயல்பாட்டு கட்டுப்பாடுகள் நிறைந்த அறிவியல் பணிகளில் செயல்திறன் இன்னும் மிகவும் பலவீனமாக உள்ளது. குறிப்பாக, Design, Optimization, & Prediction இன்னும் கடினமான workflows-இல் ஒன்றாக உள்ளது; GPT‑Rosalind passrate 30.7%. Analysis-உம் 30.3% ஆக அதேபோல் கடினம்.

ஆர்டிஃபாக்ட் பயன்பாடு மிகவும் தெளிவான இடைவெளி. ஆர்டிஃபாக்ட்-அதிகம் உள்ள சூழல்களில் GPT‑Rosalind, GPT‑5.5‑ஐ விட சிறப்பாக செயல்பட்டாலும், அதன் தேர்ச்சி விகிதம் உரை-மட்டும் பணிகளில் 45.1%-இலிருந்து ஆர்டிஃபாக்ட்கள் அல்லது URLs உள்ள பணிகளில் 28.1%-ஆக இன்னும் குறைகிறது. GPT‑5.5‑யும் இதே மாதிரியை காட்டுகிறது; 29.9%-இலிருந்து 21.9%-ஆக குறைகிறது. சிக்கலான figures அல்லது பெரிய sequence files-இலிருந்து தகவலை எடுத்து அதை இறுதி பதிலில் ஒருங்கிணைப்பதில் frontier மாடல்கள் சிரமப்படுகின்றன என்பதை மேலும் விரிவான பகுப்பாய்வு உறுதிப்படுத்துகிறது.

பணிகளில் மூல ஆதார ரீஸனிங் அல்லது ஆர்டிஃபாக்ட்களுடன் வேலை செய்வது தேவைப்படும்போது தேர்ச்சி விகிதங்கள் குறைகின்றன

பதில் வடிவமும் முக்கியம். துல்லியமான sequence, structure, அல்லது construct-level outputs தேவைப்படும் பணிகளில் தேர்ச்சி விகிதங்கள் குறைவாக உள்ளன: numeric பணிகளில் GPT‑Rosalind 14.8% மட்டுமே அடைகிறது; sequence அல்லது structure outputs-இல் 24.0% அடைகிறது. Construct-generation பணிகளும் brittle; GPT‑Rosalind 27.3% ஆக இருந்து GPT‑5.5‑ஐ விட மிகச் சிறிய முன்னேற்றமே காட்டுகிறது. இந்த இடைவெளியின் ஒரு பகுதி exact-answer பணிகளுக்கான கடுமையான grading surface-ஐ பிரதிபலிக்கலாம்; அங்கு கணக்கீடு அல்லது formatting-இல் சிறிய வேறுபாடுகள் கூட பதிலை pass threshold-க்கு கீழே தள்ளலாம். இன்னும், இத்தோல்விகள் அறிவியல் ரீதியாக அர்த்தமுள்ளவை; ஏனெனில் CRISPR/HDR donor design அல்லது siRNA design போன்ற பல உயிரியல் workflows நேரடியாகப் பயன்படுத்தும் அளவுக்கு துல்லியமான outputs-ஐ தேவைப்படுத்துகின்றன.

மாடல்கள் பல நேரங்களில் பணியை முழுவதும் தீர்க்காமல் ஒரு பகுதி வரை செல்கின்றன. சுமார் 14% பணிகளில், exact-pass threshold-ஐத் தாண்டாதபோதும் மாடல்கள் கணிசமான rubric credit பெற்றன. GPT‑Rosalind‑க்கு, 109 பணிகளில் தேர்ச்சி விகிதங்கள் 20%-க்கு கீழ் இருந்தபோதும் குறைந்தது 50% rubric reward கிடைத்தது. நடைமுறையில், மாடல்கள் தொடர்புடைய ஆதாரத்தை கண்டறியலாம் அல்லது நம்பத்தகுந்த பகுதி பதிலை உருவாக்கலாம்; ஆனால் முக்கிய கட்டுப்பாட்டைத் தவறவிடுதல், தவறான ஆதாரத்தைப் பயன்படுத்துதல், முழுமையற்ற கணக்கீடு செய்தல், அல்லது தங்கள் ரீஸனிங்-ஐ அறிவியல் ரீதியாக பயனுள்ள இறுதி முடிவுடன் இணைக்காததால் தோல்வியடையலாம்.

வரம்புகள் & அடுத்தது என்ன

உயிரியல் ஆராய்ச்சிக்கு AI அமைப்புகள் எவ்வளவு பயனுள்ளதாக இருக்க முடியும் என்பதை அளவிடும் ஒரு படியாக LifeSciBench உள்ளது; ஆனால் live research environments-இல் மாடல்களை ஆய்வு செய்வதற்கான மாற்றாக அது இல்லை. இந்த பெஞ்ச்மார்க் மீண்டும் மீண்டும் வரும் industry workflows-ஐ பிரதிபலிக்கும் self-contained பணிகளில் கவனம் செலுத்துகிறது; பல அறிவியல் சிறப்புத் துறைகளும் பணி வகைகளும் அதன் தற்போதைய வரம்புக்கு வெளியே விடப்படுகின்றன. உண்மையான ஆராய்ச்சி iterative: விஞ்ஞானிகள் புதிய ஆதாரத்தைச் சேகரிக்கின்றனர், கருதுகோள்களைத் திருத்துகின்றனர், தொடர்ச்சிப் பரிசோதனைகளை வடிவமைக்கின்றனர், முடிவுகள் தோன்றும் போதே திட்டங்களை மாற்றுகின்றனர்.

எனவே LifeSciBench-இல் வலுவான செயல்திறனை downstream research impact-ன் நேரடி அளவாக அல்ல, உண்மையான பணி-நிலை திறனின் ஆதாரமாக விளக்க வேண்டும். பெஞ்ச்மார்க் industry workflows-இல் நிலைநிறுத்தப்பட்டாலும், live research programs-ன் முழு பல்வகைமை அல்லது இயக்கங்களைப் பிடிக்காது; அங்கு முன்னேற்றம் காலப்போக்கில் வெளிப்படும் காரணிகளைப் பொறுத்தது.

அடுத்த படி, பெஞ்ச்மார்க் செயல்திறனை live research workflows-இல் deployment studies-உடன் இணைப்பது. LifeSciBench செயல்படும் விஞ்ஞானிகளுடன் உருவாக்கப்பட்டிருந்தாலும், AI அமைப்புகள் கண்டுபிடிப்பை வேகப்படுத்துகிறதா அல்லது R&D முடிவுகளை மேம்படுத்துகிறதா என்பதை அளவிட, உண்மையான ஆராய்ச்சி சூழல்களில், நீண்ட கால அளவுகளில், மேலும் ரீஸனிங், feedback, மற்றும் experimental follow-up பல சுற்றுகளுக்கு இடையே மாடல் பயன்பாடு மற்றும் செயல்திறனை ஆய்வு செய்ய வேண்டும்.