17 जून 2026

LifeSciBench का परिचय

वास्तविक जीवन विज्ञान शोध पर आधारित, विशेषज्ञ-लिखित और विशेषज्ञ-समीक्षित बेंचमार्क

लोड किया जा रहा है...

एजेंटिक AI सिस्टम वैज्ञानिक कार्य करने में लगातार अधिक सक्षम होते जा रहे हैं. हालाँकि, जीवन विज्ञान शोधकर्ताओं के लिए उनकी उपयोगिता इस पर निर्भर करती है कि वे वास्तविक शोध की जटिलता को कितनी अच्छी तरह संभालते हैं. यह काम शायद ही कभी किसी एक तथ्य-स्मरण प्रश्न या साफ-सुथरी भविष्यवाणी समस्या जैसा होता है. शोधकर्ता अधूरे साक्ष्य की व्याख्या करते हैं, विरोधाभासी परिणामों का सामंजस्य करते हैं, कठिन प्रयोग डिज़ाइन करते हैं, असे की समस्याएँ दूर करते हैं, ट्रांसलेशनल जोखिम का मूल्यांकन करते हैं, और अनिश्चितता में अगला कदम तय करते हैं.

मौजूदा बेंचमार्क इन क्षमताओं को पूरी तरह नहीं पकड़ते. जीवन विज्ञान के कई मूल्यांकन संकीर्ण क्षेत्रों या अलग-थलग कौशलों पर केंद्रित होते हैं, जिससे संरचित प्रश्न प्रारूपों और साफ संदर्भ उत्तरों वाले प्रश्न बनते हैं. वे उपयोगी हैं, फिर भी अक्सर यह सही मायने में नहीं परख पाते कि कोई मॉडल शोध-स्तर के व्यापक काम में योगदान दे सकता है या नहीं.

हमने इस अंतर को कम करने में मदद के लिए LifeSciBench डिज़ाइन किया. हर कार्य उन सक्रिय जीवन वैज्ञानिकों के निर्णय पर आधारित है जिनके पास Ph.D.-स्तर का प्रशिक्षण और बायोटेक तथा फ़ार्मास्यूटिकल परिवेशों में ड्रग डिस्कवरी कार्यक्रमों को आगे बढ़ाने का प्रत्यक्ष अनुभव है.

LifeSciBench में सात वर्कफ़्लो और सात जैविक क्षेत्रों में फैले 750 विशेषज्ञ-लिखित कार्य शामिल हैं.

1,062

कार्य आर्टिफैक्ट

173

वैज्ञानिक योगदानकर्ता

19,020

रूब्रिक मानदंड

453

विशेषज्ञ समीक्षक

LifeSciBench क्या मापता है

LifeSciBench यह मापता है कि AI सिस्टम केवल जीवविज्ञान के प्रश्नों का उत्तर देने के बजाय वास्तविक जीवन विज्ञान शोध कार्यों में सहायता कर सकते हैं या नहीं. बेंचमार्क टैक्सोनॉमी परिभाषित करने के लिए, हमने सक्रिय जीवन वैज्ञानिकों से उन वर्कफ़्लो के बारे में सर्वे किया जिनका वे अनुप्रयुक्त शोध परिवेशों में सबसे अधिक उपयोग करते हैं. फिर हमने उनके उत्तरों को सात बार-बार आने वाली श्रेणियों में रखा: साक्ष्य प्रबंधन, विश्लेषण, डिज़ाइन और ऑप्टिमाइज़ेशन, वैज्ञानिक रीज़निंग, वैलिडेशन और ऑपरेशंस, अनुवाद, और वैज्ञानिक संचार.

हर कार्य उस अनुरोध की तरह संरचित है जो कोई वैज्ञानिक किसी जानकार सहयोगी को दे सकता है: वैज्ञानिक प्रॉम्प्ट, कोई भी प्रासंगिक संदर्भ या आर्टिफैक्ट, और मुक्त-उत्तर प्रतिक्रिया. विशेषज्ञों द्वारा लिखे रूब्रिक यह मूल्यांकन करते हैं कि कोई मॉडल किसी विशिष्ट समस्या के लिए वह सही उत्तर दे सकता है या नहीं, जिसमें विवरण, औचित्य, सावधानियों और फ़ॉर्मैटिंग का वही स्तर हो जिसकी वैज्ञानिक अपेक्षा करेगा.

डेटासेट निर्माण

LifeSciBench वैज्ञानिक रीज़निंग के साथ-साथ उन कम स्पष्ट परिभाषित, व्यावहारिक कौशलों का मूल्यांकन करता है जो वास्तविक दुनिया में वैज्ञानिक उपयोग के लिए आवश्यक हैं. इसके कार्य मॉडल से वास्तविक शोध समस्याओं पर काम करवाते हैं: साक्ष्य की व्याख्या करना, क्षेत्र-आधारित निर्णय लेना, और ऐसे निष्कर्ष संप्रेषित करना जो विशेषज्ञ समीक्षकों के लिए उपयोगी हों. कई कार्यों में मॉडल को केवल प्रॉम्प्ट टेक्स्ट पर निर्भर रहने के बजाय अनिश्चितता संभालनी और सहायक डेटा फ़ाइलों पर रीज़निंग करनी होती है.

बेंचमार्क को जीवन विज्ञान कार्य की जटिलता दर्शाने के लिए डिज़ाइन किया गया है. कुल मिलाकर, 79% कार्यों में रीज़निंग या निर्णय लेने के कई चरण चाहिए होते हैं, प्रति कार्य औसतन चार चरण. LifeSciBench में 1,062 संलग्न आर्टिफैक्ट शामिल हैं, जिनमें चित्र, PDF, तालिकाएँ, अनुक्रम फ़ाइलें, संरचना या रासायनिक फ़ाइलें, और वेब संदर्भ शामिल हैं. आधे से अधिक कार्यों (53%) में मॉडल को कम से कम एक आर्टिफैक्ट से जानकारी की व्याख्या या संश्लेषण करना होता है.

कार्य विभिन्न जीवन विज्ञान विषयों के 173 विशेषज्ञ वैज्ञानिकों ने बनाए. हर वैज्ञानिक के पास Ph.D.-स्तर का प्रशिक्षण और जैव-प्रौद्योगिकी या फ़ार्मास्यूटिकल उद्योग का अनुभव था. स्वीकृति से पहले कार्यों में जितने आवश्यक हों उतने संशोधन चक्र हो सकते थे, राउंड की संख्या पर कोई तय सीमा नहीं थी; स्वीकृत कार्यों में औसतन छह स्व-निर्देशित स्वचालित समीक्षा चक्र हुए और विशेषज्ञ समीक्षा के कम से कम दो राउंड पूरे हुए. समीक्षाएँ या तो सत्यापनीय सही उत्तर पर आधारित थीं या मजबूत विशेषज्ञ सहमति पर, जिसमें संबंधित क्षेत्र के समीक्षकों के बीच कम से कम 90% सहमति थी. इस प्रक्रिया ने यह सुनिश्चित करने में मदद की कि स्वीकृत कार्य वैज्ञानिक आधार पर टिके, ग्रेड करने के लिए पर्याप्त स्पष्ट, और अनुप्रयुक्त शोध के प्रतिनिधि हों.

आरेख जो LifeSciBench कार्यों को दिखाता है, जिनमें जीनोमिक अनुक्रम, आणविक संरचनाएँ, चित्र, दस्तावेज़, स्प्रेडशीट और वेब लिंक जैसे जीवन-विज्ञान डेटा स्रोतों को बहु-चरणीय रीज़निंग और विशेषज्ञ समीक्षा के साथ जोड़ा जाता है.

ग्रेडिंग और रूब्रिक विभाजन

LifeSciBench कार्यों की ग्रेडिंग विस्तृत, कार्य-विशिष्ट रूब्रिक से की जाती है, जो अपेक्षित प्रतिक्रिया को विशिष्ट वैज्ञानिक दावों, गणनाओं, निर्णयों, औचित्यों आदि में विभाजित करता है. पूरे बेंचमार्क में, विशेषज्ञों द्वारा विकसित रूब्रिक में 19,020 मानदंड शामिल हैं, औसतन 25 प्रति कार्य, ताकि वैज्ञानिक शुद्धता और शोध निर्णयों के लिए उपयोगिता दोनों का आकलन किया जा सके.

यह डिज़ाइन दिखाता है कि व्यवहार में वैज्ञानिक काम का मूल्यांकन कैसे होता है: जीवन विज्ञान के कई कार्यों को केवल अंतिम उत्तर जाँचकर ग्रेड नहीं किया जा सकता. कोई प्रतिक्रिया सही उच्च-स्तरीय निष्कर्ष तक पहुँच सकती है, लेकिन फिर भी अधूरी मानी जा सकती है, उदाहरण के लिए, यदि वह किसी प्रमुख असे सीमा को अनदेखा कर दे या अत्यधिक महत्वपूर्ण जैविक सूक्ष्मता को सक्रिय रूप से सामने न लाए. इसके विपरीत, कोई आंशिक प्रतिक्रिया उच्च-गुणवत्ता वाली रीज़निंग रख सकती है, भले ही वह कार्य को पूरी तरह हल न करे.

सूक्ष्म रूब्रिक इस बारीकी को पकड़ते हैं. LifeSciBench केवल अंतिम उत्तर की शुद्धता नहीं, बल्कि यह भी मूल्यांकन करता है कि कोई मॉडल अपने उत्तर तक वैज्ञानिक रूप से वैध और संचालन की दृष्टि से उपयोगी तरीके से पहुँचता है या नहीं.

पेपर, आकृतियों, तालिकाओं और प्रयोगात्मक रिकॉर्ड से वैज्ञानिक साक्ष्य निकालना, मिलान करना और ऑडिट करना.

इवैल उदाहरण

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

उम्‍मीदवार का रिस्पांस

निष्कर्ष: प्रस्तुत जानकारी के आधार पर, यह पैकेज माइक्रो-डिस्ट्रोफिन अभिव्यक्ति को ऐसे सरोगेट एंडपॉइंट के रूप में उपयोग करते हुए त्वरित अनुमोदन का समर्थन करने के लिए पर्याप्त रूप से मजबूत नहीं है, जिसके बारे में यह उचित रूप से अपेक्षित हो कि वह क्लिनिकल लाभ की भविष्यवाणी कर सके. एक संशयपूर्ण FDA समीक्षक संभवतः बायोमार्कर, कार्यात्मक प्रभाव, टिकाऊपन, सुरक्षा और व्यापक प्रयोज्यता से संबंधित साक्ष्यों को पर्याप्त समर्थन न मिलने वाला मानेगा.

पैकेज आइटम	मुख्य विफलता का कारण	क्या आवश्यक होगा
वेस्टर्न ब्लॉट क्वांटिफिकेशन	MANEX1A एक ऐसे N-टर्मिनल एपिटोप से बंधता है जो एंडोजेनस फुल-लेंथ डिस्ट्रोफिन और माइक्रो-डिस्ट्रोफिन ट्रांसजीन, दोनों में समान रूप से मौजूद होता है. इसलिए यह असे ट्रांसजीन और अवशिष्ट/रिवर्टेंट डिस्ट्रोफिन के बीच स्पष्ट अंतर नहीं कर पाता. इसके अतिरिक्त, 138 kDa माइक्रो-डिस्ट्रोफिन का क्वांटिफिकेशन एक स्वस्थ फुल-लेंथ डिस्ट्रोफिन स्टैंडर्ड के विरुद्ध करना भी मान्य नहीं है.	एक रिकॉम्बिनेंट माइक्रो-डिस्ट्रोफिन स्टैंडर्ड और ऐसी ऑर्थोगोनल विधि का उपयोग करें जो ट्रांसजीन को एंडोजेनस डिस्ट्रोफिन से अलग पहचान सके, जैसे टार्गेटेड मास स्पेक्ट्रोमेट्री या ट्रांसजीन-विशिष्ट/एपिटोप-विशिष्ट असे.
इम्यूनोफ्लोरेसेंस	C-टर्मिनल पॉलीक्लोनल एंटीबॉडी इस उद्देश्य के लिए उपयुक्त नहीं है, क्योंकि 138 kDa कंस्ट्रक्ट में सी-टर्मिनल डोमेन मौजूद नहीं होता. कई DMD मरीजों में रिवर्टेंट फाइबर्स पाए जाते हैं, और रिवर्टेंट डिस्ट्रोफिन सी-टर्मिनल एपिटोप्स को बनाए रख सकता है. उम्र बढ़ने के साथ रिवर्टेंट फाइबर्स क्लोनल रूप से विस्तार कर सकते हैं, जिससे विशेष रूप से अधिक उम्र के लड़कों में IF सिग्नल पक्षपाती	ऐसे एपिटोप के विरुद्ध एंटीबॉडी का उपयोग करके IF को दोहराएँ, जो ट्रांसजीन में मौजूद हो लेकिन रिवर्टेंट डिस्ट्रोफिन में अनुपस्थित हो. ट्रांसजीन-पॉज़िटिव फाइबर्स का क्वांटिफिकेशन रिवर्टेंट फाइबर्स से अलग करके करें.
सरोगेट एंडपॉइंट की वैधता	यह पैकेज प्रोटीन की मात्रा और क्लिनिकल कार्यक्षमता को एक समान मान लेता है. “स्वस्थ नियंत्रण के प्रोटीन द्रव्यमान का 38%” होने का अर्थ यह नहीं है कि सामान्य डिस्ट्रोफिन कार्यक्षमता का भी 38% प्राप्त हो गया है, क्योंकि माइक्रो-डिस्ट्रोफिन संरचनात्मक रूप से संक्षिप्त (ट्रंकेटेड) होता है.	अभिव्यक्ति को सरोगेट एंडपॉइंट मानने से पहले, माइक्रो-डिस्ट्रोफिन मास-प्रतिशत, सार्कोलेमल लोकलाइज़ेशन, डाउनस्ट्रीम फंक्शनल रेस्टोरेशन और क्लिनिकल लाभ के बीच संबंध को अनुभवजन्य रूप से वैलिडेट करें.
बायोप्सी डिज़ाइन	उपचार से पहले और बाद में लिए गए विपरीत-पक्षीय vastus lateralis बायोप्सी सैंपल्स, बाएँ-दाएँ तथा मांसपेशी के भीतर स्थानिक परिवर्तनशीलता को शामिल कर देते हैं. रोग की प्रगति और फाइब्रो-फैटी रिप्लेसमेंट भी कुल-प्रोटीन-नॉर्मलाइज़्ड सिग्नल को बदल सकते हैं.	सुसंगत शारीरिक लैंडमार्क्स का उपयोग करके बायोप्सी साइट को मानकीकृत करें, मांसपेशी-विशिष्ट प्रोटीन्स के अनुसार नॉर्मलाइज़ करें, और समानांतर रूप से फाइब्रो-फैटी संरचना का भी मापन करें.
NSAA कंपेरेटर/सांख्यिकी	बाहरी नैचुरल-हिस्ट्री कोहोर्ट, रैंडमाइज़्ड समकालिक कंट्रोल का विकल्प नहीं है. ट्रायल पात्रता, सहायक देखभाल, भागीदारी से जुड़े प्रभाव, बेसलाइन NSAA, स्टेरॉयड रेजिमेन, आयु और एक्सॉन वर्ग जैसे कारक तुलना में बायस उत्पन्न कर सकते हैं. केवल एक अनपेयरड t-test पर्याप्त नहीं है. इसके अलावा, +1.4 NSAA का परिवर्तन इस आयु वर्ग में टेस्ट-रीटेस्ट परिवर्तनशीलता की सीमा के भीतर आता है.	एक रैंडमाइज़्ड समकालिक प्लेसीबो-नियंत्रित अध्ययन संचालित करें, या कम से कम ऐसे समायोजित विश्लेषणों का उपयोग करें जो बेसलाइन NSAA, आयु, स्टेरॉयड रेजिमेन, एक्सॉन वर्ग और अन्य भ्रमकारी कारकों (कन्फाउंडर्स) को ध्यान में रखें.
आयु-सीमा से उत्पन्न कन्फाउंडिंग	4–7 वर्ष की आयु के लड़के विकास की ऐसी अवस्था में होते हैं, जहाँ बिना उपचार वाले चलने-फिरने में सक्षम DMD मरीजों में गिरावट हावी होने से पहले मोटर कार्यक्षमता में सुधार देखा जा सकता है. 48-सप्ताह का NSAA परिवर्तन विकासात्मक प्रगति, रोग की प्रगति और संभावित उपचार प्रभाव—तीनों के संयुक्त प्रभाव को दर्शाता है.	उपचार के प्रभाव को विकासात्मक प्रक्षेपवक्र से अलग करने के लिए आयु-आधारित स्तरीकरण के साथ समवर्ती रैंडमाइज़्ड कंट्रोल का उपयोग करें.
पूर्व क्लिनिकल मिसाल	ओपन-लेबल माइक्रो-डिस्ट्रोफिन के फंक्शनल संकेतों ने पुष्टि किए गए लाभ की विश्वसनीय रूप से भविष्यवाणी नहीं की है; प्रकाशित क्लिनिकल मिसालों में ऐसे माइक्रो-डिस्ट्रोफिन जीन थेरेपी कन्फर्मेटरी ट्रायल शामिल हैं जो ओपन-लेबल NSAA सुधारों को दोहराने में विफल रहे.	निर्णायक समर्थन के रूप में ओपन-लेबल NSAA परिवर्तन पर निर्भर न रहें. नियंत्रित फंक्शनल साक्ष्य की आवश्यकता रखें.
कंस्ट्रक्ट की संरचनात्मक सीमाएँ	138 kDa कंस्ट्रक्ट में स्पेक्ट्रिन रिपीट्स R16/17 हटाए गए हैं, जिनमें nNOS-बाइंडिंग साइट्स मौजूद होती हैं. nNOS की भर्ती में कमी से व्यायाम के दौरान फंक्शनल सिम्पैथोलाइसिस और इस्कीमिया से सुरक्षा प्रभावित हो सकती है, जिससे एक्सप्रेशन स्तर से स्वतंत्र रूप से उपचारात्मक सुधार की एक मैकेनिस्टिक सीमा उत्पन्न होती है.	ऐसी मैकेनिस्टिक स्टडीज़ जोड़ें जो दिखाएँ कि क्या यह विशिष्ट कंस्ट्रक्ट संबंधित dystrophin-associated complex फंक्शन, nNOS लोकलाइज़ेशन, एक्सरसाइज़ फिज़ियोलॉजी और मसल प्रोटेक्शन को बहाल करता है.
AAV की दीर्घकालिक स्थिरता	12 सप्ताह पर वेक्टर जीनोम की उपस्थिति दीर्घकालिक एक्सप्रेशन को स्थापित नहीं करती. AAV9 जीनोम मुख्य रूप से नॉन-इंटीग्रेटिंग एपिसोम्स के रूप में मौजूद रहते हैं और समय के साथ कम हो सकते हैं. वेक्टर-जीनोम की स्थिरता, प्रोटीन एक्सप्रेशन की दीर्घकालिक स्थिरता के समान नहीं है.	12 सप्ताह से आगे ट्रांसजीन प्रोटीन एक्सप्रेशन और फंक्शनल बायोमार्कर्स की दीर्घकालिक स्थिरता का आकलन करें.
इम्यून/सुरक्षा प्रोफ़ाइल	12 में से 8 मरीजों में ट्रांसएमिनाइटिस AAV-ट्रांसड्यूस्ड कोशिकाओं के प्रति इम्यून प्रतिक्रिया के अनुरूप है, लेकिन इसका मैकेनिज्म स्थापित नहीं हुआ है. AAV9 की कार्डियक ट्रॉपिज़्म को देखते हुए मायोकार्डाइटिस का एक मामला चिंता का विषय है.	अधिक गहन इम्यून मॉनिटरिंग, लिवर और कार्डियक सुरक्षा का विस्तृत मूल्यांकन, तथा अधिक सघन कार्डियक फॉलो-अप प्रदान करें.
मरीज चयन/सामान्यीकरण क्षमता	anti-AAV9 न्यूट्रलाइज़िंग एंटीबॉडी-पॉज़िटिव मरीजों को बाहर रखने से निष्कर्षों की सामान्यीकरण क्षमता सीमित हो जाती है. exon-44 डिलीशन्स को बाहर रखने से DMD के उस उपसमूह पर इसकी लागू करने की क्षमता सीमित हो जाती है. व्यापक DMD आबादी में सुरक्षा और प्रभावकारिता का आकलन करने के लिए n=12 का नमूना आकार बहुत छोटा है.	जहाँ संभव हो पात्रता मानदंडों का विस्तार करें, या व्यापक स्वीकृति के समर्थन में परिणामों का उपयोग करने से पहले एंटीबॉडी स्थिति, जीनोटाइप/एक्सॉन वर्ग, आयु और बेसलाइन फंक्शन के आधार पर स्तरीकृत विश्लेषण पहले से निर्धारित करें.

नियामक निष्कर्ष: यह पैकेज जैविक गतिविधि का संकेत दे सकता है, लेकिन यह अभी तक यह स्थापित नहीं करता कि मापा गया माइक्रो-डिस्ट्रोफिन एक्सप्रेशन एक विश्वसनीय सरोगेट है जो क्लिनिकल लाभ की यथोचित संभावना के साथ भविष्यवाणी कर सके. प्रमुख कमियाँ हैं: असे की विशिष्टता, अमान्य क्वांटिफिकेशन मानक, रिवर्टेंट-फाइबर से संभावित भ्रमकारी प्रभाव, रैंडमाइज़्ड कंट्रोल की अनुपस्थिति, आयु-संबंधित NSAA भ्रमकारी प्रभाव, दीर्घकालिक स्थिरता को लेकर अनिश्चितता, तथा सुरक्षा और सामान्यीकरण क्षमता से जुड़े अनसुलझे मुद्दे.

इन कमियों को दूर करने के लिए कार्यक्रम में ट्रांसजीन-विशिष्ट एक्सप्रेशन असेज़, ऑर्थोगोनल प्रोटीन क्वांटिफिकेशन, टिशू-कंपोज़िशन कंट्रोल्स, दीर्घकालिक स्थिरता संबंधी डेटा, ट्रंकेटेड कंस्ट्रक्ट के लिए मैकेनिस्टिक फंक्शनल असेज़, तथा विशेष रूप से हेपेटिक और कार्डियक सुरक्षा के लिए अधिक मजबूत सुरक्षा मॉनिटरिंग के साथ आयु-आधारित स्तरीकृत और नियंत्रित क्लिनिकल डिज़ाइन की आवश्यकता होगी.

निर्देश संबंधी मानक और ग्रेड

मानक

पॉइंट्स

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench का सत्यापन

हमने स्वतंत्र विशेषज्ञ समीक्षा के माध्यम से LifeSciBench को सत्यापित किया. फ़ीडबैक 453 समीक्षकों से आया, जो कार्य लिखने में शामिल नहीं थे. इन समीक्षकों में 97% के पास Ph.D. या समकक्ष डॉक्टरेट थी, औसतन 12 वर्ष का क्षेत्रीय अनुभव और 14 पीयर-रिव्यू प्रकाशन थे; 88% ने कम से कम एक पुरस्कार या फ़ेलोशिप मिलने की सूचना दी.

समीक्षकों ने यह स्कोर किया कि हर कार्य एक मजबूत बेंचमार्क प्रश्न के लिए आवश्यक गुणों को दर्शाता है या नहीं: वास्तविक शोध कार्य से मेल, वैज्ञानिक रीज़निंग और क्षेत्रीय विशेषज्ञता की उपयुक्त जाँच, साक्ष्य या विशेषज्ञ सहमति में आधार, और मॉडल प्रदर्शन के आकलन के लिए समग्र उपयोगिता. हर श्रेणी में सहमति 96% से अधिक रही.

वास्तविक दुनिया में प्रासंगिकता

क्या यह कार्य वास्तविक दुनिया के जीवन विज्ञान कार्य को दर्शाता है?

पूरी तरह सहमत: 90.4%
समग्र रूप से सहमत: 98.3%

वैज्ञानिक रीज़निंग / क्षेत्रीय कौशल

क्या यह कार्य सही वैज्ञानिक रीज़निंग और जीवन विज्ञान क्षेत्र के कौशलों की जाँच और ग्रेडिंग करता है?

पूरी तरह सहमत: 86.4%
समग्र रूप से सहमत: 98.1%

वैज्ञानिक आधार

क्या यह कार्य वैज्ञानिक आधार पर टिका, उत्तर देने योग्य, और उपयुक्त साक्ष्य, डेटा, आर्टिफैक्ट या विशेषज्ञ सहमति से जुड़ा है?

पूरी तरह सहमत: 77.1%
समग्र रूप से सहमत: 96.5%

समग्र उपयोगिता

कुल मिलाकर, क्या यह जीवन विज्ञान मूल्यांकन का मजबूत कार्य है?

पूरी तरह सहमत: 79.1%
समग्र रूप से सहमत: 96.6%

समीक्षकों की टिप्पणियों ने मात्रात्मक रेटिंग को और मजबूत किया:

3 में से 1

“कुल मिलाकर यह एक मजबूत कार्य है, क्योंकि इसमें एक सही मूल व्याख्या है, फिर भी बेहतर उत्तरों को इस आधार पर अलग करने की गुंजाइश रहती है कि वे अनिश्चितता की सीमा कितनी सावधानी से तय करते हैं.”

परिणाम

हम दो पूरक मेट्रिक रिपोर्ट करते हैं. पास दर उन कार्यों का प्रतिशत है जिनमें कोई मॉडल 70% की कार्य-स्तरीय सफलता सीमा पूरी करता है. स्कोर औसत रूब्रिक रिवॉर्ड है, जो पूरा कार्य हल न होने पर भी व्यक्तिगत मानदंडों के लिए आंशिक श्रेय देता है. दोनों मायने रखते हैं, क्योंकि वैज्ञानिक कार्य पर कोई प्रतिक्रिया पूर्ण उत्तर की हर आवश्यकता पूरी किए बिना भी आंशिक रूप से सही या उपयोगी हो सकती है.

मॉडल का प्रदर्शन कार्य प्रकार, वर्कफ़्लो और प्रतिक्रिया प्रारूप के अनुसार काफ़ी बदलता है.

जहाँ AI सिस्टम शुरुआती मजबूती दिखाते हैं

LifeSciBench दिखाता है कि फ़्रंटियर मॉडल वैज्ञानिक संश्लेषण, संचार और संरचित व्याख्या से जुड़े कार्यों में अपेक्षाकृत सबसे मजबूत हैं. पूर्ण पास दरें अभी भी सीमित हैं, इसलिए ये बेंचमार्क क्षेत्र संतृप्ति से बहुत दूर हैं, लेकिन GPT‑Rosalind, GPT‑5.5 की तुलना में सार्थक प्रगति दिखाता है, जिससे कुल सटीक पास दर 25.7% से बढ़कर 36.1% हो जाती है.

मॉडल क्षमताओं में प्रगति की सबसे मजबूत दिशाएँ वैज्ञानिक संचार और अनुवाद में दिखाई देती हैं. उदाहरण के लिए, वैज्ञानिक संचार की पास दर GPT‑5.5 के 56.3% से बढ़कर GPT‑Rosalind के लिए 71.1% हो जाती है; यह श्रेणी छोटी है (n=9), इसलिए इसकी व्याख्या सावधानी से की जानी चाहिए, लेकिन यह संकेत देती है कि फ़्रंटियर मॉडल साक्ष्य को व्यवस्थित करने और विशेषज्ञों के लिए प्रभावी व्याख्याएँ तैयार करने की क्षमता में तेज़ी से सुधर रहे हैं. अनुवाद, यानी दवा विकास की "बेंच-टू-बेडसाइड" प्रक्रिया, भी ऐसा ही पैटर्न दिखाता है, GPT‑5.5 के 36.8% से बढ़कर GPT‑Rosalind के लिए 57.7% हो जाता है, जिससे संकेत मिलता है कि मॉडल प्रीक्लिनिकल साक्ष्य को क्लिनिकल निहितार्थों से जोड़ने की क्षमता में तेज़ी से सुधर रहे हैं.

रूब्रिक-स्तरीय परिणाम भी इसी दिशा की ओर संकेत करते हैं. विशेषज्ञों के लिए उपयोगी या कार्रवाई योग्य आउटपुट की आवश्यकता वाले कार्यों में, GPT‑Rosalind 44.7% स्कोर करता है, जबकि GPT‑5.5 का स्कोर 29.1% है. अनिश्चितता और सावधानियों को संभालने की आवश्यकता वाले कार्यों में, यह 44.8% स्कोर करता है, जबकि तुलना में 29.3% है. यह पैटर्न संकेत देता है कि मॉडल तब सबसे उपयोगी होते हैं जब कार्य की साक्ष्य सीमा स्पष्ट हो और वह संरचित वैज्ञानिक निर्णय की माँग करे.

GPT‑Rosalind उद्योग और अकादमिक विशेषज्ञों द्वारा पहचाने गए वैज्ञानिक रूप से मूल्यवान कार्यों में प्रदर्शन में आगे है.

GPT‑Rosalind उद्योग और अकादमिक विशेषज्ञों द्वारा पहचाने गए वैज्ञानिक रूप से महत्वपूर्ण कार्यों में अग्रणी प्रदर्शन करता है.

जहाँ AI सिस्टम अब भी पीछे रह जाते हैं

आर्टिफैक्ट-प्रधान, डिज़ाइन-प्रधान और संचालनगत रूप से बाधित वैज्ञानिक कार्यों में प्रदर्शन बहुत कमजोर रहता है. विशेष रूप से, डिज़ाइन, ऑप्टिमाइज़ेशन & प्रेडिक्शन सबसे कठिन वर्कफ़्लो में से एक बना रहता है, जिसमें GPT‑Rosalind की पास दर 30.7% है; विश्लेषण भी 30.3% पर समान रूप से कठिन है.

आर्टिफैक्ट का उपयोग एक खास तौर पर स्पष्ट कमी है. हालाँकि GPT‑Rosalind आर्टिफैक्ट-प्रधान स्थितियों में GPT‑5.5 से बेहतर प्रदर्शन करता है, फिर भी इसकी पास दर केवल टेक्स्ट वाले कार्यों में 45.1% से घटकर आर्टिफैक्ट या URL वाले कार्यों में 28.1% रह जाती है. GPT‑5.5 भी यही पैटर्न दिखाता है, 29.9% से घटकर 21.9%. एक अधिक विस्तृत विश्लेषण पुष्टि करता है कि फ़्रंटियर मॉडल जटिल चित्रों या बड़ी अनुक्रम फ़ाइलों से जानकारी निकालने और उस जानकारी को अंतिम उत्तर में जोड़ने में संघर्ष करते हैं.

जब कार्यों में स्रोत-आधारित रीज़निंग या आर्टिफैक्ट के साथ काम करना आवश्यक होता है, तो पास दरें घटती हैं

उत्तर का प्रारूप भी मायने रखता है. सटीक अनुक्रम, संरचना या कंस्ट्रक्ट-स्तर के आउटपुट की आवश्यकता वाले कार्य कम पास दरें दिखाते हैं: GPT‑Rosalind संख्यात्मक कार्यों में केवल 14.8% और अनुक्रम या संरचना आउटपुट में 24.0% तक पहुँचता है. कंस्ट्रक्ट-जनरेशन कार्य भी नाज़ुक हैं, जिनमें GPT‑Rosalind 27.3% पर है और GPT‑5.5 की तुलना में बहुत कम सुधार दिखाता है. इस अंतर का कुछ हिस्सा सटीक-उत्तर कार्यों के लिए कठोर ग्रेडिंग सतह को दर्शा सकता है, जहाँ गणना या फ़ॉर्मैटिंग में छोटे अंतर प्रतिक्रिया को पास सीमा से नीचे पहुँचा सकते हैं. फिर भी, ये विफलताएँ वैज्ञानिक रूप से अर्थपूर्ण हैं, क्योंकि कई जीवन विज्ञान वर्कफ़्लो में ऐसे आउटपुट चाहिए होते हैं जो सीधे उपयोग करने के लिए पर्याप्त सटीक हों, जैसे CRISPR/HDR डोनर डिज़ाइन या siRNA डिज़ाइन में.

मॉडल अक्सर कार्य का कुछ हिस्सा पूरा कर लेते हैं, लेकिन उसे पूरी तरह हल नहीं कर पाते. लगभग 14% कार्यों में, मॉडल सटीक-पास सीमा पूरी न करने के बावजूद पर्याप्त रूब्रिक श्रेय अर्जित करते हैं. GPT‑Rosalind के लिए, 109 कार्यों की पास दरें 20% से कम थीं, फिर भी उन्हें कम से कम 50% रूब्रिक रिवॉर्ड मिला. व्यवहार में, इसका मतलब है कि मॉडल प्रासंगिक साक्ष्य पहचान सकते हैं या संभावित आंशिक उत्तर दे सकते हैं, लेकिन फिर भी विफल हो जाते हैं क्योंकि वे कोई प्रमुख बाधा छोड़ देते हैं, गलत साक्ष्य का उपयोग करते हैं, अधूरी गणना करते हैं, या अपनी रीज़निंग को वैज्ञानिक रूप से उपयोगी अंतिम निर्णय से नहीं जोड़ते.

सीमाएँ & आगे क्या

LifeSciBench यह मापने की दिशा में एक कदम है कि AI सिस्टम जीवन विज्ञान शोध के लिए कितने उपयोगी हो सकते हैं, लेकिन यह लाइव शोध परिवेशों में मॉडल का अध्ययन करने का विकल्प नहीं है. बेंचमार्क ऐसे स्व-समाहित कार्यों पर केंद्रित है जो बार-बार आने वाले उद्योग वर्कफ़्लो को दर्शाते हैं, जबकि कई वैज्ञानिक विशेषज्ञताएँ और कार्य प्रकार इसके मौजूदा दायरे से बाहर रहते हैं. वास्तविक शोध पुनरावृत्तिमय होता है: वैज्ञानिक नए साक्ष्य जुटाते हैं, परिकल्पनाएँ संशोधित करते हैं, अनुवर्ती प्रयोग डिज़ाइन करते हैं, और परिणाम सामने आने पर अपनी योजनाएँ बदलते हैं.

इसलिए LifeSciBench पर मजबूत प्रदर्शन को वास्तविक कार्य-स्तरीय क्षमता के साक्ष्य के रूप में समझना चाहिए, न कि डाउनस्ट्रीम शोध प्रभाव के प्रत्यक्ष माप के रूप में. बेंचमार्क उद्योग वर्कफ़्लो पर आधारित है, लेकिन यह लाइव शोध कार्यक्रमों की पूरी विविधता या गतिशीलता को नहीं पकड़ता, जहाँ प्रगति समय के साथ सामने आने वाले कारकों पर निर्भर करती है.

अगला कदम बेंचमार्क प्रदर्शन को लाइव शोध वर्कफ़्लो में डिप्लॉयमेंट अध्ययनों से जोड़ना है. हालाँकि LifeSciBench सक्रिय वैज्ञानिकों के साथ विकसित किया गया था, यह मापने के लिए कि AI सिस्टम खोज को तेज़ करते हैं या R&D परिणामों में सुधार करते हैं, वास्तविक शोध परिवेशों में, लंबी समयावधि में, और रीज़निंग, फ़ीडबैक तथा प्रायोगिक अनुवर्ती के कई दौरों में मॉडल उपयोग और प्रदर्शन का अध्ययन करना होगा.