LifeSciBenchची ओळख
प्रत्यक्ष जीवन-विज्ञान संशोधनावर आधारित, तज्ज्ञ-लिखित आणि तज्ज्ञ-पुनरावलोकित बेंचमार्क
एजंटिक AI प्रणाली वैज्ञानिक कार्ये करण्यास अधिकाधिक सक्षम होत आहेत. तथापि, जीवन-विज्ञान संशोधकांसाठी त्यांची उपयुक्तता वास्तविक संशोधनातील गुंतागुंत त्या किती चांगल्या हाताळतात यावर अवलंबून असते. असे काम क्वचितच एखाद्या एकाच तथ्य-आठवण प्रश्नासारखे किंवा स्वच्छ भाकीत समस्येसारखे दिसते. संशोधक अपूर्ण पुराव्यांचा अर्थ लावतात, विरोधी निकाल जुळवतात, कठीण प्रयोग डिझाइन करतात, अस्सेतील अडचणी सोडवतात, ट्रान्सलेशनल जोखीम तपासतात आणि अनिश्चिततेत पुढे काय करायचे ते ठरवतात.
सध्याचे बेंचमार्क या क्षमतांचे पूर्ण चित्र पकडत नाहीत. अनेक जीवन-विज्ञान मूल्यमापने अरुंद क्षेत्रांवर किंवा वेगळ्या कौशल्यांवर लक्ष केंद्रित करतात, त्यामुळे प्रश्नांची रचना ठरावीक असते आणि संदर्भ उत्तरे स्वच्छ असतात. ती उपयुक्त असली तरी, संशोधन-स्तरीय कामाच्या विस्तृत पट्ट्यात मॉडेल खरोखर योगदान देऊ शकते का हे ती अनेकदा नीट मोजू शकत नाहीत.
ही दरी कमी करण्यासाठी आम्ही LifeSciBench तयार केले. प्रत्येक कार्य हे Ph.D.-स्तरीय प्रशिक्षण घेतलेल्या आणि जैवतंत्रज्ञान व औषधनिर्मिती वातावरणात औषध शोध कार्यक्रम पुढे नेण्याचा थेट अनुभव असलेल्या कार्यरत जीवन-विज्ञान तज्ज्ञांच्या निर्णयावर आधारित आहे.
LifeSciBench मध्ये सात कार्यप्रवाह आणि सात जैविक क्षेत्रांमध्ये पसरलेली 750 तज्ज्ञांनी लिहिलेली कार्ये आहेत.
1,062
कार्य आर्टिफॅक्ट्स
173
वैज्ञानिक योगदानकर्ते
19,020
रुब्रिक निकष
453
तज्ज्ञ समीक्षक
LifeSciBench काय मोजते
LifeSciBench AI प्रणाली वास्तववादी जीवन-विज्ञान संशोधन कार्यांना आधार देऊ शकतात का हे मोजते, फक्त जीवशास्त्र प्रश्नांची उत्तरे देतात का हे नाही. बेंचमार्क टॅक्सोनॉमी ठरवण्यासाठी, आम्ही अनुप्रयुक्त संशोधन वातावरणात सर्वाधिक वापरल्या जाणाऱ्या कार्यप्रवाहांबद्दल कार्यरत जीवन-विज्ञान तज्ज्ञांचे सर्वेक्षण केले. त्यानंतर आम्ही त्यांच्या प्रतिसादांना सात वारंवार दिसणाऱ्या श्रेणींमध्ये गटबद्ध केले: पुरावा हाताळणी, विश्लेषण, डिझाइन आणि ऑप्टिमायझेशन, वैज्ञानिक रीझनिंग, प्रमाणीकरण आणि ऑपरेशन्स, ट्रान्सलेशन, आणि वैज्ञानिक संप्रेषण.
प्रत्येक कार्य एखादा वैज्ञानिक जाणकार सहकाऱ्याला देईल अशा विनंतीसारखे रचलेले आहे: वैज्ञानिक प्रॉम्प्ट, संबंधित संदर्भ किंवा आर्टिफॅक्ट्स, आणि मुक्त-उत्तर प्रतिसाद. तज्ज्ञांनी लिहिलेली रुब्रिक्स विशिष्ट समस्येसाठी मॉडेल योग्य उत्तर, योग्य तपशील, समर्थन, सावधगिरी आणि वैज्ञानिक अपेक्षित करेल असे फॉरमॅटिंग देऊ शकते का हे तपासतात.
डेटासेट बांधणी
LifeSciBench वैज्ञानिक रीझनिंगबरोबरच प्रत्यक्ष वैज्ञानिक वापरासाठी आवश्यक असलेल्या, कमी स्पष्टपणे परिभाषित व्यावहारिक कौशल्यांचे मूल्यमापन करते. यातील कार्ये मॉडेलना वास्तववादी संशोधन समस्यांवर काम करायला लावतात: पुरावे समजून घेणे, क्षेत्राधारित निर्णय घेणे आणि तज्ज्ञ समीक्षकांना उपयुक्त ठरतील असे निष्कर्ष मांडणे. अनेक कार्यांमध्ये मॉडेलना अनिश्चितता हाताळावी लागते आणि फक्त प्रॉम्प्ट मजकुरावर अवलंबून न राहता सहाय्यक डेटा फायलींवरून रीझनिंग करावे लागते.
हा बेंचमार्क जीवन-विज्ञान कामातील गुंतागुंत प्रतिबिंबित करण्यासाठी डिझाइन केलेला आहे. एकूण 79% कार्यांना अनेक रीझनिंग किंवा निर्णय-घेण्याच्या पायऱ्या लागतात, आणि प्रत्येक कार्यासाठी सरासरी चार पायऱ्या असतात. LifeSciBench मध्ये आकृत्या, PDFs, तक्ते, सिक्वेन्स फायली, स्ट्रक्चर किंवा रासायनिक फायली आणि वेब संदर्भ अशा 1,062 संलग्न आर्टिफॅक्ट्सचा समावेश आहे. निम्म्याहून अधिक कार्यांमध्ये (53%) मॉडेलना किमान एका आर्टिफॅक्टमधील माहितीचा अर्थ लावावा किंवा ती एकत्रित करावी लागते.
विविध जीवन-विज्ञान शाखांतील 173 तज्ज्ञ वैज्ञानिकांनी ही कार्ये तयार केली. प्रत्येक वैज्ञानिकाकडे Ph.D.-स्तरीय प्रशिक्षण आणि जैवतंत्रज्ञान किंवा औषधनिर्मिती उद्योगातील अनुभव होता. स्वीकृतीपूर्वी कार्यांना आवश्यक तितक्या दुरुस्ती चक्रांतून जाता येत होते, फेऱ्यांच्या संख्येवर निश्चित मर्यादा नव्हती; स्वीकारलेल्या कार्यांनी सरासरी सहा स्व-निर्देशित स्वयंचलित पुनरावलोकन चक्रे पूर्ण केली आणि तज्ज्ञ पुनरावलोकनाच्या किमान दोन फेऱ्या पूर्ण केल्या. पुनरावलोकने पडताळता येणाऱ्या योग्य उत्तरावर किंवा मजबूत तज्ज्ञ सहमतीवर आधारित होती, आणि संबंधित क्षेत्रातील समीक्षकांमध्ये किमान 90% सहमती होती. या प्रक्रियेने स्वीकारलेली कार्ये वैज्ञानिकदृष्ट्या आधारलेली, गुणांकनासाठी पुरेशी स्पष्ट आणि अनुप्रयुक्त संशोधनाचे प्रतिनिधित्व करणारी आहेत याची खात्री करण्यात मदत केली.
गुणांकन आणि रुब्रिक विभागणी
LifeSciBench कार्यांना तपशीलवार, कार्य-विशिष्ट रुब्रिकने गुण दिले जातात, जी अपेक्षित प्रतिसादाला विशिष्ट वैज्ञानिक दावे, गणना, निर्णय, समर्थन इत्यादींमध्ये विभागते. संपूर्ण बेंचमार्कमध्ये, तज्ज्ञांनी विकसित केलेल्या रुब्रिक्समध्ये 19,020 निकष आहेत—प्रत्येक कार्यामागे सरासरी 25—जे वैज्ञानिक अचूकता आणि संशोधन निर्णयांसाठी उपयुक्तता दोन्ही मोजतात.
ही रचना वैज्ञानिक काम प्रत्यक्षात कसे मोजले जाते ते प्रतिबिंबित करते: अनेक जीवन-विज्ञान कार्यांचे गुणांकन फक्त अंतिम उत्तर तपासून करता येत नाही. एखादा प्रतिसाद उच्च पातळीवरील योग्य निष्कर्षापर्यंत पोहोचू शकतो, पण उदाहरणार्थ तो महत्त्वाची अस्से मर्यादा चुकवतो किंवा फार परिणामकारक जैविक बारकावा पुढाकाराने मांडत नाही, तर तो अपूर्ण मानला जाऊ शकतो. उलट, एखादा अंशतः प्रतिसाद कार्य पूर्णपणे सोडवत नसला तरी त्यात उच्च-गुणवत्तेचे रीझनिंग असू शकते.
सूक्ष्म रुब्रिक्स हा बारकावा पकडतात. LifeSciBench फक्त अंतिम उत्तराची अचूकता मोजत नाही; मॉडेल वैज्ञानिकदृष्ट्या वैध आणि कार्यात्मकदृष्ट्या उपयुक्त मार्गाने उत्तरापर्यंत पोहोचते का हेही मोजते.
पेपर, आकृत्या, तक्ते आणि प्रयोगात्मक नोंदींमधून वैज्ञानिक पुरावे काढणे, जुळवणे आणि ऑडिट करणे.
मुल्यांकन उदाहरण
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
उमेदवार प्रतिसाद
तळाची ओळ: सादर केल्याप्रमाणे, क्लिनिकल फायद्याचा वाजवीपणे अंदाज लावण्याची शक्यता असलेला एक पर्यायी एंडपॉइंट म्हणून मायक्रो-डिस्ट्रोफिन अभिव्यक्तीच्या जलद मंजुरीची हमी देण्यासाठी हे पॅकेज पुरेसे मजबूत नाही. एक साशंक FDA समीक्षक बायोमार्कर, कार्यात्मक, टिकाऊपणा, सुरक्षितता आणि सामान्यीकरणक्षमतेचे पुरावे मोठ्या प्रमाणात अपुरे असल्याचे मानण्याची शक्यता आहे.
पॅकेज घटक | मुख्य अपयश प्रकार | काय आवश्यक असेल |
|---|---|---|
वेस्टर्न ब्लॉटचे परिमाणीकरण | MANEX1A हे अंतर्जात पूर्ण-लांबीच्या डिस्ट्रोफिनमध्ये आणि मायक्रो-डिस्ट्रोफिन ट्रान्सजीनमध्ये सामायिक असलेल्या N-टर्मिनल एपिटोपशी बाइंड होते; त्यामुळे, ही चाचणी ट्रान्सजीन आणि अवशिष्ट/रिव्हर्टंट डिस्ट्रोफिन यांच्यात स्पष्टपणे फरक करू शकत नाही. निरोगी, पूर्ण-लांबीच्या डिस्ट्रोफिनच्या मानकाचा आधार घेऊन 138 kDa च्या मायक्रो-डिस्ट्रोफिनचे प्रमाण निश्चित करणे हे देखील अशास्त्रीय ठरते. | पुनर्संयोजित मायक्रो-डिस्ट्रोफिन मानक आणि ट्रान्सजीनला अंतर्जात डिस्ट्रोफिनपासून वेगळे करणारी ऑर्थोगोनल पद्धत वापरा, जसे की लक्ष्यित मास स्पेक्ट्रोमेट्री किंवा ट्रान्सजीन-विशिष्ट/एपिटोप-विशिष्ट चाचणी. |
इम्युनोफ्लोरोसन्स | C-टर्मिनल पॉलीक्लोनल अँटीबॉडी फारशी उपयुक्त नाही, कारण 138 kDa रचनेत सी-टर्मिनल डोमेनचा अभाव असतो. अनेक डीएमडी रुग्णांमध्ये रिव्हर्टंट फायबर्स असतात आणि रिव्हर्टंट डायस्ट्रोफिन C-टर्मिनल एपिटोप्स टिकवून ठेवू शकते. वयानुसार रिव्हर्टंट फायबर्सचा क्लोनल विस्तार होऊ शकतो, ज्यामुळे आयएफ सिग्नलमध्ये बदल होतो, विशेषतः मोठ्या मुलांमध्ये. | ट्रान्सजीनमध्ये उपस्थित असलेल्या परंतु रिव्हर्टंट डायस्ट्रोफिनमध्ये अनुपस्थित असलेल्या एपिटोपच्या विरुद्ध अँटीबॉडी वापरून IF ची पुनरावृत्ती करा. ट्रान्सजीन-पॉझिटिव्ह फायबर्सची संख्या रिव्हर्टंट फायबर्सपासून वेगळी मोजा. |
प्रतिनिधी एंडपॉइंट वैधता | या पॅकेजमध्ये प्रथिनांचे प्रमाण आणि त्यांचे वैद्यकीय कार्य यांची गल्लत करण्यात आली आहे. "निरोगी-नियंत्रण गटातील प्रथिनांच्या वस्तुमानापैकी 38%" असण्याचा अर्थ, डायस्ट्रोफिनचे सामान्य कार्य 38% इतके असणे असा होत नाही; कारण 'मायक्रो-डायस्ट्रोफिन' हे रचनेच्या दृष्टीने खंडित असते. | अभिव्यक्तीला एक पर्यायी एंडपॉइंट मानण्यापूर्वी, मायक्रो-डिस्ट्रोफिन वस्तुमान-टक्केवारी, सार्कोलेमल स्थानिकीकरण, डाउनस्ट्रीम कार्यात्मक पुनर्संचयन आणि क्लिनिकल लाभ यांच्यातील संबंध प्रायोगिकरित्या प्रमाणित करा. |
बायोप्सी रचना | उपचारापूर्वी आणि उपचारानंतर घेतलेल्या कॉन्ट्रालॅटरल व्हॅस्टस लॅटरॅलिस बायोप्सीमुळे डावी-उजवी आणि स्नायूअंतर्गत अवकाशीय भिन्नता निर्माण होते. रोगाची वाढ आणि फायब्रो-फॅटी रिप्लेसमेंटमुळे एकूण-प्रथिन-सामान्यीकृत सिग्नलमध्येही बदल होऊ शकतो. | सुसंगत शरीरशास्त्रीय खुणांचा वापर करून बायोप्सीचे ठिकाण प्रमाणित करा, स्नायू-विशिष्ट प्रथिनांच्या संदर्भात त्याचे सामान्यीकरण करा आणि समांतरपणे तंतु-मेद रचनेचे मापन करा. |
NSAA कॉम्पॅरेटर/सांख्यिकी | बाह्य नैसर्गिक-इतिहास समूह हा यादृच्छिक समवर्ती नियंत्रण गट नसतो. चाचणीसाठीची पात्रता, आधारभूत काळजी, सहभागाचे परिणाम, आधारभूत NSAA, स्टिरॉइड उपचारपद्धती, वय आणि एक्सॉन वर्ग या सर्वांमुळे तुलनेत पक्षपात होऊ शकतो. एक अनपेअर्ड T-टेस्ट पुरेशी नाही. तसेच, या वयोगटासाठी +1.4 NSAA बदल हा टेस्ट-रीटेस्ट व्हेरिएबिलिटीच्या मर्यादेत आहे. | एक यादृच्छिक, समवर्ती आणि प्लासिबो-नियंत्रित अभ्यास राबवा; किंवा किमानपक्षी, आधारभूत NSAA गुण, वय, स्टिरॉइड उपचार पद्धती, exon वर्ग आणि इतर संभ्रमित घटकांचा विचार करणारे समायोजित विश्लेषण वापरा. |
वयोगट-संभ्रम | वय 4–7 वयोगटातील मुले विकासाच्या अशा टप्प्यावर असतात, जिथे उपचार न घेतलेले चालण्याफिरण्यास सक्षम असलेले DMD रुग्ण, शारीरिक क्षमतेत घट होण्यापूर्वी मोटर कार्यक्षमता मिळवू शकतात. 48-आठवड्यांच्या NSAA बदलामध्ये विकासात्मक प्रगती, रोगाची वाढ आणि उपचारांचा संभाव्य परिणाम यांचा मिलाफ दिसून येतो. | उपचाराच्या परिणामापासून विकासात्मक मार्ग वेगळा करण्यासाठी, वयोगटानुसार वर्गीकरणासह समवर्ती यादृच्छिक नियंत्रणाचा वापर करा. |
मागील वैद्यकीय पूर्वदृष्टांत | ओपन-लेबल मायक्रो-डिस्ट्रोफिन कार्यात्मक संकेतांनी पुष्टीकारक लाभाचा विश्वसनीयपणे अंदाज वर्तवलेला नाही; प्रकाशित उदाहरणांमध्ये मायक्रो-डिस्ट्रोफिन जीन थेरपीच्या पुष्टीकारक चाचण्यांचा समावेश आहे, ज्या ओपन-लेबल NSAA सुधारणांची पुनरावृत्ती करण्यात अयशस्वी ठरल्या. | 'ओपन-लेबल NSAA बदलावर' निर्णायक आधार म्हणून अवलंबून राहू नका. नियंत्रित कार्यात्मक पुराव्याची मागणी करा. |
संकल्पनेच्या संरचनात्मक मर्यादा | 138 kDa रचना स्पेक्ट्रिन रिपीट 16/17 काढून टाकते, ज्यात एनएनओएस-बाइंडिंग साइट्स असतात. एनएनओएस रिक्रूटमेंटच्या अभावामुळे व्यायामादरम्यान कार्यात्मक सिम्पॅथोलिसिस आणि इस्केमियापासून संरक्षणात अडथळा येऊ शकतो, ज्यामुळे अभिव्यक्ती पातळीपासून स्वतंत्रपणे बचावावर एक यांत्रिक मर्यादा निर्माण होते. | हा विशिष्ट रचना-घटक संबंधित डिस्ट्रोफिन-संलग्न संकुलाचे कार्य, nNOS चे स्थानिकीकरण, व्यायाम-शरीरक्रियाशास्त्र आणि स्नायूंचे संरक्षण पूर्ववत करतो की नाही, हे दर्शवणारे यांत्रिक अभ्यास यामध्ये समाविष्ट करा. |
AAV ची टिकाऊपणा | 12 आठवड्यांनंतर व्हेक्टर जीनोममध्ये टिकाऊ अभिव्यक्ती स्थापित होत नाही. AAV9 जीनोम हे बहुतांशी नॉन-इंटीग्रेटिंग एपिसोम्स असतात आणि कालांतराने ते कमी होऊ शकतात. व्हेक्टर-जीनोमचे टिकून राहणे हे प्रथिनांच्या सातत्यपूर्ण अभिव्यक्तीसारखे नसते. | 12 आठवड्यांच्या पलीकडे अनुदैर्ध्य ट्रान्सजीन प्रथिन अभिव्यक्ती आणि कार्यात्मक जैव-निर्देशकांची टिकाऊपणा मोजा. |
रोगप्रतिकारक/सुरक्षा स्वरूप | 8/12 रुग्णांमधील ट्रान्सअमायनायटिस हे AAV-ट्रान्सड्यूस्ड पेशींवरील रोगप्रतिकारक प्रतिसादाशी सुसंगत आहे, परंतु त्याची यंत्रणा अद्याप स्थापित झालेली नाही. AAV9 चा हृदयाकडे असलेला कल पाहता, मायोकार्डायटिसचे एक प्रकरण चिंताजनक आहे. | अधिक सखोल रोगप्रतिकारक निरीक्षण, यकृत व हृदयाच्या सुरक्षिततेचे वैशिष्ट्य-निर्धारण आणि हृदयाशी संबंधित अधिक तीव्र पाठपुरावा उपलब्ध करून द्या. |
रुग्णांची निवड / सामान्यीकरणक्षमता | अँटी-AAV9 न्यूट्रलायझिंग-अँटीबॉडी-पॉझिटिव्ह रुग्णांना वगळल्यामुळे सामान्यीकरण मर्यादित होते. एक्सॉन-44 डिलीशन्स वगळल्यामुळे त्या DMD उपसमूहासाठी उपयोज्यता मर्यादित होते. व्यापक DMD लोकसंख्येमध्ये सुरक्षितता आणि परिणामकारकता यांचे वैशिष्ट्य दर्शवण्यासाठी n=12 ही संख्या खूपच लहान आहे. | व्यापक मंजुरीसाठी निकालाचा आधार घेण्यापूर्वी, शक्य असेल तिथे पात्रतेचा विस्तार करा किंवा अँटीबॉडी स्थिती, जीनोटाइप/एक्झॉन वर्ग, वय आणि बेसलाइन फंक्शननुसार स्तरीकृत विश्लेषणे पूर्वनिर्दिष्ट करा. |
नियामक निष्कर्ष: हे पॅकेज जैविक क्रियाशीलता दर्शवू शकते, परंतु मोजलेली मायक्रो-डिस्ट्रोफिन अभिव्यक्ती ही नैदानिक लाभाचा वाजवीपणे अंदाज वर्तवण्यासाठी एक विश्वसनीय पर्याय आहे, हे अद्याप सिद्ध होत नाही. मुख्य उणिवा म्हणजे चाचणीची विशिष्टता, अवैध परिमाणीकरण मानके, रिव्हर्टंट-फायबरमुळे होणारा संभाव्य गोंधळ, यादृच्छिक नियंत्रणाचा अभाव, वयाशी संबंधित NSAA मुळे होणारा गोंधळ, अनिश्चित टिकाऊपणा आणि न सुटलेले सुरक्षितता/सामान्यीकरणाचे मुद्दे.
ही तफावत भरून काढण्यासाठी, कार्यक्रमाला एका नियंत्रित, वयोगटानुसार वर्गीकृत क्लिनिकल डिझाइनची आवश्यकता असेल, ज्यामध्ये ट्रान्सजीन-विशिष्ट अभिव्यक्ती चाचण्या, ऑर्थोगोनल प्रोटीन प्रमाणीकरण, ऊती-रचना नियंत्रणे, दीर्घकालीन टिकाऊपणा डेटा, ट्रंकेटेड कन्स्ट्रक्टसाठी मेकॅनिस्टिक कार्यात्मक चाचण्या आणि अधिक मजबूत सुरक्षा देखरेख, विशेषतः यकृत आणि हृदयाशी संबंधित, यांचा समावेश असेल.
रुब्रिक निकष आणि ग्रेड्स
LifeSciBench चे प्रमाणीकरण
आम्ही स्वतंत्र तज्ज्ञ पुनरावलोकनाद्वारे LifeSciBench प्रमाणित केले. कार्ये लिहिण्यात सहभागी नसलेल्या 453 समीक्षकांकडून अभिप्राय मिळाला. या समीक्षकांपैकी 97% कडे Ph.D. किंवा समतुल्य डॉक्टरेट होती, क्षेत्रातील सरासरी 12 वर्षांचा अनुभव आणि 14 सहकर्मी-पुनरावलोकित प्रकाशने होती; 88% जणांनी किमान एक पुरस्कार किंवा फेलोशिप मिळाल्याचे नोंदवले.
प्रत्येक कार्य मजबूत बेंचमार्क प्रश्नासाठी आवश्यक गुण दाखवते का याला समीक्षकांनी गुण दिले: प्रत्यक्ष जगातील संशोधनाशी संरेखन, वैज्ञानिक रीझनिंग आणि क्षेत्रतज्ज्ञतेची योग्य चाचणी, पुरावा किंवा तज्ज्ञ सहमतीवर आधार, आणि मॉडेल कार्यप्रदर्शनाचे मूल्यमापन करण्यासाठी एकूण उपयुक्तता. प्रत्येक श्रेणीत सहमती 96% पेक्षा जास्त होती.
समीक्षकांच्या टिप्पण्यांनी परिमाणात्मक रेटिंग्ज अधिक बळकट केल्या:
निकाल
आम्ही दोन परस्परपूरक मेट्रिक्स नोंदवतो. उत्तीर्ण दर म्हणजे ज्या कार्यांमध्ये मॉडेल 70% या कार्य-स्तरीय यश मर्यादेला पोहोचते त्यांची टक्केवारी. स्कोर म्हणजे सरासरी रुब्रिक रिवॉर्ड, ज्यात संपूर्ण कार्य न सुटले तरी स्वतंत्र निकषांसाठी अंशतः श्रेय दिले जाते. दोन्ही महत्त्वाचे आहेत, कारण वैज्ञानिक कार्याला दिलेला प्रतिसाद पूर्ण उत्तराच्या प्रत्येक अटी पूर्ण न करता अंशतः योग्य किंवा उपयुक्त असू शकतो.
मॉडेलचे कार्यप्रदर्शन कार्यप्रकार, कार्यप्रवाह आणि प्रतिसाद स्वरूपानुसार मोठ्या प्रमाणात बदलते.
AI प्रणाली सुरुवातीला कुठे मजबूत दिसतात
LifeSciBench दाखवते की फ्रंटियर मॉडेल्स वैज्ञानिक संश्लेषण, संप्रेषण आणि संरचित अर्थलावणी असलेल्या कार्यांमध्ये तुलनेने सर्वाधिक मजबूत आहेत. निरपेक्ष उत्तीर्ण दर अजूनही मध्यम आहेत, त्यामुळे ही बेंचमार्क क्षेत्रे अजून संपृक्त झालेली नाहीत; परंतु GPT‑Rosalind ने GPT‑5.5 पेक्षा अर्थपूर्ण प्रगती दाखवली आहे, एकूण अचूक उत्तीर्ण दर 25.7% वरून 36.1% पर्यंत वाढवला आहे.
मॉडेल क्षमतांमधील प्रगतीची सर्वात मजबूत दिशा वैज्ञानिक संप्रेषण आणि ट्रान्सलेशनमध्ये दिसते. उदाहरणार्थ, वैज्ञानिक संप्रेषणातील उत्तीर्ण दर GPT‑5.5 साठी 56.3% वरून GPT‑Rosalind साठी 71.1% पर्यंत वाढतो; ही श्रेणी लहान आहे (n=9), म्हणून तिचा अर्थ सावधपणे लावावा, पण यावरून फ्रंटियर मॉडेल्स पुरावे मांडणे आणि तज्ज्ञांसाठी पटणारी स्पष्टीकरणे तयार करणे यात झपाट्याने सुधारत आहेत असे सूचित होते. ट्रान्सलेशन म्हणजे औषध विकासातील "प्रयोगशाळेतून रुग्णापर्यंत" प्रक्रिया याचसारखा नमुना दाखवते: GPT‑5.5 साठी 36.8% वरून GPT‑Rosalind साठी 57.7% पर्यंत वाढते, म्हणजे मॉडेल्स प्रीक्लिनिकल पुरावे क्लिनिकल परिणामांशी जोडण्याच्या क्षमतेत जलद सुधारत आहेत.
रुब्रिक-स्तरीय निकालही त्याच दिशेकडे निर्देश करतात. तज्ज्ञांना उपयुक्त किंवा कृतीयोग्य आउटपुट आवश्यक असलेल्या कार्यांवर GPT‑Rosalind 44.7% गुण मिळवते, तर GPT‑5.5 साठी हे 29.1% आहे. अनिश्चितता आणि सावधगिरी हाताळण्याची गरज असलेल्या कार्यांवर ते 44.8% गुण मिळवते, तुलनेत 29.3%. या नमुन्यावरून सूचित होते की कार्याला स्पष्ट पुरावा-सीमा असते आणि संरचित वैज्ञानिक निर्णयाची गरज असते तेव्हा मॉडेल्स सर्वाधिक उपयुक्त ठरतात.
उद्योग आणि शैक्षणिक क्षेत्रातील तज्ज्ञांनी निश्चित केलेल्या, वैज्ञानिकदृष्ट्या महत्त्वपूर्ण कार्यांमध्ये GPT‑Rosalind सर्वोत्तम कामगिरी करते.
GPT‑Rosalind हे उद्योग आणि शैक्षणिक क्षेत्रातील तज्ञांनी निश्चित केलेल्या, वैज्ञानिकदृष्ट्या महत्त्वपूर्ण असलेल्या कार्यांमध्ये कामगिरीच्या बाबतीत आघाडीवर आहे.
GPT‑Rosalind हे उद्योग आणि शैक्षणिक क्षेत्रातील तज्ञांनी निश्चित केलेल्या, वैज्ञानिकदृष्ट्या महत्त्वपूर्ण असलेल्या कार्यांमध्ये कामगिरीच्या बाबतीत आघाडीवर आहे.
AI प्रणाली अजून कुठे कमी पडतात
आर्टिफॅक्ट्सवर जास्त अवलंबून, डिझाइनप्रधान आणि कार्यात्मक मर्यादा असलेल्या वैज्ञानिक कामांमध्ये कार्यप्रदर्शन अजून खूपच कमजोर आहे. विशेषतः, डिझाइन, ऑप्टिमायझेशन, & प्रेडिक्शन हा अजूनही सर्वात कठीण कार्यप्रवाहांपैकी एक आहे, GPT‑Rosalind चा उत्तीर्ण दर 30.7% आहे; विश्लेषणही 30.3% वर तितकेच कठीण आहे.
आर्टिफॅक्ट वापर हा विशेषतः स्पष्ट अंतर आहे. आर्टिफॅक्ट-प्रधान परिस्थितीत GPT‑Rosalind GPT‑5.5 पेक्षा चांगले काम करत असले तरी, त्याचा उत्तीर्ण दर फक्त मजकूर असलेल्या कार्यांवर 45.1% वरून आर्टिफॅक्ट्स किंवा URLs असलेल्या कार्यांवर 28.1% पर्यंत घसरतो. GPT‑5.5 मध्येही तोच नमुना दिसतो, 29.9% वरून 21.9% पर्यंत घट होते. अधिक तपशीलवार विश्लेषण पुष्टी करते की फ्रंटियर मॉडेल्स जटिल आकृत्यांमधून किंवा मोठ्या सिक्वेन्स फायलींमधून माहिती काढणे आणि ती अंतिम उत्तरात समाविष्ट करणे यात अडखळतात.
कार्यांसाठी स्रोताधारित रीझनिंग किंवा आर्टिफॅक्ट्स वापर करण्याची आवश्यकता असते, तेव्हा उत्तीर्ण होण्याचे प्रमाण घटते
उत्तराचे स्वरूपही महत्त्वाचे असते. अचूक सिक्वेन्स, स्ट्रक्चर किंवा कन्स्ट्रक्ट-स्तरीय आउटपुट आवश्यक असलेल्या कार्यांमध्ये उत्तीर्ण दर कमी दिसतात: GPT‑Rosalind संख्यात्मक कार्यांवर फक्त 14.8% आणि सिक्वेन्स किंवा स्ट्रक्चर आउटपुटवर 24.0% पर्यंत पोहोचते. कन्स्ट्रक्ट-जनरेशन कार्येही नाजूक ठरतात; GPT‑Rosalind 27.3% वर आहे आणि GPT‑5.5 पेक्षा फारशी सुधारणा दाखवत नाही. या अंतराचा काही भाग अचूक-उत्तर कार्यांसाठी असलेल्या अधिक कठोर गुणांकन पृष्ठभागामुळे असू शकतो, जिथे गणना किंवा फॉरमॅटिंगमधील छोटे फरकही प्रतिसादाला उत्तीर्ण मर्यादेखाली ढकलू शकतात. तरीही, या अपयशांना वैज्ञानिक अर्थ आहे, कारण CRISPR/HDR डोनर डिझाइन किंवा siRNA डिझाइनसारख्या अनेक जीवन-विज्ञान कार्यप्रवाहांना थेट वापरता येतील इतकी अचूक आउटपुट्स लागतात.
मॉडेल्स अनेकदा कार्य काही अंशी पार पाडतात, पण ते पूर्णपणे सोडवत नाहीत. सुमारे 14% कार्यांमध्ये, मॉडेल्सनी अचूक-उत्तीर्ण मर्यादा पूर्ण केली नाही तरी मोठे रुब्रिक श्रेय मिळवले. GPT‑Rosalind साठी, 109 कार्यांचे उत्तीर्ण दर 20% पेक्षा कमी होते, तरीही त्यांना किमान 50% रुब्रिक रिवॉर्ड मिळाले. प्रत्यक्षात याचा अर्थ असा की मॉडेल्स संबंधित पुरावे ओळखू शकतात किंवा संभाव्य अंशतः उत्तर देऊ शकतात, पण तरीही एखादी महत्त्वाची अट चुकवतात, चुकीचा पुरावा वापरतात, अपूर्ण गणना करतात किंवा आपले रीझनिंग वैज्ञानिकदृष्ट्या उपयुक्त अंतिम निर्णयाशी जोडत नाहीत म्हणून अपयशी ठरतात.
मर्यादा & पुढे काय
LifeSciBench जीवन-विज्ञान संशोधनासाठी AI प्रणाली किती उपयुक्त ठरू शकतात हे मोजण्याकडे टाकलेले एक पाऊल आहे, पण प्रत्यक्ष संशोधन वातावरणात मॉडेल्सचा अभ्यास करण्याचा तो पर्याय नाही. हा बेंचमार्क पुनरावृत्ती होणाऱ्या उद्योग कार्यप्रवाहांचे प्रतिनिधित्व करणाऱ्या स्वयंपूर्ण कार्यांवर लक्ष केंद्रित करतो, पण अनेक वैज्ञानिक विशेषता आणि कार्यप्रकार त्याच्या सध्याच्या व्याप्तीबाहेर ठेवतो. खरे संशोधन पुनरावृत्तीपूर्ण असते: वैज्ञानिक नवे पुरावे गोळा करतात, गृहीते सुधारतात, पुढील प्रयोग डिझाइन करतात आणि निकाल मिळत गेल्यावर योजना बदलतात.
म्हणून LifeSciBench वरील मजबूत कार्यप्रदर्शनाचा अर्थ प्रत्यक्ष कार्य-स्तरीय क्षमतेचा पुरावा असा लावावा, पुढील संशोधन परिणामाचा थेट माप म्हणून नव्हे. हा बेंचमार्क उद्योग कार्यप्रवाहांवर आधारित आहे, पण प्रत्यक्ष संशोधन कार्यक्रमांची पूर्ण विविधता किंवा गतिशीलता पकडत नाही, जिथे प्रगती काळानुसार उलगडणाऱ्या घटकांवर अवलंबून असते.
पुढील पाऊल म्हणजे बेंचमार्क कार्यप्रदर्शन प्रत्यक्ष संशोधन कार्यप्रवाहांतील तैनाती अभ्यासांशी जोडणे. LifeSciBench कार्यरत वैज्ञानिकांसह विकसित केले असले तरी, AI प्रणाली शोधाला गती देतात का किंवा R&D परिणाम सुधारतात का हे मोजण्यासाठी वास्तविक संशोधन वातावरणात, दीर्घ कालावधीत आणि रीझनिंग, अभिप्राय व प्रायोगिक पाठपुरावा यांच्या अनेक फेऱ्यांत मॉडेल वापर व कार्यप्रदर्शनाचा अभ्यास करावा लागेल.


