Негізгі мазмұнға өту
OpenAI

2026 ж. 17 маусым

ЗерттеуЖарияланым

LifeSciBench-ті таныстыру

Нақты өмір туралы ғылым зерттеуіне негізделген, сарапшылар жазып тексерген бенчмарк

Жүктелуде…

Агенттік ЖИ жүйелері ғылыми міндеттерді орындауда барған сайын қабілетті болып келеді. Алайда олардың өмір туралы ғылым зерттеушілеріне пайдалылығы нақты зерттеудің күрделілігін қаншалықты жақсы еңсере алатынына байланысты. Мұндай жұмыс сирек жағдайда бір ғана фактіні еске түсіру сұрағына немесе таза болжам мәселесіне ұқсайды. Зерттеушілер толық емес дәлелдерді түсіндіреді, қайшы нәтижелерді үйлестіреді, күрделі эксперименттерді жобалайды, талдаулардағы ақауларды түзетеді, трансляциялық тәуекелді бағалайды және белгісіздік жағдайында келесі қадамды шешеді.

Қазіргі бенчмарктер бұл қабілеттерді толық қамтымайды. Өмір туралы ғылымдағы көптеген бағалаулар тар салаларға немесе оқшау дағдыларға шоғырланып, құрылымдалған сұрақ форматтары мен айқын эталон жауаптары бар сұрақтарға әкеледі. Олар құнды болғанымен, модель зерттеу деңгейіндегі жұмыстың кең ауқымында нақты үлес қоса ала ма дегенді жиі толық бағалай алмайды.

Осы олқылықты азайту үшін біз LifeSciBench-ті әзірледік. Әр міндет Ph.D. деңгейінде дайындықтан өткен және биотехнология мен фармацевтика салаларында дәрі-дәрмек ашу бағдарламаларын ілгерілетуде тікелей тәжірибесі бар практик өмір туралы ғылым мамандарының пайымына негізделген.

LifeSciBench жеті жұмыс процесі мен жеті биологиялық саланы қамтитын, сарапшылар жазған 750 міндеттен тұрады.

1,062

Міндет артефактілері

173

Ғалым қатысушылар

19,020

Рубрика критерийлері

453

Сарапшы рецензенттер

LifeSciBench нені өлшейді

LifeSciBench ЖИ жүйелері биология сұрақтарына жай ғана жауап берумен шектелмей, өмір туралы ғылымдағы нақты зерттеу міндеттерін қолдай ала ма, соны өлшейді. Бенчмарк таксономиясын анықтау үшін біз қолданбалы зерттеу орталарында ең жиі пайдаланатын жұмыс процестері туралы практик өмір туралы ғылым мамандарына сауалнама жүргіздік. Содан кейін олардың жауаптарын жеті қайталанатын санатқа біріктірдік: дәлелдермен жұмыс, талдау, жобалау және оңтайландыру, ғылыми ой қорыту, валидация және операциялар, трансляциялық зерттеу және ғылыми коммуникация.

Әр міндет ғалым білімді әріптеске бере алатын өтініш сияқты құрылымдалған: ғылыми көмексөз, кез келген тиісті контекст немесе артефактілер және еркін жауап. Сарапшылар жазған рубрикалар модель нақты мәселе бойынша дұрыс жауапты, ғалым күтетін тиісті егжей-тегжей, негіздеме, ескертпелер және форматпен бере ала ма, соны бағалайды.

Деректер жиынын құру

LifeSciBench ғылыми ой қорытуды нақты әлемде ғылыми қолдануға қажет, бірақ анықтамасы онша айқын емес практикалық дағдылармен қатар бағалайды. Оның міндеттері модельдерден шынайы зерттеу мәселелерін шешуді талап етеді: дәлелдерді түсіндіру, салаға негізделген пайым жасау және сарапшы рецензенттерге пайдалы болатын қорытындыларды жеткізу. Көптеген міндеттер модельдерден тек көмексөз мәтініне сүйенбей, белгісіздікпен жұмыс істеуді және қолдаушы деректер файлдары бойынша ой қорытуды да талап етеді.

Бенчмарк өмір туралы ғылым жұмысының күрделілігін көрсетуге арналған. Жалпы, міндеттердің 79%-ы бірнеше ой қорыту немесе шешім қабылдау қадамын талап етеді; бір міндетке орташа есеппен төрт қадамнан келеді. LifeSciBench суреттерді, PDF файлдарын, кестелерді, реттілік файлдарын, құрылымдық немесе химиялық файлдарды және веб-сілтемелерді қамтитын 1 062 тіркелген артефактіні қамтиды. Міндеттердің жартысынан көбі (53%) модельдерден кемінде бір артефактіден ақпаратты түсіндіруді немесе синтездеуді талап етеді.

Міндеттерді өмір туралы ғылымның әртүрлі пәндерінен 173 сарапшы ғалым жасады. Әр ғалым Ph.D. деңгейінде дайындықтан өткен және биотехнология немесе фармацевтика индустриясында тәжірибесі болған. Міндеттер қабылданғанға дейін қажет болғанынша көп түзету циклінен өте алды, раунд санына бекітілген шек қойылмады; қабылданған міндеттер орташа есеппен алты өзіндік автоматтандырылған шолу циклінен өтті және кемінде екі сарапшылық шолу раундын аяқтады. Шолулар тексерілетін дұрыс жауапқа немесе мықты сарапшылық консенсусқа сүйенді; тиісті саладағы рецензенттер арасында келісім кемінде 90% болды. Бұл процесс қабылданған міндеттердің ғылыми тұрғыда негізделгенін, бағалауға жеткілікті анық екенін және қолданбалы зерттеуді бейнелейтінін қамтамасыз етуге көмектесті.

LifeSciBench міндеттерінің геномдық реттіліктер, молекулалық құрылымдар, суреттер, құжаттар, электрондық кестелер және веб-сілтемелер сияқты өмір туралы ғылым дереккөздерін көпқадамды ой қорытумен және сарапшылық шолумен біріктіретінін көрсететін диаграмма.

Бағалау және рубрика құрылымы

LifeSciBench міндеттері күтілетін жауапты нақты ғылыми тұжырымдарға, есептеулерге, шешімдерге, негіздемелерге және тағы басқа бөліктерге бөлетін егжей-тегжейлі, міндетке тән рубрикамен бағаланады. Бенчмарк бойынша сарапшылар әзірлеген рубрикаларда 19 020 критерий бар — бір міндетке орташа есеппен 25 — олар ғылыми дұрыстықты да, зерттеу шешімдеріне пайдалылықты да бағалайды.

Бұл дизайн ғылыми жұмыс іс жүзінде қалай бағаланатынын көрсетеді: өмір туралы ғылымдағы көптеген міндеттерді тек соңғы жауапты тексеру арқылы бағалау мүмкін емес. Жауап жоғары деңгейдегі дұрыс қорытындыға жетуі мүмкін, бірақ, мысалы, маңызды талдау шектеуін елемесе немесе маңызы жоғары биологиялық ерекшелікті алдын ала көтермесе, бәрібір толық емес деп бағалануы ықтимал. Керісінше, ішінара жауап міндетті толық шешпесе де, онда жоғары сапалы ой қорыту болуы мүмкін.

Егжей-тегжейлі рубрикалар осы нюансты қамтиды. LifeSciBench тек соңғы жауаптың дәлдігін ғана емес, модель өз жауабына ғылыми тұрғыдан дұрыс және операциялық тұрғыдан пайдалы жолмен жете ме, соны да бағалайды.

Мақалалардан, суреттерден, кестелерден және эксперименттік жазбалардан ғылыми дәлелдерді шығару, үйлестіру және аудиттеу.

Бағалау мысалы

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Үміткердің жауабы

Негізгі қорытынды:ұсынылған күйінде бұл пакет клиникалық пайданы болжауы ықтимал суррогаттық соңғы нүкте ретінде micro-dystrophin экспрессиясы негізінде жеделдетілген мақұлдауды қолдауға жеткілікті күшті емес. Скептик FDA рецензенті биомаркерлік, функционалдық, төзімділік, қауіпсіздік және жалпыланушылық дәлелдерін елеулі түрде жеткіліксіз деп бағалауы ықтимал.

Пакет тармағы

Негізгі сәтсіздік түрі

Не қажет болар еді

Western blot сандық бағалауы

MANEX1A эндогенді full-length dystrophin мен micro-dystrophin transgene ортақ N-terminal epitope-қа байланысады, сондықтан талдау transgene-ді residual/revertant dystrophin-нен таза ажыратпайды. 138 kDa micro-dystrophin-ді сау full-length dystrophin стандартына қарсы сандық бағалау да жарамсыз.

Рекомбинантты micro-dystrophin стандартын және transgene-ді эндогенді dystrophin-нен ажырататын ортогональды әдісті, мысалы targeted mass spectrometry немесе transgene-specific/epitope-specific assay қолданыңыз.

Иммунофлуоресценция

C-ұштық поликлоналды антидене бұл мақсатқа нашар сәйкес келеді, өйткені 138 kDa конструкциясында C-ұштық домен жоқ. Көптеген DMD пациенттерінде ревертантты талшықтар бар, ал ревертантты дистрофин C-ұштық эпитоптарды сақтай алады. Ревертантты талшықтар жас ұлғайған сайын клондық түрде кеңеюі мүмкін, бұл IF сигналын, әсіресе жасы үлкенірек ұлдарда, ығысуға ұшыратады.

Transgene-де бар, бірақ revertant dystrophin-де жоқ epitope-қа қарсы антиденемен IF-ті қайталаңыз. Transgene-positive fibers-ді revertant fibers-ден бөлек сандық бағалаңыз.

Суррогаттық соңғы нүктенің жарамдылығы

Пакет ақуыз мөлшерін клиникалық функциямен шатастырады. «Дені сау бақылаудағы ақуыз массасының 38%-ы» қалыпты dystrophin функциясының 38%-ын білдірмейді, өйткені micro-dystrophin құрылымдық тұрғыдан қысқартылған.

Экспрессияны surrogate соңғы нүкте ретінде қарастырмас бұрын micro-dystrophin mass-percent, sarcolemmal localization, downstream functional restoration және клиникалық пайда арасындағы байланысты эмпирикалық валидациялаңыз.

Биопсия дизайны

Емге дейінгі және кейінгі contralateral vastus lateralis биопсиялары сол-оң және бұлшықетішілік кеңістіктік вариабельділік енгізеді. Ауру прогрессиясы және fibro-fatty replacement жалпы ақуызға нормаланған сигналды да өзгерте алады.

Биопсия орнын тұрақты анатомиялық бағдарлармен стандарттаңыз, muscle-specific proteins-ке нормалаңыз және fibro-fatty composition-ды қатар өлшеңіз.

NSAA салыстырғышы/статистикасы

Сыртқы natural-history cohort рандомизацияланған қатар бақылау емес. Сынаққа жарамдылық, supportive care, participation effects, baseline NSAA, steroid regimen, жас және exon class салыстыруды bias-қа ұшыратуы мүмкін. Жұпталмаған t-test жеткіліксіз. Сондай-ақ +1.4 NSAA өзгерісі осы жас тобы үшін test-retest variability ішінде.

Рандомизацияланған қатар placebo-controlled зерттеу жүргізіңіз немесе кемінде baseline NSAA, жас, steroid regimen, exon class және басқа confounders ескеретін түзетілген талдаулар қолданыңыз.

Жас терезесінің шатастыруы

4–7 жастағы ұлдар untreated ambulatory DMD пациенттері құлдырау басым болғанға дейін motor function арттыруы мүмкін даму терезесінде болады. 48 апталық NSAA өзгерісі developmental gain, disease progression және possible treatment effect-ті араластырады.

Даму траекториясын ем әсерінен бөлу үшін жас бойынша стратификацияланған қатар рандомизацияланған бақылауды қолданыңыз.

Алдыңғы клиникалық прецедент

Open-label micro-dystrophin functional signals растаушы пайданы сенімді болжаған жоқ; жарияланған прецедентке open-label NSAA жақсаруларын қайта өндіре алмаған micro-dystrophin gene therapy confirmatory trials кіреді.

Open-label NSAA өзгерісіне шешуші қолдау ретінде сүйенбеңіз. Бақыланатын функционалдық дәлел талап етіңіз.

Конструкцияның құрылымдық шектері

138 kDa construct nNOS-binding sites бар spectrin repeats R16/17-ні жояды. nNOS recruitment жоғалуы жаттығу кезінде functional sympatholysis және ischemia protection-ды бұзып, экспрессия деңгейіне тәуелсіз rescue үшін механизмдік төбе жасай алады.

Осы нақты construct тиісті dystrophin-associated complex function, nNOS localization, exercise physiology және muscle protection-ды қалпына келтіре ме, соны көрсететін механизмдік зерттеулер қосыңыз.

AAV төзімділігі

12 аптадағы vector genomes durable expression-ды дәлелдемейді. AAV9 genomes негізінен интеграцияланбайтын episomes және уақыт өте азаюы мүмкін. Vector-genome persistence тұрақты protein expression-пен бірдей емес.

12 аптадан кейін longitudinal transgene protein expression және functional biomarker durability өлшеңіз.

Иммундық/қауіпсіздік профилі

12 пациенттің 8-індегі transaminitis AAV-transduced cells-ке иммундық жауаппен үйлеседі, бірақ механизм анықталмаған. AAV9 cardiac tropism ескергенде бір myocarditis жағдайы алаңдатады.

Тереңірек иммундық мониторинг, бауыр/жүрек қауіпсіздігі сипаттамасы және күшейтілген cardiac follow-up беріңіз.

Пациент таңдау/жалпыланушылық

Anti-AAV9 neutralizing-antibody-positive пациенттерді алып тастау жалпыланушылықты шектейді. Exon-44 deletions-ті алып тастау сол DMD subgroup-қа қолданылымды шектейді. n=12 кеңірек DMD population бойынша қауіпсіздік пен тиімділікті сипаттауға тым аз.

Мүмкін болса жарамдылықты кеңейтіңіз немесе нәтижені кең мақұлдауды қолдау үшін қолданбас бұрын antibody status, genotype/exon class, age және baseline function бойынша стратификацияланған талдауларды алдын ала көрсетіңіз.

Реттеушілік қорытынды: Пакет биологиялық белсенділікті көрсетуі мүмкін, бірақ өлшенген micro-dystrophin expression клиникалық пайданы болжауы ықтимал сенімді surrogate екенін әлі дәлелдемейді. Негізгі олқылықтар — assay specificity, жарамсыз quantification standards, мүмкін revertant-fiber confounding, randomized control болмауы, age-related NSAA confounding, белгісіз durability және шешілмеген safety/generalizability мәселелері.

Олқылықты жабу үшін бағдарламаға transgene-specific expression assays, orthogonal protein quantification, tissue-composition controls, longitudinal durability data, truncated construct үшін mechanistic functional assays және күштірек safety monitoring, әсіресе hepatic және cardiac, бар бақыланатын, жас бойынша стратификацияланған клиникалық дизайн қажет болар еді.

Рубрика критерийлері мен бағалар

Критерий
Ұпайлар
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench-ті валидациялау

Біз LifeSciBench-ті тәуелсіз сарапшылық шолу арқылы валидацияладық. Кері байланыс міндеттерді жазуға қатыспаған 453 рецензенттен алынды. Осы рецензенттердің 97%-ында Ph.D. немесе соған тең докторлық дәреже болды, орташа есеппен 12 жыл салалық тәжірибесі және 14 рецензияланған жарияланымы бар; 88%-ы кемінде бір марапат немесе стипендия алғанын хабарлады.

Рецензенттер әр міндет күшті бенчмарк сұрағына қажет қасиеттерді көрсете ме, соны бағалады: нақты зерттеу жұмысына сәйкестік, ғылыми ой қорыту мен пәндік сараптаманы тиісті тексеру, дәлелге немесе сарапшылық консенсусқа негізделу және модель өнімділігін бағалаудағы жалпы пайдалылық. Әр санатта келісім 96%-дан асты.

Нақты әлемге сәйкестігі

Бұл міндет өмір туралы ғылымдағы нақты жұмысқа сай келе ме?

Толық келісемін
90.4%
Жалпы келісемін
98.3%

Ғылыми ой қорыту / салалық дағды

Бұл міндет дұрыс ғылыми ой қорыту мен өмір туралы ғылым саласындағы дағдыларды тексеріп, бағалай ма?

Толық келісемін
86.4%
Жалпы келісемін
98.1%

Ғылыми негізділік

Бұл міндет ғылыми тұрғыда негізделген, жауап беруге болатын және тиісті дәлелдерге, деректерге, артефактілерге немесе сарапшылық консенсусқа сүйенген бе?

Толық келісемін
77.1%
Жалпы келісемін
96.5%

Жалпы пайдалылығы

Жалпы алғанда, бұл өмір туралы ғылымға арналған күшті бағалау міндеті ме?

Толық келісемін
79.1%
Жалпы келісемін
96.6%

Рецензент пікірлері сандық бағаларды нығайтты:

3 ішінен 1
Жалпы, бұл күшті міндет, өйткені оның бір дұрыс негізгі түсіндірмесі бар, бірақ белгісіздікті қаншалықты мұқият шектейтіні арқылы жақсырақ жауаптарды ажыратуға да мүмкіндік қалдырады.

Нәтижелер

Біз екі бірін-бірі толықтыратын метриканы хабарлаймыз. Өту үлесі — модель міндет деңгейіндегі 70% табыс шегіне жеткен міндеттердің пайызы. Балл — орташа рубрикалық ұпай; толық міндет шешілмесе де, жеке критерийлер үшін ішінара кредит береді. Екеуі де маңызды, өйткені ғылыми міндетке берілген жауап толық жауапқа қойылатын барлық талаптарды орындамай-ақ ішінара дұрыс немесе пайдалы болуы мүмкін.

Модель өнімділігі міндет түріне, жұмыс процесіне және жауап форматына қарай едәуір өзгереді.

ЖИ жүйелері бастапқыда қай жерде күшті көрінеді

LifeSciBench озық модельдер ғылыми синтез, коммуникация және құрылымдалған түсіндіруді қамтитын міндеттерде салыстырмалы түрде ең күшті екенін көрсетеді. Абсолюттік өту үлестері әлі де қарапайым, сондықтан бұл бенчмарк салалары толық игерілуден алыс, бірақ GPT‑Rosalind GPT‑5.5‑пен салыстырғанда елеулі ілгерілеу көрсетіп, жалпы дәл өту үлесін 25,7%-дан 36,1%-ға жақсартты.

Модель қабілеттеріндегі ең күшті ілгерілеу бағыттары ғылыми коммуникация мен трансляциялық зерттеуде байқалады. Мысалы, ғылыми коммуникациядағы өту үлесі GPT‑5.5 үшін 56,3%-дан GPT‑Rosalind үшін 71,1%-ға өседі; бұл санат шағын (n=9), сондықтан оны сақтықпен түсіндіру керек, бірақ ол озық модельдердің дәлелдерді ұйымдастырып, сарапшыларға арналған нанымды түсіндірмелер жасау қабілеті тез жақсарып жатқанын көрсетеді. Трансляция (дәрі әзірлеудегі «зертханадан клиникаға» процесі) ұқсас үлгі көрсетіп, GPT‑5.5 үшін 36,8%-дан GPT‑Rosalind үшін 57,7%-ға өсті; бұл модельдердің клиникаға дейінгі дәлелдерді клиникалық салдарлармен байланыстыру қабілеті тез жақсарып жатқанын аңғартады.

Рубрика деңгейіндегі нәтижелер де осы бағытты көрсетеді. Сарапшыға пайдалы немесе әрекет етуге болатын нәтижелерді талап ететін міндеттерде GPT‑Rosalind 44,7% жинайды, ал GPT‑5.5 — 29,1%. Белгісіздік пен ескертпелерді ескеруді талап ететін міндеттерде ол 44,8% жинайды, ал GPT‑5.5 үшін бұл көрсеткіш 29,3%". Бұл үлгі міндеттің айқын дәлел шекарасы болып, құрылымдалған ғылыми пайым қажет болғанда модельдер ең пайдалы болатынын көрсетеді.

GPT‑Rosalind индустрия және академиялық сарапшылар анықтаған ғылыми тұрғыдан құнды міндеттерде өнімділік бойынша алда.

GPT‑Rosalind индустрия және академиялық сарапшылар анықтаған ғылыми құнды тапсырмалар бойынша өнімділікте алда.

GPT‑Rosalind индустрия және академиялық сарапшылар анықтаған ғылыми құнды тапсырмалар бойынша өнімділікте алда.

ЖИ жүйелері әлі де қай жерде жеткіліксіз

Артефактісі көп, дизайны күрделі және операциялық шектеулері бар ғылыми жұмыста өнімділік әлдеқайда әлсіз болып қалады. Атап айтқанда, дизайн, оңтайландыру және болжау ең қиын жұмыс процестерінің бірі болып қала береді: GPT‑Rosalind өту үлесі 30,7%; талдау да соған ұқсас қиын — 30,3%.

Артефактіні пайдалану — әсіресе айқын олқылық. GPT‑Rosalind артефактісі көп жағдайларда GPT‑5.5‑тен жақсырақ нәтиже көрсеткенімен, оның өту үлесі тек мәтіндік міндеттердегі 45,1%-дан артефактілері немесе URL-дары бар міндеттерде 28,1%-ға дейін төмендейді. GPT‑5.5 те дәл осындай үлгі көрсетіп, 29,9%-дан 21,9%-ға төмендейді. Толығырақ талдау озық модельдер күрделі суреттерден немесе үлкен реттілік файлдарынан ақпаратты шығарып, оны соңғы жауапқа біріктіруде қиналатынын растайды.

Міндеттер дереккөзге негізделген ой қорытуды немесе артефактілермен жұмыс істеуді талап еткенде, өту үлестері төмендейді

Жауап форматы да маңызды. Дәл реттілік, құрылым немесе конструкт деңгейіндегі нәтижелерді талап ететін міндеттерде өту үлестері төмен: GPT‑Rosalind сандық міндеттерде небәрі 14,8%-ға, ал реттілік немесе құрылым нәтижелерінде 24,0%-ға жетеді. Конструкт генерациялау міндеттері де осал: GPT‑Rosalind 27,3% деңгейінде және GPT‑5.5‑пен салыстырғанда аз ғана жақсару көрсетеді. Бұл алшақтықтың бір бөлігі дәл жауапты талап ететін міндеттерде бағалау критерийлерінің қатаң болуына байланысты болуы мүмкін: есептеу немесе форматтаудағы шағын айырмалар жауаптың өту шегінен төмен түсуіне әкелуі мүмкін. Дегенмен, бұл сәтсіздіктер ғылыми тұрғыдан маңызды, өйткені өмір туралы ғылымдағы көптеген жұмыс процестері CRISPR/HDR донорын жобалау немесе siRNA жобалау сияқты тікелей қолдануға жеткілікті дәл нәтижелерді талап етеді.

Модельдер де көбіне міндетті толық шешпей, жолдың бір бөлігін ғана орындайды. Міндеттердің шамамен 14%-ында модельдер дәл өту шегінен өте алмаса да, рубрика бойынша елеулі кредит жинады. GPT‑Rosalind үшін 109 міндеттің өту үлесі 20%-дан төмен болды, бірақ олар кемінде 50% рубрикалық ұпай жинады. Іс жүзінде бұл модельдер тиісті дәлелдерді анықтауы немесе ықтимал ішінара жауап беруі мүмкін, бірақ негізгі шектеуді жіберіп алу, қате дәлелді пайдалану, толық емес есептеу жасау немесе өз ой қорытуын ғылыми тұрғыдан пайдалы соңғы шешіммен байланыстырмау салдарынан бәрібір сәтсіз болады дегенді білдіреді.

Шектеулер және келесі қадамдар

LifeSciBench — ЖИ жүйелерінің өмір туралы ғылым зерттеулеріне қаншалықты пайдалы бола алатынын өлшеуге жасалған қадам, бірақ ол модельдерді нақты зерттеу орталарында зерттеудің орнын баспайды. Бенчмарк қайталанатын индустриялық жұмыс процестерін көрсететін дербес міндеттерге шоғырланады, ал көптеген ғылыми мамандықтар мен міндет түрлері оның қазіргі ауқымынан тыс қалады. Нақты зерттеу итеративті: ғалымдар жаңа дәлелдер жинайды, гипотезаларды қайта қарайды, кейінгі эксперименттерді жобалайды және нәтижелер пайда болған сайын жоспарларын бейімдейді.

Сондықтан LifeSciBench-тегі күшті өнімділікті кейінгі зерттеу әсерінің тікелей өлшемі емес, нақты міндет деңгейіндегі қабілеттің дәлелі ретінде түсіндіру керек. Бенчмарк индустриялық жұмыс процестеріне негізделген, бірақ ол ілгерілеу уақыт өте байқалатын факторларға тәуелді болатын нақты зерттеу бағдарламаларының толық алуан түрлілігін немесе динамикасын қамтымайды.

Келесі қадам — бенчмарк өнімділігін қолданыстағы зерттеу жұмыс процестеріндегі енгізу зерттеулерімен байланыстыру. LifeSciBench практик ғалымдармен бірге әзірленгенімен, ЖИ жүйелері жаңалық ашуды жеделдете ме немесе R&D нәтижелерін жақсарта ма, соны өлшеу үшін модельді нақты зерттеу орталарында, ұзақ мерзімдер бойы және ой қорыту, кері байланыс пен эксперименттік кейінгі бақылаудың бірнеше раунды арқылы қолдану мен өнімділігін зерттеу қажет.

Қатысыңыз

Өмір туралы ғылымға арналған ЖИ бенчмарктерінің келесі буынын қалыптастыруға көмектесіңіз немесе GPT-Rosalind-ке қолжетімділік сұраңыз.

Автор

OpenAI