17. јун 2026.

Представљамо LifeSciBench

Референтна вредност коју пишу и рецензирају стручњаци, утемељена у стварним истраживањима у природним наукама

Учитавање…

Агентски AI системи све боље обављају научне задатке. Ипак, њихова корист за истраживаче у природним наукама зависи од тога како савладавају сложеност стварног истраживања. Тај рад ретко личи на једно питање из памћења чињеница или уредан проблем предвиђања. Истраживачи тумаче непотпуне доказе, усаглашавају супротне резултате, дизајнирају тешке експерименте, решавају проблеме у тестовима, процењују преводни ризик и одлучују шта даље уз неизвесност.

Садашње референтне вредности не обухватају у потпуности ове способности. Многе евалуације у природним наукама фокусирају се на уске домене или изоловане вештине, па дају питања структурисаног формата и чисте референтне одговоре. Иако су вредне, често не процењују може ли заиста модел да допринесе ширем истраживачком раду.

LifeSciBench смо осмислили да помогне у затварању тог јаза. Сваки задатак је утемељен у суду активних научника са докторском обуком и искуством у унапређивању програма откривања лекова у биотехнолошком и фармацеутском окружењу.

LifeSciBench има 750 задатака које су написали стручњаци, кроз седам токова рада и седам биолошких домена.

1,062

Артефакти задатка

173

Научни сарадници

19,020

Критеријуми рубрике

453

Стручни рецензенти

Шта LifeSciBench мери

LifeSciBench мери да ли AI системи могу да подрже реалне истраживачке задатке у природним наукама, а не само да одговарају на биолошка питања. Да бисмо дефинисали таксономију референтне вредности, анкетирали смо активне научнике о токовима рада које најчешће користе у примењеним истраживањима. Затим смо одговоре груписали у седам категорија: рад са доказима, анализа, дизајн и оптимизација, научно резоновање, валидација и операције, превођење и научна комуникација.

Сваки задатак личи на захтев који би научник упутио упућеном сараднику: научна инструкција, релевантан контекст или артефакти и слободан одговор. Рубрике које пишу стручњаци процењују може ли модел да да прави одговор за конкретан проблем, са очекиваним нивоом детаља, образложења, ограда и формата.

Израда скупа података

LifeSciBench оцењује научно резоновање заједно са мање јасно дефинисаним практичним вештинама потребним за стварну научну употребу. Задаци траже од модела да решавају реалне истраживачке проблеме: тумаче доказе, доносе доменски утемељене судове и саопштавају закључке корисне стручним рецензентима. Многи задаци траже и да модели раде са неизвесношћу и подацима из приложених датотека, а не само са текстом инструкције.

Референтна вредност је осмишљена тако да одрази сложеност рада у природним наукама. Укупно, 79% задатака захтева више корака резоновања или одлучивања, у просеку четири корака по задатку. LifeSciBench обухвата 1062 приложена артефакта: слике, PDF-ове, табеле, датотеке секвенци, структурне или хемијске датотеке и референце са веба. Више од половине задатака (53%) захтева од модела да тумаче или синтетишу информације из најмање једног артефакта.

Задатке је креирало 173 стручна научника из различитих дисциплина природних наука. Сваки научник је имао докторску обуку и искуство у биотехнолошком или фармацеутском сектору. Задаци су могли да прођу онолико циклуса ревизије колико је било потребно; прихваћени задаци су у просеку имали шест аутоматизованих саморевизија и најмање два круга стручне рецензије. Рецензије су се ослањале на проверљив тачан одговор или снажан стручни консензус, уз најмање 90% сагласности рецензената у релевантном домену. Тај процес је помогао да прихваћени задаци буду научно утемељени, довољно јасни за оцењивање и репрезентативни за примењено истраживање.

Дијаграм приказује задатке референтне вредности LifeSciBench који комбинују изворе података из природних наука, као што су геномске секвенце, молекуларне структуре, слике, документи, табеле и веб-линкови, са резоновањем у више корака и стручном рецензијом.

Оцењивање и структура рубрике

Задаци у референтној вредности LifeSciBench оцењују се детаљном, задатку специфичном рубриком која очекивани одговор разлаже на научне тврдње, прорачуне, одлуке, образложења и друго. У целој референтној вредности, стручне рубрике имају 19.020 критеријума – у просеку 25 по задатку – за процену научне тачности и корисности за истраживачке одлуке.

Тај дизајн одражава стварну процену научног рада: многи задаци у природним наукама не могу се оценити само провером коначног одговора. Одговор може доћи до исправног општег закључка, али бити непотпун ако, нпр. превиди кључно ограничење теста или важну биолошку нијансу. Супротно томе, делимичан одговор може садржати квалитетно резоновање иако не решава задатак у потпуности.

Грануларне рубрике хватају ту нијансу. LifeSciBench не процењује само тачност коначног одговора, већ и да ли модел до њега долази научно ваљано и оперативно корисно.

Издвајање, усаглашавање и ревизија научних доказа из радова, слика, табела и експерименталних записа.

Пример оцењивања

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Одговор кандидата

Суштина: Како је представљен, овај пакет није довољно снажан да подржи убрзано одобрење на основу експресије микродистрофина као сурогатне крајње тачке за коју је разумно вероватно да предвиђа клиничку корист. Скептичан рецензент FDA би вероватно сматрао да су докази о биомаркеру, функцији, трајности, безбедности и могућности генерализације материјално недовољно подржани.

Ставка пакета	Кључни режим неуспеха	Шта би било потребно
Квантификација вестерн блотом	MANEX1A се везује за N-терминални епитоп који деле ендогени дистрофин пуне дужине и епитоп микродистрофина, па тест не разликује чисто трансген од резидуалног/ревертантног дистрофина. Квантификовање микродистрофина од 138 kDa у односу на здрави стандард дистрофина пуне дужине такође је неважеће.	Користити рекомбинантни стандард микродистрофина и ортогоналну методу која разликује трансген од ендогеног дистрофина, као што су циљана масена спектрометрија или трансген-специфичан/епитоп-специфичан тест.
Имунофлуоресценција	C-терминално поликлонално антитело је слабо погодно јер конструкт од 138 kDa нема C-терминални домен. Многи DMD пацијенти имају ревертантна влакна, а ревертантни дистрофин може да задржи C-терминалне епитопе. Ревертантна влакна могу клонално да се шире са годинама, пристрасно утичући на IF сигнал, посебно код старијих дечака.	Поновити IF са антителом против епитопа присутног у трансгену, али одсутног из ревертантног дистрофина. Квантификовати трансген-позитивна влакна одвојено од ревертантних влакана.
Валидност сурогатне крајње тачке	Пакет меша количину протеина са клиничком функцијом. „38% протеинске масе здраве контроле” не значи 38% нормалне функције дистрофина, јер је микродистрофин структурно скраћен.	Емпиријски валидирати однос између масеног процента микродистрофина, сарколемалне локализације, низводне функционалне обнове и клиничке користи пре третирања експресије као сурогатне крајње тачке.
Дизајн биопсије	Контралатералне биопсије vastus lateralis пре и после третмана уводе лево-десну и интрамускуларну просторну варијабилност. Прогресија болести и фибро-масна замена такође могу променити сигнал нормализован на укупни протеин.	Стандардизовати место биопсије помоћу доследних анатомских оријентира, нормализовати на мишићно-специфичне протеине и паралелно мерити фибро-масни састав.
NSAA компаратор/статистика	Спољна кохорта природне историје није рандомизована истовремена контрола. Критеријуми за учешће у испитивању, потпорна нега, ефекти учешћа, почетни NSAA, стероидни режим, узраст и класа егзона могу пристрасно утицати на поређење. Неспарени t-тест није довољан. Такође, промена NSAA од +1,4 је унутар варијабилности тест-ретест за ову старосну групу.	Спровести рандомизовану истовремену плацебом контролисану студију или бар користити прилагођене анализе које узимају у обзир почетни NSAA, узраст, стероидни режим, класу егзона и друге конфаундере.
Конфаундирање старосним прозором	Дечаци узраста 4–7 година су у развојном прозору у ком нелечени амбулантни DMD пацијенти могу добијати моторну функцију пре него што пад постане доминантан. Промена NSAA током 48 недеља меша развојни добитак, прогресију болести и могући ефекат третмана.	Користити истовремену рандомизовану контролу са стратификацијом по узрасту да се раздвоји развојна путања од ефекта третмана.
Претходни клинички преседан	Функционални сигнали микродистрофина у отвореним студијама нису поуздано предвидели потврдну корист; објављени преседан укључује потврдна испитивања генске терапије микродистрофином која нису репродуковала побољшања NSAA из отворених студија.	Не ослањати се на промену NSAA у отвореној студији као одлучујућу подршку. Захтевати контролисане функционалне доказе.
Структурна ограничења конструкта	Конструкт од 138 kDa брише спектринска понављања R16/17, која садрже nNOS-везивна места. Губитак регрутовања nNOS-а може нарушити функционалну симпатолизу и заштиту од исхемије током вежбања, стварајући механистичку граничну вредност опоравка независну од нивоа експресије.	Додати механистичке студије које показују да ли овај конкретни конструкт обнавља релевантну функцију комплекса повезаног са дистрофином, локализацију nNOS-а, физиологију вежбања и заштиту мишића.
Трајност AAV-а	Векторски геноми у 12. недељи не успостављају трајну експресију. AAV9 геноми су углавном неинтегришући епизоми и могу временом опадати. Перзистенција векторског генома није исто што и перзистентна експресија протеина.	Мерити лонгитудиналну експресију трансгенског протеина и трајност функционалног биомаркера после 12 недеља.
Имунски/безбедносни профил	Трансаминитис код 8/12 пацијената је у складу са имунским одговором на ћелије трансдуковане AAV-ом, али механизам није утврђен. Један случај миокардитиса је забрињавајући с обзиром на срчани тропизам AAV9.	Обезбедити дубље имунско праћење, карактеризацију безбедности јетре/срца и интензивирано кардиолошко праћење.
Избор пацијената/могућност генерализације	Искључивање пацијената позитивних на неутралишућа антитела против AAV9 ограничава могућност генерализације. Искључивање делеција егзона 44 ограничава применљивост на ту DMD подгрупу. n=12 је премало да би се окарактерисале безбедност и ефикасност у широј популацији DMD.	Проширити критеријуме где је могуће или унапред прецизирати стратификоване анализе по статусу антитела, генотипу/класи егзона, узрасту и почетној функцији пре коришћења резултата као подршке широком одобрењу.

Регулаторни закључак: Пакет може показивати биолошку активност, али још не успоставља да је измерена експресија микродистрофина поуздан сурогат за који је разумно вероватно да предвиђа клиничку корист. Главне празнине су специфичност теста, неважећи стандарди квантификације, могуће конфаундирање ревертантним влакнима, недостатак рандомизоване контроле, узрастом повезано NSAA конфаундирање, неизвесна трајност и нерешена питања безбедности/могућности генерализације.

Да би се празнина затворила, програму би био потребан контролисан, старосно стратификован клинички дизајн са тестовима експресије специфичним за трансген, ортогоналном квантификацијом протеина, контролама састава ткива, лонгитудиналним подацима о трајности, механистичким функционалним тестовима за скраћени конструкт и јачим безбедносним праћењем, посебно хепатичким и срчаним.

Критеријуми и оцене рубрике

Критеријум

Тачке

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Валидација референтне вредности LifeSciBench

LifeSciBench смо валидирали независном стручном рецензијом. Повратне информације дало је 453 рецензента који нису учествовали у писању задатака. Од њих, 97% је имало Ph. D. или еквивалентан докторат, у просеку 12 година искуства и 14 рецензираних радова; 88% је навело бар једну награду или стипендију.

Рецензенти су оцењивали да ли сваки задатак има особине јаког питања референтне вредности: усклађеност са реалним истраживањем, проверу научног резоновања и доменске стручности, утемељење у доказима или консензусу и корисност за процену учинка модела. Сагласност је у свакој категорији премашила 96%.

Релевантност у стварном свету

Да ли овај задатак одражава реалан рад у природним наукама?

У потпуности се слажем: 90.4%
Углавном се слажем: 98.3%

Научно резоновање/доменска вештина

Да ли овај задатак испитује и оцењује право научно резоновање и доменске вештине из природних наука?

У потпуности се слажем: 86.4%
Углавном се слажем: 98.1%

Научно утемељење

Да ли је овај задатак научно утемељен, решив и ослоњен на одговарајуће доказе, податке, артефакте или стручни консензус?

У потпуности се слажем: 77.1%
Углавном се слажем: 96.5%

Укупна корисност

Свеукупно, да ли је ово снажан задатак за евалуацију у природним наукама?

У потпуности се слажем: 79.1%
Углавном се слажем: 96.6%

Коментари рецензената потврдили су квантитативне оцене:

1 од 3

“Свеукупно, ово је снажан задатак јер има једно исправно основно тумачење, али ипак омогућава да се бољи одговори издвоје по томе колико пажљиво ограничавају неизвесност.”

Резултати

Извештавамо две комплементарне метрике. Стопа пролазности је проценат задатака у којима модел достиже праг успеха од 70% на нивоу задатка. Оцена је просечна награда по рубрици, уз делимичне бодове за појединачне критеријуме чак и када цео задатак није решен. Обе су важне јер одговор на научни задатак може бити делимично тачан или користан, а да не испуни све услове потпуног одговора.

Перформансе модела знатно варирају по типу задатка, току рада и формату одговора.

Где AI системи рано показују снагу

LifeSciBench показује да су гранични модели релативно најјачи у задацима научне синтезе, комуникације и структурисаног тумачења. Апсолутне стопе пролазности су и даље умерене, па домени референтне вредности нису засићени, али GPT‑Rosalind напредује у односу на GPT‑5.5, подижући укупну тачну стопу пролазности са 25,7% на 36,1%.

Најјачи напредак способности модела види се у научној комуникацији и превођењу. Нпр. пролазност у научној комуникацији расте са 56,3% за GPT‑5.5 на 71,1% за GPT‑Rosalind; категорија је мала (n=9), па је треба тумачити опрезно, али указује да гранични модели брзо побољшавају организовање доказа и уверљива објашњења за стручњаке. Превођење (процес развоја лека „од клупе до болесничке постеље”) показује сличан образац, растући са 36,8% за GPT‑5.5 на 57,7% за GPT‑Rosalind, што сугерише да модели брзо боље повезују претклиничке доказе са клиничким импликацијама.

Резултати на нивоу рубрике указују на исти смер. На задацима који траже излазе корисне стручњацима или применљиве у пракси, GPT‑Rosalind постиже 44,7%, наспрам 29,1% за GPT‑5.5. На задацима који траже рад са неизвесношћу и оградама, постиже 44,8%, наспрам 29,3%. Овај образац сугерише да су модели најкориснији када задатак има јасну границу доказа и тражи структурисан научни суд.

GPT‑Rosalind предводи у погледу учинка на научно вредним задацима које су идентификовали секторски и академски стручњаци.

GPT‑Rosalind води у перформансама на научно вредним задацима које су идентификовали индустријски и академски стручњаци.

Где AI системи и даље заостају

Перформансе су много слабије у научном раду богатом артефактима, дизајном и оперативним ограничењима. Дизајн, оптимизација и предвиђање остају међу најтежим токовима рада, са пролазношћу модела GPT‑Rosalind од 30,7%; анализа је слично тешка, 30,3%.

Употреба артефаката је посебно јасан јаз. Иако је GPT‑Rosalind бољи од модела GPT‑5.5 у окружењима богатим артефактима, пролазност ипак пада са 45,1% на текстуалним задацима на 28,1% на задацима са артефактима или URL-овима. GPT‑5.5 показује исти образац, са падом са 29,9% на 21,9%. Детаљнија анализа потврђује да гранични модели тешко екстрахују информације из сложених слика или великих датотека секвенци и уграђују их у коначни одговор.

Стопе пролазности падају када задаци траже резоновање утемељено у изворима или рад са артефактима

Важан је и формат одговора. Задаци који траже тачне секвенце, структуре или излазе на нивоу конструкта имају ниже стопе пролазности: GPT‑Rosalind достиже само 14,8% на нумеричким задацима и 24,0% на излазима секвенци или структура. Задаци генерисања конструката такође су крхки: GPT‑Rosalind је на 27,3% и мало напредује у односу на GPT‑5.5. Део тог јаза може одражавати строже оцењивање код задатака са тачним одговором, где мале разлике у прорачуну или формату могу оборити одговор испод прага. Ипак, ти неуспеси су научно значајни јер многи токови рада у природним наукама траже излазе довољно тачне за директну употребу, као у дизајну донора CRISPR/HDR или siRNA.

Модели често пређу део пута, али не реше задатак до краја. У око 14% задатака, модели су добили значајне бодове по рубрици иако нису достигли праг тачне пролазности. За GPT‑Rosalind, 109 задатака имало је пролазност испод 20%, али је ипак освојило најмање 50% награде по рубрици. У пракси, то значи да модели могу уочити релевантне доказе или дати уверљив делимичан одговор, али ипак пасти јер пропусте кључно ограничење, користе погрешне доказе, непотпуно рачунају или не повежу резоновање са корисном научном одлуком.

Ограничења и наредни кораци

LifeSciBench је корак ка мерењу корисности AI система за истраживања у природним наукама, али није замена за проучавање модела у живим истраживачким окружењима. Референтна вредност се фокусира на самосталне задатке који одражавају понављајуће индустријске токове рада, док многе научне специјалности и типови задатака остају ван тренутног обухвата. Стварно истраживање је итеративно: научници прикупљају нове доказе, ревидирају хипотезе, дизајнирају додатне експерименте и прилагођавају планове како се резултати појављују.

Зато снажне перформансе у референтној вредности LifeSciBench треба тумачити као доказ реалне способности на нивоу задатка, не као директну меру утицаја на даље истраживање. Референтна вредност је утемељена у секторским токовима рада, али не хвата пуну разноликост ни динамику живих истраживачких програма, где напредак зависи од фактора који се развијају током времена.

Следећи корак је повезивање учинка референтне вредности са студијама примене у живим истраживачким токовима рада. Иако је референтна вредност LifeSciBench развијена са активним научницима, мерење да ли AI системи убрзавају открића или побољшавају исходе истраживања и развоја тражи проучавање употребе и учинка модела у стварним истраживањима, током дужих периода и кроз више кругова резоновања, повратних информација и експерименталног праћења.