Ви го претставуваме LifeSciBench
Експертски напишан и рецензиран репер заснован на реално истражување во бионауките
Системите со автономна вештачка интелигенција стануваат сè поспособни за извршување научни задачи. Сепак, нивната корисност за истражувачите во бионауките зависи од тоа колку добро се справуваат со сложеноста на вистинското истражување. Таа работа ретко изгледа како едно прашање за присетување факт или како чист проблем на предвидување. Истражувачите толкуваат нецелосни докази, усогласуваат спротивставени резултати, дизајнираат тешки експерименти, решаваат проблеми со есеи, оценуваат транслациски ризик и одлучуваат што да се направи следно во услови на неизвесност.
Тековните репери не ги опфаќаат целосно овие способности. Многу евалуации во бионауките се фокусираат на тесни домени или изолирани вештини, што резултира со прашања со структурирани формати и чисти референтни одговори. Иако се вредни, тие често не успеваат вистински да проценат дали модел може да придонесе низ поширокиот опсег на истражувачка работа.
Го дизајниравме LifeSciBench за да помогне во затворањето на овој јаз. Секоја задача е втемелена во проценката на практичари од бионауките со обука на ниво на докторат и директно искуство во унапредување програми за откривање лекови во биотехнолошки и фармацевтски средини.
LifeSciBench вклучува 750 задачи напишани од експерти, кои опфаќаат седум работни текови и седум биолошки домени.
1,062
Артефакти на задачата
173
Научници-соработници
19,020
Критериуми од рубриката
453
Експертски рецензенти
Што мери LifeSciBench
LifeSciBench мери дали AI-системите можат да поддржат реалистични истражувачки задачи во бионауките, а не само да одговараат на биолошки прашања. За да ја дефинираме таксономијата на реперот, анкетиравме практичари од бионауките за работните текови што најчесто ги користат во применети истражувачки средини. Потоа ги групиравме нивните одговори во седум повторливи категории: работа со докази, анализа, дизајн и оптимизација, научно расудување, валидација и операции, транслација и научна комуникација.
Секоја задача е структурирана како барање што научник би му го дал на упатен соработник: научен промпт, релевантен контекст или артефакти и одговор со слободна форма. Рубриките напишани од експерти оценуваат дали модел може да даде точен одговор за конкретен проблем, со соодветно ниво на детали, образложение, забелешки и форматирање какви што би очекувал научник.
Конструирање на збирката податоци
LifeSciBench го оценува научното расудување заедно со помалку јасно дефинираните практични вештини потребни за реална научна употреба. Неговите задачи бараат од моделите да решаваат реалистични истражувачки проблеми: толкување докази, донесување проценки засновани на доменско знаење и комуницирање заклучоци што би им биле корисни на експертските рецензенти. Многу задачи бараат и моделите да се справуваат со неизвесност и да расудуваат врз основа на придружни податочни датотеки, наместо да се потпираат само на текстот на промптот.
Реперот е дизајниран да ја одрази сложеноста на работата во бионауките. Севкупно, 79% од задачите бараат повеќе чекори на расудување или донесување одлуки, со просек од четири чекори по задача. LifeSciBench вклучува 1.062 приложени артефакти што опфаќаат слики, PDF-документи, табели, датотеки со секвенци, структурни или хемиски датотеки и веб-референци. Повеќе од половина од задачите (53%) бараат моделите да толкуваат или синтетизираат информации од најмалку еден артефакт.
Задачите ги создадоа 173 експертски научници од различни дисциплини во бионауките. Секој научник имаше обука на ниво на докторат и искуство во биотехнолошката или фармацевтската индустрија. Задачите можеа да поминат низ онолку циклуси на ревизија колку што беше потребно пред прифаќање, без фиксно ограничување на бројот на кругови; прифатените задачи во просек поминаа шест самоиницијативни автоматизирани циклуси на преглед и завршија најмалку два круга експертски прегледи. Прегледите беа засновани или на проверлив точен одговор или на силен експертски консензус, со најмалку 90% согласност меѓу рецензентите во релевантниот домен. Овој процес помогна да се обезбеди прифатените задачи да бидат научно поткрепени, доволно јасни за оценување и репрезентативни за применетото истражување.
Оценување и расчленување на рубриката
Задачите во LifeSciBench се оценуваат со детална рубрика специфична за задачата, која го расчленува очекуваниот одговор на конкретни научни тврдења, пресметки, одлуки, образложенија и слично. Низ целиот репер, рубриките развиени од експерти вклучуваат 19.020 критериуми — во просек 25 по задача — за процена и на научната точност и на корисноста за истражувачки одлуки.
Овој дизајн го одразува начинот на кој научната работа се оценува во практика: многу задачи во бионауките не можат да се оценат само со проверка на конечниот одговор. Одговор може да стигне до точниот заклучок на високо ниво, но сепак да се оцени како нецелосен ако, на пример, превиди клучно ограничување на есејот или не истакне проактивно биолошка нијанса со големи последици. Спротивно на тоа, делумен одговор може да содржи висококвалитетно расудување дури и ако не ја реши задачата целосно.
Грануларните рубрики ја опфаќаат оваа нијанса. LifeSciBench не ја оценува само точноста на конечниот одговор, туку и дали модел стигнува до одговорот на научно валиден и оперативно корисен начин.
Извлекување, усогласување и ревизија на научни докази од трудови, слики, табели и експериментални записи.
Пример за евалуација
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
Одговор на кандидат
Заклучок: Како што е претставен, овој пакет не е доволно силен за да поддржи забрзано одобрување врз основа на експресија на микродистрофин како сурогатна крајна точка разумно веројатна да предвиди клиничка корист. Скептичен рецензент од FDA веројатно би ги сметал доказите за биомаркерот, функцијата, трајноста, безбедноста и генерализибилноста како материјално недоволно поддржани.
Ставка од пакетот | Клучен начин на неуспех | Што би било потребно |
|---|---|---|
Квантификација со Western blot | MANEX1A се врзува за N-терминален епитоп заеднички за ендогениот целосно-должински дистрофин и трансгенот микродистрофин, па тестот не ги разликува чисто трансгенот од резидуалниот/ревертантен дистрофин. Квантифицирање 138 kDa микродистрофин наспроти здрав целосно-должински дистрофински стандард исто така е невалидно. | Користете рекомбинантен стандард за микродистрофин и ортогонален метод што го разликува трансгенот од ендогениот дистрофин, како насочена масена спектрометрија или трансген-специфичен/епитоп-специфичен тест. |
Имунофлуоресценција | C-терминалното поликлонално антитело е слабо соодветно бидејќи 138 kDa конструкцијата го нема C-терминалниот домен. Многу пациенти со DMD имаат ревертантни влакна, а ревертантниот дистрофин може да задржи C-терминални епитопи. Ревертантните влакна може клонално да се шират со возраста, пристрасувајќи го IF сигналот, особено кај постари момчиња. | Повторете IF со антитело против епитоп присутен во трансгенот, но отсутен од ревертантниот дистрофин. Квантифицирајте трансген-позитивни влакна одделно од ревертантни влакна. |
Валидност на сурогатна крајна точка | Пакетот ја меша количината на протеин со клиничката функција. „38% од протеинската маса на здрава контрола“ не значи 38% од нормалната функција на дистрофинот бидејќи микродистрофинот е структурно скратен. | Емпириски валидирајте ја врската меѓу масениот процент на микродистрофин, сарколемалната локализација, надолната функционална реставрација и клиничката корист пред експресијата да се третира како сурогатна крајна точка. |
Дизајн на биопсија | Прет- и посттретмански контралатерални биопсии од vastus lateralis воведуваат лево-десна и интрамускулна просторна варијабилност. Прогресијата на болеста и фибро-масната замена исто така може да го променат сигналот нормализиран на вкупен протеин. | Стандардизирајте го местото на биопсија со конзистентни анатомски ориентирачи, нормализирајте на мускул-специфични протеини и паралелно мерете фибро-масен состав. |
NSAA споредувач/статистика | Надворешна кохорта од природна историја не е рандомизирана истовремена контрола. Подобноста за испитување, поддржувачката грижа, ефектите од учество, почетниот NSAA, стероидниот режим, возраста и класата на егзон можат да ја пристрасат споредбата. Неспарен t-тест не е доволен. Исто така, промена од +1,4 NSAA е во рамки на test-retest варијабилноста за оваа возрасна група. | Спроведете рандомизирана истовремена плацебо-контролирана студија, или барем користете прилагодени анализи што ги земаат предвид почетниот NSAA, возраста, стероидниот режим, класата на егзон и други збунувачи. |
Збунување од возрасен прозорец | Момчињата на возраст 4–7 се во развоен прозорец каде нелекувани амбулантни DMD пациенти може да добиваат моторна функција пред да доминира падот. 48-неделна NSAA промена меша развоен добиток, прогресија на болест и можен ефект од третман. | Користете истовремена рандомизирана контрола со стратификација по возраст за да ја одвоите развојната траекторија од ефектот на третман. |
Претходен клинички преседан | Отворени функционални сигнали од микродистрофин не предвиделе сигурно потврдна корист; објавениот преседан вклучува потврдни испитувања на генска терапија со микродистрофин што не успеале да репродуцираат отворени подобрувања на NSAA. | Не потпирајте се на отворена NSAA промена како решавачка поддршка. Потребни се контролирани функционални докази. |
Структурни ограничувања на конструкцијата | 138 kDa конструкцијата ги брише spectrin повторувањата R16/17, кои содржат nNOS-врзувачки места. Губењето на регрутација на nNOS може да ја наруши функционалната симпатолиза и исхемиската заштита при вежбање, создавајќи механистички плафон на спасување независно од нивото на експресија. | Додајте механистички студии што покажуваат дали оваа специфична конструкција ја обновува релевантната функција на комплексот поврзан со дистрофин, локализацијата на nNOS, физиологијата на вежбање и мускулната заштита. |
Трајност на AAV | Векторски геноми на 12 недели не воспоставуваат трајна експресија. AAV9 геномите главно се неинтегрирачки епизоми и може да опаѓаат со текот на времето. Перзистенцијата на векторски геноми не е исто што и перзистентна протеинска експресија. | Мерете надолжна протеинска експресија на трансгенот и трајност на функционални биомаркери подолго од 12 недели. |
Имун/безбедносен профил | Трансаминитис кај 8/12 пациенти е конзистентен со имун одговор на AAV-трансдуцирани клетки, но механизмот не е воспоставен. Еден случај на миокардитис е загрижувачки со оглед на срцевиот тропизам на AAV9. | Обезбедете подлабоко имуно следење, карактеризација на црнодробна/срцева безбедност и засилено срцево следење. |
Селекција на пациенти/генерализибилност | Исклучувањето пациенти позитивни на анти-AAV9 неутрализирачки антитела ја ограничува генерализибилноста. Исклучувањето делеции на егзон 44 ја ограничува применливоста за таа DMD подгрупа. n=12 е премало за да се карактеризираат безбедноста и ефикасноста низ пошироката DMD популација. | Проширете ја подобноста каде што е можно или однапред специфицирајте стратифицирани анализи според антителен статус, генотип/класа на егзон, возраст и почетна функција пред резултатот да се користи за поддршка на широко одобрување. |
Регулаторен заклучок: Пакетот може да покажува биолошка активност, но сè уште не воспоставува дека измерената експресија на микродистрофин е сигурен сурогат разумно веројатен да предвиди клиничка корист. Главните јазови се специфичноста на тестот, невалидните стандарди за квантификација, можно збунување од ревертантни влакна, недостиг од рандомизирана контрола, возрасно поврзано NSAA збунување, неизвесна трајност и нерешени безбедносни/генерализибилни прашања.
За да се затвори јазот, програмата би имала потреба од контролиран, возраст-стратифициран клинички дизајн со трансген-специфични тестови за експресија, ортогонална протеинска квантификација, контроли на ткивен состав, надолжни податоци за трајност, механистички функционални тестови за скратената конструкција и посилно безбедносно следење, особено хепатално и срцево.
Рубрики со критериуми и оценки
Валидација на LifeSciBench
Го валидиравме LifeSciBench преку независен експертски преглед. Повратните информации дојдоа од 453 рецензенти кои не беа вклучени во пишувањето на задачите. Од тие рецензенти, 97% имаа докторат или еквивалентна докторска диплома, со просек од 12 години искуство во областа и 14 рецензирани публикации; 88% пријавија дека добиле најмалку една награда или стипендија.
Рецензентите оценуваа дали секоја задача ги одразува квалитетите потребни за силно репер-прашање: усогласеност со реална истражувачка работа, соодветно тестирање на научното расудување и доменската експертиза, заснованост на докази или експертски консензус и општа корисност за оценување на перформансите на моделот. Согласноста надмина 96% во секоја категорија.
Коментарите на рецензентите ги засилија квантитативните оценки:
Резултати
Пријавуваме две комплементарни метрики. Стапката на поминување е процентот на задачи на кои модел го исполнува прагот за успех на ниво на задача од 70%. Скорот е просечната награда од рубриката, која дава делумен кредит за поединечни критериуми дури и кога целата задача не е решена. И двете се важни, бидејќи одговор на научна задача може да биде делумно точен или корисен без да го исполнува секое барање за целосен одговор.
Перформансите на моделот значително варираат според типот на задача, работниот тек и форматот на одговор.
Каде AI-системите покажуваат рана сила
LifeSciBench покажува дека најнапредните модели се релативно најсилни кај задачи што вклучуваат научна синтеза, комуникација и структурирано толкување. Апсолутните стапки на поминување сè уште се скромни, па овие домени на реперот се далеку од заситени, но GPT‑Rosalind покажува значаен напредок во однос на GPT‑5.5, подобрувајќи ја вкупната точна стапка на поминување од 25,7% на 36,1%.
Најсилните насоки на напредок во способностите на моделите се појавуваат во научната комуникација и транслацијата. На пример, стапката на поминување во научна комуникација се зголемува од 56,3% за GPT‑5.5 на 71,1% за GPT‑Rosalind; оваа категорија е мала (n=9), па треба да се толкува внимателно, но укажува дека најнапредните модели брзо се подобруваат во способноста да организираат докази и да создаваат убедливи објаснувања за експертска публика. Транслацијата (процесот „од лабораториска клупа до болнички кревет“ во развојот на лекови) покажува сличен образец, растејќи од 36,8% за GPT‑5.5 на 57,7% за GPT‑Rosalind, што сугерира дека моделите брзо ја подобруваат способноста да ги поврзуваат претклиничките докази со клиничките импликации.
Резултатите на ниво на рубрика укажуваат во истата насока. Кај задачи што бараат излези корисни за експерти или применливи во практика, GPT‑Rosalind постигнува 44,7%, во споредба со 29,1% за GPT‑5.5. Кај задачи што бараат справување со неизвесност и ограничувачки забелешки, постигнува 44,8%, во споредба со 29,3%. Овој образец сугерира дека моделите се најкорисни кога задачата има јасна граница на доказите и бара структурирана научна проценка.
GPT‑Rosalind води по перформанси кај научно вредни задачи идентификувани од индустриски и академски експерти.
GPT‑Rosalind води во перформанси низ научно вредни задачи идентификувани од индустриски и академски експерти.
GPT‑Rosalind води во перформанси низ научно вредни задачи идентификувани од индустриски и академски експерти.
Каде AI-системите сè уште потфрлаат
Перформансите остануваат многу послаби кај научна работа оптоварена со артефакти, дизајн и оперативни ограничувања. Имено, Дизајн, оптимизација и предвидување останува еден од најтешките работни текови, со стапка на поминување на GPT‑Rosalind од 30,7%; Анализата е слично тешка со 30,3%.
Употребата на артефакти е особено јасен јаз. Иако GPT‑Rosalind се покажува подобро од GPT‑5.5 во средини богати со артефакти, неговата стапка на поминување сепак паѓа од 45,1% кај задачи само со текст на 28,1% кај задачи со артефакти или URL-адреси. GPT‑5.5 го покажува истиот образец, паѓајќи од 29,9% на 21,9%. Подетална анализа потврдува дека најнапредните модели се мачат да извлечат информации од сложени слики или големи датотеки со секвенци и да ги интегрираат тие информации во конечниот одговор.
Стапките на поминување опаѓаат кога задачите бараат расудување поткрепено со извори или работа со артефакти
Важен е и форматот на одговорот. Задачите што бараат точни секвенци, структури или излези на ниво на конструкт покажуваат пониски стапки на поминување: GPT‑Rosalind достигнува само 14,8% кај нумерички задачи и 24,0% кај излези со секвенца или структура. Задачите за генерирање конструкти исто така се кревки, при што GPT‑Rosalind е на 27,3% и покажува мало подобрување во однос на GPT‑5.5. Дел од овој јаз може да одразува построга површина за оценување кај задачите со точен одговор, каде што мали разлики во пресметката или форматирањето може да предизвикаат одговорот да падне под прагот за поминување. Сепак, овие неуспеси се научно значајни бидејќи многу работни текови во бионауките бараат излези доволно точни за директна употреба, како во дизајн на CRISPR/HDR донори или дизајн на siRNA.
Моделите, исто така, често стигнуваат дел од патот без целосно да ја решат задачата. Во приближно 14% од задачите, моделите добија значителен кредит од рубриката и покрај тоа што не го достигнаа прагот за точно поминување. За GPT‑Rosalind, 109 задачи имаа стапки на поминување под 20%, а сепак добија најмалку 50% награда од рубриката. Во практика, тоа значи дека моделите може да идентификуваат релевантни докази или да создадат веродостоен делумен одговор, но сепак да не успеат затоа што пропуштаат клучно ограничување, користат погрешни докази, прават нецелосна пресметка или не го поврзуваат своето расудување со научно корисна конечна одлука.
Ограничувања и што следува
LifeSciBench е чекор кон мерење колку AI-системите можат да бидат корисни за истражување во бионауките, но не е замена за проучување на моделите во живи истражувачки средини. Реперот се фокусира на самостојни задачи што одразуваат повторливи индустриски работни текови, оставајќи многу научни специјалности и типови задачи надвор од неговиот сегашен опсег. Вистинското истражување е итеративно: научниците собираат нови докази, ги ревидираат хипотезите, дизајнираат дополнителни експерименти и ги приспособуваат плановите како што се појавуваат резултатите.
Затоа силните перформанси на LifeSciBench треба да се толкуваат како доказ за реалистична способност на ниво на задача, а не како директна мерка за последователно влијание врз истражувањето. Реперот е втемелен во индустриски работни текови, но не ја опфаќа целосната разновидност или динамика на живите истражувачки програми, каде што напредокот зависи од фактори што се развиваат со текот на времето.
Следниот чекор е да се поврзат перформансите на реперот со студии на примена во живи истражувачки работни текови. Иако LifeSciBench беше развиен со практичари-научници, мерењето дали AI-системите го забрзуваат откривањето или ги подобруваат исходите од истражување и развој ќе бара проучување на употребата и перформансите на моделите во реални истражувачки средини, во подолги хоризонти и низ повеќе кругови на расудување, повратни информации и експериментално следење.


