Преминаване към основното съдържание
OpenAI

Представяме LifeSciBench

Бенчмарк, написан и рецензиран от експерти, основан на реални изследвания в науките за живота

Зареждане…

Системите с агентен изкуствен интелект стават все по-способни да изпълняват научни задачи. Полезността им за изследователите в науките за живота обаче зависи от това колко добре се справят със сложността на реалните изследвания. Тази работа рядко прилича на единичен въпрос за припомняне на факт или на ясно формулиран проблем за прогнозиране. Изследователите интерпретират непълни доказателства, съгласуват противоречиви резултати, проектират трудни експерименти, отстраняват проблеми в анализи, оценяват транслационен риск и решават какво да правят по-нататък в условия на несигурност.

Настоящите бенчмаркове не улавят напълно тези способности. Много оценки в науките за живота се фокусират върху тесни области или изолирани умения, което води до въпроси със структурирани формати и ясни референтни отговори. Макар и ценни, те често не успяват истински да оценят дали един модел може да допринася в по-широкия обхват на изследователската работа.

Създадохме LifeSciBench, за да помогнем за преодоляването на тази празнина. Всяка задача е основана на преценката на практикуващи учени в областта на науките за живота с докторска подготовка и пряк опит в развитието на програми за откриване на лекарства в биотехнологични и фармацевтични среди.

LifeSciBench включва 750 задачи, написани от експерти, които обхващат седем работни процеса и седем биологични области.

1,062

Артефакти на задачата

173

Научни сътрудници

19,020

Критерии на рубриката

453

Експертни рецензенти

Какво измерва LifeSciBench

LifeSciBench измерва дали AI системите могат да подпомагат реалистични изследователски задачи в науките за живота, а не само да отговарят на въпроси по биология. За да дефинираме таксономията на бенчмарка, анкетирахме практикуващи учени в науките за живота за работните процеси, които използват най-често в приложни изследователски среди. След това групирахме отговорите им в седем повтарящи се категории: работа с доказателства, анализ, дизайн и оптимизация, научно структурирано анализиране, валидиране и операции, транслация и научна комуникация.

Всяка задача е структурирана като заявка, която учен би отправил към компетентен сътрудник: научна подкана, релевантен контекст или артефакти и отговор в свободна форма. Написани от експерти рубрики оценяват дали един модел може да даде правилния отговор за конкретен проблем, с очакваното от учен ниво на детайлност, обосновка, уточнения и форматиране.

Изграждане на набора от данни

LifeSciBench оценява научното структурирано анализиране наред с по-слабо дефинираните практически умения, необходими за реална научна употреба. Задачите му изискват от моделите да работят по реалистични изследователски проблеми: да интерпретират доказателства, да правят преценки, основани на областта, и да комуникират заключения, полезни за експертни рецензенти. Много задачи също изискват моделите да се справят с несигурност и да разсъждават върху подкрепящи файлове с данни, вместо да разчитат само на текста на подканата.

Бенчмаркът е създаден така, че да отразява сложността на работата в науките за живота. Като цяло 79% от задачите изискват няколко стъпки на структурирано анализиране или вземане на решения, средно по четири стъпки на задача. LifeSciBench включва 1062 прикачени артефакта, обхващащи фигури, PDF файлове, таблици, файлове със секвенции, структурни или химични файлове и уеб референции. Повече от половината задачи (53%) изискват от моделите да интерпретират или синтезират информация от поне един артефакт.

Задачите са създадени от 173 експертни учени от различни дисциплини в науките за живота. Всеки учен е имал докторска подготовка и опит в биотехнологичната или фармацевтичната индустрия. Задачите можеха да преминават през толкова цикли на редакция, колкото е необходимо преди приемане, без фиксиран лимит на броя кръгове; приетите задачи имаха средно шест самостоятелно проведени автоматизирани цикъла на преглед и завършваха поне два кръга експертни рецензии. Рецензиите се основаваха или на проверим правилен отговор, или на силен експертен консенсус, с поне 90% съгласие между рецензентите в съответната област. Този процес помогна да се гарантира, че приетите задачи са научно обосновани, достатъчно ясни за оценяване и представителни за приложните изследвания.

Диаграма, показваща задачи в LifeSciBench, които комбинират източници на данни от науките за живота, като геномни секвенции, молекулярни структури, фигури, документи, електронни таблици и уеб връзки, с многостъпково структурирано анализиране и експертна рецензия.

Оценяване и разбивка на рубриките

Задачите в LifeSciBench се оценяват с подробна, специфична за задачата рубрика, която разбива очаквания отговор на конкретни научни твърдения, изчисления, решения, обосновки и т.н. В целия бенчмарк разработените от експерти рубрики включват 19 020 критерия — средно 25 на задача — за оценка както на научната коректност, така и на полезността за изследователски решения.

Този дизайн отразява начина, по който научната работа се оценява на практика: много задачи в науките за живота не могат да се оценят само чрез проверка на крайния отговор. Един отговор може да стигне до правилното заключение на високо ниво, но пак да бъде оценен като непълен, ако например пропусне ключово ограничение на анализа или не повдигне проактивно биологичен нюанс с големи последици. Обратно, частичен отговор може да съдържа висококачествено структурирано анализиране, дори ако не решава задачата напълно.

Гранулярните рубрики улавят този нюанс. LifeSciBench оценява не само точността на крайния отговор, а и дали един модел достига до него по научно валиден и оперативно полезен начин.

Извличане, съгласуване и одитиране на научни доказателства от статии, фигури, таблици и експериментални записи.

Пример за оценка

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Отговор на кандидата

Извод: Както е представен, този пакет не е достатъчно силен, за да подкрепи ускорено одобрение на експресията на микродистрофин като сурогатна крайна точка, разумно вероятна да предскаже клинична полза. Скептичен рецензент от FDA вероятно би счел доказателствата за биомаркера, функцията, трайността, безопасността и генерализируемостта за съществено недостатъчно подкрепени.

Елемент от пакета

Ключов режим на неуспех

Какво би било нужно

Квантификация с Western blot

MANEX1A се свързва с N-терминален епитоп, споделен от ендогенния пълноразмерен дистрофин и трансгена за микродистрофин, така че анализът не различава чисто трансгена от остатъчен/ревертантен дистрофин. Квантифицирането на 138 kDa микродистрофин спрямо здрав пълноразмерен стандарт за дистрофин също е невалидно.

Използвайте рекомбинантен стандарт за микродистрофин и ортогонален метод, който различава трансгена от ендогенния дистрофин, като таргетна масспектрометрия или трансген-специфичен/епитоп-специфичен анализ.

Имунофлуоресценция

C-терминалното поликлонално антитяло е слабо подходящо, защото 138 kDa конструктът няма C-терминалния домен. Много пациенти с DMD имат ревертантни влакна, а ревертантният дистрофин може да запази C-терминални епитопи. Ревертантните влакна може да се разширяват клонално с възрастта, изкривявайки IF сигнала, особено при по-големи момчета.

Повторете IF с антитяло срещу епитоп, наличен в трансгена, но отсъстващ от ревертантния дистрофин. Квантифицирайте трансген-позитивните влакна отделно от ревертантните влакна.

Валидност на сурогатната крайна точка

Пакетът смесва количеството протеин с клиничната функция. „38% от протеиновата маса на здрав контрол“ не означава 38% от нормалната функция на дистрофина, защото микродистрофинът е структурно скъсен.

Емпирично валидирайте връзката между масовия процент микродистрофин, сарколемалната локализация, възстановяването на downstream функцията и клиничната полза, преди да третирате експресията като сурогатна крайна точка.

Дизайн на биопсията

Контралатералните биопсии от vastus lateralis преди и след лечение въвеждат ляво-дясна и интрамускулна пространствена вариабилност. Прогресията на заболяването и фибро-мастната замяна също могат да променят сигнала, нормализиран към общ протеин.

Стандартизирайте мястото на биопсия чрез последователни анатомични ориентири, нормализирайте към мускул-специфични протеини и измервайте паралелно фибро-мастния състав.

NSAA компаратор/статистика

Външна кохорта от естествен ход не е рандомизирана едновременна контрола. Критериите за участие, поддържащата грижа, ефектите от участие, изходният NSAA, стероидният режим, възрастта и екзонният клас могат да изкривят сравнението. Несдвоен t-тест не е достатъчен. Освен това промяна +1,4 NSAA е в рамките на test-retest вариабилността за тази възрастова група.

Проведете рандомизирано едновременно плацебо-контролирано проучване или поне използвайте коригирани анализи, отчитащи изходен NSAA, възраст, стероиден режим, екзонен клас и други смесващи фактори.

Смесване от възрастов прозорец

Момчетата на 4–7 години са в развитиен прозорец, в който нелекувани амбулаторни пациенти с DMD може да придобиват моторна функция, преди спадът да доминира. 48-седмичната промяна в NSAA смесва развитиен прираст, прогресия на заболяването и възможен ефект от лечението.

Използвайте едновременна рандомизирана контрола с възрастова стратификация, за да отделите развитийната траектория от ефекта на лечението.

Предходен клиничен прецедент

Отворените функционални сигнали за микродистрофин не са предсказвали надеждно потвърдителна полза; публикувани прецеденти включват потвърдителни изпитвания на генна терапия с микродистрофин, които не възпроизвеждат подобренията по NSAA, наблюдавани в открити проучвания.

Не разчитайте на промяна по NSAA в открити проучвания като решаваща подкрепа. Изисквайте контролирани функционални доказателства.

Структурни ограничения на конструкта

Конструктът 138 kDa изтрива spectrin повтори R16/17, които съдържат места за свързване на nNOS. Загубата на рекрутване на nNOS може да наруши функционалната симпатолиза и защитата от исхемия по време на натоварване, създавайки механистичен таван на rescue ефекта, независим от нивото на експресия.

Добавете механистични проучвания, показващи дали този конкретен конструкт възстановява релевантната функция на дистрофин-асоциирания комплекс, nNOS локализацията, физиологията при натоварване и мускулната защита.

Трайност на AAV

Векторните геноми на 12 седмици не установяват трайна експресия. AAV9 геномите са до голяма степен неинтегриращи епизоми и може да намаляват с времето. Персистенцията на векторен геном не е същото като персистираща протеинова експресия.

Измерете надлъжно експресията на трансгенния протеин и трайността на функционалния биомаркер отвъд 12 седмици.

Имунен/безопасностен профил

Трансаминит при 8/12 пациенти е съвместим с имунен отговор към AAV-трансдуцирани клетки, но механизмът не е установен. Един случай на миокардит е тревожен предвид сърдечния тропизъм на AAV9.

Осигурете по-задълбочено имунно мониториране, характеристика на чернодробната/сърдечната безопасност и засилено сърдечно проследяване.

Подбор на пациенти/генерализируемост

Изключването на пациенти, позитивни за неутрализиращи антитела срещу AAV9, ограничава генерализируемостта. Изключването на делеции в екзон 44 ограничава приложимостта към тази DMD подгрупа. n=12 е твърде малко, за да характеризира безопасността и ефикасността в по-широката DMD популация.

Разширете допустимостта, когато е възможно, или предварително специфицирайте стратифицирани анализи по антитялов статус, генотип/екзонен клас, възраст и изходна функция, преди да използвате резултата в подкрепа на широко одобрение.

Регулаторно заключение: Пакетът може да показва биологична активност, но все още не установява, че измерената експресия на микродистрофин е надежден сурогат, разумно вероятен да предскаже клинична полза. Основните пропуски са специфичност на анализа, невалидни стандарти за квантификация, възможно смесване от ревертантни влакна, липса на рандомизирана контрола, възрастово смесване в NSAA, несигурна трайност и нерешени въпроси за безопасност/генерализируемост.

За да се затвори пропускът, програмата би се нуждаела от контролиран, възрастово стратифициран клиничен дизайн с трансген-специфични анализи на експресията, ортогонална протеинова квантификация, контроли за тъканен състав, надлъжни данни за трайност, механистични функционални анализи за скъсения конструкт и по-силен мониторинг на безопасността, особено чернодробна и сърдечна.

Критерии на рубриката и оценки

Критерий
Точки
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Валидиране на LifeSciBench

Валидирахме LifeSciBench чрез независима експертна рецензия. Обратната връзка дойде от 453 рецензенти, които не са участвали в писането на задачите. От тези рецензенти 97% имаха докторска степен или еквивалентна докторска квалификация, средно 12 години опит в областта и 14 рецензирани публикации; 88% съобщиха, че са получили поне една награда или стипендия.

Рецензентите оценяваха дали всяка задача отразява качествата, нужни за силен бенчмарк въпрос: съответствие с реалната изследователска работа, подходящо тестване на научно структурирано анализиране и домейн експертиза, опора в доказателства или експертен консенсус и обща полезност за оценка на представянето на моделите. Съгласието надхвърли 96% във всяка категория.

Практическа релевантност

Тази задача отразява ли реалистична работа в науките за живота?

Напълно съгласен
90.4%
Съгласен като цяло
98.3%

Научно структурирано анализиране / домейн умение

Тази задача проверява и оценява ли правилните умения за научно структурирано анализиране и знания в областта на науките за живота?

Напълно съгласен
86.4%
Съгласен като цяло
98.1%

Научна обоснованост

Тази задача научно обоснована ли е, може ли да получи отговор и опира ли се на подходящи доказателства, данни, артефакти или експертен консенсус?

Напълно съгласен
77.1%
Съгласен като цяло
96.5%

Обща полезност

Като цяло, това силна задача за оценка в науките за живота ли е?

Напълно съгласен
79.1%
Съгласен като цяло
96.6%

Коментарите на рецензентите подкрепиха количествените оценки:

1 от 3
Като цяло това е силна задача, защото има една правилна основна интерпретация, но все пак позволява по-добрите отговори да се отличат по това колко внимателно очертават несигурността.

Резултати

Отчитаме две допълващи се метрики. Процентът на успешно преминаване е делът задачи, при които моделът покрива прага за успех на ниво задача от 70%. Резултатът е средната награда по рубриката и дава частичен кредит за отделни критерии, дори когато цялата задача не е решена. И двете са важни, защото отговор на научна задача може да бъде частично правилен или полезен, без да покрива всяко изискване за пълен отговор.

Представянето на моделите варира значително според типа задача, работния процес и формата на отговора.

Къде AI системите показват ранна сила

LifeSciBench показва, че водещите модели са относително най-силни при задачи, включващи научен синтез, комуникация и структурирана интерпретация. Абсолютните проценти на успешно преминаване все още са умерени, така че тези бенчмарк области далеч не са наситени, но GPT‑Rosalind показва значим напредък спрямо GPT‑5.5, като подобрява общия точен процент на преминаване от 25,7% на 36,1%.

Най-силните посоки на развитие в способностите на моделите се виждат в научната комуникация и транслацията. Например процентът на успешно преминаване в научната комуникация се повишава от 56,3% за GPT‑5.5 до 71,1% за GPT‑Rosalind; тази категория е малка (n=9), затова трябва да се тълкува предпазливо, но подсказва, че водещите модели бързо подобряват способността си да организират доказателства и да създават убедителни обяснения за експертна аудитория. Транслацията (процесът "от лабораторния плот до леглото на пациента" в разработването на лекарства) показва сходен модел, като се повишава от 36,8% за GPT‑5.5 до 57,7% за GPT‑Rosalind, което подсказва, че моделите бързо подобряват способността си да свързват предклинични доказателства с клинични последствия.

Резултатите на ниво рубрика сочат в същата посока. При задачи, изискващи полезни за експерти или приложими резултати, GPT‑Rosalind постига 44,7% спрямо 29,1% за GPT‑5.5. При задачи, изискващи работа с несигурност и уточнения, той постига 44,8% спрямо 29,3%. Този модел подсказва, че моделите са най-полезни, когато задачата има ясна граница на доказателствата и изисква структурирана научна преценка.

GPT‑Rosalind води по представяне при научно ценни задачи, определени от индустриални и академични експерти.

GPT‑Rosalind води по представяне в научно ценни задачи, идентифицирани от индустриални и академични експерти.

GPT‑Rosalind води по представяне в научно ценни задачи, идентифицирани от индустриални и академични експерти.

Къде AI системите все още изостават

Представянето остава много по-слабо при научна работа с много артефакти, много дизайн и оперативни ограничения. По-конкретно, дизайн, оптимизация и прогнозиране остава един от най-трудните работни процеси, с процент на успешно преминаване за GPT‑Rosalind от 30,7%; анализът е сходно труден при 30,3%.

Използването на артефакти е особено ясна празнина. Макар GPT‑Rosalind да се представя по-добре от GPT‑5.5 в среди с много артефакти, процентът му на успешно преминаване все пак спада от 45,1% при задачи само с текст до 28,1% при задачи с артефакти или URL адреси. GPT‑5.5 показва същия модел, като спада от 29,9% до 21,9%. По-подробен анализ потвърждава, че водещите модели се затрудняват да извличат информация от сложни фигури или големи файлове със секвенции и да я интегрират в крайния отговор.

Процентът на успешно преминаване спада, когато задачите изискват структурирано анализиране, основано на източници, или работа с артефакти

Форматът на отговора също има значение. Задачи, изискващи точни резултати на ниво секвенция, структура или конструкт, показват по-ниски проценти на успешно преминаване: GPT‑Rosalind достига едва 14,8% при числови задачи и 24,0% при резултати със секвенции или структури. Задачите за генериране на конструкти също са крехки, като GPT‑Rosalind е на 27,3% и показва малко подобрение спрямо GPT‑5.5. Част от тази разлика може да отразява по-строга повърхност за оценяване при задачи с точен отговор, където малки разлики в изчисленията или форматирането могат да свалят отговора под прага за преминаване. Въпреки това тези неуспехи са научно значими, защото много работни процеси в науките за живота изискват резултати, достатъчно точни за директна употреба, например при дизайн на CRISPR/HDR донор или дизайн на siRNA.

Моделите също често стигат частично до решението, без да решат задачата напълно. В приблизително 14% от задачите моделите получиха значителен кредит по рубриката, въпреки че не покриха прага за точно преминаване. За GPT‑Rosalind 109 задачи имаха процент на успешно преминаване под 20%, но все пак получиха поне 50% награда по рубриката. На практика това означава, че моделите може да идентифицират релевантни доказателства или да дадат правдоподобен частичен отговор, но все пак да се провалят, защото пропускат ключово ограничение, използват грешни доказателства, правят непълно изчисление или не свързват структурираното си анализиране с научно полезно крайно решение.

Ограничения и какво следва

LifeSciBench е стъпка към измерване на това колко полезни могат да бъдат AI системите за изследванията в науките за живота, но не е заместител на изучаването на модели в живи изследователски среди. Бенчмаркът се фокусира върху самостоятелни задачи, които отразяват повтарящи се индустриални работни процеси, като оставя много научни специалности и типове задачи извън настоящия си обхват. Реалното изследване е итеративно: учените събират нови доказателства, преразглеждат хипотези, проектират последващи експерименти и адаптират плановете си според появяващите се резултати.

Затова силното представяне в LifeSciBench трябва да се тълкува като доказателство за реалистична способност на ниво задача, а не като пряка мярка за последващо въздействие върху изследванията. Бенчмаркът е основан на индустриални работни процеси, но не улавя пълното разнообразие или динамиката на живите изследователски програми, при които напредъкът зависи от фактори, развиващи се във времето.

Следващата стъпка е представянето в бенчмарка да се свърже с проучвания на внедряване в живи изследователски работни процеси. Макар LifeSciBench да е разработен с практикуващи учени, измерването дали AI системите ускоряват откритията или подобряват резултатите в R&D ще изисква изучаване на употребата и представянето на моделите в реални изследователски условия, за по-дълги периоди и през множество кръгове на структурирано анализиране, обратна връзка и експериментално проследяване.

Включете се

Помогнете да оформим следващото поколение AI бенчмаркове за науките за живота или заявете достъп до GPT-Rosalind.

Автор

OpenAI