Переход к основному контенту
OpenAI

Представляем LifeSciBench

Бенчмарк, написанный и проверенный экспертами и основанный на реальных исследованиях в науках о жизни

Загрузка…

Системы агентного ИИ все лучше выполняют научные задачи. Но их польза для наук о жизни зависит от умения работать со сложностью реальных исследований. Такая работа редко сводится к простому вопросу на знание факта или аккуратной задаче прогноза. Исследователи толкуют неполные данные, согласуют противоречивые результаты, планируют сложные эксперименты, отлаживают анализы, оценивают трансляционные риски и решают, что делать дальше при неопределенности.

Текущие бенчмарки отражают эти возможности не полностью. Многие оценки в науках о жизни проверяют узкие области или отдельные навыки, поэтому используют структурированные вопросы и четкие эталонные ответы. Они полезны, но часто не показывают, может ли модель помогать в более широком спектре исследовательской работы.

LifeSciBench создан, чтобы сократить этот разрыв. Каждое задание основано на мнении практикующих специалистов по наукам о жизни с подготовкой уровня Ph.D. и опытом ведения программ поиска лекарств в биотехнологических и фармацевтических компаниях.

LifeSciBench включает 750 экспертных заданий по семи рабочим процессам и семи биологическим областям.

1,062

Артефакты задания

173

Ученые-авторы

19,020

Критерии рубрики

453

Эксперты-рецензенты

Что измеряет LifeSciBench

LifeSciBench измеряет, способны ли системы ИИ поддерживать реальные исследовательские задачи в науках о жизни, а не только отвечать на вопросы по биологии. Чтобы задать таксономию бенчмарка, мы опросили практикующих специалистов о рабочих процессах, чаще всего используемых в прикладных исследованиях. Затем мы объединили ответы в семь категорий: работа с доказательствами, анализ, дизайн и оптимизация, научные рассуждения, валидация и операции, трансляция и научная коммуникация.

Каждое задание похоже на запрос ученого к опытному коллеге: научный промпт, релевантный контекст или артефакты и свободный ответ. Экспертные рубрики оценивают, дает ли модель правильный ответ с нужной детализацией, обоснованием, оговорками и форматом.

Создание набора данных

LifeSciBench оценивает научные рассуждения и менее формализованные практические навыки, нужные для реального применения. Задания требуют решать реалистичные исследовательские проблемы: интерпретировать данные, выносить предметные суждения и формулировать выводы, полезные экспертам. Многие задания также требуют учитывать неопределенность и работать с файлами данных, а не только с текстом промпта.

Бенчмарк отражает сложность работы в науках о жизни. В целом 79% заданий требуют нескольких шагов рассуждения или решения; в среднем — четыре шага на задание. LifeSciBench содержит 1 062 артефакта: рисунки, PDF, таблицы, файлы последовательностей, структурные и химические файлы, веб-ссылки. Более половины заданий (53%) требуют интерпретировать или объединять сведения хотя бы из одного артефакта.

Задания создали 173 ученых-эксперта из разных дисциплин наук о жизни. Все они имели подготовку уровня Ph.D. и опыт в биотехнологической или фармацевтической отрасли. До принятия задания проходили столько доработок, сколько требовалось, без лимита раундов; принятые задания в среднем прошли шесть автоматизированных самопроверок и минимум два экспертных рецензирования. Рецензирование опиралось на проверяемый правильный ответ или прочный экспертный консенсус с согласием не менее 90% профильных рецензентов. Такой процесс помог обеспечить научную обоснованность, ясность для оценки и связь с прикладными исследованиями.

Диаграмма, показывающая задания LifeSciBench, которые объединяют источники данных наук о жизни, такие как геномные последовательности, молекулярные структуры, рисунки, документы, электронные таблицы и веб-ссылки, с многошаговыми рассуждениями и экспертным рецензированием.

Оценивание и структура рубрик

Задания LifeSciBench оцениваются по подробной рубрике для каждой задачи: она разбивает ожидаемый ответ на научные утверждения, расчеты, решения, обоснования и т.п. В бенчмарке экспертные рубрики содержат 19 020 критериев — в среднем 25 на задание — для оценки научной корректности и пользы для исследовательских решений.

Это отражает практику оценки научной работы: многие задачи в науках о жизни нельзя оценить только по итоговому ответу. Ответ может дать верный общий вывод, но считаться неполным, если упущено ключевое ограничение анализа или важный биологический нюанс. И наоборот, частичный ответ может содержать качественные рассуждения, даже не решая задачу полностью.

Детальные рубрики улавливают этот нюанс. LifeSciBench оценивает не только точность финального ответа, но и то, приходит ли модель к нему научно корректно и практически полезно.

Извлечение, согласование и аудит научных доказательств из статей, рисунков, таблиц и экспериментальных записей.

Пример оценки

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Ответ кандидата

Итог: В представленном виде этот пакет недостаточно убедителен, чтобы обосновать ускоренное одобрение на основании экспрессии микродистрофина как суррогатной конечной точки, которая с разумной вероятностью прогнозирует клиническую пользу. Скептически настроенный эксперт FDA, вероятно, сочтет данные по биомаркеру, функциональным эффектам, сохранению эффекта, безопасности и обобщаемости существенно недостаточно подкрепленными.

Элемент пакета

Ключевая причина несостоятельности

Что потребуется

Количественная оценка методом Western blot

MANEX1A связывает N-концевой эпитоп, общий для эндогенного полноразмерного дистрофина и трансгена микродистрофина, поэтому анализ не позволяет надежно отличить трансген от остаточного/ревертантного дистрофина. Количественно оценивать микродистрофин 138 kDa относительно стандарта полноразмерного дистрофина здорового контроля также некорректно.

Использовать рекомбинантный стандарт микродистрофина и ортогональный метод, отличающий трансген от эндогенного дистрофина, например таргетную масс-спектрометрию или трансген-специфичный/эпитоп-специфичный анализ.

Иммунофлуоресценция

C-концевое поликлональное антитело плохо подходит, потому что конструкция 138 kDa не содержит C-концевого домена. У многих пациентов с DMD есть ревертантные волокна, а ревертантный дистрофин может сохранять C-концевые эпитопы. Ревертантные волокна могут проходить клональную экспансию с возрастом, смещая IF-сигнал, особенно у мальчиков старшего возраста.

Повторить IF с антителом к эпитопу, присутствующему в трансгене, но отсутствующему в ревертантном дистрофине. Количественно оценивать трансген-положительные волокна отдельно от ревертантных волокон.

Валидность суррогатной конечной точки

Пакет отождествляет количество белка с клинической функцией. «38% массы белка у здорового контроля» не означает 38% нормальной функции дистрофина, потому что микродистрофин структурно укорочен.

Эмпирически подтвердить связь между долей массы микродистрофина, сарколеммальной локализацией, последующим восстановлением функциональных эффектов и клинической пользой, прежде чем рассматривать экспрессию как суррогатную конечную точку.

Дизайн биопсии

Контралатеральные биопсии латеральной широкой мышцы бедра до и после лечения вносят межстороннюю и внутримышечную пространственную вариабельность. Прогрессирование болезни и фиброзно-жировое замещение также могут менять сигнал, нормализованный по общему белку.

Стандартизировать место биопсии по единым анатомическим ориентирам, нормализовать по мышечно-специфическим белкам и параллельно измерять фиброзно-жировой состав.

Компаратор/статистика NSAA

Внешняя когорта естественного течения не является рандомизированным параллельным контролем. Критерии включения, поддерживающая терапия, эффект участия в исследовании, исходный NSAA, режим стероидов, возраст и класс экзона могут смещать сравнение. Непарного t-теста недостаточно. Кроме того, изменение NSAA на +1,4 находится в пределах вариабельности при повторном тестировании для этой возрастной группы.

Провести рандомизированное параллельное плацебо-контролируемое исследование или как минимум использовать скорректированный анализ с учетом исходного NSAA, возраста, режима стероидов, класса экзона и других смешивающих факторов.

Смешение из-за возрастного окна

Мальчики 4–7 лет находятся в возрастном окне развития, когда нелеченные амбулаторные пациенты с DMD могут демонстрировать прирост моторной функции до того, как начнет преобладать снижение. Изменение NSAA за 48 недель смешивает прирост, связанный с развитием, прогрессирование болезни и возможный эффект лечения.

Использовать параллельный рандомизированный контроль со стратификацией по возрасту, чтобы отделить траекторию развития от эффекта лечения.

Предыдущий клинический прецедент

Функциональные сигналы микродистрофина, наблюдавшиеся в открытых исследованиях, не всегда надежно предсказывали пользу в подтверждающих исследованиях; опубликованные прецеденты включают подтверждающие исследования генной терапии микродистрофином, в которых не удалось воспроизвести улучшения NSAA, наблюдавшиеся в открытых исследованиях.

Не полагаться на изменение NSAA в открытом исследовании как на решающее подтверждение. Требовать контролируемые функциональные доказательства.

Структурные ограничения конструкции

Конструкция 138 kDa не содержит спектриноподобные повторы R16/17, в которых находятся сайты связывания nNOS. Потеря рекрутирования nNOS может нарушать функциональный симпатолиз и защиту от ишемии при нагрузке, создавая механистическое ограничение восстановления, не зависящее от уровня экспрессии.

Добавить механистические исследования, показывающие, восстанавливает ли эта конкретная конструкция релевантные функции дистрофин-ассоциированного комплекса, локализацию nNOS, физиологический ответ на нагрузку и защиту мышц.

Стойкость экспрессии AAV

Наличие геномов вектора на 12-й неделе не доказывает устойчивую экспрессию. Геномы AAV9 в основном сохраняются как неинтегрирующие эписомы, и число их копий может со временем снижаться. Сохранение генома вектора не равнозначно стойкой экспрессии белка.

Измерять экспрессию трансгенного белка в динамике и стойкость функциональных биомаркеров после 12 недель.

Иммунный профиль/безопасность

Повышение активности трансаминаз у 8 из 12 пациентов согласуется с иммунным ответом на AAV-трансдуцированные клетки, но механизм не установлен. Один случай миокардита вызывает обеспокоенность с учетом кардиального тропизма AAV9.

Обеспечить более углубленный иммунный мониторинг, подробную оценку безопасности со стороны печени и сердца, а также усиленное кардиологическое наблюдение.

Отбор пациентов/обобщаемость

Исключение пациентов с нейтрализующими антителами к AAV9 ограничивает обобщаемость. Исключение пациентов с делециями экзона 44 ограничивает применимость к этой подгруппе DMD. n=12 слишком мало, чтобы охарактеризовать безопасность и эффективность в более широкой популяции DMD.

По возможности расширить критерии включения или заранее определить стратифицированный анализ по статусу антител, генотипу/классу экзона, возрасту и исходному функциональному статусу, прежде чем использовать результат для обоснования широкого одобрения.

Регуляторный вывод: Пакет может показывать биологическую активность, но пока не доказывает, что измеренная экспрессия микродистрофина является надежной суррогатной конечной точкой, которая с разумной вероятностью прогнозирует клиническую пользу. Основные пробелы — специфичность анализа, некорректные стандарты количественной оценки, возможное смешение из-за ревертантных волокон, отсутствие рандомизированного контроля, возрастное смешение NSAA, неопределенная стойкость экспрессии и нерешенные вопросы безопасности/обобщаемости.

Чтобы устранить этот пробел, программе нужен контролируемый, стратифицированный по возрасту клинический дизайн с трансген-специфичными анализами экспрессии, ортогональной количественной оценкой белка, контролем состава ткани, данными о стойкости эффекта в динамике, механистическими функциональными анализами укороченной конструкции и более строгим мониторингом безопасности, особенно со стороны печени и сердца.

Критерии оценивания и оценки

Критерий
Баллы
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Валидация LifeSciBench

Мы валидировали LifeSciBench через независимое экспертное рецензирование. Отзывы дали 453 рецензента, не участвовавших в создании заданий. Из них 97% имели Ph.D. или эквивалентную докторскую степень, в среднем 12 лет опыта и 14 рецензируемых публикаций; 88% получали хотя бы одну награду или стипендию.

Рецензенты оценивали, есть ли в задании признаки сильного бенчмарка: связь с реальной исследовательской работой, проверка научных рассуждений и предметной экспертизы, опора на доказательства или консенсус и польза для оценки эффективности модели. Согласие превышало 96% во всех категориях.

Релевантность реальной практике

Отражает ли это задание реалистичную практическую работу в науках о жизни?

Полностью согласен
90.4%
В целом согласен
98.3%

Научные рассуждения / предметный навык

Проверяет ли это задание и оценивает ли оно правильные научные рассуждения и профильные навыки в области наук о жизни?

Полностью согласен
86.4%
В целом согласен
98.1%

Научная обоснованность

Является ли это задание научно обоснованным, разрешимым и опирающимся на надлежащие доказательства, данные, артефакты или экспертный консенсус?

Полностью согласен
77.1%
В целом согласен
96.5%

Общая полезность

В целом, является ли это задание сильной оценкой для наук о жизни?

Полностью согласен
79.1%
В целом согласен
96.6%

Комментарии рецензентов подтвердили количественные оценки:

1 из 3
В целом это сильное задание, потому что у него есть одна правильная ключевая интерпретация, но при этом остается возможность отличить более качественные ответы по тому, насколько аккуратно они ограничивают неопределенность.

Результаты

Мы приводим две взаимодополняющие метрики. Доля прохождения — процент заданий, где модель достигает порога успеха 70% на уровне задания. Балл — средняя награда по рубрике, дающая частичный зачет за отдельные критерии, даже если задание не решено полностью. Обе важны: ответ на научную задачу может быть частично верным или полезным, не выполняя всех требований.

Эффективность модели заметно зависит от типа задания, рабочего процесса и формата ответа.

Где системы ИИ уже сильны

LifeSciBench показывает: фронтирные модели относительно сильнее в научном синтезе, коммуникации и структурированной интерпретации. Абсолютные доли прохождения пока умеренны, поэтому эти области не насыщены, но GPT‑Rosalind заметно опережает GPT‑5.5: общий точный pass rate вырос с 25,7% до 36,1%.

Наибольший рост возможностей виден в научной коммуникации и трансляции. Например, доля прохождения в научной коммуникации растет с 56,3% у GPT‑5.5 до 71,1% у GPT‑Rosalind; категория мала (n=9), поэтому вывод осторожный, но модели быстро улучшают умение упорядочивать доказательства и давать убедительные объяснения для экспертов. Трансляция (разработка лекарств «от лаборатории к клинике») показывает сходную картину: рост с 36,8% у GPT‑5.5 до 57,7% у GPT‑Rosalind, что указывает на улучшение связи доклинических данных с клиническими последствиями.

Результаты на уровне рубрик указывают туда же. В заданиях, требующих полезных экспертам или применимых результатов, GPT‑Rosalind набирает 44,7% против 29,1% у GPT‑5.5. В заданиях на работу с неопределенностью и оговорками — 44,8% против 29,3%. Это говорит, что модели наиболее полезны при четких границах доказательств и необходимости структурированного научного суждения.

GPT‑Rosalind лидирует по эффективности в научно ценных заданиях, определенных отраслевыми и академическими экспертами.

GPT‑Rosalind показывает лучшие результаты в научно значимых задачах, определенных отраслевыми и академическими экспертами.

GPT‑Rosalind показывает лучшие результаты в научно значимых задачах, определенных отраслевыми и академическими экспертами.

Где системы ИИ пока уступают

Результаты намного слабее в работе с большим числом артефактов, сложным дизайном и операционными ограничениями. Именно цепочка дизайн, оптимизация и прогнозирование остается одним из самых трудных процессов: доля прохождения GPT‑Rosalind — 30,7%; анализ почти так же сложен — 30,3%.

Работа с артефактами — особенно явный пробел. Хотя GPT‑Rosalind лучше GPT‑5.5 в задачах с артефактами, ее доля прохождения падает с 45,1% на текстовых заданиях до 28,1% на заданиях с артефактами или URL. У GPT‑5.5 та же картина: падение с 29,9% до 21,9%. Более детальный анализ подтверждает: фронтирным моделям трудно извлекать сведения из сложных рисунков или больших файлов последовательностей и включать их в ответ.

Доля успешных решений падает, когда задания требуют рассуждений на основе источников или работы с артефактами

Формат ответа тоже важен. Задания, требующие точных ответов на уровне последовательности, структуры или конструкта, имеют меньшие доли прохождения: у GPT‑Rosalind лишь 14,8% в числовых задачах и 24,0% для последовательностей или структур. Генерация конструктов тоже нестабильна: у GPT‑Rosalind 27,3% и лишь небольшой прирост к GPT‑5.5. Часть разрыва может быть связана с более строгой оценкой точных ответов, где мелкие различия в расчете или формате опускают ответ ниже порога. Но эти сбои научно значимы: многие процессы в науках о жизни требуют результатов, достаточно точных для прямого применения, например в дизайне доноров CRISPR/HDR или siRNA.

Модели также часто продвигаются частично, но не решают задачу полностью. Примерно в 14% заданий модели получали существенный зачет по рубрике, не достигнув порога точного прохождения. У GPT‑Rosalind 109 заданий имели долю прохождения ниже 20%, но набирали не менее 50% награды по рубрике. На практике модели могут находить релевантные доказательства или давать правдоподобный частичный ответ, но проваливаться из-за пропущенного ограничения, неверных данных, неполного расчета или слабой связи рассуждений с полезным научным решением.

Ограничения и дальнейшие шаги

LifeSciBench помогает измерять пользу систем AI для исследований в науках о жизни, но не заменяет изучение моделей в живых исследовательских средах. Бенчмарк сосредоточен на самостоятельных заданиях, отражающих повторяющиеся отраслевые процессы, но пока не охватывает многие специальности и типы задач. Реальные исследования итеративны: ученые собирают новые данные, пересматривают гипотезы, планируют следующие эксперименты и меняют планы по мере результатов.

Поэтому сильные результаты в LifeSciBench следует считать признаком реалистичной способности выполнять отдельные задания, а не прямой мерой влияния на исследования. Бенчмарк основан на отраслевых процессах, но не передает всего разнообразия и динамики живых исследовательских программ, где прогресс зависит от факторов, развивающихся со временем.

Следующий шаг — связать результаты бенчмарка с исследованиями внедрения в живых исследовательских процессах. Хотя LifeSciBench создан с практикующими учеными, чтобы понять, ускоряют ли системы ИИ открытия или улучшают R&D, нужно изучать применение и эффективность моделей в реальных исследованиях, на более длинных горизонтах и в нескольких раундах рассуждений, обратной связи и экспериментов.

Примите участие

Помогите сформировать новое поколение бенчмарков ИИ для наук о жизни или запросите доступ к GPT-Rosalind.

Автор

OpenAI