Перейти до основного вмісту
OpenAI

Представляємо LifeSciBench

Створений і перевірений експертами бенчмарк, що ґрунтується на реальних дослідженнях у сфері наук про життя

Завантаження…

Системи автономного ШІ стають дедалі здатнішими виконувати наукові завдання. Однак їхня корисність для дослідників у сфері наук про життя залежить від того, наскільки добре вони справляються зі складністю реальних досліджень. Така робота рідко схожа на одне запитання на пригадування факту або на просту задачу прогнозування. Дослідники інтерпретують неповні докази, узгоджують суперечливі результати, проєктують складні експерименти, усувають проблеми в аналізах, оцінюють трансляційні ризики й вирішують, що робити далі в умовах невизначеності.

Сучасні бенчмарки не повністю охоплюють ці можливості. Багато оцінювань у сфері наук про життя зосереджені на вузьких доменах або ізольованих навичках, що призводить до запитань зі структурованими форматами й чіткими еталонними відповідями. Попри свою цінність, вони часто не дають змоги по-справжньому оцінити, чи може модель робити внесок у ширший спектр дослідницької роботи.

Ми розробили LifeSciBench, щоб допомогти закрити цю прогалину. Кожна задача ґрунтується на судженні практикуючих фахівців у сфері наук про життя із підготовкою на рівні Ph.D. та безпосереднім досвідом просування програм відкриття ліків у біотехнологічних і фармацевтичних середовищах.

LifeSciBench містить 750 задач, створених експертами, що охоплюють сім робочих процесів і сім біологічних доменів.

1,062

Артефакти задач

173

Науковці-учасники

19,020

Критерії рубрики

453

Експертні рецензенти

Що вимірює LifeSciBench

LifeSciBench вимірює, чи можуть системи ШІ підтримувати реалістичні дослідницькі задачі у сфері наук про життя, а не лише відповідати на запитання з біології. Щоб визначити таксономію бенчмарку, ми опитали практикуючих фахівців у сфері наук про життя щодо робочих процесів, які вони найчастіше використовують у прикладних дослідницьких середовищах. Потім ми згрупували їхні відповіді у сім повторюваних категорій: робота з доказами, аналіз, проєктування й оптимізація, наукове міркування, валідація та операційна робота, трансляційні дослідження й наукова комунікація.

Кожна задача структурована як запит, який науковець міг би поставити обізнаному колезі: науковий запит, будь-який релевантний контекст або артефакти та відповідь у вільній формі. Написані експертами рубрики оцінюють, чи може модель дати правильну відповідь на конкретну проблему — з належним рівнем деталізації, обґрунтуванням, застереженнями та форматуванням, яких очікував би науковець.

Побудова набору даних

LifeSciBench оцінює наукове міркування разом із менш чітко визначеними практичними навичками, необхідними для реального наукового використання. Його задачі вимагають від моделей опрацьовувати реалістичні дослідницькі проблеми: інтерпретувати докази, робити судження з опорою на галузеві відомості й формулювати висновки, корисні для експертних рецензентів. Багато задач також вимагають, щоб моделі працювали з невизначеністю та міркували на основі допоміжних файлів даних, а не покладалися лише на текст запиту.

Бенчмарк розроблено так, щоб відображати складність роботи у сфері наук про життя. Загалом 79% задач потребують кількох кроків міркування або ухвалення рішень, у середньому чотири кроки на задачу. LifeSciBench включає 1 062 прикріплені артефакти, що охоплюють рисунки, PDF, таблиці, файли послідовностей, структурні або хімічні файли та вебпосилання. Понад половина задач (53%) вимагає від моделей інтерпретувати або синтезувати інформацію принаймні з одного артефакту.

Задачі створили 173 науковці-експерти з різних дисциплін у сфері наук про життя. Кожен науковець мав підготовку на рівні Ph.D. і досвід роботи в біотехнологічній або фармацевтичній індустрії. Перед прийняттям задачі могли проходити стільки циклів редагування, скільки було потрібно, без фіксованої межі кількості раундів; прийняті задачі в середньому проходили шість самокерованих автоматизованих циклів перевірки та щонайменше два раунди експертного рецензування. Рецензії спиралися або на перевірювану правильну відповідь, або на сильний експертний консенсус із щонайменше 90% згоди між рецензентами у відповідному домені. Цей процес допоміг забезпечити, щоб прийняті задачі мали наукове підґрунтя, були достатньо чіткими для оцінювання та репрезентували прикладні дослідження.

Діаграма, що показує задачі LifeSciBench, які поєднують джерела даних у сфері наук про життя — геномні послідовності, молекулярні структури, рисунки, документи, електронні таблиці та вебпосилання — з багатокроковим міркуванням і експертним рецензуванням.

Оцінювання та структура рубрики

Задачі LifeSciBench оцінюються за детальною, специфічною для задачі рубрикою, яка розкладає очікувану відповідь на конкретні наукові твердження, розрахунки, рішення, обґрунтування тощо. У всьому бенчмарку розроблені експертами рубрики містять 19 020 критеріїв — у середньому 25 на задачу — для оцінки як наукової правильності, так і корисності для дослідницьких рішень.

Такий дизайн відображає те, як наукову роботу оцінюють на практиці: багато задач у сфері наук про життя не можна оцінити, перевіривши лише фінальну відповідь. Відповідь може дійти правильної загальної тези, але все одно вважатися неповною, якщо, наприклад, вона пропускає ключове обмеження аналізу або не піднімає завчасно важливий біологічний нюанс із суттєвими наслідками. І навпаки, часткова відповідь може містити якісне міркування, навіть якщо не розв’язує задачу повністю.

Деталізовані рубрики вловлюють цей нюанс. LifeSciBench оцінює не лише точність фінальної відповіді, а й те, чи модель доходить до неї науково коректним і операційно корисним способом.

Видобування, узгодження й аудит наукових доказів зі статей, рисунків, таблиць та експериментальних записів.

Приклад Eval

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Відповідь кандидата

Підсумок: у представленому вигляді цей пакет недостатньо сильний, щоб підтримати прискорене схвалення на основі експресії мікро-дистрофіну як сурогатної кінцевої точки, що з достатньою ймовірністю прогнозує клінічну користь. Скептичний рецензент FDA, ймовірно, вважав би докази щодо біомаркера, функції, тривалості, безпеки й узагальнюваності суттєво недостатньо підкріпленими.

Елемент пакета

Ключовий режим невдачі

Що було б потрібно

Кількісне визначення Western blot

MANEX1A зв’язує N-кінцевий епітоп, спільний для ендогенного повнорозмірного дистрофіну й трансгену мікро-дистрофіну, тож аналіз нечітко відрізняє трансген від залишкового/ревертантного дистрофіну. Кількісне визначення 138 kDa мікро-дистрофіну відносно стандарту здорового повнорозмірного дистрофіну також є недійсним.

Використати рекомбінантний стандарт мікро-дистрофіну та ортогональний метод, що відрізняє трансген від ендогенного дистрофіну, наприклад таргетну мас-спектрометрію або трансген-специфічний/епітоп-специфічний аналіз.

Імунофлуоресценція

C-кінцеве поліклональне антитіло погано придатне, бо конструкція 138 kDa не має C-кінцевого домену. Багато пацієнтів із DMD мають ревертантні волокна, а ревертантний дистрофін може зберігати C-кінцеві епітопи. Ревертантні волокна можуть клонально розширюватися з віком, зміщуючи IF-сигнал, особливо в старших хлопчиків.

Повторити IF з антитілом до епітопу, наявного в трансгені, але відсутнього в ревертантному дистрофіні. Кількісно визначати трансген-позитивні волокна окремо від ревертантних.

Валідність сурогатної кінцевої точки

Пакет змішує кількість білка з клінічною функцією. «38% маси білка здорового контролю» не означає 38% нормальної функції дистрофіну, бо мікро-дистрофін структурно усічений.

Емпірично валідувати зв’язок між масовим відсотком мікро-дистрофіну, сарколемною локалізацією, відновленням нижчестоящих функцій і клінічною користю, перш ніж трактувати експресію як сурогатну кінцеву точку.

План біопсії

Контралатеральні біопсії vastus lateralis до й після лікування вносять ліво-праву та внутрішньом’язову просторову варіабельність. Прогресування хвороби й фіброзно-жирове заміщення також можуть змінювати сигнал, нормалізований на загальний білок.

Стандартизувати місце біопсії за сталими анатомічними орієнтирами, нормалізувати на м’яз-специфічні білки й паралельно вимірювати фіброзно-жировий склад.

Компаратор/статистика NSAA

Зовнішня когорта природного перебігу не є рандомізованим одночасним контролем. Критерії участі, підтримувальна допомога, ефекти участі, базовий NSAA, режим стероїдів, вік і клас екзону можуть зміщувати порівняння. Непарного t-тесту недостатньо. Крім того, зміна NSAA +1,4 перебуває в межах варіабельності test-retest для цієї вікової групи.

Провести рандомізоване одночасне плацебо-контрольоване дослідження або щонайменше застосувати скориговані аналізи з урахуванням базового NSAA, віку, режиму стероїдів, класу екзону та інших змішувальних чинників.

Змішування через вікове вікно

Хлопчики віком 4–7 років перебувають у вікні розвитку, коли неліковані амбулаторні пацієнти з DMD можуть набирати моторну функцію до того, як почне домінувати зниження. 48-тижнева зміна NSAA змішує розвитковий приріст, прогресування хвороби й можливий ефект лікування.

Використати одночасний рандомізований контроль із віковою стратифікацією, щоб відокремити розвиткову траєкторію від ефекту лікування.

Попередній клінічний прецедент

Відкриті функціональні сигнали мікро-дистрофіну ненадійно прогнозували підтверджувану користь; опублікований прецедент містить підтверджувальні випробування генної терапії мікро-дистрофіном, які не відтворили відкриті покращення NSAA.

Не покладатися на відкриту зміну NSAA як вирішальну підтримку. Вимагати контрольованих функціональних доказів.

Структурні обмеження конструкції

Конструкція 138 kDa видаляє спектринові повтори R16/17, які містять сайти зв’язування nNOS. Втрата рекрутування nNOS може порушити функціональний симпатоліз і захист від ішемії під час фізичного навантаження, створюючи механістичну стелю порятунку незалежно від рівня експресії.

Додати механістичні дослідження, які покажуть, чи ця конкретна конструкція відновлює відповідну функцію дистрофін-асоційованого комплексу, локалізацію nNOS, фізіологію навантаження та захист м’язів.

Тривалість AAV

Геноми вектора на 12 тижні не встановлюють тривалої експресії. Геноми AAV9 здебільшого є неінтегрувальними епісомами й можуть зменшуватися з часом. Збереження геному вектора — не те саме, що стійка експресія білка.

Виміряти поздовжню експресію білка трансгену й тривалість функціональних біомаркерів після 12 тижнів.

Імунний/безпековий профіль

Трансаміназа у 8/12 пацієнтів узгоджується з імунною відповіддю на AAV-трансдуковані клітини, але механізм не встановлено. Один випадок міокардиту викликає занепокоєння з огляду на серцевий тропізм AAV9.

Надати глибший імунний моніторинг, характеристику безпеки печінки/серця та посилене кардіологічне спостереження.

Відбір пацієнтів/узагальнюваність

Виключення пацієнтів, позитивних на нейтралізувальні антитіла anti-AAV9, обмежує узагальнюваність. Виключення делецій екзону 44 обмежує застосовність до цієї підгрупи DMD. n=12 занадто мало, щоб характеризувати безпеку й ефективність у ширшій популяції DMD.

Розширити критерії, де можливо, або заздалегідь визначити стратифіковані аналізи за статусом антитіл, генотипом/класом екзону, віком і базовою функцією, перш ніж використовувати результат для підтримки широкого схвалення.

Регуляторний висновок: пакет може демонструвати біологічну активність, але ще не встановлює, що виміряна експресія мікро-дистрофіну є надійним сурогатом, який з достатньою ймовірністю прогнозує клінічну користь. Основні прогалини — специфічність аналізу, недійсні стандарти кількісного визначення, можливе змішування через ревертантні волокна, відсутність рандомізованого контролю, вікове змішування NSAA, невизначена тривалість і нерозв’язані питання безпеки/узагальнюваності.

Щоб закрити прогалину, програмі потрібен контрольований, стратифікований за віком клінічний дизайн із трансген-специфічними аналізами експресії, ортогональним кількісним визначенням білка, контролями складу тканини, поздовжніми даними тривалості, механістичними функціональними аналізами усіченої конструкції та сильнішим моніторингом безпеки, особливо печінкової й серцевої.

Критерії оцінювання та оцінки

Критерій
Пункти
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

Валідація LifeSciBench

Ми провалідували LifeSciBench через незалежне експертне рецензування. Відгуки надали 453 рецензенти, які не брали участі в написанні задач. Серед цих рецензентів 97% мали Ph.D. або еквівалентний докторський ступінь, у середньому 12 років досвіду в галузі та 14 рецензованих публікацій; 88% повідомили, що отримали принаймні одну нагороду або стипендію.

Рецензенти оцінювали, чи кожна задача відображає якості, потрібні для сильної бенчмарк-задачі: відповідність реальній дослідницькій роботі, належну перевірку наукового міркування та доменної експертизи, опору на докази або експертний консенсус і загальну корисність для оцінювання продуктивності моделі. Рівень згоди перевищив 96% у кожній категорії.

Практична релевантність

Чи ця задача відображає реалістичну практичну роботу у сфері наук про життя?

Повністю згоден
90.4%
Загалом згоден
98.3%

Наукове міркування / галузева навичка

Чи ця задача перевіряє й оцінює належні навички наукового міркування та предметні навички у сфері наук про життя?

Повністю згоден
86.4%
Загалом згоден
98.1%

Наукове підґрунтя

Чи ця задача має наукове підґрунтя, є розв’язною та спирається на належні докази, дані, артефакти або експертний консенсус?

Повністю згоден
77.1%
Загалом згоден
96.5%

Загальна корисність

Загалом, чи є це сильною задачею для оцінювання у сфері наук про життя?

Повністю згоден
79.1%
Загалом згоден
96.6%

Коментарі рецензентів підтвердили кількісні оцінки:

1 із 3
Загалом це сильна задача, бо вона має одну правильну ключову інтерпретацію, але водночас дає змогу відрізняти кращі відповіді за тим, наскільки ретельно вони окреслюють невизначеність.

Результати

Ми надаємо відомості про дві взаємодоповнювальні метрики. Частка успішного проходження — це відсоток задач, у яких модель досягає порогового рівня успіху для задачі у 70%. Оцінка — це середня винагорода за рубрикою, яка дає частковий кредит за окремі критерії навіть тоді, коли всю задачу не розв’язано. Обидві важливі, бо відповідь на наукову задачу може бути частково правильною або корисною, не виконуючи всіх вимог до повної відповіді.

Продуктивність моделі суттєво залежить від типу задачі, робочого процесу та формату відповіді.

Де системи ШІ вже демонструють ефективність

LifeSciBench показує, що передові моделі відносно найсильніші в задачах, пов’язаних із синтезом наукових даних, комунікацією та структурованою інтерпретацією. Абсолютні частки успішного проходження все ще помірні, тож ці домени бенчмарку далекі від насичення, але GPT‑Rosalind демонструє відчутний прогрес порівняно з GPT‑5.5, підвищивши загальну частку точного проходження з 25,7% до 36,1%.

Найсильніші напрями розвитку можливостей моделей спостерігаються в науковій комунікації та трансляційних дослідженнях. Наприклад, частка успішного проходження в науковій комунікації зростає з 56,3% для GPT‑5.5 до 71,1% для GPT‑Rosalind; ця категорія відносно мала (n=9), тому її слід інтерпретувати обережно, але вона вказує, що передові моделі швидко покращують здатність організовувати докази й створювати переконливі пояснення для експертів. Трансляційні дослідження (процес розробки ліків «від лабораторії до ліжка пацієнта») демонструють подібний патерн: показник зростає з 36,8% для GPT‑5.5 до 57,7% для GPT‑Rosalind, що свідчить про швидке вдосконалення моделей у здатності пов’язувати доклінічні докази з клінічними наслідками.

Результати на рівні рубрик вказують у тому самому напрямі. У задачах, що вимагають корисних для експертів або практично застосовних результатів, GPT‑Rosalind набирає 44,7% порівняно з 29,1% для GPT‑5.5. У задачах, що вимагають роботи з невизначеністю та застереженнями, вона набирає 44,8% порівняно з 29,3%. Цей патерн свідчить, що моделі найкорисніші тоді, коли задача має чітку межу доказів і потребує структурованого наукового судження.

GPT‑Rosalind лідирує за продуктивністю в науково цінних задачах, визначених галузевими й академічними експертами.

GPT‑Rosalind лідирує за продуктивністю в науково цінних завданнях, визначених галузевими та академічними експертами.

GPT‑Rosalind лідирує за продуктивністю в науково цінних завданнях, визначених галузевими та академічними експертами.

Де системи ШІ поки не відповідають вимогам

Продуктивність залишається значно слабшою в науковій роботі, насиченій артефактами, проєктуванням і операційними обмеженнями. Зокрема, проєктування, оптимізація та прогнозування залишаються одним із найскладніших робочих процесів із часткою проходження GPT‑Rosalind 30,7%; аналіз є так само складним — 30,3%.

Використання артефактів є особливо очевидною прогалиною. Хоча GPT‑Rosalind працює краще за GPT‑5.5 у середовищах із великою кількістю артефактів, її частка успішного проходження все одно падає з 45,1% на задачах лише з текстом до 28,1% на задачах з артефактами або URL. GPT‑5.5 демонструє той самий патерн, знижуючись із 29,9% до 21,9%. Детальніший аналіз підтверджує, що передовим моделям складно витягувати інформацію зі складних рисунків або великих файлів послідовностей та інтегрувати її у фінальну відповідь.

Частка успішного проходження падає, коли задачі вимагають міркування з опорою на джерела або роботи з артефактами

Формат відповіді також має значення. Задачі, що вимагають точних результатів на рівні послідовності, структури або конструкта, мають нижчі частки проходження: GPT‑Rosalind досягає лише 14,8% на числових задачах і 24,0% на виходах із послідовностями або структурами. Задачі генерації конструктів також недостатньо стабільні: GPT‑Rosalind має 27,3% і демонструє лише незначне покращення порівняно з GPT‑5.5. Частково ця прогалина може відображати суворішу площину оцінювання для задач із точною відповіддю, де невеликі відмінності в розрахунку або форматуванні можуть опустити відповідь нижче порогу проходження. Утім ці невдачі мають наукове значення, бо багато робочих процесів у сфері наук про життя потребують результатів, достатньо точних для безпосереднього використання, наприклад у дизайні донорів CRISPR/HDR або дизайні siRNA.

Моделі також часто просуваються частково, не розв’язуючи задачу повністю. Приблизно у 14% задач моделі отримували суттєвий кредит за рубрикою, попри те, що не досягали порогу точного проходження. Для GPT‑Rosalind 109 задач мали частку проходження нижче 20%, але все одно отримували щонайменше 50% винагороди за рубрикою. На практиці це означає, що моделі можуть виявити релевантні докази або дати правдоподібну часткову відповідь, але все одно зазнати невдачі, бо пропускають ключове обмеження, використовують неправильні докази, виконують неповний розрахунок або не пов’язують своє міркування з науково корисним фінальним рішенням.

Обмеження й подальші кроки

LifeSciBench — це крок до вимірювання того, наскільки корисними системи ШІ можуть бути для досліджень у сфері наук про життя, але він не замінює вивчення моделей у реальних дослідницьких середовищах. Бенчмарк зосереджується на самодостатніх задачах, що відображають повторювані галузеві робочі процеси, залишаючи багато наукових спеціалізацій і типів задач поза поточним охопленням. Реальні дослідження ітеративні: науковці збирають нові докази, переглядають гіпотези, проєктують подальші експерименти й адаптують плани в міру появи результатів.

Тому сильну продуктивність у LifeSciBench слід інтерпретувати як доказ реалістичної здатності на рівні задач, а не як прямий показник подальшого впливу на дослідження. Бенчмарк ґрунтується на галузевих робочих процесах, але не охоплює повного різноманіття чи динаміки живих дослідницьких програм, де прогрес залежить від чинників, що розгортаються з часом.

Наступний крок — пов’язати продуктивність у бенчмарку з дослідженнями впровадження в реальних дослідницьких робочих процесах. Хоча LifeSciBench розроблено разом із практикуючими науковцями, щоб виміряти, чи системи ШІ прискорюють відкриття або покращують результати R&D, потрібно вивчати використання й продуктивність моделей у реальних дослідницьких середовищах, на довших горизонтах і в кількох раундах міркування, зворотного зв’язку та експериментального відстеження.

Долучайтеся

Допоможіть формувати наступне покоління бенчмарків ШІ для наук про життя або запросіть доступ до GPT-Rosalind.

Автор

OpenAI