2026년 6월 17일

LifeSciBench 소개

실제 생명과학 연구를 기반으로 전문가가 작성하고 전문가가 검토한 벤치마크

로딩 중...

에이전틱 AI 시스템은 과학적 과업을 수행하는 능력이 점점 향상되고 있습니다. 그러나 이러한 시스템이 생명과학 연구자에게 얼마나 유용한지는 실제 연구의 복잡성을 얼마나 잘 다룰 수 있는지에 달려 있습니다. 실제 연구는 단순한 사실 회상 문제나 명확한 예측 문제의 형태로 이루어지는 경우가 드뭅니다. 연구자들은 불완전한 근거를 해석하고, 상충되는 결과를 조정하며, 복잡한 실험을 설계하고, 분석법의 문제를 해결하며, 중개 연구상의 위험을 평가하고, 불확실한 상황에서 다음 단계를 결정합니다.

현재의 벤치마크는 이러한 역량을 충분히 포착하지 못합니다. 많은 생명과학 평가가 제한된 분야나 개별 기술에 초점을 맞추고 있어, 정형화된 문제 형식과 명확한 정답이 있는 질문으로 구성되는 경우가 많습니다. 이러한 평가도 가치가 있지만, 모델이 보다 폭넓은 연구 수준의 업무 전반에 걸쳐 기여할 수 있는지를 제대로 평가하지 못하는 경우가 많습니다.

OpenAI는 이러한 격차를 줄이기 위해 LifeSciBench를 설계했습니다. 모든 과업은 박사급 교육을 받았으며 바이오테크 및 제약 분야에서 신약 개발 프로그램을 직접 수행한 경험이 있는 현업 생명과학 연구자의 판단을 바탕으로 구성되었습니다.

LifeSciBench는 7개의 워크플로와 7개의 생물학 분야에 걸쳐 전문가가 작성한 750개의 과업으로 구성되어 있습니다.

1,062

과업 결과물

173

과학자 기여자

19,020

평가 기준

453

전문가 검토자

LifeSciBench가 측정하는 내용

LifeSciBench는 AI 시스템이 단순히 생물학 질문에 답할 수 있는지를 평가하는 것이 아니라, 실제 생명과학 연구 과업을 지원할 수 있는지를 평가합니다. 벤치마크 분류 체계를 정의하기 위해, OpenAI는 현업 생명과학 연구자를 대상으로 응용 연구 환경에서 가장 자주 사용하는 워크플로에 대한 설문조사를 실시했습니다. 이후 응답을 근거 처리, 분석, 설계 및 최적화, 과학적 추론, 검증 및 운영, 중개, 과학 커뮤니케이션의 7개 범주로 분류했습니다.

각 과업은 연구자가 전문 지식을 갖춘 협업자에게 요청할 법한 형식으로 구성됩니다. 즉, 과학적 프롬프트, 관련 맥락 또는 결과물, 그리고 서술형 답변으로 이루어집니다. 전문가가 작성한 평가 기준은 모델이 특정 문제에 대해 연구자가 기대하는 수준의 세부 정보, 근거 제시, 한계 사항 및 형식을 갖춘 적절한 답변을 생성할 수 있는지를 평가합니다.

데이터세트 구축

LifeSciBench는 과학적 추론뿐 아니라 실제 과학 연구에 필요한, 보다 실무적이고 명확히 정의하기 어려운 역량도 함께 평가합니다. 과업은 모델이 현실적인 연구 문제를 해결하도록 요구합니다. 여기에는 근거 해석, 분야 지식에 기반한 판단, 그리고 전문가 검토자에게 유용한 결론을 전달하는 것이 포함됩니다. 또한 많은 과업은 단순히 프롬프트 텍스트에 의존하는 것이 아니라, 불확실성을 다루고 지원 데이터 파일을 바탕으로 추론할 것을 요구합니다.

이 벤치마크는 생명과학 업무의 복잡성을 반영하도록 설계되었습니다. 전체 과업의 79%는 여러 단계의 추론 또는 의사결정을 요구하며, 과업당 평균 4단계의 추론 또는 의사결정 과정이 포함됩니다. LifeSciBench에는 그림, PDF, 표, 서열 파일, 구조 또는 화학 파일, 웹 참조 자료 등 총 1,062개의 첨부 결과물이 포함되어 있습니다. 과업의 절반 이상(53%)은 모델이 최소 하나의 결과물에서 정보를 해석하거나 종합하도록 요구합니다.

과업은 다양한 생명과학 분야의 전문가 과학자 173명이 작성했습니다. 모든 과학자는 박사급 교육을 받았으며 바이오테크 또는 제약 업계 경험을 보유하고 있었습니다. 과업은 채택되기 전까지 필요한 만큼 수정 과정을 거칠 수 있었으며, 검토 횟수에는 별도의 상한이 없었습니다. 채택된 과업은 평균적으로 6회의 자체 주도 자동 검토 과정을 거쳤고, 최소 2회의 전문가 검토를 완료했습니다. 검토는 검증 가능한 정답 또는 강한 전문가 합의를 기준으로 이루어졌으며, 해당 분야 검토자 간 합의율은 최소 90% 이상이었습니다. 이러한 과정을 통해 채택된 과업이 과학적 근거를 갖추고, 채점이 가능할 만큼 명확하며, 실제 응용 연구를 적절히 반영하도록 했습니다.

유전체 서열, 분자 구조, 그림, 문서, 스프레드시트, 웹 링크 등 생명과학 데이터 소스를 다단계 추론 및 전문가 검토와 결합한 LifeSciBench 과업을 보여주는 다이어그램.

채점 방식 및 평가 기준 구성

LifeSciBench 과업은 과업별로 세분화된 상세 평가 기준에 따라 채점됩니다. 이러한 평가 기준은 기대되는 답변을 구체적인 과학적 주장, 계산, 의사결정, 근거 제시 등의 요소로 나누어 평가합니다. 벤치마크 전체에 걸쳐 전문가가 개발한 평가 기준에는 총 19,020개의 평가 항목이 포함되어 있으며, 과업당 평균 25개의 항목을 통해 과학적 정확성과 연구 의사결정에 대한 유용성을 함께 평가합니다.

이러한 설계는 실제 과학 연구가 평가되는 방식을 반영합니다. 많은 생명과학 과업은 최종 답변만 확인해서는 적절히 평가할 수 없습니다. 예를 들어, 답변이 상위 수준의 결론에는 도달했더라도 중요한 분석법의 한계를 간과하거나, 결과에 큰 영향을 미칠 수 있는 생물학적 세부 사항을 스스로 제기하지 못한 경우에는 불완전한 답변으로 평가될 수 있습니다. 반대로 과업을 완전히 해결하지 못했더라도, 일부 답변에는 높은 수준의 추론이 포함될 수 있습니다.

세분화된 평가 기준은 이러한 미묘한 차이까지 포착합니다. LifeSciBench는 최종 답변의 정확성뿐 아니라, 모델이 과학적으로 타당하고 실제 연구 수행에 도움이 되는 방식으로 결론에 도달하는지도 평가합니다.

논문, 그림, 표 및 실험 기록에서 과학적 근거를 추출하고, 상호 대조 및 검증하며, 감사할 수 있습니다.

평가 예시

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

후보자 응답

결론: 현재 제시된 자료만으로는 마이크로 디스트로핀 발현을 임상적 유익성을 합리적으로 예측할 수 있는 대리 엔드포인트로 인정하여 가속 승인을 뒷받침하기에 충분하지 않습니다. 비판적인 시각의 FDA 심사관이라면 바이오마커, 기능적 효과, 지속성, 안전성 및 일반화 가능성에 대한 근거가 전반적으로 부족하다고 판단할 가능성이 높습니다.

패키지 항목	주요 한계	필요한 보완 사항
웨스턴 블롯 정량 분석	MANEX1A는 내인성 전장 디스트로핀과 마이크로 디스트로핀 트랜스진이 공통으로 갖는 N-말단 에피토프에 결합하므로, 해당 분석법으로는 트랜스진 유래 단백질과 잔존 또는 리버턴트 디스트로핀을 명확하게 구분할 수 없습니다. 또한 138 kDa 마이크로 디스트로핀을 건강한 사람의 전장 디스트로핀 표준물질과 비교하여 정량하는 방법 역시 타당하지 않습니다.	재조합 마이크로 디스트로핀 표준물질을 사용하고, 표적 질량분석법 또는 트랜스진 특이적, 에피토프 특이적 분석법과 같이 트랜스진 유래 디스트로핀과 내인성 디스트로핀을 구별할 수 있는 독립적인 검증 방법을 적용해야 합니다.
면역형광	138 kDa 구조체에는 C-말단 도메인이 존재하지 않기 때문에 C-말단 다클론 항체는 적절한 분석 도구가 아닙니다. 또한 많은 DMD 환자에게는 리버턴트 섬유가 존재하며, 리버턴트 디스트로핀은 C-말단 에피토프를 유지할 수 있습니다. 리버턴트 섬유는 나이가 들수록 클론성으로 확장될 수 있으므로, 특히 연령이 높은 남아에서는 면역형광(IF) 신호에 편향을 유발할 수 있습니다.	트랜스진에는 존재하지만 리버턴트 디스트로핀에는 존재하지 않는 에피토프를 표적으로 하는 항체를 사용하여 면역형광 분석을 다시 수행해야 합니다. 또한 트랜스진 양성 섬유와 리버턴트 섬유를 구분하여 각각 정량해야 합니다.
대리 엔드포인트의 타당성	해당 자료는 단백질 양과 임상적 기능을 동일시하고 있습니다. 마이크로 디스트로핀은 구조적으로 축약된 단백질이므로, '건강한 대조군 단백질량의 38%'가 정상 디스트로핀 기능의 38%를 의미하는 것은 아닙니다.	발현량을 대리 엔드포인트로 활용하기 전에 마이크로 디스트로핀 발현 비율, 근섬유막 국소화, 하위 기능 회복 및 임상적 유익성 간의 관계를 실증적으로 입증해야 합니다.
생검 설계	치료 전후에 반대측 외측광근에서 생검을 수행하는 방식은 좌우 차이와 근육 내 위치에 따른 변동성을 초래할 수 있습니다. 또한 질환 진행과 섬유지방성 대체 역시 총 단백질 기준으로 정규화된 신호에 영향을 줄 수 있습니다.	일관된 해부학적 기준점을 사용하여 생검 위치를 표준화하고, 근육 특이적 단백질을 기준으로 정규화하며, 섬유지방성 조직 비율도 함께 측정해야 합니다.
NSAA 비교군 및 통계 분석	외부 자연경과 코호트는 무작위 배정된 동시 비교군이 아닙니다. 시험 참여 기준, 보조 치료, 연구 참여 효과, 기저 NSAA 점수, 스테로이드 투여 요법, 연령 및 엑손 유형 등은 모두 비교 결과에 편향을 초래할 수 있습니다. 따라서 독립 표본 t-검정만으로는 충분하지 않습니다. 또한 NSAA 점수 1.4점 증가는 해당 연령대에서 관찰되는 검사-재검사 변동 범위 내에 해당합니다.	무작위 배정된 동시 위약 대조 연구를 수행하거나, 최소한 기저 NSAA 점수, 연령, 스테로이드 투여 요법, 엑손 유형 및 기타 교란 요인을 보정한 분석을 수행해야 합니다.
연령 구간에 따른 교란	4~7세 남아는 질병 진행이 본격화되기 전에 치료받지 않은 보행 가능 DMD 환자에서도 운동 기능이 향상될 수 있는 발달 단계에 해당합니다. 따라서 48주 동안의 NSAA 변화에는 발달에 따른 향상, 질병 진행, 그리고 잠재적인 치료 효과가 모두 혼재되어 있을 수 있습니다.	발달에 따른 변화와 치료 효과를 구분할 수 있도록 연령층화가 적용된 무작위 동시 대조군 연구를 수행해야 합니다.
기존 임상 사례	공개형 연구에서 관찰된 마이크로 디스트로핀의 기능적 신호는 확증적 임상적 유익성을 일관되게 예측하지 못했습니다. 실제로 공개형 연구에서 확인된 NSAA 개선 효과가 후속 확증 임상시험에서는 재현되지 않은 마이크로 디스트로핀 유전자 치료 사례가 보고된 바 있습니다.	공개형 연구에서의 NSAA 변화만을 결정적 근거로 삼아서는 안 되며, 통제된 환경에서 확보된 기능적 근거가 필요합니다.
구조체의 한계	138 kDa 구조체는 nNOS 결합 부위를 포함하는 스펙트린 반복 영역 R16/17이 제거되어 있습니다. 이로 인해 nNOS의 적절한 모집이 이루어지지 않을 수 있으며, 운동 중 기능적 교감신경 억제 및 허혈 보호 기능이 저하될 수 있습니다. 따라서 발현 수준과 무관하게 치료 효과에 기전적 한계가 존재할 수 있습니다.	이 구조체가 디스트로핀 연관 복합체의 기능, nNOS의 정상적 위치 확보, 운동 생리 기능 및 근육 보호 기능을 실제로 회복시키는지를 보여주는 기전 연구가 추가로 필요합니다.
AAV 지속성	12주 시점의 벡터 게놈 존재만으로는 지속적인 발현이 입증되지 않습니다. AAV9 게놈은 대부분 숙주 유전체에 통합되지 않는 에피좀 형태로 존재하며 시간이 지남에 따라 감소할 수 있습니다. 따라서 벡터 게놈의 잔존은 단백질 발현의 지속성을 의미하지 않습니다.	12주 이후에도 트랜스진 단백질 발현과 기능성 바이오마커의 지속성을 장기적으로 평가해야 합니다.
면역 및 안전성 프로파일	12명 중 8명에서 관찰된 간효소 상승은 AAV가 도입된 세포에 대한 면역반응과 일치하는 소견이지만, 정확한 기전은 확인되지 않았습니다. 또한 AAV9가 심장 조직 친화성을 가진다는 점을 고려하면 심근염 1건은 우려되는 결과입니다.	보다 심층적인 면역 모니터링과 간/심장 안전성 평가, 그리고 강화된 심장 추적관찰이 필요합니다.
환자 선정 및 일반화 가능성	AAV9 중화항체 양성 환자를 제외한 것은 결과의 일반화 가능성을 제한합니다. 또한 엑손 44 결손 환자를 제외함으로써 해당 DMD 하위 집단에 대한 적용 가능성도 제한됩니다. 표본 수가 12명에 불과해 보다 넓은 DMD 환자 집단에서의 안전성과 유효성을 평가하기에는 부족합니다.	가능한 경우 대상자 선정 기준을 확대하거나, 최소한 항체 상태, 유전자형·엑손 유형, 연령 및 기저 기능 수준에 따른 층화 분석을 사전에 계획한 후 그 결과를 승인 근거로 활용해야 합니다.

규제 관점의 결론: 현재 자료는 생물학적 활성을 보여줄 수는 있으나, 측정된 마이크로 디스트로핀 발현이 임상적 유익성을 합리적으로 예측할 수 있는 신뢰성 있는 대리 엔드포인트임을 입증하기에는 부족합니다. 주요 한계는 분석법의 특이성 부족, 부적절한 정량 기준, 리버턴트 섬유에 의한 잠재적 교란, 무작위 대조군 부재, 연령에 따른 NSAA 교란 효과, 불확실한 지속성, 그리고 해결되지 않은 안전성 및 일반화 가능성 문제입니다.

이러한 한계를 해소하려면 트랜스진 특이적 발현 분석법, 독립적인 단백질 정량 방법, 조직 구성에 대한 통제, 장기 지속성 데이터, 축약형 구조체에 대한 기전 기반 기능 평가, 그리고 특히 간 및 심장 안전성에 대한 강화된 모니터링을 포함한 연령층화 무작위 대조 임상 설계가 필요합니다.

루브릭 기준 및 등급

기준

포인트

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench 검증

OpenAI는 독립적인 전문가 검토를 통해 LifeSciBench를 검증했습니다. 피드백은 과업 작성에 참여하지 않은 검토자 453명으로부터 수집되었습니다. 이들 중 97%는 박사 또는 이에 상응하는 학위를 보유하고 있었으며, 평균 12년의 현장 경험과 14편의 동료 심사 논문 게재 실적을 갖고 있었습니다. 또한 88%는 최소 한 차례 이상의 수상 경력 또는 펠로십 선정 이력이 있다고 응답했습니다.

검토자들은 각 과업이 우수한 벤치마크 문항에 필요한 특성을 갖추고 있는지를 평가했습니다. 평가 항목에는 실제 연구 업무와의 부합성, 과학적 추론 및 분야 전문성에 대한 적절한 평가 여부, 근거 또는 전문가 합의에 기반하고 있는지 여부, 그리고 모델 성능 평가를 위한 전반적인 유용성이 포함되었습니다. 모든 평가 항목에서 96% 이상의 동의율이 나타났습니다.

실제 환경 관련성

이 과업은 실제 생명과학 연구 현장의 업무를 현실적으로 반영하고 있나요?

매우 동의: 90.4%
전반적으로 동의: 98.3%

과학적 추론 / 분야 전문 역량

이 과업은 적절한 과학적 추론 능력과 생명과학 분야 역량을 평가하고 채점하나요?

매우 동의: 86.4%
전반적으로 동의: 98.1%

과학적 근거

이 과업은 과학적 근거를 바탕으로 하며, 답변이 가능하고, 적절한 근거, 데이터, 결과물 또는 전문가 합의에 기반하고 있나요?

매우 동의: 77.1%
전반적으로 동의: 96.5%

전반적인 유용성

전반적으로 이 과업은 우수한 생명과학 평가 과업인가요?

매우 동의: 79.1%
전반적으로 동의: 96.6%

검토자 의견은 이러한 정량적 평가 결과를 뒷받침했습니다.

3개 중 1

“전반적으로 이 과업은 우수한 과업입니다. 정답이 되는 핵심 해석은 하나로 정해져 있으면서도, 불확실성을 얼마나 적절하게 규정하고 다루는지에 따라 더 우수한 답변을 구분할 수 있기 때문입니다.”

결과

OpenAI는 서로 보완적인 두 가지 지표를 보고합니다. 통과율은 모델이 과업 수준의 성공 기준인 70%를 충족한 과업의 비율입니다. 점수는 평가 기준에 따른 평균 점수로, 과업 전체를 해결하지 못했더라도 개별 평가 항목을 충족한 경우 부분 점수를 부여합니다. 과학적 과업에 대한 답변은 완전한 답변의 모든 요건을 충족하지 못하더라도 일부는 정확하거나 유용할 수 있기 때문에, 두 지표 모두 중요합니다.

모델 성능은 과업 유형, 워크플로 및 응답 형식에 따라 상당한 차이를 보입니다.

AI 시스템이 초기 강점을 보이는 영역

LifeSciBench 결과에 따르면 프런티어 모델은 과학적 종합, 커뮤니케이션 및 구조화된 해석이 필요한 과업에서 상대적으로 가장 높은 성능을 보입니다. 절대적인 통과율은 여전히 높지 않아 이러한 벤치마크 영역이 충분히 해결된 상태와는 거리가 있지만, GPT‑Rosalind는 GPT‑5.5 대비 의미 있는 진전을 보였습니다. 전체 통과율은 25.7%에서 36.1%로 향상되었습니다.

모델 역량이 가장 크게 향상된 영역은 과학 커뮤니케이션과 중개 연구입니다. 예를 들어 과학 커뮤니케이션의 통과율은 GPT‑5.5에서는 56.3%, GPT‑Rosalind에서는 71.1%로 나타났습니다. 다만 이 범주의 표본 수는 적으므로(n=9) 신중하게 해석해야 합니다. 그럼에도 이는 프런티어 모델이 근거를 체계적으로 정리하고 전문가를 대상으로 설득력 있는 설명을 제공하는 능력에서 빠르게 발전하고 있음을 시사합니다. 중개 연구(신약 개발의 'bench-to-bedside' 과정)에서도 유사한 양상이 나타났습니다. 통과율은 GPT‑5.5에서는 36.8%, GPT‑Rosalind에서는 57.7%였으며, 이는 모델이 전임상 근거를 임상적 시사점과 연결하는 능력을 빠르게 향상시키고 있음을 시사합니다.

평가 기준 수준의 결과도 같은 방향을 보여줍니다. 전문가에게 실질적으로 도움이 되거나 실행 가능한 결과물을 요구하는 과업에서 GPT‑Rosalind의 점수는 44.7%였으며, GPT‑5.5는 29.1%였습니다. 불확실성과 한계 사항을 다루어야 하는 과업에서는 GPT‑Rosalind가 44.8%, GPT‑5.5가 29.3%를 기록했습니다. 이러한 결과는 근거의 범위가 명확하고 구조화된 과학적 판단이 요구되는 과업에서 모델의 활용 가치가 가장 높음을 시사합니다.

GPT‑Rosalind는 업계 및 학계 전문가들이 과학적으로 중요하다고 평가한 과업 전반에서 가장 우수한 성능을 보였습니다.

GPT‑Rosalind는 산업계 및 학계 전문가들이 중요하다고 평가한 과학적으로 가치 있는 과제 전반에서 최고 수준의 성능을 제공합니다.

AI 시스템이 여전히 한계를 보이는 영역

결과물 활용 비중이 높고, 설계 중심적이며, 운영상의 제약이 큰 과학 업무에서는 성능이 여전히 크게 떨어집니다. 특히 설계, 최적화, 예측은 가장 어려운 워크플로 중 하나로, GPT‑Rosalind의 통과율은 30.7%에 그쳤습니다. 분석 역시 30.3%로 비슷한 수준의 어려움을 보였습니다.

결과물 활용은 특히 뚜렷한 취약점으로 나타났습니다. GPT‑Rosalind는 결과물 활용 비중이 높은 과업에서 GPT‑5.5보다 우수한 성능을 보였지만, 통과율은 텍스트 전용 과업에서는 45.1%였던 반면 결과물 또는 URL이 포함된 과업에서는 28.1%에 그쳤습니다. GPT‑5.5 역시 통과율이 29.9%에서 21.9%로 낮아지는 동일한 경향을 보였습니다. 보다 상세한 분석 결과, 프런티어 모델은 복잡한 그림이나 대규모 서열 파일에서 정보를 추출하고 이를 최종 답변에 통합하는 데 어려움을 겪는 것으로 확인되었습니다.

출처에 근거한 추론이나 결과물 활용이 필요한 과업에서는 통과율이 낮아집니다

응답 형식 역시 중요한 영향을 미칩니다. 정확한 서열, 구조 또는 구성체 수준의 결과물을 요구하는 과업은 통과율이 더 낮았습니다. GPT‑Rosalind의 통과율은 수치형 과업에서 14.8%, 서열 또는 구조 결과물을 요구하는 과업에서는 24.0%에 그쳤습니다. 구성체 생성 과업 역시 불안정한 영역으로 나타났으며, GPT‑Rosalind의 통과율은 27.3%로 GPT‑5.5 대비 개선 폭도 크지 않았습니다. 이러한 차이의 일부는 정답이 정해진 과업에 적용되는 보다 엄격한 채점 기준 때문일 수 있습니다. 이러한 과업에서는 계산이나 형식의 작은 차이만으로도 통과 기준에 미달할 수 있습니다. 그럼에도 이러한 실패는 과학적으로 중요한 의미를 갖습니다. 많은 생명과학 워크플로에서는 CRISPR/HDR 공여체 설계나 siRNA 설계와 같이 결과물을 직접 활용할 수 있을 정도의 정확성이 요구되기 때문입니다.

또한 모델은 과업을 완전히 해결하지 못하더라도 상당 부분까지는 올바르게 수행하는 경우가 많았습니다. 약 14%의 과업에서 모델은 통과 기준에는 미달했지만 평가 기준상 상당한 점수를 획득했습니다. GPT‑Rosalind의 경우 109개 과업에서 통과율은 20% 미만이었음에도 평가 기준 점수의 50% 이상을 획득했습니다. 실제로 이는 모델이 관련 근거를 식별하거나 그럴듯한 부분 답변을 제시할 수는 있지만, 중요한 제약 조건을 놓치거나, 부적절한 근거를 사용하거나, 계산을 완전히 수행하지 못하거나, 추론 결과를 과학적으로 유용한 최종 의사결정으로 연결하지 못해 결국 과업을 통과하지 못할 수 있음을 의미합니다.

한계와 향후 과제

LifeSciBench는 AI 시스템이 생명과학 연구에 얼마나 유용할 수 있는지를 측정하기 위한 중요한 진전이지만, 실제 연구 환경에서 모델을 평가하는 것을 대체할 수는 없습니다. 이 벤치마크는 업계에서 반복적으로 수행되는 워크플로를 반영한 독립적인 과업에 초점을 맞추고 있으며, 많은 과학 분야와 과업 유형은 아직 현재 범위에 포함되지 않습니다. 실제 연구는 반복적인 과정입니다. 연구자들은 새로운 근거를 수집하고, 가설을 수정하며, 후속 실험을 설계하고, 결과에 따라 연구 계획을 조정합니다.

따라서 LifeSciBench에서 높은 성과를 보였다고 해서 이를 실제 연구 성과에 대한 직접적인 척도로 해석해서는 안 됩니다. 오히려 이는 현실적인 연구 과업을 수행할 수 있는 역량을 보여주는 근거로 해석해야 합니다. 이 벤치마크는 업계의 실제 워크플로를 기반으로 설계되었지만, 실제 연구 프로그램이 지닌 다양한 특성과 변화하는 과정을 모두 반영하지는 못합니다. 실제 연구의 진전은 시간이 지나면서 드러나는 여러 요인의 영향을 받기 때문입니다.

다음 단계는 벤치마크 성과와 실제 연구 워크플로에서의 활용 연구를 연결하는 것입니다. LifeSciBench는 현업 과학자들과 함께 개발되었지만, AI 시스템이 과학적 발견을 가속화하거나 연구개발(R&D) 성과를 향상시키는지를 평가하려면 실제 연구 환경에서의 모델 활용과 성능을 연구해야 합니다. 또한 이러한 평가는 더 긴 기간에 걸쳐, 그리고 반복적인 추론, 피드백, 후속 실험 과정을 포함해 이루어져야 합니다.