OpenAI는 기업 규모의 생명과학 연구를 위해 설계된 GPT‑Rosalind 시리즈의 새로운 모델 업데이트를 공개합니다. 이 모델은 GPT‑5.5의 에이전틱 코딩 및 도구 활용 기능에 의약화학과 유전체학 같은 핵심 신약 개발 분야의 향상된 전문 역량을 결합했으며, 생명과학 전반의 분석, 설계 및 실험 워크플로에서도 성능을 향상시켰습니다.
생명과학의 발전은 분자, 유전자, 생물학적 경로, 생명체 수준에 이르는 다양한 규모와 형태의 데이터 및 과학적 근거를 종합하는 능력에 달려 있습니다. OpenAI의 평가 결과, 업데이트된 GPT‑Rosalind는 생물학 전문가 수준의 연구 과제, 복잡한 의약화학 질의, 정량생물학 분석, 습식 실험 문제 해결 등 다양한 영역에서 폭넓은 성능 향상을 보였습니다.
GPT‑Rosalind는 이제 OpenAI의 신뢰 기반 접근 체계를 통해 전 세계 자격 요건을 충족하는 조직에 연구 프리뷰 형태로 제공됩니다.
OpenAI는 GPT‑Rosalind가 실제 연구 현장에 미치는 영향을 측정하고 지속적으로 개선하기 위해, 외부 전문가 평가를 기반으로 하는 생명과학 연구 벤치마크인 LifeSciBench를 개발했습니다. 기존 벤치마크가 모델 성능의 특정 요소나 개별 생물학 분야만을 평가하는 경우가 많았다면, LifeSciBench는 생명과학 연구의 핵심 워크플로인 근거 자료 처리, 분석, 설계 및 최적화, 과학적 추론, 검증 및 운영, 번역 및 커뮤니케이션의 여섯 영역에서 과제를 선정하여 과학적으로 가치 있는 작업을 처음부터 끝까지 종합적으로 평가합니다. OpenAI는 이 벤치마크를 활용해 모델의 발전 방향이 실제 생명과학 연구의 요구와 현실에 부합하도록 하고 있습니다.
GPT‑Rosalind는 산업계 및 학계 전문가들이 중요하다고 평가한 과학적으로 가치 있는 과제 전반에서 최고 수준의 성능을 제공합니다.
논문, 그림, 표 및 실험 기록에서 과학적 근거를 추출하고, 상호 대조 및 검증하며, 감사할 수 있습니다.
평가 예시
We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.
Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:
- Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
- 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
- Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
- 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
- Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
- Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
- Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.
Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.
후보자 응답
결론: 현재 제시된 자료만으로는 마이크로 디스트로핀 발현을 임상적 유익성을 합리적으로 예측할 수 있는 대리 엔드포인트로 인정하여 가속 승인을 뒷받침하기에 충분하지 않습니다. 비판적인 시각의 FDA 심사관이라면 바이오마커, 기능적 효과, 지속성, 안전성 및 일반화 가능성에 대한 근거가 전반적으로 부족하다고 판단할 가능성이 높습니다.
패키지 항목 | 주요 한계 | 필요한 보완 사항 |
|---|---|---|
웨스턴 블롯 정량 분석 | MANEX1A는 내인성 전장 디스트로핀과 마이크로 디스트로핀 트랜스진이 공통으로 갖는 N-말단 에피토프에 결합하므로, 해당 분석법으로는 트랜스진 유래 단백질과 잔존 또는 리버턴트 디스트로핀을 명확하게 구분할 수 없습니다. 또한 138 kDa 마이크로 디스트로핀을 건강한 사람의 전장 디스트로핀 표준물질과 비교하여 정량하는 방법 역시 타당하지 않습니다. | 재조합 마이크로 디스트로핀 표준물질을 사용하고, 표적 질량분석법 또는 트랜스진 특이적, 에피토프 특이적 분석법과 같이 트랜스진 유래 디스트로핀과 내인성 디스트로핀을 구별할 수 있는 독립적인 검증 방법을 적용해야 합니다. |
면역형광 | 138 kDa 구조체에는 C-말단 도메인이 존재하지 않기 때문에 C-말단 다클론 항체는 적절한 분석 도구가 아닙니다. 또한 많은 DMD 환자에게는 리버턴트 섬유가 존재하며, 리버턴트 디스트로핀은 C-말단 에피토프를 유지할 수 있습니다. 리버턴트 섬유는 나이가 들수록 클론성으로 확장될 수 있으므로, 특히 연령이 높은 남아에서는 면역형광(IF) 신호에 편향을 유발할 수 있습니다. | 트랜스진에는 존재하지만 리버턴트 디스트로핀에는 존재하지 않는 에피토프를 표적으로 하는 항체를 사용하여 면역형광 분석을 다시 수행해야 합니다. 또한 트랜스진 양성 섬유와 리버턴트 섬유를 구분하여 각각 정량해야 합니다. |
대리 엔드포인트의 타당성 | 해당 자료는 단백질 양과 임상적 기능을 동일시하고 있습니다. 마이크로 디스트로핀은 구조적으로 축약된 단백질이므로, '건강한 대조군 단백질량의 38%'가 정상 디스트로핀 기능의 38%를 의미하는 것은 아닙니다. | 발현량을 대리 엔드포인트로 활용하기 전에 마이크로 디스트로핀 발현 비율, 근섬유막 국소화, 하위 기능 회복 및 임상적 유익성 간의 관계를 실증적으로 입증해야 합니다. |
생검 설계 | 치료 전후에 반대측 외측광근에서 생검을 수행하는 방식은 좌우 차이와 근육 내 위치에 따른 변동성을 초래할 수 있습니다. 또한 질환 진행과 섬유지방성 대체 역시 총 단백질 기준으로 정규화된 신호에 영향을 줄 수 있습니다. | 일관된 해부학적 기준점을 사용하여 생검 위치를 표준화하고, 근육 특이적 단백질을 기준으로 정규화하며, 섬유지방성 조직 비율도 함께 측정해야 합니다. |
NSAA 비교군 및 통계 분석 | 외부 자연경과 코호트는 무작위 배정된 동시 비교군이 아닙니다. 시험 참여 기준, 보조 치료, 연구 참여 효과, 기저 NSAA 점수, 스테로이드 투여 요법, 연령 및 엑손 유형 등은 모두 비교 결과에 편향을 초래할 수 있습니다. 따라서 독립 표본 t-검정만으로는 충분하지 않습니다. 또한 NSAA 점수 1.4점 증가는 해당 연령대에서 관찰되는 검사-재검사 변동 범위 내에 해당합니다. | 무작위 배정된 동시 위약 대조 연구를 수행하거나, 최소한 기저 NSAA 점수, 연령, 스테로이드 투여 요법, 엑손 유형 및 기타 교란 요인을 보정한 분석을 수행해야 합니다. |
연령 구간에 따른 교란 | 4~7세 남아는 질병 진행이 본격화되기 전에 치료받지 않은 보행 가능 DMD 환자에서도 운동 기능이 향상될 수 있는 발달 단계에 해당합니다. 따라서 48주 동안의 NSAA 변화에는 발달에 따른 향상, 질병 진행, 그리고 잠재적인 치료 효과가 모두 혼재되어 있을 수 있습니다. | 발달에 따른 변화와 치료 효과를 구분할 수 있도록 연령층화가 적용된 무작위 동시 대조군 연구를 수행해야 합니다. |
기존 임상 사례 | 공개형 연구에서 관찰된 마이크로 디스트로핀의 기능적 신호는 확증적 임상적 유익성을 일관되게 예측하지 못했습니다. 실제로 공개형 연구에서 확인된 NSAA 개선 효과가 후속 확증 임상시험에서는 재현되지 않은 마이크로 디스트로핀 유전자 치료 사례가 보고된 바 있습니다. | 공개형 연구에서의 NSAA 변화만을 결정적 근거로 삼아서는 안 되며, 통제된 환경에서 확보된 기능적 근거가 필요합니다. |
구조체의 한계 | 138 kDa 구조체는 nNOS 결합 부위를 포함하는 스펙트린 반복 영역 R16/17이 제거되어 있습니다. 이로 인해 nNOS의 적절한 모집이 이루어지지 않을 수 있으며, 운동 중 기능적 교감신경 억제 및 허혈 보호 기능이 저하될 수 있습니다. 따라서 발현 수준과 무관하게 치료 효과에 기전적 한계가 존재할 수 있습니다. | 이 구조체가 디스트로핀 연관 복합체의 기능, nNOS의 정상적 위치 확보, 운동 생리 기능 및 근육 보호 기능을 실제로 회복시키는지를 보여주는 기전 연구가 추가로 필요합니다. |
AAV 지속성 | 12주 시점의 벡터 게놈 존재만으로는 지속적인 발현이 입증되지 않습니다. AAV9 게놈은 대부분 숙주 유전체에 통합되지 않는 에피좀 형태로 존재하며 시간이 지남에 따라 감소할 수 있습니다. 따라서 벡터 게놈의 잔존은 단백질 발현의 지속성을 의미하지 않습니다. | 12주 이후에도 트랜스진 단백질 발현과 기능성 바이오마커의 지속성을 장기적으로 평가해야 합니다. |
면역 및 안전성 프로파일 | 12명 중 8명에서 관찰된 간효소 상승은 AAV가 도입된 세포에 대한 면역반응과 일치하는 소견이지만, 정확한 기전은 확인되지 않았습니다. 또한 AAV9가 심장 조직 친화성을 가진다는 점을 고려하면 심근염 1건은 우려되는 결과입니다. | 보다 심층적인 면역 모니터링과 간/심장 안전성 평가, 그리고 강화된 심장 추적관찰이 필요합니다. |
환자 선정 및 일반화 가능성 | AAV9 중화항체 양성 환자를 제외한 것은 결과의 일반화 가능성을 제한합니다. 또한 엑손 44 결손 환자를 제외함으로써 해당 DMD 하위 집단에 대한 적용 가능성도 제한됩니다. 표본 수가 12명에 불과해 보다 넓은 DMD 환자 집단에서의 안전성과 유효성을 평가하기에는 부족합니다. | 가능한 경우 대상자 선정 기준을 확대하거나, 최소한 항체 상태, 유전자형·엑손 유형, 연령 및 기저 기능 수준에 따른 층화 분석을 사전에 계획한 후 그 결과를 승인 근거로 활용해야 합니다. |
규제 관점의 결론: 현재 자료는 생물학적 활성을 보여줄 수는 있으나, 측정된 마이크로 디스트로핀 발현이 임상적 유익성을 합리적으로 예측할 수 있는 신뢰성 있는 대리 엔드포인트임을 입증하기에는 부족합니다. 주요 한계는 분석법의 특이성 부족, 부적절한 정량 기준, 리버턴트 섬유에 의한 잠재적 교란, 무작위 대조군 부재, 연령에 따른 NSAA 교란 효과, 불확실한 지속성, 그리고 해결되지 않은 안전성 및 일반화 가능성 문제입니다.
이러한 한계를 해소하려면 트랜스진 특이적 발현 분석법, 독립적인 단백질 정량 방법, 조직 구성에 대한 통제, 장기 지속성 데이터, 축약형 구조체에 대한 기전 기반 기능 평가, 그리고 특히 간 및 심장 안전성에 대한 강화된 모니터링을 포함한 연령층화 무작위 대조 임상 설계가 필요합니다.
루브릭 기준 및 등급
GPT‑Rosalind는 분자를 실제 의약품으로 전환하는 연구 분야인 의약화학에서 업계 최고 수준의 성능을 달성했습니다. OpenAI는 실제 의약화학 연구 워크플로를 반영하기 위해 MedChemBench를 설계했으며, 이를 통해 멀티모달 화학 구조 이해, 구조-활성 관계(SAR) 분석, 약물의 효능, 독성, 흡수, 분포, 대사, 배설(ADME) 예측, 다중 매개변수 기반 리드 최적화 의사결정, 역합성 능력을 평가합니다. GPT‑Rosalind는 MedChemBench에서 GPT‑5.5의 25.1%를 넘어 27.5%의 성능을 기록했으며, 동시에 토큰 사용량은 7.2% 더 적었습니다.
GPT‑Rosalind는 의약화학 분야에서 더욱 뛰어난 멀티모달 정보 통합 능력과 기전적 추론 능력을 보여줍니다.
유전체학 및 정량생물학 분야의 장기적인 엔드투엔드 분석 능력을 평가하는 OpenAI의 에이전틱 벤치마크인 GeneBench에서 GPT‑Rosalind는 GPT‑5.5보다 31% 적은 토큰을 사용하면서도 20.4% 대비 21.6%의 더 높은 정확도를 달성했습니다. GeneBench는 장기적인 정량 분석 과제에서의 에이전틱 성능을 평가합니다. 즉, 실제 과학 데이터를 바탕으로 에이전트가 적절한 분석, 품질 관리(QC), 모델링 및 수정 작업을 계획하고 수행하여 의사결정에 활용할 수 있는 결과를 도출할 수 있는지를 평가합니다. 평가 과제에는 기능 유전체학, 공간 전사체학, 단백질체학, 후성유전체학, 응용 유전학 등 다양한 분야가 포함됩니다.
GPT‑Rosalind는 GPT‑5.5보다 31% 적은 토큰을 사용하면서도 더 높은 정확도를 제공합니다.
OpenAI는 실제 연구 현장에서 실험을 수행하는 과학자를 지원하는 GPT‑Rosalind의 능력을 평가하기 위해 새로운 평가 체계인 LabWorkBench를 도입했습니다. LabWorkBench는 과학자들이 실제로 사용하는 습식 실험실 프로토콜을 기반으로, 모델이 실험적 개입과 실험 결과 사이의 관계를 이해하고 문제 해결부터 최적화에 이르는 다양한 연구 과제를 지원할 수 있는지를 평가합니다. LabWorkBench에 사용된 데이터는 독점 데이터이며 모델 학습 데이터에 포함되지 않았습니다. GPT‑Rosalind는 GPT‑5.5의 55.8% 대비 63.2%의 성능을 기록했으며, 토큰 사용량은 5.3% 더 적었습니다.
실제 습식 실험실 프로토콜 지원 작업에서 GPT‑Rosalind는 토큰 효율성을 개선하면서도 GPT‑5.5 대비 성능이 크게 향상된 결과를 보였습니다.
Life Sciences Research(새 창에서 열기) 플러그인과 Life Sciences NGS Analysis(새 창에서 열기) 플러그인은 반복 가능한 과학 연구 워크플로를 실제로 실행할 수 있도록 GPT‑Rosalind의 향상된 지능에 실용적인 실행 계층을 추가하기 위해 개발되었습니다. 이 플러그인들은 출처가 명확한 근거 자료 검색, 생물학적 해석 및 생물정보학 분석 실행 기능을 하나의 워크스페이스에 통합하여 연구자들이 외부 근거 자료와 내부 오믹스 분석 결과를 연결할 수 있도록 지원하며, 동시에 결과물과 출처 정보도 보존합니다. 이제 모든 사용자가 Codex를 통해 두 플러그인에 접근할 수 있으며, 자격을 갖춘 GPT‑Rosalind Enterprise 사용자는 GPT‑Rosalind를 기반 모델로 사용하여 해당 플러그인을 활용할 수 있습니다.
OpenAI는 Codex를 과학자를 위한 동적인 연구 작업 환경으로 더욱 효과적으로 활용할 수 있도록 생명과학 분야의 주요 파일 형식을 위한 대화형 뷰어를 추가했습니다. 새롭게 제공되는 서열, 정렬 및 구조 뷰어는 GPT‑Rosalind가 워크플로 전반에 걸쳐 추론하는 과정에서도 과학자들이 근거 자료를 직접 확인할 수 있도록 설계되었으며, 활성화된 뷰어의 정보를 활용해 후속 질문에도 바로 답변할 수 있습니다.
위 데모는 GPT‑Rosalind가 이러한 기능을 실제로 어떻게 조율하는지 보여줍니다. 예시에서는 액체 종양 생검을 분석하는 과학자가 치료에 도움이 될 수 있는 돌연변이와 기타 분자적 변화를 식별하는 과정을 따라갑니다. Life Sciences NGS Analysis 플러그인은 처리된 ctDNA 기록 검토 작업을 대화형 노트북으로 변환하고, 반복적으로 나타나는 변이, 낮은 빈도의 변이 호출 결과 및 샘플 변화 추이를 보여주어 분석의 초점을 KRAS G12C에 맞출 수 있도록 지원합니다. 이어서 Life Sciences Research 플러그인은 출처가 명확한 표적, 저해제 및 내성 관련 정보를 제공하며, 기본 제공되는 서열, 정렬 및 구조 뷰어를 통해 과학자는 돌연변이 잔기 12번 위치, RAS 계열 전반에서의 보존성, 그리고 저해제가 결합된 포켓 구조를 직접 확인할 수 있습니다. 마지막으로 이 워크플로는 수집된 근거를 구체적인 후속 연구 옵션으로 연결하며, 각 단계의 결과물과 분석 기록은 모두 전문가 검토에 활용할 수 있습니다.

Life Sciences NGS Analysis 플러그인
scRNA-seq 품질 관리 및 주석

10x 형식의 매트릭스 데이터를 Codex에서 검토하고 수정할 수 있는 QC 필터링 완료 단일세포 분석 결과물, 주석 정보 및 UMAP으로 변환합니다. Life Sciences NGS Analysis 플러그인은 요청을 scrna-seq-qc 워크플로로 전달하고, 데이터에 기반해 QC 기준값을 자동으로 선택하며, 필터링 및 주석 과정의 출처 정보를 보존합니다. 또한 이중세포 검출에 필요한 의존성 누락과 같은 문제 요소도 함께 표시합니다.
벌크 RNA-seq FASTQ QC

벌크 RNA-seq 샘플 시트, FASTQ 파일 묶음 및 참조 파일을 Codex에서 검토하고 재사용할 수 있는 QC 검토 완료 카운트 데이터 묶음으로 변환합니다. Life Sciences NGS Analysis 플러그인은 요청을 적절한 분석 워크플로로 전달하고 입력 데이터를 검증한 뒤, MultiQC 결과, Salmon 매트릭스, 출처 정보 및 명시적인 주의 사항이 포함된 감사 가능한 실행 결과를 제공합니다.
OpenAI는 전 세계 자격 요건을 충족하는 조직을 대상으로 GPT‑Rosalind 시리즈에 대한 접근을 확대하고 있습니다. GPT‑Rosalind는 명확한 공익적 목적을 가진 정당한 과학 연구를 수행하고, 강력한 거버넌스 및 안전 감독 체계를 갖추고 있으며, 엔터프라이즈급 보안이 적용된 접근 통제 환경을 운영하는 조직을 대상으로 신뢰 기반 접근 및 배포 체계를 통해 연구 프리뷰 형태로 제공됩니다.
이번 글로벌 확대의 일환으로 OpenAI는 GPT‑Rosalind를 활용해 Novo Nordisk의 의학 연구 확장을 지원함으로써 혁신적인 치료 옵션을 환자들에게 더 빠르게 제공하려는 Novo Nordisk의 목표를 지원하게 되어 기쁘게 생각합니다. Novo Nordisk는 프런티어 AI 역량을 활용해 연구자들이 복잡한 데이터 세트를 분석하고, 유의미한 패턴을 발견하며, 가설을 더욱 신속하게 검증할 수 있도록 지원하고 있습니다. GPT‑Rosalind의 향상된 생물학적 이해 능력은 문헌, 유전체학, 전사체학, 서열 정보, 구조 정보 및 실험 결과 전반에 걸친 근거를 연결하여 데이터로부터 보다 명확한 연구 의사결정에 도달할 수 있도록 지원합니다.
"생명과학 연구는 복잡하고 데이터가 풍부하며 학제 간 협력이 필수적인 분야입니다. 연구자들에게 실질적인 가치를 제공하려면 고도화된 AI 모델이 신뢰할 수 있는 과학 데이터에 기반해야 하며, 검증된 도구와 연결되고 연구자들이 실제로 사용하는 연구 워크플로에 통합되어야 합니다. OpenAI와 협력하고 GPT‑Rosalind가 보다 엄격하고 실용적인 신약 개발 접근 방식을 어떻게 지원할 수 있는지 함께 탐구할 수 있게 되어 기쁘게 생각합니다."
미샬 파텔, Novo Nordisk 연구개발(R&D) 부문 AI 및 디지털 혁신 그룹 부사장
또한 OpenAI는 Enterprise 계정이 없는 자격 요건 충족 조직을 위해 OpenAI가 관리하는 워크스페이스도 제공하고 있습니다.
업데이트된 GPT‑Rosalind는 과학적 발견을 가속화하는 동시에 고도화된 생물학적 역량이 적절한 안전장치 아래 활용될 수 있도록 지원하는 AI 시스템을 구축하려는 OpenAI의 지속적인 노력의 다음 단계입니다. OpenAI는 앞으로도 모델의 생물학적 추론 능력을 개선하고, 다양한 도구를 활용하는 장기 연구 워크플로에 대한 지원을 확대하며, 여러 지역의 자격 요건 충족 조직과 협력해 실제 연구 현장에서의 영향을 평가해 나갈 것입니다.
이는 또한 신약 개발과 중개 의학부터 공중보건, 대비 태세 및 생물방어에 이르기까지 사회적 영향력이 큰 공익 목적의 분야에 생명과학 AI를 적용하는 것을 의미합니다. OpenAI는 Rosalind Biodefense와 신뢰 기반 접근 및 배포 모델을 통해 인류 건강 증진과 사회적 회복력 강화를 위해 노력하는 연구자, 기관 및 방어 조직이 프런티어 수준의 생물학적 역량을 활용할 수 있도록 지원하고자 합니다.
OpenAI는 GPT‑Rosalind가 과학 연구의 전체 라이프사이클에 걸쳐 더욱 유능한 파트너가 될 수 있도록 지속적으로 발전시켜 나갈 것입니다. 이를 통해 과학자들이 올바른 질문에서 출발해 보다 명확한 근거를 확보하고, 더 나은 실험을 설계하며, 궁극적으로는 환자를 위한 새로운 치료법 개발에 더욱 빠르게 도달할 수 있도록 지원할 것입니다.


