메인 콘텐츠로 건너뛰기
OpenAI

2025년 12월 16일

리서치발표

실험실 환경에서 생물학 연구의 속도를 높이는 AI의 역량 평가

GPT‑5는 새로운 실험실 프로토콜 개선안을 도출하여 분자 클로닝 프로토콜의 효율을 79배까지 높였습니다.

부드러운 파란색-주황색 그라데이션을 배경으로 ‘OpenAI for Science’ 아래에 DNA 어셈블리 도식과 ‘Biology Research’라는 굵은 텍스트가 배치된 콜라주 스타일 그래픽이 표시되어 있습니다.
로딩 중...

과학 발전의 속도를 높이는 일은 AI가 인류에 기여할 수 있는 가장 가치 있는 방식 가운데 하나입니다. GPT‑5를 통해 이러한 가능성의 초기 신호가 드러나기 시작했습니다. 이는 연구자가 방대한 과학 문헌을 더 빠르게 살펴보는 데 그치지 않고 예상치 못한 연관성을 발견하거나 증명 전략을 제안하며 전문가가 평가하고 검증할 수 있는 작동 메커니즘을 제시하는 등 새로운 형태의 과학적 추론을 지원하는 방향으로 확장되고 있습니다.

지금까지 성과는 물리적 실험 없이도 아이디어를 엄밀하게 검증할 수 있는 수학, 이론 물리학, 이론 컴퓨터 과학 같은 분야에서 특히 두드러졌습니다. 하지만 생물학은 성격이 다릅니다. 대부분의 발전은 실험실에서 실험을 수행하고 이를 반복하며 경험적으로 검증하는 과정에 의존합니다.

OpenAI는 이러한 환경에서 최첨단 모델이 어떻게 작동하는지를 이해하기 위해 생물 보안 스타트업인 Red Queen Bio와 협력해 실험실 환경에서 모델이 아이디어를 제안하고 분석하고 반복적으로 개선하는 과정을 평가하는 프레임워크를 구축했습니다. 또한 간단한 분자생물학 실험 시스템을 마련해 GPT‑5가 분자 클로닝 프로토콜의 효율을 최적화하도록 했습니다.

GPT‑5는 여러 차례의 실험을 거치며 클로닝 효율을 79배까지 끌어올리는 새로운 메커니즘을 도입했습니다. 클로닝은 분자 생물학에서 가장 기본적인 도구입니다. 클로닝 방법의 효율은 단백질 공학(새 창에서 열기), 유전적 스크리닝(새 창에서 열기), 생물체 균주 공학(새 창에서 열기)의 핵심이 되는 복잡한 대규모 라이브러리를 만드는 데 매우 중요한 요소입니다. 이번 프로젝트는 AI가 생물학자와 나란히 협력하며 연구 속도를 높일 수 있는 가능성을 시사합니다. 실험 방법의 개선을 통해 연구자는 더 빠르게 연구를 진행하고 비용을 줄이며 학문적 발견을 현실 세계의 성과로 이어갈 수 있습니다.

생물학적 추론의 발전이 생물 보안에 미칠 수 있는 영향을 고려해 이번 연구는 통제된 환경에서 진행되었습니다. 무해한 실험 시스템과 제한된 과제를 사용해 모델의 행동을 관찰했으며 OpenAI의 준비성 평가 체계(새 창에서 열기)에 따라 생물 보안 위험을 점검하고 그 결과를 바탕으로 모델과 시스템 차원의 보호 장치를 마련했습니다.

실험 결과

이 실험 환경에서 GPT‑5는 클로닝 프로토콜을 스스로 분석해 수정안을 제안하고 새로 얻은 실험 데이터를 반영해 추가 개선안을 도출했습니다. 인간의 개입은 수정된 프로토콜을 과학자가 실행하고 실험 데이터를 업로드하는 작업으로 제한되었습니다.

여러 차례의 반복 과정을 거치며 GPT‑5는 클로닝 절차를 최적화해 효율을 79배 이상 끌어올렸습니다. 이는 동일한 양의 입력 DNA로 기존 프로토콜보다 염기서열이 검증된 클론을 79배 더 많이 확보했다는 뜻입니다. 특히 주목할 점은 새로운 작동 메커니즘을 이루는 두 가지 효소를 도입했다는 점입니다. 하나는 대장균 유래 재조합 효소 RecA이고 다른 하나는 박테리오파지 T4의 유전자 32 단일가닥 DNA 결합 단백질인 gp32입니다. 두 효소가 함께 작용하면서 gp32는 느슨해진 DNA 말단을 정리하고 풀어주었으며 RecA는 각 가닥이 올바른 짝을 찾도록 이끌었습니다.

초기 스크리닝과 후속 실험을 통해 효소 단계에서는 RecA-Assisted Pair-and-Finish HiFi 어셈블리(RAPF)가, 형질전환 단계에서는 Transformation 7(T7)이 각각 가장 우수한 프로토콜로 확인됐습니다. RAPF 어셈블리는 기존 HiFi 클로닝 프로토콜 대비 클로닝 효율을 2.6배 향상시켰고, T7 형질전환은 36배의 개선 효과를 보였습니다. 두 방법을 결합했을 때는 성능이 누적되어 총 79배의 효율 향상이 나타났습니다. 모든 클론은 염기서열 분석을 통해 확인됐습니다. (오차 막대: 독립적인 검증 실험 3회(n=3)의 표준편차)

아직 초기 단계이지만 결과는 고무적입니다. 개선 효과가 모델 시스템에서 사용한 특정 클로닝 설정에 한정되고 프로토콜을 구성하고 실행하는 과정에 여전히 인간 과학자의 참여가 필요하다는 한계는 있습니다. 그럼에도 이번 실험 결과는 AI 시스템이 실제 실험실 작업을 의미 있게 지원할 수 있으며 장기적으로는 인간 과학자의 연구 속도를 높일 수 있음을 보여줍니다.

특히 AI가 실험을 반복하는 과정은 인간의 개입 없이 고정된 프롬프트로 운영되었습니다. 그 결과 모델은 인간의 지침 없이도 새로운 프로토콜을 제안할 수 있었지만, 새로운 방식을 탐색하는 데 집중한 나머지 이미 발견된 아이디어의 성능을 충분히 끌어올리지는 못했습니다. 효소 단계와 형질전환 단계 모두 추가로 다듬을 여지가 크기 때문에 탐색과 활용 사이에서 더 나은 균형을 이룬다면 더 큰 성과로 이어질 수 있을 것입니다. 앞으로 계획 수립과 과제 범위에 대한 추론 능력이 발전하면 단순한 고정 프롬프트만으로도 발견과 이후 최적화를 효과적으로 지원할 수 있을 것으로 기대합니다.

실제 프로토콜을 최적화하기 위한 진화적 프레임워크

깁슨 어셈블리(새 창에서 열기) 반응은 2009년 처음 개발되어 지금까지 분자 생물학 전반에서 널리 사용되고 있는 대표적인 클로닝 방식입니다. 이 방식은 DNA 조각의 말단을 잠시 녹여 서로 일치하는 서열이 하나의 분자로 이어지도록 접합합니다. 깁슨 어셈블리의 가장 큰 장점 중 하나는 과정이 단순하다는 점입니다. 모든 반응이 하나의 튜브에서 하나의 온도로 진행되며, 이렇게 단순한 구조 덕분에 개선 지점도 명확하게 드러납니다. 또한 다음과 같은 특성에 따라 실험실 기법을 개선하는 AI 모델의 역량을 평가하는 데에도 적합합니다.

  • 세포 기반 시스템과 달리 구성 요소가 명확하고 통제가 용이함
  • 고정된 양의 선형 DNA로부터 형질전환이 가능한 원형 DNA를 만드는 분명한 최적화 목표를 가짐
  • 실험 주기가 비교적 짧음(1~2일)
  • 버퍼, 시약, 온도 등 다양한 조건이 서로 맞물려 있어 메커니즘에 대한 이해를 바탕으로 조건을 설계해야 함

이번 실험에서 연구진은 New England Biolabs가 개발한 깁슨 어셈블리 기반의 독점 효소 시스템인 HiFi 어셈블리(새 창에서 열기)를 최적화의 출발점으로 삼아, 단일 단계와 등온 제약을 제거한 조건에서 AI가 실험 결과로부터 학습하며 프로토콜 개선안을 도출할 수 있는지를 살펴보았습니다.

구체적으로는 녹색형광단백질(GFP) 유전자와 널리 사용되는 pUC19 플라스미드를 이용해 투피스 클로닝 반응을 수행했습니다. pUC19는 유전자를 박테리아에 전달해 증식시키는 데 쓰이는 표준적인 DNA 운반체입니다. 이번 실험의 목표는 성공적으로 형성되는 집락의 수를 늘리는 것이었습니다.

연구진은 제안을 반복적으로 개선하는 진화적 프레임워크를 도입해 클로닝 반응을 최적화했으며, 모델이 이전 실험 결과를 즉시 반영하며 학습할 수 있도록 했습니다. GPT‑5는 각 라운드마다 8~10개의 서로 다른 반응을 한 묶음으로 제안했고, 실험실에 시약이 준비되어 있지 않은 경우 해당 반응의 수행은 이후 라운드로 미뤄졌습니다. 이후 인간 과학자가 제안된 반응을 수행하고 초기 스크리닝 단계에서 기준점인 HiFi 어셈블리와 비교해 집락 수를 측정했습니다. 이렇게 얻은 결과 가운데 가장 성과가 좋았던 데이터는 다음 라운드에 반영되었습니다. 여기서 중요한 점은 확인을 위한 질문을 제외하고는 인간의 추가 개입 없이 프롬프트를 표준화해 사용했다는 것입니다. 이를 통해 새롭게 발견된 작동 메커니즘이 인간의 개입이 아니라 AI의 판단에서 나온 결과임을 분명히 확인할 수 있었습니다.

이러한 최적화 과정을 거친 뒤 연구진은 도출된 결과 가운데 상위 8개 반응을 선별해 더 넓은 범위의 DNA 희석 조건에서 재시험을 진행했습니다. 그 결과 초기 스크리닝에서 관찰된 효과가 줄어든 경우가 많았습니다. 최종적으로는 5라운드에서 나온 반응 하나가 원래의 성능을 재현하며 가장 강력한 후보로 검증되었습니다. 효과가 높았던 반응 가운데 상당수는 ligase-polish 계열에 속했으며, 이 계열은 유능 세포 상태의 미세한 차이나 반응 이후 DNA 처리 방식에 특히 민감한 것으로 나타났습니다. 이러한 반응은 HiFi 단계를 짧게 사용했기 때문에 많은 생성물이 하나의 접합부만 봉합된 상태로 대장균에 유입됐고, 완전히 연결되지 않은 나머지 부분은 세포의 DNA 수선 메커니즘이 이후 처리했을 것으로 가정합니다. 이러한 조건에서는 결과의 변동성이 커지며 이른바 ‘잭팟’과 같은 양상이 나타납니다. 대부분의 경우 성능 향상이 크지 않더라도, 단 하나의 강력한 이상치가 해당 계열을 다음 라운드로 이끌 수 있습니다.

연구진은 메커니즘이 복잡한 클로닝 반응은 여러 라운드에 걸쳐 최적화하는 데 집중했고, 형질전환 절차는 모델이 여러 독립적인 변경안을 한 번에 제안하는 단일 ‘원샷’ 라운드 방식으로 병행해 최적화한 뒤 그중 가장 효과가 높은 반응을 채택했습니다.

클로닝 워크플로의 두 단계인 효소 어셈블리와 형질전환에 대한 초기 최적화 스크리닝 결과입니다. (왼쪽) 총 44개의 반응을 대상으로, 효소 어셈블리를 5라운드에 걸쳐 반복적으로 최적화했습니다. HiFi 어셈블리를 기준으로 시작해 GPT‑5는 각 라운드마다 8~10개의 어셈블리 프로토콜 변형을 제안했고, 성과가 가장 좋았던 결과는 다음 프롬프트에 반영됐습니다. 각 라운드에는 이전 라운드를 포함해 그 시점까지 가장 높은 효율을 보인 반응을 표시했습니다. (오른쪽) 13가지 서로 다른 프로토콜을 대상으로 형질전환 조건을 단일 원샷 라운드로 최적화했습니다. 두 최적화 스크리닝 모두에서 각 조건의 데이터는 단일 측정값(n=1)을 기반으로 하며, 상위 후보에 대해서는 별도의 반복 검증 실험을 수행했습니다.

표준화된 프롬프트를 사용하고 인간의 개입 없이 진행한 결과 GPT‑5는 클로닝 전 과정의 효율을 79배까지 끌어올렸으며, 이 성과는 반복 실험을 통해 확인됐습니다.

특히 모델은 새로운 효소 기반 절차를 제안하고 이를 RecA-Assisted Pair-and-Finish HiFi Assembly(RAPF-HiFi)라고 명명했습니다. 이 절차는 반응에 두 가지 새로운 단백질을 추가하는 방식으로, 하나는 대장균 유래 재조합 효소 RecA이고 다른 하나는 박테리오파지 T4의 유전자 32 단일가닥 DNA 결합 단백질인 gp32입니다. 또한 모델은 배양 온도와 시간, 효소를 투입하는 시점에도 의도적인 변경을 가했습니다. 먼저 50°C에서 HiFi 반응을 진행한 뒤 RecA와 gp32를 추가해 37°C에서 작동하도록 하고, 이후 다시 50°C로 올려 조립을 완료하는 방식을 제안했습니다. 이러한 변경 사항을 종합한 결과 효율은 2.5배 이상 향상되었습니다. 다만 이는 반응 조건과 타이밍을 반복적으로 최적화하기 전 단계에서 확인된 초기 성능이라는 점에 유의할 필요가 있습니다.

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

형질전환 단계에서는 가장 효과적인 개선이 의외로 매우 단순한 방식에서 나왔습니다. 4°C에서 세포를 원심분리해 바닥으로 모은 뒤 부피를 절반으로 줄이고, DNA를 추가하기 전에 세포를 다시 현탁하는 방법이었습니다. 고효율 화학적 유능 세포는 일반적으로 취급에 민감하다고 여겨지지만, 이 경우에는 농축 과정을 잘 견뎌냈습니다. 그 결과 분자 간 충돌이 증가하면서 형질전환 효율이 크게 향상됐고, 최종 검증 기준으로 30배를 넘는 개선 효과가 확인됐습니다. 

상동성 기반 클로닝에 대한 새로운 접근

RecA 보조 pair-and-finish HiFi DNA 어셈블리의 단계를 보여주는 도식으로, DNA 가닥에서 T5 엑소뉴클레이스, gp32, RecA, 중합효소, 연결효소가 순차적으로 작용하는 과정이 표시돼 있습니다.

T5 엑소뉴클레이스는 3′ 오버행을 생성하며, gp32는 이차 구조 형성을 억제해 이를 안정화합니다. 이후 RecA가 3′ 말단에서 침투해 gp32를 대체하고, 상동성 탐색과 어닐링을 촉진합니다. 마지막으로 50 °C로 가열하면 두 단백질이 제거되어 중합효소에 의한 간극 메움과 연결 반응이 가능해집니다.

깁슨 어셈블리는 DNA 조각의 말단에 서로 맞물릴 수 있는 구조를 만들어 조각들이 자연스럽게 결합하도록 하는 방식입니다. 이 과정에서는 두 가지 효소(중합효소와 연결효소)가 작용해 결합된 DNA를 하나의 분자로 완전히 봉합합니다. RAPF-HiFi에서는 이 결합 과정이 더 안정적으로 이루어지도록 두 가지 단백질을 추가했습니다. 첫 번째인 gp32는 느슨해진 DNA 말단을 정리하고 엉킴을 풀어주는 역할을 합니다. 두 번째인 RecA는 각 DNA 가닥이 올바른 상대를 찾도록 도와 결합을 유도합니다. 이후 온도를 높이면 이 두 단백질이 DNA에서 분리되면서 기존 깁슨 어셈블리 효소가 반응을 마무리할 수 있게 됩니다.

요약하면 성능 향상은 다음과 같은 메커니즘을 통해 이루어진 것으로 가정합니다.

  • gp32가 어닐링되지 않은 단일가닥 DNA(ssDNA) 말단을 감싸 이차 구조를 제거함
  • 구조에 의해 억제되던 RecA가 3’ 말단에서 침투해 gp32 필라멘트를 밀어냄
  • RecA가 ssDNA:ssDNA 상동성 탐색(새 창에서 열기)을 매개해 어닐링을 유도함
  • 다시 50°C로 온도를 올리면 RecA와 gp32 필라멘트가 모두 분리되고, 중합효소와 연결효소가 반응을 마무리할 수 있게 됨

새롭게 적용된 효소들이 실제로 기능하는지 확인하고, 성능 향상이 온도 단계나 버퍼 변화만으로 이루어진 것은 아님을 확인하기 위해 연구진은 RecA를 제외한 조건과 RecA와 gp32를 모두 제외한 조건에서 RAPF-HiFi의 성능을 각각 시험했습니다. 그 결과 두 조건 모두에서 RAPF-HiFi 대비 성능이 감소했으며, 이는 RAPF-HiFi의 작동 메커니즘에 두 단백질이 모두 필요하다는 점을 시사합니다.

기저 메커니즘을 검증하기 위해 반응에 새로 추가된 두 효소인 RecA와 gp32를 각각 분리해 실험했습니다. 그 결과 두 효소 가운데 하나만 제외해도 HiFi 기준 대비 효율이 감소했으며, 두 효소를 모두 포함한 RAPF 조건에서만 효율이 유의미하게 증가해 약 2.6배의 개선 효과가 확인됐습니다. (오차 막대: 독립 실험 3회(n=3)의 표준편차)

RAPF-HiFi의 개발 과정은 GPT‑5가 복잡하고 다차원적인 추론을 수행할 수 있음을 보여줍니다.

현재까지 알려진 바로는 RecA와 gp32가 분자생물학 기법에서 기능적으로 함께 사용된 사례는 없습니다. 많은 새로운 분자생물학 기술이 그렇듯, 개별적인 생화학적 작용 자체는 이미 연구돼 있었지만 이를 실용적이고 일반화 가능한 방법으로 결합해 활용했다는 점이 이번 연구의 핵심적인 성과입니다.

일례로 RecA와 gp32의 상호작용은 기작을 재구성하는 시험관 내 실험을 통해 이미 연구된 바 있습니다. D 루프 형성 연구에서는 gp32가 RecA의 활성을 강화할 수 있음(새 창에서 열기)이 확인되었습니다. gp32는 자연적인 T4 재조합효소 파트너인 UvsX와 재조합효소 적재 인자인 uvsY와 함께 재조합효소 중합 증폭(RPA)(새 창에서 열기) 과정에서 사용되어 왔습니다. 한편 RPA 특허 문서(새 창에서 열기)에서는 손상된, 즉 공학적으로 변형된 비야생형 gp32 단백질을 사용한 이종 시스템에서 대장균 RecA로 효과적인 RPA 반응을 구현했다고 언급하고 있지만, 이러한 주장은 일부 특허 문헌에서 부수적으로 등장할 뿐이며 공개된 연구 결과로 뒷받침되거나 RecA 기반의 견고한 RPA 시스템으로 채택된 사례는 현재까지 알려진 바 없습니다. SLiCE(새 창에서 열기)라 불리는 한 클로닝 기법은 λ Red 재조합 시스템을 포함한 대장균 전세포 추출물을 사용하는데, 이 과정에서 Red beta가 DNA 결합 단백질과 재조합효소의 이중 역할을 수행하는 것으로 알려져 있습니다. 다만 이번 연구에서는 프롬프트 단계에서 전세포 추출물 사용을 명시적으로 제한했습니다. 또 다른 응용 사례로 Ferrin & Camerini-Otero(새 창에서 열기)는 RecA만을 사용해 상보적인 서열을 기준으로 DNA 분자를 선택적으로 포획했습니다. 한편 gp32는 PCR이라 불리는 DNA 증폭 과정에서 이차 구조를 줄이기 위한 첨가제(새 창에서 열기)로도 사용되어 왔습니다. NABSA 증폭(새 창에서 열기)의 경우 RecA와 gp32 모두에 의해 반응이 향상되는 것으로 보고되었지만, 두 단백질이 각각 독립적으로 효과를 보였을 뿐 시너지 효과는 확인되지 않았습니다. 더 넓게 보면 기존의 깁슨 스타일 DNA 어셈블리 반응을 개선한 사례는 드물며, 그중 가장 주목할 만한 케이스는 어셈블리 효율을 약 2.5배 향상시키는(새 창에서 열기) 열안정성 DNA 결합 단백질인 ET SSB 정도에 그칩니다.

대부분의 활용 사례에서 RAPF-HiFi가 HiFi/깁슨 클로닝이 가진 단순함과 안정성을 대체할 것으로 기대되지는 않습니다. 그럼에도 기존 방식과는 다른 작동 메커니즘을 가진 새로운 어셈블리 경로가 등장했다는 점은 의미가 있습니다. GPT‑5는 기존에 잘 사용되지 않던 재조합 단백질 조합과 반응 진행 방식을 결합해 새로운 해결책을 도출했습니다. 이러한 메커니즘은 구성 요소별로 활용할 수 있는 가능성을 지니고 있어, 다른 분자생물학 실험 흐름에서도 재사용하거나 조합해 적용할 수 있을 것으로 기대됩니다. 연구진은 현재 RAPF-HiFi를 더욱 개선하기 위한 작업도 이어가고 있습니다. 반응 온도와 각 단계의 시간을 조정해 RecA와 gp32의 활성을 유지하면서 엑소뉴클레이스에 의한 과도한 분해를 줄일 수 있으며, 두 단백질의 사용량 역시 추가로 최적화할 여지가 있습니다. 또한 GPT‑5가 제안한 과활성 RecA 변이체에 대해서도 현재 정제 및 검증을 진행하고 있습니다.

형질전환 프로토콜의 경우, 최적화에 성공한 조건들은 상업용 10-beta 유능 세포(새 창에서 열기)의 열충격 효율을 높이기 위해 여러 첨가제와 온도 변화를 조합한 것이었습니다. AI가 제안한 13가지 원샷 형질전환 조건 가운데 가장 효과적이었던 방법은 Transformation 7(T7)으로, 4°C에서 세포를 원심분리해 아래로 모은 뒤 부피를 절반으로 줄이고, DNA를 추가하기 전에 세포를 다시 풀어주는 방식이었습니다. 일반적으로 고효율 화학적 유능 세포는 이런 조작에 취약하다고 여겨져 농축 과정을 피하는 경우가 많습니다. 그러나 실제 실험에서는 세포가 이러한 처리를 충분히 견뎌냈습니다. 세포 하나당 접촉하는 DNA의 양이 늘어나고, 반응을 방해하는 용액 성분이 줄어들면서 열충격이 더 효과적으로 작용했고, 그 결과 형질전환 효율이 크게 증가했습니다. 최종 검증에서는 효율이 30배 이상 향상된 것으로 확인되었습니다.

이 형질전환 프로토콜은 분명 새로운 접근 방식이지만, 세포를 더 이른 단계에서 농축하는 개념적으로 유사한 방식(새 창에서 열기)은 이전에 보고된 사례가 있습니다. 그럼에도 GPT‑5가 제안한 이번 방법은 시판되는 화학적 유능 세포를 그대로 사용할 수 있어 실험실에서 별도로 세포를 준비할 필요가 없으며, 유사한 세포 균주를 사용한 기존 방식보다 더 높은 효율 향상을 달성했다는 점에서 의미가 있습니다.

로봇 시스템

Robot on Rails와 Red Queen Bio는 이 모델 실험 시스템의 처리량을 높이기 위해, 자연어로 작성된 클로닝 프로토콜을 입력받아 실험실에서 실제로 실행할 수 있는 로봇 시스템을 공동으로 구축했습니다.

이 시스템은 세 가지 요소로 구성됩니다. 첫째는 일상적인 영어 표현을 로봇의 동작으로 변환하는 인간-로봇 변환 LLM이며 둘째는 실험 기구를 실시간으로 인식하고 위치를 파악하는 비전 시스템, 셋째는 각 동작을 안전하고 정확하게 수행하도록 경로를 계산하는 로봇 경로 계획기입니다. 그 결과 깁슨 클로닝 프로토콜의 다양한 변형에 맞게 추가로 최적화된, 유연하고 범용적인 실험실 로봇이 구현되었습니다.

연구진은 자율 로봇이 전체 클로닝 실험을 수행할 수 있는지 검증하기 위해 표준 HiFi 방법과 첫 번째 최적화 라운드에서 가장 높은 성과를 보인 AI 수정 프로토콜인 R8을 동시에 실행했습니다.

각 단계에서 로봇이 수행한 작업을 인간 연구자가 수행한 실험과 비교한 결과, 로봇은 액체를 옮기고 혼합하는 작업, 샘플 튜브를 이동하는 작업, 세포에 정밀한 열을 가하는 과정, 그리고 배지 위에 세포를 도말하는 작업 등 다양한 물리적 조작이 필요한 형질전환 절차를 성공적으로 처리했습니다. 인간이 수행한 형질전환과 직접 비교했을 때도 로봇은 기준 대비 유사한 수준의 개선 효과와 품질을 보였습니다. 이러한 결과는 로봇을 이용해 생물학 실험 최적화를 자동화하고 가속화할 수 있는 초기 가능성을 보여줍니다.

로봇과 인간 실험 간의 배수 증가 폭은 유사했지만, 로봇이 수행한 실험에서는 절대적인 집락 수가 수작업에 비해 약 10배 낮았습니다. 이는 액체 취급의 정밀도, 온도 제어 보정, 그리고 수작업 세포 처리에서 나타나는 미묘한 기술적 차이를 재현하는 부분 등에서 추가적인 개선 여지가 있음을 시사합니다.

표준 HiFi 방법(기준)과 개선된 R8 방법을 인간 연구자와 자율 로봇이 각각 수행했으며, 형질전환 효율은 각 조건의 HiFi 기준값을 1.0으로 정규화해 비교했습니다. 인간이 수행한 R8은 2.39배의 개선 효과를 보였고, 로봇이 수행한 R8은 2.13배의 개선 효과를 보여 인간 수행 대비 89% 수준의 성능을 달성했습니다. 절대적인 집락 수는 더 낮았지만, 프로토콜의 성능 순위는 인간과 로봇 간에 유사하게 나타났습니다.

미래

이번 실험은 AI를 통해 과학 발전의 속도를 높이는 미래의 한 단면을 보여줍니다. 이는 실제 세계와 상호작용하며 학습하는 모델이 과학 연구에 활용될 수 있음을 시사합니다. 이번 연구에서는 모델의 역량을 순수하게 측정하기 위해 인간의 개입을 배제했지만, 장기적으로는 AI가 인간 과학자의 실험 설계를 돕고 연구 혁신에 기여할 것으로 기대됩니다.


OpenAI는 과학 발전을 안전하고 책임감 있게 가속하는 과정에서 특히 생물 보안과 관련된 위험을 함께 평가하고 관리하는 일을 중요하게 다루고 있습니다. 이번 평가 결과는 모델이 실제 실험실 환경에서 프로토콜을 개선할 수 있을 정도의 추론 능력을 갖추고 있음을 보여주며, 이러한 역량이
준비성 평가 체계(새 창에서 열기)에서 다루는 생물 보안 이슈와도 맞닿아 있음을 시사합니다. 이에 따라 OpenAI는 잠재적 위험을 줄이기 위해 모델과 시스템 차원에서 필요한 보호 장치를 구축하고, 위험 수준을 지속적으로 점검할 수 있는 평가 체계도 함께 발전시켜 나갈 계획입니다.

작성자

Nikolai Eroshenko, Miles Wang, Rachel Smith, Liliana Abramson, Tejal Patwardhan, Kemo Jammeh, Chase Olle, Azadeh Samadian 및 Nitin Mahadeo