메인 콘텐츠로 건너뛰기
OpenAI

2026년 2월 5일

리서치발표

GPT‑5는 무세포 단백질 합성 비용을 낮춥니다.

Ginkgo Bioworks와 협력하여 AI 기반 자율 실험실을 구축했고, 단백질 생산 비용을 40% 절감했습니다.

로딩 중...

우리는 수학과 물리학처럼 물리적 세계를 직접 다루지 않고도 아이디어를 평가할 수 있는 분야에서 AI의 빠른 진전을 보아 왔습니다. 생물학은 다릅니다. 진전은 실험실을 통해 이루어지며, 과학자들은 시간과 비용이 드는 실험을 수행합니다.

이제 변화가 시작되고 있습니다. 프런티어 모델은 이제 실험실 자동화 시스템과 직접 연결되어 실험을 제안하고, 대규모로 실행하며, 결과로부터 학습하고, 다음에 무엇을 할지 결정할 수 있습니다. 생명과학의 많은 영역에서 병목은 반복 실험이며, 자율 실험실은 이러한 제약을 제거하기 위해 설계되었습니다.

이전 연구에서 우리는 GPT‑5가 폐쇄형 루프 실험을 통해 웻랩 프로토콜을 개선할 수 있음을 보여주었습니다. 여기서는 동일한 접근법이 단백질 생산 비용을 낮출 수 있음을 보여줍니다.

OpenAI는 Ginkgo Bioworks(새 창에서 열기)와 협력해 GPT‑5를 클라우드 실험실에 연결했습니다. 클라우드 실험실은 소프트웨어를 통해 원격으로 운영되는 자동화된 습식 실험실로, 로봇이 실험을 수행하고 그 결과 데이터를 반환합니다. OpenAI는 이러한 lab-in-the-loop 환경을 활용해 널리 사용되는 생물학적 공정인 무세포 단백질 합성(CFPS)을 최적화했습니다. 여섯 차례의 폐쇄형 루프 실험을 통해 이 시스템은 580개의 자동화 플레이트에서 36,000개가 넘는 고유한 CFPS 반응 조성을 시험했습니다. 컴퓨터, 웹 브라우저 및 관련 논문에 대한 액세스가 제공된 후 GPT‑5는 세 차례의 실험만으로 저비용 CFPS 분야의 새로운 최고 수준 성과를 달성했습니다. 그 결과 단백질 생산 비용을 40% 절감했으며, 시약 비용 효율성은 57% 향상되었습니다. 또한 자율 실험실에서 흔히 발생하는 반응 조건 변화에도 더 안정적으로 작동하는 새로운 반응 조성을 제안했습니다.

무세포 단백질 합성이 중요한 이유

무세포 단백질 합성(CFPS)은 살아 있는 세포를 배양하지 않고 단백질을 만드는 방법입니다. DNA를 세포에 넣고 단백질이 생성되기를 기다리는 대신, CFPS는 제어된 혼합물 안에서 단백질 생성 기계를 작동시킵니다. 이 덕분에 과학자들은 많은 실험을 빠르게 수행하고 같은 날 결과를 측정할 수 있어, 신속한 프로토타이핑과 테스트에 실용적인 도구가 됩니다.

단백질은 현대 생물학이 제공하는 핵심 요소입니다. 많은 중요한 의약품이 단백질을 기반으로 합니다. 여러 진단 및 연구 분석은 단백질에 의존합니다. 산업 현장에서는 단백질이 효소로 작용해 화학 공정을 더 친환경적이고 효율적으로 만듭니다. 단백질은 심지어 세탁 세제에도 들어 있습니다. 단백질 생산이 더 빠르고 저렴해지면, 과학자들은 더 많은 아이디어를 더 일찍 시험할 수 있고, 초기 연구를 사람들이 일상에서 혜택을 누릴 수 있는 결과로 전환하는 비용을 줄일 수 있습니다.

CFPS는 이미 이러한 반복 작업에 유용합니다. 하지만 최적화가 까다롭고 규모가 커질수록 비용이 증가한다는 병목이 있습니다.

무세포 단백질 합성은 최적화가 어렵고 비용이 많이 듭니다.

무세포 단백질 합성에는 서로 복잡하게 상호작용하는 다양한 구성 요소가 필요합니다. 여기에는 생산할 단백질 정보를 담고 있는 DNA 주형, 세포 내부의 분자 기계들이 포함된 세포 용해물(cell lysate), 그리고 에너지원부터 염류에 이르는 다양한 생화학적 성분이 포함됩니다. 이처럼 복잡한 시스템 전체를 종합적으로 이해하고 예측하기는 매우 어렵습니다. 따라서 지금까지 많은(새 창에서 열기) 이전(새 창에서 열기) 연구(새 창에서 열기)에서 단백질 생산 비용을 낮추기 위해 다양한 기계 학습 기법을 적용해 왔습니다.

표준 무세포 단백질 합성(CFPS) 조성물과 상용 키트는 대개 사람이 수행하는 속도에 맞춰 가격이 책정되어 있습니다. 자율 실험실은 사람이 수십 개의 반응을 수행하는 시간에 수천 개의 반응을 실행할 수 있습니다. 그 규모에서는 시약 비용이 제한 요소가 됩니다.

CFPS는 직관만으로 최적화하기도 어렵습니다. 여러 상호작용하는 구성 요소가 섞인 시스템이기 때문입니다. 작은 변화도 중요할 수 있지만, 그 효과의 방향이 항상 명확하지 않고, 많은 실험을 하지 않으면 최적의 조합을 찾기 어렵습니다. 기존 접근법으로 비용을 낮추긴 했지만, 탐색 범위를 충분히 살피는 데 많은 노동이 필요해 진전은 점진적인 경향이 있었습니다.

GPT‑5를 로봇 실험실에 연결하기

우리는 GPT‑5와 Ginkgo Bioworks의 클라우드 실험실을 결합해 CFPS 최적화를 위한 폐쇄형 자율 시스템을 구성했습니다.

GPT‑5가 실험 배치를 설계했습니다. 실험실이 이를 실행했습니다. 결과가 모델로 다시 전달되었습니다. 모델은 그 데이터를 사용해 다음 라운드를 제안했습니다. 이 사이클을 여섯 번 반복했습니다.

“AI 기반 자율 실험실”이라는 제목의 다이어그램. GPT-5는 데이터 분석, 생화학적 추론, 가설 생성을 수행하고, 실험 설계를 재구성 가능한 자동화 카트(RAC)에 전달하며, RAC는 실제 실험을 수행하고 액체 취급을 자동화하며 샘플을 배양하고 형광을 측정합니다. RAC는 실험 데이터와 지표를 GPT-5로 다시 전달하여 폐쇄형 피드백 루프를 형성합니다.

GPT‑5는 표준 384웰 플레이트 형식으로 실험 배치를 설계했고, 이를 Ginkgo Bioworks의 클라우드 실험실에서 실행했습니다. 실험이 완료되면 클라우드 실험실이 데이터를 GPT‑5로 전송했고, 모델은 결과를 분석해 새로운 가설을 생성하고 다음 실험 라운드를 설계했습니다.

자율 실험실이 실제로 수행할 수 있는 범위에 맞추기 위해, 모든 실험 실행 전에 엄격한 프로그램 검증을 추가했습니다. 이러한 검증을 통해 AI가 설계한 실험이 자동화 플랫폼에서 물리적으로 실행 가능한지 확인할 수 있었습니다. 문서상으로는 그럴듯해 보이지만 실제 로봇 기반 워크플로에서는 실행할 수 없는 이른바 “문서상 실험”을 사전에 차단했습니다.

전체 실험 기간 동안 이 시스템은 580개의 자동화 플레이트에서 36,000건이 넘는 CFPS 반응을 수행했습니다. 이러한 규모가 중요한 이유는 의미 있는 패턴이 드러나기 시작하기 때문입니다. 생물학에서는 개별 실험 결과에 노이즈가 많이 포함됩니다. 충분한 처리량과 반복 실험이 있어야 의미 있는 신호를 무작위 노이즈와 구분할 수 있습니다. GPT‑5는 관련 논문과 툴에 대한 액세스를 확보한 후 세 차례의 실험과 두 달의 연구를 거쳐 새로운 최고 수준 성과를 달성했습니다. 그 결과 기존 최고 기준(새 창에서 열기) 대비 단백질 생산 비용을 40% 낮출 수 있었습니다.

Ginkgo Bioworks의 재구성 가능한 자동화 카트. 출처: Ginkgo Bioworks

우리가 배운 점

우리는 개선의 핵심은 서로 잘 작동하고, 고처리량 자동화의 현실에서도 안정적인 조합을 찾아내는 데서 비롯되었음을 확인했습니다.

GPT‑5가 이 구성에서는 사람이 이전에 시험하지 않았던 저비용 반응 조성을 찾아냈음을 확인했습니다. 무세포 단백질 합성(CFPS)은 수년간 연구되어 왔지만, 가능한 혼합물의 공간은 여전히 큽니다. 수천 가지 조합을 빠르게 제안하고 실행할 수 있으면, 수작업 워크플로에서는 놓치기 쉬운 실행 가능한 영역을 발견할 수 있습니다.

또한 고처리량의 플레이트 기반 실험은 수동 벤치톱 실험과 종종 다르다는 점을 확인했습니다. 고처리량 반응 형식에서는 산소 공급이 더 낮을 수 있습니다. 혼합과 기하 구조도 달라질 수 있습니다. 대부분의 CFPS 반응은 마이크로타이터 플레이트보다 시험관에서 훨씬 더 많은 단백질을 생성하는데, 이는 더 큰 규모에서 일반적으로 산소 공급이 더 충분하고 혼합이 더 잘 이루어지기 때문입니다. 실제로 저용량의 플레이트 기반 반응에서, GPT‑5는 데이터 분석을 위한 컴퓨터와 관련 논문 검색을 위한 웹 브라우저에 접근하자마자 이전 최고 성능을 능가하는 다수의 반응을 제안했습니다. 전반적으로 GPT‑5는 고처리량 제약하에서도 성능이 좋은 많은 시약 조합을 제안했으며, 여기에는 자동화 실험실 환경에서 흔한 저산소 조건에서도 더 견고한 조합들이 포함됩니다.

또한 완충액, 에너지 재생 구성 요소, 폴리아민에서의 작은 변화가 비용 대비 매우 큰 영향을 미친다는 사실을 발견했습니다. 이들은 사람들이 처음으로 떠올리는 매개변수는 아니지만, 고처리량 환경에서는 배경 가정이 아니라 검증 가능한 가설이 됩니다.

마지막으로, 비용 구조 자체가 무엇이 중요한지를 결정했습니다. CFPS에서는 현재 비용의 대부분을 라이세이트와 DNA가 차지합니다. 이는 수율을 높이는 것이 가장 효과적인 전략임을 의미합니다. 고가의 투입물 단위당 단백질 산출량을 늘릴 수 있다면, 다른 사소한 절감을 추구하기 전에도 비용 측면에서 의미 있는 진전을 이룰 수 있습니다.

자율 실험실 반복은 비용을 줄이면서 단백질 수율을 높입니다.

여섯 차례의 자율 실험을 거치며 시스템은 무세포 단백질 합성을 지속적으로 개선해, 비용을 낮추는 동시에 단백질 수율을 높였습니다. 결과는 각 라운드별 반응 비용 대비 단백질 역가로 표시되며, 최적의 균형점들이 프런티어를 이룹니다. 큰 점은 각 라운드에서 달성한 최저 g당 비용을 나타내고, 별표/점선 기준은 384웰 플레이트에서의 기존 최고 성능 벤치마크(Olsen 외, 2025)를 표시합니다. 후반 라운드를 자세히 보면 최종적인 개선 효과가 두드러지며, 라운드별 요약에서는 시간이 지남에 따라 최적 g당 비용이 감소하는 모습을 보여줍니다.

제약 사항

이 결과는 단일 단백질(sfGFP)과 하나의 CFPS 시스템에서 입증되었습니다. 다른 단백질과 다른 CFPS 시스템으로의 일반화는 아직 입증이 필요합니다.

산소 공급과 반응 기하학은 수율에 큰 영향을 미칠 수 있으며, 이러한 요소는 규모에 따라 달라질 수 있습니다. 일부 개선은 이러한 조건에 민감할 수 있으며, 그 민감도를 이해하는 것이 다음 단계의 과제입니다.

프로토콜 개선과 시약 취급에는 사람의 감독이 필요했습니다. 시스템은 실험을 설계하고 해석할 수 있지만, 실험실 작업에는 여전히 숙련된 작업자가 필요한 실무적 세부 사항이 존재합니다.

향후 계획

더 빠른 반복이 진전을 이끌 수 있는 다른 생물학적 워크플로에도 실험실-루프 최적화를 적용할 계획입니다. 우리는 자율 실험실을 모델과 상호 보완적인 존재로 봅니다. 모델은 설계를 생성할 수 있지만, 궁극적으로 생물학은 테스트와 반복이 필요합니다. 생성과 실험 사이의 루프를 닫는 것이 유망한 아이디어를 실제로 작동하는 결과로 바꾸는 방법입니다.

OpenAI는 과학 발전을 안전하고 책임감 있게 가속하는 과정에서 특히 생물 보안과 관련된 위험을 함께 평가하고 관리하는 일을 중요하게 다루고 있습니다. 이러한 결과는 모델이 실제 실험실 환경에서도 프로토콜을 개선하기 위한 추론을 수행할 수 있음을 보여주며, 생물 보안과 관련된 잠재적 영향은 당사의 준비성 평가 프레임워크⁠를 통해 평가하고 완화하고 있습니다. 우리는 이러한 위험을 줄이기 위해 모델과 시스템 수준에서 필요한 정교한 보호장치를 구축하고, 현재 수준을 추적하기 위한 평가를 개발하는 데 전념하고 있습니다.

이 작업을 가능하게 한 자동화 클라우드 실험실을 설계·운영·지원해 준 Ginkgo Bioworks의 파트너와 팀에 깊이 감사드립니다.

작성자

OpenAI