OpenAI의 과학 연구는 하나의 단순한 믿음에서 출발합니다. 바로 고도화된 AI는 과학자들의 강력한 협력자가 되어 더 많은 아이디어를 탐구하고, 서로 멀리 떨어진 개념들을 연결하며, 더 나은 실험을 설계하고, 인류에게 도움이 되는 발견을 앞당길 수 있다는 믿음입니다. OpenAI는 이미 수학 분야의 단위 거리 문제, 이론물리학 분야의 글루온 진폭에 관한 새로운 연구 결과, 그리고 GPT‑5가 자동화된 실험실에서 무세포 단백질 합성 비용을 낮추는 데 기여한 생물학 연구 등에서 모델이 새로운 성과 창출에 기여한 초기 사례를 공유한 바 있습니다. 또한 생명과학 연구 및 신약 개발 워크플로를 지원하기 위해 특별히 설계된 모델인 GPT‑Rosalind도 공개했습니다.
이번 프로젝트는 이러한 흐름을 의약화학 분야로 확장한 것입니다. 의약화학에서는 진전이 단순한 추론만으로 측정되지 않습니다. 하나의 가설은 실제 분자와 실험 장비, 그리고 실험 과정에서 발생하는 다양한 변동성 속에서도 실험실에서 실제로 작동해야 합니다. OpenAI는 Molecule.one(새 창에서 열기)과 협력하여 GPT‑5.4를 자율 연구를 위한 고처리량 실험실과 통합된 에이전트형 화학 AI인 Maria에 연결하고, 여러 중요한 반응 유형 가운데 하나를 개선해 보라는 열린 과제를 부여했습니다. 시스템은 연구 제안을 생성하고, 실험을 설계 및 수행하며, 실험 데이터를 분석하고, 후속 실험을 제안했습니다. 인간 연구자들은 방향 설정 및 평가용 프롬프트를 설계하고 실제로 시험할 제안을 선정하는 방식으로 과정에 계속 참여했습니다. 또한 실험 계획을 제한적으로 수정하고, 기본적인 실험실 운영을 지원했으며, 최종 결과를 독립적으로 검증했습니다.
가장 유망한 제안인 OAI-M1-03은 화학자들이 탄소-질소 결합을 형성하는 데 사용하는 반응인 Chan–Lam 결합 반응의 까다롭지만 유용한 변형에 초점을 맞췄습니다. GPT‑5.4는 공정화학을 위한 Chan–Lam 결합 반응을 개선한다는 개방형 목표에서 출발해, 일차 설폰아미드를 난이도가 높으면서도 가치가 큰 기질군으로 독자적으로 식별했으며, TEMPO를 포함한 순한 산화제가 반응을 개선할 수 있다고 제안했습니다.
Maria Lab에서 수행된 두 차례의 실험 주기를 거치며 이 아이디어는 의미 있는 개선 효과를 보였습니다. 최적화된 조건에서 측정한 결과, 시험된 보론산의 88%와 설폰아미드의 83%에서 수율이 향상되었습니다. 평균 수율은 16.6%에서 25.2%로 증가했으며, 수율이 30%를 초과한 반응의 비율은 15.6%에서 37.5%로 늘어났습니다. 이후 인간 화학자들은 대표적인 반응들을 벤치 규모에서 다시 수행했습니다. 그 결과 14개의 기질 조합 중 11개에서 더 높은 수율이 확인되었으며, 대부분의 경우 수율이 2배 이상 증가했습니다. 이는 의약화학자들에게 중요한 결과입니다. 의약화학자들은 마이크로리터 규모의 스크리닝 실험뿐 아니라 실제 신약 개발 과정에서 사용되는 실험실 워크플로에서도 안정적으로 작동하는 반응을 필요로 하기 때문입니다.
의약화학 분야에서의 이러한 개선은 특히 주목할 만합니다. 합성 과정은 신약 개발에서 주요 병목 요인인 경우가 많기 때문입니다. 과학자들은 직접 합성하거나 다른 방식으로 확보할 수 있는 분자만 시험할 수 있습니다. 설폰아미드기는 항암제, 항균제, 이뇨제를 비롯한 다양한 치료 영역의 의약품에 사용되지만, 일차 설폰아미드와 보론산 사이의 Chan–Lam 결합 반응은 역사적으로 낮은 수율을 보여 왔습니다. 이 반응을 보다 안정적으로 수행할 수 있게 되면 의약화학자들은 잠재적으로 유용한 분자를 생산하고 탐색할 수 있는 더 폭넓고 실용적인 방법을 확보할 수 있게 됩니다.
이는 아직 초기 단계의 결과이지만, OpenAI가 지향하는 더 큰 방향성을 보여주는 또 하나의 구체적인 사례입니다. OpenAI는 연구 과정의 상당 부분에 걸쳐 과학자들의 가치 있는 협력자가 될 수 있는 AI 시스템을 구축하고자 합니다. 이 모델은 관련 문헌을 검토하고, 예상 밖의 아이디어를 제안했으며, 실험 설계와 데이터 분석을 지원했고, 최종적으로 화학자들이 검증하고 평가할 수 있는 과학적 결과를 도출했습니다.
Maria Lab: OAI-M1-03에서 10,080건의 반응 실험을 수행한 Molecule.one의 전문 고처리량 실험실
유기화학은 모든 저분자 의약품의 기반이 될 뿐 아니라 농업, 전자공학, 재료과학 분야의 다양한 제품에도 활용됩니다. 어떤 반응이 다양한 출발 물질에서 동일한 종류의 화학 결합을 안정적으로 형성할 수 있다면 특히 유용합니다. 반응 수율이 낮거나 원치 않는 부산물이 지나치게 많이 생성되면, 화학자들은 유망한 분자를 포기하거나 다른 합성 경로를 개발하는 데 상당한 시간을 들여야 할 수 있습니다. 이러한 이유로 합성은 신약 개발의 주요 병목 요인으로 여겨집니다. 과학자들은 일반적으로 직접 합성하거나 다른 방식으로 확보할 수 있는 분자만 시험할 수 있기 때문입니다.
Chan–Lam 결합 반응은 의약품에서 흔히 발견되는 탄소-질소 결합을 형성하기 때문에 의약화학에서 유용하게 활용됩니다. 하지만 이 반응이 모든 분자군에서 동일하게 잘 작동하는 것은 아닙니다. 특히 일차 설폰아미드와 보론산 사이의 결합 반응은 역사적으로 낮은 수율을 보여 왔습니다. 설폰아미드는 종양학 및 감염성 질환 치료제에 사용되는 의약품에서 중요한 분자군으로 알려져 있습니다. 이 반응의 신뢰성을 높일 수 있다면 의약화학자들은 잠재적으로 유용한 분자를 생산하고 탐색할 수 있는 더 폭넓고 실용적인 방법을 확보할 수 있게 됩니다.
이 통합 시스템은 서로를 보완하는 역량을 결합했습니다. Maria AI와 협력하는 과학자들이 작성한 프롬프트는 GPT‑5.4와 함께 실행 환경에서 사용되어 수천 개의 잠재적인 연구 제안을 생성하고 순위를 매기는 데 활용되었습니다. 인간 화학자들은 시스템이 가장 높은 순위를 부여한 소수의 제안을 검토한 뒤, 그중 4개를 실험실 검증 대상으로 선정했습니다. 이후 Maria AI는 선택된 상위 수준의 연구 계획을 구체적인 실험실 지침으로 변환하고, 수천 건의 고처리량 실험을 수행했으며, 원시 데이터를 분석한 후 구조화된 결과를 GPT‑5.4에 다시 전달했습니다.
선정된 네 가지 제안 가운데 하나인 OAI-M1-03은 설폰아미드 합성을 위한 Chan-Lam 결합 반응의 성능을 향상시키기 위해 TEMPO와 같은 순한 산화제를 사용할 것을 제안했습니다. 화학자들은 이 제안을 예상 밖이면서도 흥미로운 접근이라고 평가했습니다. OpenAI는 이 블로그 게시물과 논문(새 창에서 열기)을 통해 OAI-M1-03의 상세 연구 결과를 공유합니다.
이후 최종 연구 제안은 Maria에 의해 실험 조건 조합표를 생성하는 데 사용되었으며, 이 과정에서 인간 연구자들이 일부 내용을 제한적으로 수정했습니다. 가장 큰 수정 사항은 용매로 디메틸설폭사이드(DMSO)를 사용하지 않도록 한 것이었습니다. 화학자들은 DMSO가 비교 대상으로 사용된 더 강한 산화제와 반응할 수 있다고 우려했기 때문입니다.
전체 과정은 3월 4일 첫 프롬프트를 입력한 시점부터 6월 4일 독립적인 전문가들에게 OAI-M1-03 결과를 공유하기까지 총 3개월이 걸렸습니다.
OpenAI가 이 워크플로를 완전 자율형이 아닌 준자율형이라고 설명하는 이유는, 과정 전반에 걸쳐 인간 화학자들이 여전히 중요한 의사결정을 내렸기 때문입니다. 모델은 핵심 연구 아이디어를 제안했지만, 인간 화학자들은 상위 수준의 방향 설정과 판단을 제공하고, 실험 세부 사항을 수정했으며, 실험용 소모품과 시약 준비를 지원하고, 주요 실험을 직접 반복 수행했습니다.
OAI-M1-03은 이번 연구에서 다룬 일차 설폰아미드 Chan-Lam 결합 반응에 TEMPO가 유용한 첨가제라는 사실을 찾아냈습니다. 최적화된 조건에서 이 반응은 두 가지 측면에서 개선되었습니다. 평균 수율이 증가했고, 더 많은 기질 조합이 실제 활용 가능한 수준의 수율에 도달했습니다.
Maria는 두 차례의 실험 주기에 걸쳐 총 10,080건의 반응을 수행했습니다. 이는 화학자가 매일 세 건의 반응을 수행한다고 가정해도 10년 동안 진행할 수 있는 규모를 넘어서는 수준입니다. 이러한 규모는 매우 중요했습니다. 화학 연구 결과는 소수의 사례만 시험했을 경우 오해를 불러일으킬 수 있기 때문입니다. 특정 출발 물질 조합에서는 유망해 보이는 반응도 더 다양한 분자 집합에서는 실패할 수 있습니다. 수천 건의 반응을 수행함으로써 연구진은 시험된 10개의 산화제 가운데 TEMPO를 식별하고, 그 효과가 다양한 조합에서 반복적으로 나타나는지 확인했으며, 동시에 그 한계도 파악할 수 있었습니다.
첫 번째 실험 데이터를 분석한 후, 시스템은 후속 가설을 검증하기 위한 보다 집중적인 두 번째 실험을 제안했습니다. 이 과정에서 얻은 유용한 추가 발견 가운데 하나는 TEMPO를 훨씬 저렴한 유사체인 4-hydroxy-TEMPO로 대체하더라도 성능 저하가 거의 없다는 점이었습니다.
이러한 결과는 Maria Lab의 마이크로리터 규모 스크리닝 환경을 넘어선 조건에서도 재현되었습니다. 인간 화학자들은 대표적인 반응을 벤치 규모에서 직접 반복 수행했으며, 14개의 기질 조합 중 11개에서 수율 증가를 확인했습니다. 이 가운데 8개 조합에서는 수율이 2배 이상 증가했습니다. 이러한 재현 검증은 중요합니다. 매우 작은 규모의 실험에서는 더 큰 규모에서는 나타나지 않는 실험적 아티팩트가 발생할 수 있기 때문입니다. 또한 벤치 규모 검증은 연구 결과를 학술지에 발표하기 전에 일반적으로 수행되는 절차이기도 합니다.

수동 벤치 규모 검증에 사용된 반응 바이알.
외부 화학 전문가 4명이 OAI-M1-03을 설명한 프리프린트를 검토했습니다. 이들의 평가는 해당 결과가 새로운 발견이며 과학계와 공유할 가치가 있다는 OpenAI의 판단을 뒷받침했습니다. 그러나 더 중요한 검증은 앞으로 남아 있습니다. 독립적인 연구실이 이 결과를 재현할 수 있는지, 그리고 화학자들이 더 폭넓은 분자군에서도 이 결과를 유용하게 활용할 수 있는지가 다음 단계의 과제가 될 것입니다.
3개월 동안 GPT‑5.4가 생성하고 Maria가 시험한 나머지 세 가지 제안 가운데 OAI-M1-02와 OAI-M1-04는 Maria Lab에서 실험적으로 입증되었으며, OAI-M1-01은 반증되었습니다. 현재 이들 결과에 대한 추가 분석이 진행 중입니다.
이번 연구는 모델이 유기화학 분야에서 의미 있는 기여를 할 수 있음을 보여줍니다. 모델은 단순히 문헌을 요약하거나 일회성 실험을 제안하는 데 그치지 않았습니다. 구체적이고 예상 밖의 가설을 제안해 인간 연구자의 검토를 받을 수 있도록 했으며, 실험을 설계하고, 실험 데이터를 해석하고, 후속 실험까지 설계했습니다.
그러나 이번 연구가 AI가 화학 연구 프로그램 전체를 처음부터 끝까지 독립적으로 수행할 수 있음을 입증하는 것은 아닙니다. 인간의 판단은 여전히 필수적이었으며, 이 워크플로는 전문적인 고처리량 연구 인프라에 의존했습니다. 또한 이러한 방법이 다른 결합 반응, 다른 기질군, 또는 제조 환경에도 일반적으로 적용될 수 있음을 입증한 것은 아닙니다.
수율 추정치는 고처리량 플랫폼에서 얻어진 것이며, 벤치 규모 검증은 14개의 대표 기질 조합을 대상으로 수행되었습니다. 반응 메커니즘을 규명하고, 적용 가능한 기질 범위를 정의하며, 다양한 실험실 조건에서의 성능을 측정하고, 결과를 독립적으로 재현하기 위해서는 추가 연구가 필요합니다.
화학 분야의 역량은 신중하게 다뤄져야 합니다. 의약품 개발과 재료과학을 지원할 수 있는 동일한 도구가 악용될 가능성도 있기 때문입니다. OpenAI는 이번 연구의 범위를 의약화학 분야의 정당한 연구 과제로 의도적으로 한정했습니다. 구체적으로는 의약품 후보 물질을 만드는 데 사용되는 알려진 결합 반응을 개선하는 문제를 다뤘습니다. 이번 실험에는 독성 물질, 화학 무기 또는 유해한 화합물 설계 요청이 포함되지 않았습니다. 따라서 이번 결과를 시스템이 그러한 유해한 활용을 지원할 수 있다는 증거로 해석해서는 안 됩니다. 이번 프로젝트는 그러한 가능성을 시험하거나 입증하지 않았습니다.
OpenAI는 화학 및 생물학 분야와 관련된 위험을 포함해, 고도화된 모델 역량으로 인해 발생할 수 있는 새로운 위험을 준비성 평가 프레임워크를 통해 평가하고 완화합니다. 이번 연구에 사용된 모델은 이미 영국 AI Security Institute와 관련 평가를 완료했으며, 시스템은 유해한 용도를 목적으로 한 요청을 거부하도록 설계되었습니다. 실험 과정에는 추가적인 통제 장치도 마련되어 있었습니다. 화학자들은 어떤 제안을 실험실에서 검증할지 선별하고, 실험 계획을 검토했으며, 실제 실험 장비와 시설에 대한 통제권도 계속 유지했습니다.
OpenAI는 이것이 실험 화학 분야에서 AI의 가능성을 연구하는 책임 있는 접근 방식이라고 생각합니다. 즉, 과학적 가치가 명확한 문제를 선택하고, 모델 수준의 안전장치를 전문가의 감독과 결합하며, 통제된 물리적 실험을 통해 시스템을 평가하는 것입니다. 이러한 역량이 발전함에 따라 OpenAI는 앞으로도 새로운 위험을 지속적으로 평가하고, 안전장치를 강화하며, 연구 결과가 무엇을 의미하고 무엇을 의미하지 않는지 명확하게 설명할 것입니다.
당장의 다음 단계는 과학적 검증입니다. 더 다양한 출발 물질을 시험하고, 첨가제가 왜 반응을 개선하는지 규명하며, 어떤 조건에서 효과가 나타나고 어떤 조건에서 나타나지 않는지 파악하고, 독립적인 재현 연구를 지원할 예정입니다. 이러한 연구를 통해 해당 방법이 얼마나 폭넓게 적용될 수 있는지, 그리고 실제 의약화학 워크플로에서 얼마나 유용한지를 확인할 수 있을 것입니다.
OpenAI의 장기적인 목표는 AI 시스템을 신뢰할 수 있는 과학 연구 파트너로 발전시키는 것입니다. 이를 통해 연구자들이 가설을 도출하고, 실험을 설계하며, 결과를 해석하고, 다음에 무엇을 시험할지 결정하는 과정을 지원하면서도, 전문적인 판단과 신뢰할 수 있는 측정, 그리고 강력한 안전장치에 기반한 연구를 가능하게 하고자 합니다. 유기화학은 특히 파급력이 큰 분야입니다. 저분자 물질의 발견과 제조에서의 진전은 분자를 안정적으로 합성할 수 있는 능력에 크게 좌우되기 때문입니다. 과학자들은 자신이 만들 수 있는 분자만 시험할 수 있으며, 더 나은 합성 기술은 의학, 농업, 전자공학, 에너지, 재료과학 전반에서 탐구할 수 있는 아이디어의 범위를 넓혀 줍니다. 이번 결과는 그러한 더 큰 방향성을 보여주는 초기 사례 중 하나입니다. 프런티어 모델, 전문화된 에이전트, 자동화된 실험실, 그리고 인간 화학자들이 함께 협력해 연구 과정을 더 빠르게 진행하고, 과학계가 평가하고 재현하며 그 위에 새로운 연구를 쌓아갈 수 있는 결과를 만들어낸 것입니다.
OpenAI는 Molecule.one 팀과 이번 연구를 검토해 준 외부 화학자들에게 깊이 감사드립니다.