2026年6月17日

近乎自主的 AI 化學家改善藥物化學中的高難度反應

透過 Molecule.one 的 Maria，GPT‑5.4 發現一種令人意外的添加劑，使超過 80% 受測基質的 Chan-Lam 偶聯產率提升。

OpenAI 在科學領域的工作源於一個簡單信念：先進 AI 可以成為科學家的有力夥伴，協助他們探索更多想法、連結相距甚遠的概念、設計更好的實驗，並加速能造福人類的發現。我們已分享過模型在數學領域促成新穎成果的早期例子，包括關於單位距離問題⁠的工作；在理論物理領域，透過膠子振幅⁠的新成果；以及在生物學領域，GPT‑5 在自動化實驗室中協助降低無細胞蛋白質合成成本⁠。我們也推出了GPT‑Rosalind⁠，這是一個專為支援生命科學研究與藥物發現工作流程而打造的模型。

這項專案將發展方向延伸至藥物化學領域，而該領域的進展不能只靠推理來衡量。一項假說必須能在實驗室中，面對真實分子、儀器與實驗雜訊時仍然成立。我們與 Molecule.one⁠(在新視窗中開啟) 合作，將 GPT‑5.4 連接到 Maria，這款與高通量實驗室整合、用於自主研究的智慧體式化學 AI，並賦予它一項開放式目標：改進數個重要反應類別之一。該系統生成研究提案、設計並執行實驗、分析實驗資料，並提出後續實驗。人類透過設計引導與評分提示詞，以及選擇要測試的提案，持續參與其中。他們也對實驗計畫進行有限修正、協助基本實驗操作，並獨立驗證最終結果。

最有前景的提案 OAI-M1-03 聚焦於一種困難但有用的 Chan–Lam 偶聯版本；化學家利用這種反應形成碳－氮鍵。從改進製程化學中的 Chan–Lam 偶聯這一開放式目標出發，GPT‑5.4 獨立辨識出一級磺醯胺是一類具挑戰性且高價值的基質，並建議包括 TEMPO 在內的溫和氧化劑可能改善該反應。

在 Maria Lab 的兩輪實驗中，這個想法帶來了顯著改進。在最佳化條件下，受測的硼酸中有 88%、磺醯胺中有 83% 的量測產率獲得提升。平均產率從 16.6% 升至 25.2%，產率高於 30% 的反應比例也從 15.6% 增加到 37.5%。隨後，人類化學家在實驗台規模重複了具代表性的反應。這些實驗確認了微升規模結果，顯示 14 組基質配對中有 11 組產率提高，且多數情況下增幅超過兩倍。這很重要，因為藥物化學家需要的反應不僅要能在微升篩選實驗中運作，也要能用於藥物發現期間採用的實際實驗室工作流程。

藥物化學此領域的改進特別令人振奮，因為合成往往是藥物發現中的主要瓶頸：科學家只能測試他們能製造或以其他方式取得的分子。磺醯胺基團存在於廣泛治療領域的藥物中，包括抗癌藥、抗微生物藥與利尿劑；然而，一級磺醯胺與硼酸的 Chan–Lam 偶聯歷來產率偏低。讓這種形式的反應更可靠，可能為藥物化學家提供更廣泛且更實用的方法，來製備並探索可能有用的分子。

雖然這仍是早期成果，但它提供了另一個具體例子，展現我們正努力推進的大方向：讓 AI 系統能在研究循環的大部分環節中，成為科學家的寶貴夥伴。該模型回顧文獻、提出出乎意料的想法、協助設計並分析實驗，並得出可由人類化學家評估的科學發現。

Maria Lab：Molecule.one 的專用高吞吐量實驗室，曾在 OAI-M1-03 中進行 10,080 次反應

為什麼這個化學問題很重要

有機化學支撐所有小分子藥物，以及農業、電子與材料科學領域的產品。當一個反應能在許多不同起始材料之間可靠地形成同一類化學鍵時，就特別有用。當反應產率低或產生太多不需要的副產物時，化學家可能不得不放棄原本有前景的分子，或花費大量時間開發不同路徑。這使合成成為藥物發現中的主要瓶頸：科學家通常只能測試他們能製造或以其他方式取得的分子。

Chan–Lam 偶聯在藥物化學中很有用，因為它能形成藥物中常見的碳－氮鍵。然而，這個反應並非對每一類分子都同樣有效。特別是，一級磺醯胺與硼酸的偶聯歷來產率偏低。磺醯胺是在腫瘤學與感染性疾病用藥中可見的重要分子家族。讓這個反應更可靠，可能為藥物化學家提供更廣泛且更實用的方法，來製備並探索可能有用的分子。

將 GPT‑5.4 連接到 Maria AI 與 Maria Lab

這個整合系統結合了互補能力。與 Maria AI 合作的科學家撰寫提示詞，並在一個控制框架內搭配 GPT‑5.4 使用，以生成並排序數千個可能的研究提案。人類化學家審查了系統評分最高的一小部分提案，並選出四項進行實驗室測試。接著，Maria AI 將選定的高階計畫轉換為詳細實驗室指令，執行數千個高通量實驗，分析原始資料，並將結構化結果回傳給 GPT‑5.4。

OAI-M1-03 為四個入選提案之一，建議使用 TEMPO 等溫和氧化劑，來改善 Chan-Lam 反應在磺醯胺合成中的表現。化學家認為這項建議既出人意料又饒富趣味。我們在本部落格文章與這篇論文⁠(在新視窗中開啟)中分享 OAI-M1-03 的詳細發現。我們也會分享 OAI-M1-03 經重寫的模型思路鏈⁠(在新視窗中開啟)。

最終研究提案隨後由 Maria 用來生成實驗網格，並由人類進行少量修正。最大的人為修正是避免使用二甲基亞碸（DMSO）作為溶劑，因為化學家擔心它可能與用作比較的較強氧化劑反應。

從 3 月 4 日的第一個提示詞，到 6 月 4 日將 OAI-M1-03 結果分享給獨立專家，整個流程歷時三個月。

我們將這個工作流程描述為近乎自主，而非完全自主，因為人類化學家在整個過程中仍做出重要決策。模型提出關鍵研究想法，而人類化學家提供高階引導與判斷、修正實驗細節、協助準備實驗室耗材與試劑，並手動重複關鍵實驗。

我們的發現

OAI-M1-03 將 TEMPO 辨識為此處研究的一級磺醯胺 Chan-Lam 偶聯的有用添加劑。在最佳化條件下，反應以兩種方式改善：平均產率提高，且更多基質組合達到實際有用的產率。

在兩個週期中，Maria 總共執行了 10,080 個反應，比一位化學家每天執行三個反應、連續十年所能完成的還多。這樣的規模很重要，因為化學結果若只在少數範例上測試，可能會產生誤導。一個反應在一組起始材料配對上可能看似有前景，但在更廣泛的分子集合中卻會失敗。數千個反應讓我們能在十種受測氧化劑中辨識出 TEMPO，觀察其效果在多樣組合中重複出現，並找出其限制。

在分析第一輪資料後，系統提出了更聚焦的第二輪實驗，用以測試後續假設。一項有用的後續發現是，TEMPO 可由便宜許多的類似物 4-hydroxy-TEMPO 取代，且性能幾乎沒有損失。

比較 TEMPO、4-hydroxy-TEMPO、4-oxo-TEMPO 與 PMP 表現的圖表，並附化學結構。

該結果也超出了 Maria Lab 的微升規模篩選形式而仍然成立。人類化學家在實驗台規模手動重現具代表性的反應，並觀察到 14 組基質配對中有 11 組產率提高；其中 8 組增幅超過兩倍。這種重複驗證很重要，因為極小規模實驗有時會引入在較大規模下消失的假象。在研究發表於科學期刊前，進行實驗台規模驗證也是慣例。

手動實驗台規模驗證的反應小瓶。

TEMPO 在實驗台規模提升產物形成

四位外部化學專家審閱了描述 OAI-M1-03 的預印本。他們的評估支持我們的看法：該結果具有新穎性，且值得與科學社群分享。接下來會有更強的檢驗：獨立實驗室能否重現該結果，以及化學家是否會發現它在更廣泛的分子範圍中有用。

“高通量實驗結合現代 AI 工具，開啟了科學發現的新方向。這項成果充分展現，極其溫和的反應條件搭配實用的氧化劑，能讓藥物合成中常用的這類反應展現廣泛的基質適用範圍。”

—Tim Cernak，密西根大學藥物化學副教授

在三個月期間由 GPT‑5.4 生成並由 Maria 測試的另外三項提案中，OAI-M1-02 與 OAI-M1-04 已在 Maria Lab 中獲實驗證實，而 OAI-M1-01 則被證偽。我們仍在分析這些結果。

限制

這項工作顯示，模型可以在有機化學中做出有用貢獻，不只是總結文獻或建議一次性實驗，更能進一步提出具體且令人意外的假設，並呈現給人類審查；設計實驗、解讀實驗資料，並設計後續實驗。

這並不代表 AI 能夠獨立從頭到尾執行一項化學研究計畫。人類判斷仍然不可或缺，而該工作流程也依賴專門的高通量基礎設施。它也未證明該方法能推廣到其他偶聯反應、其他基質類別或製造條件。

產率估計來自高通量平台，而實驗台驗證涵蓋了 14 組具代表性的基質配對。仍需更多工作來表徵反應機制、界定基質適用範圍、量測不同實驗室條件下的表現，並獨立重現該結果。

應變整備

化學能力需要謹慎處理，因為能支援醫學與材料科學的同一批工具，也可能遭到濫用。我們刻意將這項工作的範圍限定在合法的藥物化學問題：改進一種用於製造類藥分子的已知偶聯反應。這些實驗不涉及毒素、化學武器，或設計有害化合物的請求。相關結果不應被解讀為該系統能協助此類有害應用的證據。這個專案並未測試或證明這一點。

我們透過應變整備框架⁠，評估並緩解進階模型能力帶來的新興風險，包括與化學和生物領域相關的風險。用於本研究的模型先前已與英國 AI 安全研究所完成相關評估，而該系統也經過設計，會拒絕目的為有害用途的要求。實驗流程則增設了另一層控管機制：由人類化學家決定哪些提案能進入實驗室、審查實驗計畫，並持續掌控實體設施。

我們認為，研究 AI 在實驗化學中的潛力，最負責任的做法是選擇具有明確科學價值的問題、結合模型層級防護措施與專家監督，並透過受控的實體實驗評估系統。隨著相關能力持續提升，我們也會持續評估新興風險、強化防護措施，並清楚說明研究結果能證明什麼，以及不能證明什麼。

下一步

接下來的直接步驟屬於科學層面：測試更廣泛的起始材料、研究添加劑為何能改善反應、繪製效果在哪些情況下有效或失效，並支持獨立重現。這些研究合在一起，將判定該方法可應用的廣度，以及它在實際藥物化學工作流程中的有用程度。

我們的長期目標，是讓 AI 系統成為可靠的科學夥伴，協助研究人員生成假設、設計實驗、解讀結果，並決定接下來要測試什麼，同時仍以專家判斷、可靠量測與強大防護措施為基礎。有機化學是一個槓桿作用特別高的領域，因為小分子發現與製造的進展取決於能否可靠地製造分子。科學家只能測試他們能製造的分子，而更好的合成能擴大他們在醫學、農業、電子、能源與材料科學中可探索的想法範圍。這項結果是該更廣泛方向的一個早期例子：前沿模型、專門智慧體、自動化實驗室與人類化學家共同合作，加快研究循環，並產生科學社群可以評估、重現並進一步發展的發現。

我們感謝 Molecule.one 團隊，以及審閱這項工作的獨立化學家。

2026 年

作者

OpenAI