跳至主要內容
OpenAI

2026年6月17日

研究研究發表

近乎自主的 AI 化學家改善藥物化學中的高難度反應

透過 Molecule.one 的 Maria,GPT‑5.4 發現一種令人意外的添加劑,使超過 80% 受測基質的 Chan-Lam 偶聯產率提升。

OpenAI 在科學領域的工作源於一個簡單信念:先進 AI 可以成為科學家的有力夥伴,協助他們探索更多想法、連結相距甚遠的概念、設計更好的實驗,並加速能造福人類的發現。我們已分享過模型在數學領域促成新穎成果的早期例子,包括關於單位距離問題的工作;在理論物理領域,透過膠子振幅的新成果;以及在生物學領域,GPT‑5 在自動化實驗室中協助降低無細胞蛋白質合成成本。我們也推出了GPT‑Rosalind,這是一個專為支援生命科學研究與藥物發現工作流程而打造的模型。 

這項專案將發展方向延伸至藥物化學領域,而該領域的進展不能只靠推理來衡量。一項假說必須能在實驗室中,面對真實分子、儀器與實驗雜訊時仍然成立。我們與 Molecule.one(在新視窗中開啟) 合作,將 GPT‑5.4 連接到 Maria,這款與高通量實驗室整合、用於自主研究的智慧體式化學 AI,並賦予它一項開放式目標:改進數個重要反應類別之一。該系統生成研究提案、設計並執行實驗、分析實驗資料,並提出後續實驗。人類透過設計引導與評分提示詞,以及選擇要測試的提案,持續參與其中。他們也對實驗計畫進行有限修正、協助基本實驗操作,並獨立驗證最終結果。

最有前景的提案 OAI-M1-03 聚焦於一種困難但有用的 Chan–Lam 偶聯版本;化學家利用這種反應形成碳-氮鍵。從改進製程化學中的 Chan–Lam 偶聯這一開放式目標出發,GPT‑5.4 獨立辨識出一級磺醯胺是一類具挑戰性且高價值的基質,並建議包括 TEMPO 在內的溫和氧化劑可能改善該反應。

在 Maria Lab 的兩輪實驗中,這個想法帶來了顯著改進。在最佳化條件下,受測的硼酸中有 88%、磺醯胺中有 83% 的量測產率獲得提升。平均產率從 16.6% 升至 25.2%,產率高於 30% 的反應比例也從 15.6% 增加到 37.5%。隨後,人類化學家在實驗台規模重複了具代表性的反應。這些實驗確認了微升規模結果,顯示 14 組基質配對中有 11 組產率提高,且多數情況下增幅超過兩倍。這很重要,因為藥物化學家需要的反應不僅要能在微升篩選實驗中運作,也要能用於藥物發現期間採用的實際實驗室工作流程。

藥物化學此領域的改進特別令人振奮,因為合成往往是藥物發現中的主要瓶頸:科學家只能測試他們能製造或以其他方式取得的分子。磺醯胺基團存在於廣泛治療領域的藥物中,包括抗癌藥、抗微生物藥與利尿劑;然而,一級磺醯胺與硼酸的 Chan–Lam 偶聯歷來產率偏低。讓這種形式的反應更可靠,可能為藥物化學家提供更廣泛且更實用的方法,來製備並探索可能有用的分子。

雖然這仍是早期成果,但它提供了另一個具體例子,展現我們正努力推進的大方向:讓 AI 系統能在研究循環的大部分環節中,成為科學家的寶貴夥伴。該模型回顧文獻、提出出乎意料的想法、協助設計並分析實驗,並得出可由人類化學家評估的科學發現。

Maria Lab:Molecule.one 的專用高吞吐量實驗室,曾在 OAI-M1-03 中進行 10,080 次反應

為什麼這個化學問題很重要

有機化學支撐所有小分子藥物,以及農業、電子與材料科學領域的產品。當一個反應能在許多不同起始材料之間可靠地形成同一類化學鍵時,就特別有用。當反應產率低或產生太多不需要的副產物時,化學家可能不得不放棄原本有前景的分子,或花費大量時間開發不同路徑。這使合成成為藥物發現中的主要瓶頸:科學家通常只能測試他們能製造或以其他方式取得的分子。

Chan–Lam 偶聯在藥物化學中很有用,因為它能形成藥物中常見的碳-氮鍵。然而,這個反應並非對每一類分子都同樣有效。特別是,一級磺醯胺與硼酸的偶聯歷來產率偏低。磺醯胺是在腫瘤學與感染性疾病用藥中可見的重要分子家族。讓這個反應更可靠,可能為藥物化學家提供更廣泛且更實用的方法,來製備並探索可能有用的分子。

將 GPT‑5.4 連接到 Maria AI 與 Maria Lab

這個整合系統結合了互補能力。與 Maria AI 合作的科學家撰寫提示詞,並在一個控制框架內搭配 GPT‑5.4 使用,以生成並排序數千個可能的研究提案。人類化學家審查了系統評分最高的一小部分提案,並選出四項進行實驗室測試。接著,Maria AI 將選定的高階計畫轉換為詳細實驗室指令,執行數千個高通量實驗,分析原始資料,並將結構化結果回傳給 GPT‑5.4。

OAI-M1-03 為四個入選提案之一,建議使用 TEMPO 等溫和氧化劑,來改善 Chan-Lam 反應在磺醯胺合成中的表現。化學家認為這項建議既出人意料又饒富趣味。我們在本部落格文章與這篇論文(在新視窗中開啟)中分享 OAI-M1-03 的詳細發現。

最終研究提案隨後由 Maria 用來生成實驗網格,並由人類進行少量修正。最大的人為修正是避免使用二甲基亞碸(DMSO)作為溶劑,因為化學家擔心它可能與用作比較的較強氧化劑反應。

從 3 月 4 日的第一個提示詞,到 6 月 4 日將 OAI-M1-03 結果分享給獨立專家,整個流程歷時三個月。

我們將這個工作流程描述為近乎自主,而非完全自主,因為人類化學家在整個過程中仍做出重要決策。模型提出關鍵研究想法,而人類化學家提供高階引導與判斷、修正實驗細節、協助準備實驗室耗材與試劑,並手動重複關鍵實驗。

我們的發現

OAI-M1-03 將 TEMPO 辨識為此處研究的一級磺醯胺 Chan-Lam 偶聯的有用添加劑。在最佳化條件下,反應以兩種方式改善:平均產率提高,且更多基質組合達到實際有用的產率。

在兩個週期中,Maria 總共執行了 10,080 個反應,比一位化學家每天執行三個反應、連續十年所能完成的還多。這樣的規模很重要,因為化學結果若只在少數範例上測試,可能會產生誤導。一個反應在一組起始材料配對上可能看似有前景,但在更廣泛的分子集合中卻會失敗。數千個反應讓我們能在十種受測氧化劑中辨識出 TEMPO,觀察其效果在多樣組合中重複出現,並找出其限制。


在分析第一輪資料後,系統提出了更聚焦的第二輪實驗,用以測試後續假設。一項有用的後續發現是,TEMPO 可由便宜許多的類似物 4-hydroxy-TEMPO 取代,且性能幾乎沒有損失。

比較 TEMPO、4-hydroxy-TEMPO、4-oxo-TEMPO 與 PMP 表現的圖表,並附化學結構。

該結果也超出了 Maria Lab 的微升規模篩選形式而仍然成立。人類化學家在實驗台規模手動重現具代表性的反應,並觀察到 14 組基質配對中有 11 組產率提高;其中 8 組增幅超過兩倍。這種重複驗證很重要,因為極小規模實驗有時會引入在較大規模下消失的假象。在研究發表於科學期刊前,進行實驗台規模驗證也是慣例。

Molecule.one 實驗台規模驗證實驗中貼有標籤的玻璃反應小瓶。

手動實驗台規模驗證的反應小瓶。

TEMPO 在實驗台規模提升產物形成

四位外部化學專家審閱了描述 OAI-M1-03 的預印本。他們的評估支持我們的看法:該結果具有新穎性,且值得與科學社群分享。接下來會有更強的檢驗:獨立實驗室能否重現該結果,以及化學家是否會發現它在更廣泛的分子範圍中有用。

高通量實驗結合現代 AI 工具,開啟了科學發現的新方向。這項成果充分展現,極其溫和的反應條件搭配實用的氧化劑,能讓藥物合成中常用的這類反應展現廣泛的基質適用範圍。
—Tim Cernak,密西根大學藥物化學副教授

在三個月期間由 GPT‑5.4 生成並由 Maria 測試的另外三項提案中,OAI-M1-02 與 OAI-M1-04 已在 Maria Lab 中獲實驗證實,而 OAI-M1-01 則被證偽。我們仍在分析這些結果。

限制

這項工作顯示,模型可以在有機化學中做出有用貢獻,不只是總結文獻或建議一次性實驗,更能進一步提出具體且令人意外的假設,並呈現給人類審查;設計實驗、解讀實驗資料,並設計後續實驗。

這並不代表 AI 能夠獨立從頭到尾執行一項化學研究計畫。人類判斷仍然不可或缺,而該工作流程也依賴專門的高通量基礎設施。它也未證明該方法能推廣到其他偶聯反應、其他基質類別或製造條件。

產率估計來自高通量平台,而實驗台驗證涵蓋了 14 組具代表性的基質配對。仍需更多工作來表徵反應機制、界定基質適用範圍、量測不同實驗室條件下的表現,並獨立重現該結果。

應變整備

化學能力需要謹慎處理,因為能支援醫學與材料科學的同一批工具,也可能遭到濫用。我們刻意將這項工作的範圍限定在合法的藥物化學問題:改進一種用於製造類藥分子的已知偶聯反應。這些實驗不涉及毒素、化學武器,或設計有害化合物的請求。相關結果不應被解讀為該系統能協助此類有害應用的證據。這個專案並未測試或證明這一點。

我們透過應變整備框架,評估並緩解進階模型能力帶來的新興風險,包括與化學和生物領域相關的風險。用於本研究的模型先前已與英國 AI 安全研究所完成相關評估,而該系統也經過設計,會拒絕目的為有害用途的要求。實驗流程則增設了另一層控管機制:由人類化學家決定哪些提案能進入實驗室、審查實驗計畫,並持續掌控實體設施。

我們認為,研究 AI 在實驗化學中的潛力,最負責任的做法是選擇具有明確科學價值的問題、結合模型層級防護措施與專家監督,並透過受控的實體實驗評估系統。隨著相關能力持續提升,我們也會持續評估新興風險、強化防護措施,並清楚說明研究結果能證明什麼,以及不能證明什麼。

下一步

接下來的直接步驟屬於科學層面:測試更廣泛的起始材料、研究添加劑為何能改善反應、繪製效果在哪些情況下有效或失效,並支持獨立重現。這些研究合在一起,將判定該方法可應用的廣度,以及它在實際藥物化學工作流程中的有用程度。

我們的長期目標,是讓 AI 系統成為可靠的科學夥伴,協助研究人員生成假設、設計實驗、解讀結果,並決定接下來要測試什麼,同時仍以專家判斷、可靠量測與強大防護措施為基礎。有機化學是一個槓桿作用特別高的領域,因為小分子發現與製造的進展取決於能否可靠地製造分子。科學家只能測試他們能製造的分子,而更好的合成能擴大他們在醫學、農業、電子、能源與材料科學中可探索的想法範圍。這項結果是該更廣泛方向的一個早期例子:前沿模型、專門智慧體、自動化實驗室與人類化學家共同合作,加快研究循環,並產生科學社群可以評估、重現並進一步發展的發現。

我們感謝 Molecule.one 團隊,以及審閱這項工作的獨立化學家。

作者

OpenAI

作者