跳到主要內容
OpenAI

2026年6月17日

研究發佈

近乎自主的 AI 化學家改善藥物化學中的一項具挑戰性反應

透過 Molecule.one 的 Maria,GPT‑5.4 發現一種意想不到的添加劑,可提升逾 80% 受測底物的 Chan-Lam 偶聯產率。

OpenAI 在科學領域的工作源於一個簡單信念:先進 AI 可以成為科學家的強大夥伴,幫助他們探索更多想法、連結相距甚遠的概念、設計更好的實驗,並加快帶來人類福祉的發現。我們已分享過模型在數學領域促成新穎成果的早期例子,包括在單位距離問題上的研究;在理論物理學中,透過膠子振幅取得的新成果;以及在生物學中,GPT‑5 在自動化實驗室協助降低無細胞蛋白質合成成本。我們亦推出了 GPT‑Rosalind,這是一個專為支援生命科學研究和藥物研發工作流程而建立的模型。 

這個項目把相關研究方向延伸至藥物化學領域,而當中的進展不能單靠推理來衡量。假設必須能在有真實分子、儀器和實驗噪音的實驗室中成立。我們與 Molecule.one(在新視窗中開啟) 合作,將 GPT‑5.4 連接至 Maria。Maria 是一個具智能代理能力的化學 AI,與高吞吐量實驗室整合並用於自主研究。我們為它設定了一個開放式目標:改善幾種重要反應類別中的一種。系統提出研究方案、設計及進行實驗、分析實驗數據,並提出後續實驗方案。人類繼續參與流程,負責設計引導及評分提示詞,並挑選方案進行測試。他們亦對實驗計劃作少量修正、協助基本實驗室操作,並獨立驗證最終結果。

最具前景的研究方案 OAI-M1-03,聚焦於一種困難但有用的 Chan–Lam 偶聯版本;化學家利用這種反應形成碳氮鍵。從改良製程化學中 Chan–Lam 偶聯這一開放式目標出發,GPT‑5.4 獨立識別出一級磺酰胺是具有挑戰性且高價值的底物類別,並提出包括 TEMPO 在內的溫和氧化劑可改善該反應。 

在 Maria Lab 的兩個實驗週期中,這個想法帶來了顯著改善。在優化條件下,受測硼酸中有 88% 的實測產率提高,受測磺酰胺中則有 83% 提高。平均產率由 16.6% 升至 25.2%,而產率高於 30% 的反應比例由 15.6% 增至 37.5%。人類化學家隨後在實驗台規模重複具代表性的反應。這些實驗確認了微升規模的結果,顯示 14 對底物中有 11 對產率較高,而大多數情況下增幅超過兩倍。這很重要,因為藥物化學家需要的不只是能在微升篩選實驗中運作的反應,還要能用於藥物發現期間的實際實驗室工作流程。

藥物化學這一領域的改進特別令人振奮,因為合成往往是藥物發現的一大瓶頸:科學家只能測試他們能製造或以其他方式取得的分子。磺酰胺基存在於多個治療領域的藥物中,包括抗癌藥、抗微生物藥和利尿劑;然而,一級磺酰胺與硼酸的 Chan–Lam 偶聯過往產率偏低。讓這種反應形式更可靠,可為藥物化學家提供更廣泛且更實用的方法,去製備和探索可能有用的分子。

雖然這仍是早期成果,但它提供了另一個具體例子,說明我們正在推動的更廣泛方向:讓 AI 系統在研究循環的大部分環節中成為科學家的寶貴夥伴。該模型審閱文獻、提出出乎意料的想法、協助設計和分析實驗,並得出可由人類化學家評估的科學發現。

Maria 實驗室:Molecule.one 的專用高吞吐量實驗室,曾在 OAI-M1-03 中進行 10,080 次反應

為何這個化學問題重要

有機化學支撐所有小分子藥物,以及農業、電子和材料科學領域的產品。如果一種反應能在許多不同起始材料之間可靠地形成同一類化學鍵,它就特別有用。當反應產率低或產生太多不需要的副產物時,化學家可能不得不放棄原本有前景的分子,或花大量時間開發另一條路線。這使合成成為藥物發現的一大瓶頸:科學家通常只能測試他們能製造或以其他方式取得的分子。

Chan–Lam 偶聯在藥物化學中很有用,因為它能形成藥物中常見的碳氮鍵。然而,這種反應並非對每一類分子都同樣有效。尤其是,一級磺酰胺與硼酸的偶聯過往產率偏低。磺酰胺是一類重要分子,存在於腫瘤學和感染性疾病用藥中。讓這種反應更可靠,可為藥物化學家提供更廣泛且更實用的方法,去製備和探索可能有用的分子。

將 GPT‑5.4 連接至 Maria AI 和實驗室

這個組合系統配對了互補能力。與 Maria AI 合作的科學家所撰寫的提示詞,會在一個框架內與 GPT‑5.4 一起使用,以生成並排序數以千計的可能研究研究方案。人類化學家審閱系統排名最高的一小部分研究方案,並選出四個進行實驗室測試。隨後,Maria AI 將選定的高層次計劃轉化為詳細的實驗室指示,執行數以千計的高吞吐量實驗,分析原始數據,並將結構化結果傳回 GPT‑5.4。 

四項入選方案之一 OAI-M1-03 建議使用 TEMPO 等溫和氧化劑,提升 Chan-Lam 反應用於合成磺酰胺時的成效。化學家認為這個建議既出乎意料又有趣。我們在這篇網誌文章及論文(在新視窗中開啟)中,分享 OAI-M1-03 的詳細研究結果。

最終研究研究方案其後由 Maria 用來生成實驗網格,並由人類作出輕微修正。最大的人類修正是避免使用二甲基亞碸(DMSO)作為溶劑,因為化學家擔心它可能與用作比較的較強氧化劑發生反應。

整個過程歷時三個月,從 3 月 4 日的第一個提示詞,到 6 月 4 日與獨立專家分享 OAI-M1-03 結果。

我們把這個工作流程形容為近乎自主,而非完全自主,因為人類化學家在整個過程中仍作出重要決策。模型提出關鍵研究想法,而人類化學家提供高層次引導和判斷、修正實驗細節、協助準備實驗室耗材和試劑,並手動重複關鍵實驗。

我們的發現

OAI-M1-03 識別出 TEMPO 是本文研究的一級磺酰胺 Chan-Lam 偶聯的有用添加劑。在優化條件下,該反應在兩方面有所改善:平均產率上升,且更多底物組合達到實際有用的產率。

在兩個實驗週期中,Maria 總共執行了 10,080 個反應——超過一名化學家每天做三個反應、連續十年所能完成的數量。這個規模很重要,因為化學結果若只在少數例子上測試,可能會造成誤導。一個反應在一對起始材料上可能看似有前景,但在更廣泛的分子組合中卻未必奏效。數以千計的反應讓我們得以在十種受測氧化劑中識別出 TEMPO,看到其效果在多樣組合中重現,並找出其限制。


在分析第一輪數據後,系統提出了更聚焦的第二輪實驗,以測試後續假設。一項有用的後續發現是,TEMPO 可由便宜得多的類似物 4-hydroxy-TEMPO 取代,而性能損失很小。

圖表比較 TEMPO、4-hydroxy-TEMPO、4-oxo-TEMPO 和 PMP 的表現,並附有化學結構。

該結果亦在 Maria Lab 的微升規模篩選格式以外成立。人類化學家在實驗台規模手動重現具代表性的反應,並觀察到 14 對底物中有 11 對產率增加;其中八對的增幅超過兩倍。這種重複驗證很重要,因為極小規模實驗有時會引入在較大規模下消失的人為假象。在科學期刊發表研究前,進行實驗台規模驗證也是慣例。

Molecule.one 實驗台規模驗證實驗中已標示的玻璃反應小瓶。

手動實驗台規模驗證中的反應小瓶。

TEMPO 在實驗台規模提升產物形成

四位外部化學專家審閱了描述 OAI-M1-03 的預印本。他們的評估支持我們的看法:該結果新穎,值得與科學界分享。更嚴格的測試接下來才會出現:獨立實驗室能否重現結果,以及化學家是否認為它對更廣泛的分子有用。

高吞吐量實驗與現代 AI 的結合,代表科學發現的新前沿。這個新反應是一項有力示範:極其溫和的條件和實用的氧化劑,讓藥物合成中較受歡迎的反應之一具備相當通用的底物範圍。
—密歇根大學藥物化學副教授 Tim Cernak

在三個月期間由 GPT‑5.4 生成並由 Maria 測試的另外三個研究方案中,OAI-M1-02 和 OAI-M1-04 已在 Maria Lab 中獲實驗證實,而 OAI-M1-01 則被證偽。對這些結果的分析仍在進行。

限制

這項工作顯示,模型可以在有機化學中作出有用貢獻。它不只是總結文獻或建議一次性實驗:它提出一個具體且出乎意料的假設並提交人類審閱,設計實驗、解讀實驗數據,並設計後續實驗。

這並不表示 AI 能夠獨立從頭到尾運行一個化學研究計劃。人類判斷仍然不可或缺,而工作流程依賴專門的高吞吐量基礎設施。它亦未證明該方法可推廣至其他偶聯反應、其他底物類別或製造條件。

產率估算來自高吞吐量平台,而實驗台驗證涵蓋 14 對具代表性的底物組合。仍需更多工作來表徵反應機制、界定底物範圍、測量不同實驗室條件下的表現,並由獨立團隊重現結果。

防範應對

化學能力需要謹慎處理,因為能支援醫學和材料科學的同一套工具,也可能被濫用。我們刻意將這項工作的範圍限定於一個正當的藥物化學問題:改善一種用於製造類藥分子的已知偶聯反應。實驗並不涉及毒素、化學武器,或設計有害化合物的請求。不應把這些結果解讀為該系統可協助此類有害應用的證據。該項目並未測試或展示這一點。

我們透過防範應對架構評估並降低先進模型能力帶來的新興風險,包括與化學及生物領域相關的風險。這項研究所使用的模型早已由英國人工智能安全研究所進行相關評估,而系統的設計亦會拒絕以有害應用為目的的請求。實驗工作流程增設了另一重管控措施:由人類化學家挑選可進入實驗室階段的方案、審核實驗計劃,並繼續掌控實體基礎設施。

我們認為,這是研究 AI 在實驗化學中潛力的負責任方式:選擇具明確科學價值的問題領域,把模型層面的防護措施與專家監督結合,並透過受限的實體實驗評估系統。隨着這些能力提升,我們會繼續評估新興風險、加強防護措施,並清楚說明每項成果所代表及不代表的意義。

下一步

眼前的下一步屬於科學工作:測試更廣泛的起始材料、研究添加劑為何能改善反應、釐清在哪些情況下效果有效或失效,並支持獨立重現。這些研究合起來將判定該方法可應用的廣泛程度,以及它在實際藥物化學工作流程中的實用性。

我們的較長遠目標,是讓 AI 系統成為可靠的科學夥伴,幫助研究人員生成假設、設計實驗、解讀結果並決定下一步測試甚麼,同時以專家判斷、可靠測量和完善防護措施為基礎。有機化學是一個槓桿效益特別高的領域,因為小分子發現和製造的進展取決於能否可靠地合成分子。科學家只能測試他們能製造的分子,而更好的合成可擴大他們在醫學、農業、電子、能源和材料科學等領域可探索的構想範圍。這項結果是該更廣泛方向的一個早期例子:前沿模型、專門化智能代理、自動化實驗室和人類化學家共同合作,加快推進研究循環,並產出科學界能夠評估、重現和建基其上的發現。

我們感謝 Molecule.one 團隊,以及審閱這項工作的獨立化學家。

作者

OpenAI

作者