跳到主要內容
OpenAI

2025年12月16日

研究發佈

衡量 AI 在濕實驗室中加速生物研究的能力

GPT‑5 在濕實驗室實驗中提出嶄新的流程改進,成功將一項分子克隆流程的整體效率提升達 79 倍。

拼貼風格的視覺設計,採用柔和的藍橙漸層色調,結合 DNA 組裝圖解,在「OpenAI for Science」的標籤下,以粗體文字寫著「生物研究」。
正在載入...

加速科學進展,是 AI 能夠為人類帶來價值的其中一項最重要途徑。隨着 GPT‑5 的推出,我們開始看到相關的初步成果:AI 不但能協助研究人員更有效率地整理與理解科學文獻,亦能支援嶄新的科學推理方式,例如發掘意想不到的關聯、提出可供驗證的推論策略,或建議具可行性的機制供專家進一步評估與測試。

迄今為止,相關進展主要見於數學、理論物理及理論電腦科學等領域,這些範疇的研究成果往往可在無須進行實體實驗的情況下作出嚴格驗證。但生物學則有所不同,當中多數突破均需依賴實際的實驗流程、反覆驗證,以及在實驗室中累積的實證結果。

為了更深入了解前沿模型在上述環境中的表現,我們與生物安全初創公司 Red Queen Bio 合作,建立一套評估框架,以測試模型在濕實驗室中提出、分析及反覆修正實驗構想的能力。我們設計了一個簡單的分子生物學實驗系統,並邀請 GPT‑5 針對一項分子克隆流程進行效率優化。

經過多輪實驗迭代,GPT‑5 引入了一項嶄新的機制,將克隆效率提升達 79 倍。克隆是分子生物學中的基礎工具,而克隆效率對於建立大型而複雜的文庫非常重要。這些文庫正是蛋白質工程(在新視窗中開啟)基因篩選(在新視窗中開啟)菌株工程(在新視窗中開啟)等研究工作的核心。這項研究展示了 AI 如何與生物學家並肩合作,加快科研進程。透過改進實驗方法,研究人員可望縮短實驗週期、降低成本,並更有效地將科研成果轉化為實際應用。

由於生物推理相關研究涉及生物安全考慮,我們在嚴格受控的環境下進行這次實驗,包括使用良性的實驗系統、限制研究範圍,並系統性地評估模型行為,以支援生物安全風險評估,以及模型與系統層面的防範應對架構(在新視窗中開啟)

實驗結果

在整個實驗過程中,GPT‑5 能夠自主推理克隆流程、提出修改建議,並結合新一輪實驗數據持續改善研究方案。唯一的人為介入,是由科研人員實際執行相關實驗流程並上載結果數據。

在多輪實驗後,GPT‑5 成功將克隆流程的整體效率提升超過 79 倍。具體而言,在相同輸入 DNA 量的情況下,最終可回收的、經序列驗證的克隆數量為基線流程的 79 倍。最值得注意的是,模型引入了兩種酶,構成一套全新的作用機制:來自大腸桿菌(E. coli)的重組酶 RecA,以及噬菌體 T4 的基因 32 單鏈 DNA 結合蛋白(gp32)。gp32 有助理順並穩定鬆散的 DNA 末端,而 RecA 則引導各 DNA 鏈與其正確的同源序列進行配對。

初步篩選與後續實驗確認,RecA 輔助配對與完成 HiFi 組裝(RAPF)及第 7 號轉化方案(Transformation 7,T7),分別為表現最佳的酶反應流程與轉化流程。RAPF 組裝與 T7 轉化各自相對於基準 HiFi 克隆流程,分別帶來 2.6 倍與 36 倍的效率提升;合併使用時,則呈現相加式效果,整體效能提升達 79 倍。所有克隆結果均已透過定序確認。(誤差線:來自 3 次獨立驗證實驗的標準差)

儘管相關結果仍屬初步階段,但整體表現具啟發性。值得指出的是,相關改進僅針對這次研究所使用的特定克隆設定,而且仍要需要由人類科研人員實際設置和執行實驗流程。但即使如此,結果已顯示 AI 系統能在真實實驗室工作中提供具實質意義的協助,同時可在未來加速人類科學家的研究。

值得一提的是,整個 AI 與實驗室循環是在固定提示詞及無人為干預的情況下運作。這種設計展現了模型能獨立地在未有人類引導下,提出真正嶄新的流程改動;但同時亦限制了系統在探索與優化之間取得動態平衡的彈性。未來若能在探索新構想與深化既有成果之間取得更佳平衡,預期可帶來更顯著的效能提升;因為無論在酶層面還是轉化效率方面,仍有相當大的改善空間。我們預期在規劃和任務範疇推理方面的進步將提升簡單固定提示詞在支援發現和後續優化方面的能力。

優化現實世界研究方案的演進框架

Gibson 組裝(在新視窗中開啟)自 2009 年推出以來,一直是分子生物學中最常用的克隆方法之一。Gibson 組裝可透過短暫融解 DNA 片段的末端,讓序列相互匹配的片段接合,從而將多段 DNA 「黏合」成一個完整分子。其核心優點在於流程簡單,所有反應可在單一試管及固定溫度下完成。然而,這些限制同時亦為進一步優化留下空間。此外,以下特性令這種方法特別適合用於評估 AI 模型在提升濕實驗技術方面的能力:

  • 其組成明確且各項成分均受良好控制,有別於以細胞為基礎的系統
  • 具備清晰的最佳化目標函數:在固定量的線性 DNA 輸入條件下,產生可轉化的環狀 DNA
  • 實驗週期相對較短(約 1–2 天)
  • 由於設計空間高度複雜,必須透過機制推理進行優化;最佳緩衝液、試劑及溫度之間存在相互依存關係

我們以 HiFi 組裝(在新視窗中開啟)作為優化的起點。HiFi 組裝是一套由 New England Biolabs 開發的專有酶系統,其設計基於 Gibson 組裝。我們進一步探討,在移除單一步驟和等溫反應的限制後,AI 是否能夠根據實驗反饋進行創新與學習,並在此情境下識別出可行的流程改進方向。具體而言,我們進行了一項雙片段克隆反應,使用綠色螢光蛋白(GFP)基因及廣泛應用的 pUC19 質粒;後者是一種標準的 DNA「載體」,用以將基因導入細菌中以進行複製。這次研究的目標是提升成功形成菌落的數量。

我們引入一套演進框架,透過反覆迭代不同研究方案以優化克隆反應,令模型能夠根據過往實驗結果進行「即時」學習。在每一輪實驗中,GPT‑5 會提出一組包含 8 至 10 種不同反應條件的方案;如果部分反應需要實驗室當時沒有的定制試劑,就會推遲至之後的輪次進行。其後,由人類科學家實際執行各項反應,並在初步篩選中,將所得菌落數量與基準 HiFi Gibson 組裝進行比較。上一輪表現最佳的數據,隨後會輸入至下一輪實驗作為學習基礎。值得注意的是,整個提示流程都經過標準化,除釐清問題外並無任何額外的人為介入;這讓我們能將新穎的機制性分析直接歸因於 AI 本身,而非人類指導。

我們針對完整優化流程中表現最佳的八項反應,在更廣泛的 DNA 稀釋範圍下進行重新測試,結果發現其中不少反應的效果比初步篩選時為低;最終,表現最為穩定且經驗證最強的候選方案,來自第 5 輪實驗,並成功重現其原有的表現。多數高表現反應屬於「ligase-polish」類型,而此類反應似乎對感受態細胞狀態的細微差異,以及/或反應後 DNA 處理步驟特別敏感。由於這些反應只採用簡短的 HiFi 步驟,我們推測,很多產物在進入大腸桿菌(E. coli)時,可能僅有一個接合位點完成封接,另一個則僅透過退火維持,並需依賴細胞內的修復途徑繼續修復。這個機制導致結果具有高度變異性,並產生「中獎」效應:即使大多數情況下,即使大多數時候這些反應的變體未有顯著較佳的表現,但只要有一個異常值顯著較強,便足以推動整個家族進入之後的優化輪次。

由於克隆反應在機制上較為複雜,我們主要透過多個回合逐步優化該反應;同時,我們亦並行優化轉化流程,採用單個「一次性」回合,由模型提出多項彼此獨立的改動方案,並從中選取表現最佳的一項反應。

兩步克隆流程(酶組裝與轉化)的初步優化篩選。(左)酶組裝流程經過五輪反覆優化(合共 44 項反應)。以 HiFi 組裝作為基準起點,GPT‑5 在每一輪提出 8 至 10 種不同的組裝流程變體,並將表現最佳的結果數據納入之後的提示詞中。在每一輪中,圖中顯示截至該回合為止(包括先前輪次)的最佳表現反應。(右)轉化條件的一次性優化,測試共 13 種不同流程。對於兩項優化篩選,圖中數據均代表各條件下的單次測量結果(n=1);而對表現最佳的候選方案,則另行進行重複驗證實驗。

在完全採用標準化提示、且沒有任何人為介入的情況下,GPT‑5 成功將整體克隆效率提升了 79 倍,並已透過多次重複實驗加以確認。

值得注意的是,模型提出了一套全新的酶反應流程,並將其命名為「RecA 輔助配對與完成 HiFi 組裝」(RecA-Assisted Pair-and-Finish HiFi Assembly,簡稱 RAPF-HiFi)。這個流程在反應中加入了兩種新的蛋白質:來自大腸桿菌(E. coli)的重組酶 RecA,以及噬菌體 T4 的 gene 32 單股 DNA 結合蛋白(gp32)。此外,模型亦著重調整培養溫度與時間,以及各種酶加入的時機:建議先進行一次 50°C 的 HiFi 反應,其後於 37°C 加入 RecA 與 gp32 讓其發揮作用,最後再回到 50°C 完成組裝。綜合而言,這些新的調整令反應效率提升超過 2.5 倍。需要指出的是,這僅為未經多輪條件與時序反覆優化下的初始表現。

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

在轉化流程方面,效果最顯著的改動出乎意料地簡單:先將細胞離心沉澱(透過離心機旋轉,令細胞集中於試管底部),再移除一半原有體積,之後於 4°C 下重新懸浮細胞,並在此狀態下加入 DNA。雖然高效率的化學感受態細胞一般被視為相當脆弱,實際結果顯示細胞能良好承受濃縮處理,而分子碰撞機率的提升亦大幅增強了轉化效率,在最終驗證中提升超過 30 倍。

同源性克隆技術的嶄新改進

圖解展示 RecA 輔助配對與完成 HiFi DNA 組裝的各個步驟,並清楚標示 T5 外切酶、gp32、RecA、聚合酶及連接酶依序作用於 DNA 鏈的不同階段。

T5 外切酶會產生 3′ 突出端,gp32 透過抑制次級結構來穩定這些末端。其後,RecA 從 3′ 端切入,取代 gp32,並促進同源序列搜尋與退火。當溫度升高至 50°C 時,這兩種蛋白會一併脫離,讓聚合酶進行缺口填補,並由連接酶完成接合。

Gibson 組裝的原理,是為不同 DNA 片段製造相互匹配的「黏性」末端,讓它們能夠彼此找到並接合在一起。整個反應會使用兩種酶(聚合酶和連接酶),把已接合的 DNA 片段封接完成。在 RAPF-HiFi 中,研究人員加入了兩種額外的蛋白質,以提升 DNA 片段配對的效果。第一種是 gp32,它的作用就像一把梳子,能把鬆散的 DNA 末端理順並減少糾結;第二種是 RecA,則像一位引導者,負責為每條 DNA 鏈尋找正確的配對對象,並把相互匹配的片段拉近在一起。當溫度升高時,這兩種輔助蛋白會從 DNA 上脫離,讓原本的 Gibson 酶系統接手,完成之後的組裝反應。

總結來說,我們認為效能之所以能夠提升,主要是因為以下的運作機制:

  • gp32 會覆蓋尚未配對的單股 DNA(ssDNA)末端,並消除其形成的次級結構
  • RecA 在正常情況下會受 DNA 結構影響;在此機制中,它會從 3’ 端切入,並取代原本附著在 DNA 上的 gp32 蛋白
  • RecA 進一步促成 ssDNA:ssDNA 之間的同源序列搜尋(在新視窗中開啟),推動 DNA 片段正確配對並完成退火
  • 當溫度重新升至 50°C 時,RecA 與 gp32 這兩種輔助蛋白會一同從 DNA 上脫離,讓聚合酶與連接酶接手,完成之後的組裝反應。

為了驗證這些新引入的酶是否真正能發揮作用,並排除效能提升僅由溫度步驟或緩衝液改動所造成的可能性,我們分別測試了不加入 RecA,以及同時不加入 RecA 與 gp32 的 RAPF-HiFi 反應表現。結果顯示,這兩種情況的效率均明顯低於完整的 RAPF-HiFi,顯示 RecA 與 gp32 兩者皆為此反應機制中不可或缺的關鍵要素。

為了驗證其背後的運作機制,我們將反應中新增的兩種酶 RecA 與 gp32 分離,以進行獨立測試。結果顯示,單獨加入其中任何一種酶,其效率均較 HiFi 基準反應為低;相反,當 RecA 與 gp32 同時使用時,整體表現明顯比基準更佳,效率提升約 2.6 倍。(誤差線:來自 3 次獨立實驗的標準差)

RRAPF-HiFi 的發展過程顯示,GPT‑5 具備進行複雜且多維度推理的能力:

據我們所知,RecA 與 gp32 過往並未在分子生物學方法中被實際結合並共同使用。與許多分子生物學上的創新技術相似,其背後的生化作用其實早已有研究基礎,但真正的突破,在於將這些已知機制整合成一套可實際應用、且具通用性的操作方法。

舉例來說,RecA 與 gp32 之間的交互作用,早已在機制層面的體外重建實驗中被研究過;在 D-loop 形成的相關研究中,gp32 已被證實(在新視窗中開啟)可增強 RecA 的活性。gp32 亦曾與其天然的 T4 重組酶夥伴 UvsX,以及重組酶裝載因子 uvsY,一同應用於重組酶聚合酶擴增(RPA)(在新視窗中開啟)技術中。雖然某些 RPA 專利文件中曾提及(在新視窗中開啟),使用經改造(即非野生型)的 gp32 蛋白,能讓 E. coli 的 RecA 在異源系統中發揮作用,但這類說法僅零星出現於專利描述之中,據我們所知,並未有公開研究數據支持,亦未被發展成一套穩定、以 RecA 為基礎的 RPA 系統。在克隆技術方面,有一種名為 SLiCE(在新視窗中開啟) 的方法,會使用含有 λ Red 重組系統的 E. coli 全細胞萃取液,其中 Red beta 蛋白可能同時扮演 DNA 結合蛋白與重組酶的角色(不過,我們在提示詞中明確禁止使用細胞萃取液)。在另一項應用中,Ferrin 與 Camerini-Otero(在新視窗中開啟) 曾單獨利用 RecA,依據序列配對情況來選擇性捕捉 DNA 分子。另一方面,gp32 亦曾被作為添加劑(在新視窗中開啟),用於 PCR 反應中以降低 DNA 次級結構的影響;而在 NABSA 擴增技術(在新視窗中開啟)中,RecA 與 gp32 皆被證實可提升反應效率,但兩者各自發揮作用,並未觀察到明顯的協同效果。整體而言,針對傳統 Gibson 類 DNA 組裝反應所提出的改進方案並不多,其中較為突出的例子,是一種耐熱 DNA 結合蛋白(ET SSB),可將組裝效率提升約 2.5 倍(在新視窗中開啟)

在大多數應用情境下,我們並不預期 RAPF-HiFi 能在操作簡單性與穩定性方面,取代現有的 HiFi/Gibson 克隆方法。不過,這個在機制上截然不同的組裝途徑本身相當值得關注:GPT‑5 提出了一個結合陌生重組蛋白組合與全新反應動態的解決方案。其背後的運作機制有望以模組化方式理解,未來或可將其中部分元件重新應用,或與其他分子生物學流程結合。同時,我們亦持續探索進一步改進 RAPF-HiFi 的可能性。例如,可透過調整反應溫度與各步驟的持續時間,在 RecA 與 gp32 的活性,以及外切酶過度消化之間取得更佳平衡;而兩種蛋白的使用量亦仍有優化空間。此外,GPT‑5 亦提出了一種高活性的 RecA 變異體,目前我們正進行其純化工作。

在轉化流程方面,成功的優化條件涵蓋了多種添加物與溫度調整,目的在於提升市售 10-beta 感受態細胞(在新視窗中開啟)於熱震步驟中的效率。在 13 種由 AI 於「一次性」優化中提出並測試的轉化方案中,效果最顯著的是第 7 號方案(Transformation 7,T7)。此研究方案在 4°C 下先將細胞離心沉澱,移除原有體積的一半,重新懸浮細胞後才加入 DNA。一般而言,高效率的化學感受態細胞被視為相當脆弱,這類處理方式通常會被避免;然而實際結果顯示,細胞能良好承受濃縮處理。每個細胞接觸到的 DNA 量增加,加上抑制性緩衝液減少、使熱震過程更為明確,兩者合併的效果大幅提升了轉化效率,在最終驗證中提升超過 30 倍。

這套轉化流程屬於嶄新做法,雖然過往在概念上亦曾有類似的方法(在新視窗中開啟),即在較早的步驟中先將細胞加以濃縮。值得注意的是,GPT‑5 在此所發展的方法可直接配合市售的化學感受態細胞使用,毋須自行在實驗室內製備細胞;同時,在相近的細胞品系條件下,其轉化效率提升幅度亦超越了先前相關方法所報告的表現。

機械人系統

為提升此模型實驗系統的處理量,Robot on Rails 與 Red Queen Bio 合作構建了一套機械人系統,能夠接收以自然語言撰寫的克隆實驗流程,並在濕實驗室中自動執行。

該系統結合了三個核心組件:1) 一個由人類到機械人的大型語言模型(LLM),負責將一般英文指令轉換為機械人可執行的動作;2) 一套能即時識別及定位實驗室器材的視覺系統;3) 一個機械人路徑規劃模組,以決定如何安全且精準地完成每項操作。最終形成的是一套靈活且具通用性的實驗室機械人系統,並已進一步針對 Gibson 克隆流程的不同變化進行最佳化。

我們測試了這套自動化機械人是否能獨立完成一次完整的克隆實驗,方法是同時執行兩套流程:一套是標準的 HiFi 方法,另一套則是首輪優化中表現最佳、由 AI 改良的 R8 流程。我們在每個步驟中,將機械人的操作結果與由人類實驗人員執行的實驗進行比較。結果顯示,機械人能成功處理整個轉化流程,而該流程涉及多種不同的實體操作,包括液體轉移與混合、移動樣本試管、對細胞進行控制加熱,以及將細胞鋪展於培養基平板上。與人手操作的轉化實驗直接比較後,機械人所產生的數據品質相若,且相對於基準流程亦達到同等幅度的效能提升,顯示自動化系統在生物實驗優化與加速方面具備初步潛力。

雖然機械人和人工實驗的倍數變化相似,但機械人的絕對菌落數量約為人工操作的十分之一,這表明需要改進的領域,例如液體處理精確度、溫度控制校準,以及模仿人工細胞處理技術的細微差別。

標準 HiFi 方法(基準)與改良後的 R8 方法,均由人類研究人員及自動化機械人分別執行;所有轉化效率均以各自的 HiFi 基準對照進行正規化(設定為 1.0)。結果顯示,由人手執行的 R8 方法帶來 2.39 倍的效率提升;由機械人執行的 R8 方法則達到 2.13 倍的提升(相當於人手表現的 89%)。雖然機械人的絕對產量較低,兩者在流程表現上的排名一致,顯示結果具有可比性。

未來發展

我們認為,這些實驗為未來由 AI 加速的科學研究提供了一個縮影:模型能持續學習,並與現實世界不斷互動。雖然在這次實驗中,我們刻意排除人為介入,以純粹評估模型本身的能力,但我們對 AI 協助人類科學家設計實驗、並為研究突破作出貢獻,感到尤其振奮與期待。


在致力以安全且負責任的方式加速科學進展的同時,我們亦積極評估並降低相關風險,特別是與生物安全有關的風險。這些評估結果顯示,模型具備在濕實驗環境中進行推理,以及改進實驗流程的能力,而這亦可能涉及我們在《
防範應對架構(在新視窗中開啟)》中所提及的生物安全影響。為此,我們承諾在模型與系統層面建立必要而周全的防護措施,以降低相關風險,同時持續開發評估方法,以追蹤目前的風險水平。