加速科學進步是 AI 造福人類最有價值的方式之一。隨著 GPT‑5 的發展,我們開始看到初步成果:AI 不僅能幫助研究人員更快地掌握科學文獻,也能支援嶄新的科學推理方式,例如發掘意想不到的關聯、提出可供驗證的推論策略,或建議合理機制,供專家進一步評估與測試。
迄今為止,相關進展最為顯著的領域包括數學、理論物理學與理論電腦科學,這些領域中的想法可在無須實體實驗的情況下進行嚴格驗證。生物學則有所不同,此領域的突破大多仰賴實際實驗、反覆迭代,以及在實驗室中累積的實證結果。
為了深入理解前沿模型在此類情境中的表現,我們與生物安全新創公司 Red Queen Bio 合作,建立一套評估框架,用以檢驗模型在濕實驗室中如何提出構想、進行分析,並根據實驗結果持續修正。我們建立了一個簡化的分子生物學實驗系統,並要求 GPT‑5 針對一項分子複製流程進行效率最佳化。
在多輪實驗過程中,GPT‑5 提出了一種全新的作用機制,將複製效率提升了 79 倍。克隆是分子生物學中的基礎技術。克隆方法的效率對於建立複雜的大型資料庫非常重要,而這些資料庫正是蛋白質工程(在新視窗中開啟)、基因篩選(在新視窗中開啟)與菌株工程(在新視窗中開啟)等研究工作的核心基礎。此研究展示了 AI 有潛力與生物學家協同合作,加快研究進程。透過改進實驗方法,研究人員得以提升效率、降低成本,並更快將研究成果轉化為實際應用。
由於生物學推理的進展涉及生物安全風險,我們在嚴格受控的環境中進行這次研究,採用無害的實驗系統、限制任務範圍,並評估模型行為,藉此作為生物安全風險評估,以及模型與系統層級防護機制建置的依據;相關原則已載於我們的應變整備框架(在新視窗中開啟)中。
在此實驗設計中,GPT‑5 能夠自行針對分子複製流程進行推理,提出修正方案,並整合新一輪實驗數據,持續提出進一步的改進建議。唯一的人為介入,是由科學家實際執行修正後的實驗流程,並上傳實驗數據。
在多輪實驗過程中,GPT‑5 持續改進分子複製流程,使整體效率提升超過 79 倍;亦即在相同輸入 DNA 的條件下,所回收並經定序驗證的複製產物數量,較基準流程高出 79 倍。其中最引人注目的是,GPT‑5 引入了兩種構成全新作用機制的酵素:來自大腸桿菌 (E. coli) 的重組酶 RecA,以及噬菌體 T4 基因 32 的單股 DNA 結合蛋白 (gp32)。兩者協同作用時,gp32 先行穩定並理順鬆散的 DNA 末端,而 RecA 則進一步引導各 DNA 鏈尋找正確的同源配對。
初步篩選與後續實驗結果顯示,RecA 輔助配對與完成 HiFi 組裝 (RAPF) 以及第 7 號轉殖流程 (T7),分別為表現最佳的酵素組裝流程與轉殖流程。RAPF 組裝與 T7 轉殖各自相對於基準 HiFi 分子複製流程,分別帶來 2.6 倍與 36 倍的效率提升;兩者合併使用時,呈現相加效果,整體效能提升達 79 倍。所有分子複製產物均已透過定序確認。(誤差線:來自 3 次獨立驗證實驗的標準差)
儘管仍屬研究初期階段,這些結果已展現出相當正面的潛力。上述改進僅適用於本研究模型系統中所使用的特定分子複製設定,且目前仍需由人類科學家負責實際建置與執行相關實驗流程。即便如此,這些實驗顯示,AI 系統已能在真實的實驗室環境中提供具實質意義的協助,並有潛力在未來加速人類科學研究。
值得注意的是,本研究中的 AI 與實驗室流程循環是在固定提示條件下運行,且未引入任何人為干預。這套架構讓我們得以看出,即使沒有人類介入,模型仍能提出真正新穎的實驗流程調整;但同時也使系統較偏重於探索新想法,因而限制了其進一步充分發揮新發現成果效益的能力。若能在探索與利用之間取得更合適的動態平衡,預期可帶來更顯著的效益,因為無論是在酵素反應或轉殖流程方面,仍有相當大的改進空間。我們預期,隨著規劃能力與任務時間尺度推理的進步,簡單且固定的提示詞將更能同時支援新發現的探索,以及後續的最佳化流程。
Gibson 組裝(在新視窗中開啟)反應自 2009 年提出以來,一直是分子生物學中主要的分子複製方法,並獲廣泛採用。Gibson 組裝可讓分子生物學家透過短暫加熱 DNA 末端,使各 DNA 片段得以彼此配對並接合,形成單一 DNA 分子。Gibson 組裝的一大優點在於流程簡單:所有反應皆在同一支試管中、於固定溫度下完成。然而,這樣的設計限制也代表仍有進一步改善的空間。此外,下列特性使其特別適合用來評估 AI 模型改善濕實驗室技術的能力:
- 系統結構明確、組成元件可控,與以細胞為基礎的系統不同
- 具備明確的最佳化目標:在固定線性 DNA 投入量下,產生可成功轉殖的環狀 DNA
- 實驗週期相對短(約 1 至 2 天)
- 設計空間維度高,需仰賴對反應機制的理解才能加以改善,且緩衝液、試劑與溫度等條件彼此高度相互影響
我們以 New England Biolabs 開發、並以 Gibson 組裝為基礎的專有酵素系統 HiFi 組裝(在新視窗中開啟),作為進行最佳化的起點。我們進一步探討,在移除單一步驟與等溫限制後,AI 是否能從實驗回饋中學習並提出創新做法,進而在此情境下找出實驗流程的改進方向。
具體而言,我們進行了一項由兩段 DNA 組成的分子複製反應,使用綠色螢光蛋白 (GFP) 基因與常用的 pUC19 質體;pUC19 是一種標準的 DNA 載體,用於將基因導入細菌中進行複製。目標是提高成功形成菌落的數量。
我們透過引入一套進化式框架,對分子複製反應進行反覆調整,使模型能夠在多次提案迭代中,從先前的實驗結果即時學習。在每一輪中,GPT‑5 會提出 8 至 10 種不同的反應設計;若其中某些設計需要實驗室尚未備妥的客製化試劑,則會延後至後續輪次再行測試。接著由人類科學家實際執行這些反應,並在初步篩選中量測其相對於 HiFi Gibson 組裝基準流程的菌落數量。上一輪表現最佳的實驗數據,隨後會被納入下一輪的實驗設計中。值得注意的是,整個提示流程皆採用標準化設計,除必要的澄清問題外未加入任何人為介入,因而能將新穎的作用機制洞見直接歸因於模型本身,而非人類引導。
我們以更廣泛的 DNA 稀釋範圍,重新測試完整最佳化流程中表現最好的前八個反應,結果發現其中多數反應的效果不如初步篩選時顯著;最終,通過驗證且表現最穩定的,是來自第五輪的一項反應,其效果成功重現原先的表現。許多表現突出的反應屬於所謂的「連接酶修補」類型,這類反應對感受態細胞狀態的細微差異,以及反應後 DNA 處理方式特別敏感。由於這些反應僅包含縮短的 HiFi 步驟,我們推測,許多產物在進入大腸桿菌時,可能只有其中一個接合位點完成封合,另一端則僅靠退火維持,後續的修復需仰賴細胞本身的修復機制。這樣的特性導致結果具有高度變異性,並呈現出所謂的「頭獎效應」:即使大多數變體未必優於其他做法,只要出現一個表現特別突出的結果,便足以讓整個反應類型進入後續輪次。
由於分子複製反應在機制上較為複雜,我們採取多輪方式進行改善;同時,也以單次「一次性」實驗的方式,並行改善轉殖流程,讓模型提出多項彼此獨立的調整方案,並選取其中表現最佳的一項。
分子複製兩步驟流程的初步最佳化結果:酵素組裝與轉殖。(左)酵素組裝流程的多輪迭代改善,共進行五輪(合計 44 次反應)。以 HiFi 組裝基準流程為起點,GPT‑5 在每一輪提出 8 至 10 種組裝流程變體,並將表現最佳的結果數據納入後續提示中。在每一輪中,圖中顯示的是截至當下為止表現最佳的反應(包含先前各輪)。(右)轉殖條件的一次性最佳化測試,共評估 13 種不同流程。在兩組最佳化測試中,每個條件僅進行一次量測 (n=1);表現最佳的候選流程則另行進行重複驗證。
在採用標準化提示、且未加入任何人為輸入的情況下,GPT‑5 將端到端的分子複製效率提升了 79 倍,且此結果已透過重複實驗加以確認。
值得注意的是,模型提出了一種新的酵素反應流程,並將其命名為 RecA 輔助配對與完成 HiFi 組裝(RAPF-HiFi)。此流程在反應中加入兩種新的蛋白質:來自大腸桿菌的重組酶 RecA,以及噬菌體 T4 基因 32 的單股 DNA 結合蛋白 gp32。此外,模型也刻意調整了培養溫度與時間,以及各酵素加入的時機:在初始 50°C 的 HiFi 反應後加入 RecA 與 gp32,讓這些蛋白質在 37°C 下作用,最後再回到 50°C 完成組裝。這些調整合併後,使整體效率提升超過 2.5 倍。需要說明的是,這僅反映在尚未對反應條件與時間進行反覆調整前的初始表現。
在轉殖流程方面,最有效的改動出乎意料地簡單:先將細胞離心沉澱,移除一半體積後重新懸浮,再於 4°C 下加入 DNA。儘管高效率的化學感受態細胞通常被視為相當脆弱,但實驗結果顯示,細胞能良好承受濃縮處理,而分子碰撞機率的提高,也使轉殖效率在最終驗證中顯著提升,增幅超過 30 倍。

T5 核酸外切酶產生 3′ 突出端,gp32 透過抑制次級結構來穩定這些末端。隨後,RecA 自 3′ 端進入,取代 gp32,並促進同源搜尋與退火。將溫度升高至 50°C 可使兩種蛋白質自 DNA 脫離,讓聚合酶填補缺口並完成連接反應。
Gibson 組裝的原理,是為 DNA 片段提供可相互配對的黏性末端,使其能自行尋找並接合。該反應透過兩種酵素:聚合酶與連接酶,將已配對的 DNA 片段封合完成。在 RAPF-HiFi 中,研究團隊引入了兩種蛋白質,提升配對步驟的效率。其中,gp32 的作用如同梳理工具,可穩定並理順鬆散的 DNA 末端。而 RecA 則扮演引導角色,協助每一條 DNA 鏈尋找正確的同源配對,並促成片段結合。當溫度升高時,這兩種輔助蛋白會自 DNA 上脫離,讓原本的 Gibson 組裝酵素得以完成後續反應。
總的來說,我們推測此次效能提升,是透過以下作用機制所促成:
- gp32 會包覆尚未退火的單股 DNA (ssDNA) 尾端,藉此消除次級結構
- RecA 通常會受到 DNA 結構的抑制,但在此情況下可自 3′ 端進入,並取代 gp32 所形成的絲狀結構
- RecA 會介導單股 DNA 之間的同源搜尋(在新視窗中開啟),促使退火作用進行
- 當反應溫度回升至 50°C 時,RecA 與 gp32 的絲狀結構會一同從 DNA 上脫離,使聚合酶與連接酶得以完成後續反應
為了確認這些新引入的酵素是否確實發揮作用,並排除效能提升僅源自溫度步驟或緩衝液改變的可能性,我們分別測試了缺少 RecA,以及同時缺少 RecA 與 gp32 的 RAPF-HiFi 反應表現。相較於完整的 RAPF-HiFi,這兩種條件下的反應效能皆明顯下降,顯示 RecA 與 gp32 兩種蛋白質對 RAPF-HiFi 的作用機制皆不可或缺。
為了檢驗其背後的作用機制,我們將反應中新增的兩種酵素分別取出,單獨評估 RecA 與 gp32 的影響。結果顯示,單獨使用其中任何一種酵素,其效率皆低於 HiFi 基準流程。然而,當兩者同時作用時,整體表現超越基準流程,效率提升達 2.6 倍。(誤差線:來自 3 次獨立實驗的標準差)
RAPF-HiFi 的研發結果顯示,GPT‑5 具備進行複雜且多維度推理的能力:
- RecA 會受到 DNA 結構的抑制(在新視窗中開啟),而模型能同時提出兩項彼此協同的調整作法,先加入 RecA,再搭配 gp32 以消除 DNA 的次級結構,這一點尤其值得注意。
- 在自然情況下,大腸桿菌的 RecA 其主要搭配的蛋白質為同樣來自大腸桿菌的單股 DNA 結合蛋白(SSB)。在自然情況下,大腸桿菌的 RecA 其主要搭配的蛋白質為同樣來自大腸桿菌的單股 DNA 結合蛋白 (SSB)。SSB 在基因體複製、重組與修復過程中,所扮演的角色與 gp32 相似;然而,SSB 以穩定的四聚體形式與 DNA 結合,其解離速度極慢,必須仰賴細胞內的 RecFOR 複合體(在新視窗中開啟),才能促進 RecA 在 SSB 絲狀結構上的成核。SSB 以穩定的四聚體形式結合,解離速率極慢(在新視窗中開啟)。相較之下,gp32 所形成的絲狀結構動態性較高(在新視窗中開啟),因而能被 RecA 取代。
據我們所知,RecA 與 gp32 尚未在分子生物學方法中被實際共同運用。如同許多新穎的分子生物學技術,相關的生化作用本身早已有研究基礎,但將其整合為一種具實用性且可廣泛應用的方法,才構成此次的技術進展。
舉例來說,RecA 與 gp32 之間的交互作用,早已在機制導向的體外重建實驗中受到研究;在探討 D 環形成的相關研究中,已有結果顯示,gp32(在新視窗中開啟) 能夠增強 RecA 的活性。此外,gp32 也曾與其天然的 T4 重組酶夥伴 UvsX,以及重組酶載入因子 uvsY,一同應用於重組酶聚合酶擴增 (RPA)(在新視窗中開啟)。儘管某些 RPA 專利說明文件指出(在新視窗中開啟),在異源系統中使用大腸桿菌的 RecA 搭配受損(亦即經工程改造、非野生型)的 gp32 蛋白,可產生有效的 RPA 反應,但這類說法僅零星出現於部分專利描述中;據我們所知,尚未有公開發表的研究數據足以支持,也未發展成一套穩定、以 RecA 為基礎的 RPA 系統。另有一種稱為 SLiCE(在新視窗中開啟) 的分子複製方法,會使用來自大腸桿菌、含有 λ Red 重組系統的全細胞萃取物,其中 Red beta 蛋白可能同時扮演 DNA 結合蛋白與重組酶的雙重角色(不過,本研究在提示設計中明確禁止使用細胞萃取物)。在另一項應用中,Ferrin 與 Camerini-Otero(在新視窗中開啟) 曾單獨使用 RecA,依據序列配對情形來選擇性捕捉 DNA 分子。此外,gp32(在新視窗中開啟) 亦曾被作為添加劑,用於 PCR 這類 DNA 擴增反應中,以降低 DNA 次級結構的影響。另有研究顯示,NABSA 擴增反應(在新視窗中開啟)可同時受到 RecA 與 gp32 的促進;不過,兩者各自發揮效果,並未觀察到明顯的協同作用。整體而言,針對傳統 Gibson 類 DNA 組裝反應所提出的改進方案仍相當有限,其中較為顯著的例子,是一種耐熱的 DNA 結合蛋白 (ET SSB),可將組裝效率提升約 2.5 倍(在新視窗中開啟)。
對於大多數應用情境而言,我們並不預期 RAPF-HiFi 能在簡便性與穩定性上,與 HiFi / Gibson 分子複製方法相互競爭。然而,出現了一種在作用機制上截然不同的組裝途徑,這一點仍值得關注:GPT‑5 提出了一種結合非典型重組蛋白組合與反應動態的新解法。其背後的作用機制可能具有模組化特性,未來或可作為元件,在其他分子層級的實驗流程中重新組合或加以運用。我們也持續探索 RAPF-HiFi 在各方面的進一步改善可能。透過調整反應溫度與各步驟的持續時間,可在 RecA 與 gp32 的活性之間取得平衡,避免外切酶過度消化;此外,兩種蛋白質的用量仍有進一步調整空間。此外,GPT‑5 亦提出了一種高活性的 RecA 變體,目前正進行純化作業。
在轉殖流程方面,成功的改善條件涵蓋多種添加劑與熱處理變化,其目的在於提升市售 10-beta 化學感受態細胞(在新視窗中開啟)的熱休克效率。在測試的 13 種由 AI 提出的一次性轉殖設計中,效果最佳的改動為轉殖方案 7 (T7):先將細胞離心沉澱、移除一半體積後重新懸浮,並全程於 4°C 下進行,最後再加入 DNA。一般而言,高效率的化學感受態細胞被視為相當脆弱,因此通常會避免此類處理步驟。然而,實驗結果顯示,細胞能良好承受濃縮處理。由於單一細胞所接觸的 DNA 量增加,且抑制性緩衝成分減少,使熱休克效果更為明顯,最終使轉殖效率大幅提升,增幅超過 30 倍。
這項轉殖流程屬於新穎作法,過去雖已有概念相近(在新視窗中開啟)、在較早步驟即進行細胞濃縮的作法,但並非以此方式實現。值得注意的是,GPT‑5 所提出的方法可直接搭配市售化學感受態細胞使用,無須自行培養或準備細胞,且在相近細胞株條件下,其成效亦超越既有方法所報告的提升幅度。
為提升此一模型實驗系統的處理量,Robot on Rails 與 Red Queen Bio 共同建置了一套機器人系統,能夠接收自然語言描述的分子複製實驗流程,並在濕式實驗室中自動執行。
該系統整合三項核心元件:一是將日常語言轉換為機器人操作指令的人機介面語言模型;二是可即時辨識並定位實驗器材的視覺系統;三是負責規劃安全且精確操作路徑的機器人路徑規劃模組。最終形成一套具高度彈性與通用性的實驗室機器人,並進一步針對 Gibson 分子複製流程的不同變體進行調整。
我們進一步測試該自主機器人是否能完整執行分子複製實驗,方法是同時運行兩套流程:標準 HiFi 方法,以及在第一輪改善中表現最佳的 AI 修正流程 R8。
我們在各個步驟中,將機器人執行的結果與人類研究人員手動完成的實驗進行比較。機器人成功完成轉殖流程,並能執行多項實體操作,包括液體轉移與混合、樣品管移動、對細胞施加精確控溫,以及將細胞鋪布於培養平板上。與人類操作的轉殖實驗相比,機器人所產生的數據品質相當,且相對於基準流程的改善幅度亦一致,顯示其在自動化並加快生物實驗流程方面的初步潛力。
儘管機器人與人類實驗在效率倍數上的提升相近,但機器人執行下的絕對菌落數量約為人工操作的十分之一,顯示仍有改進空間,例如液體處理精度、溫度控制校準,以及重現人工細胞處理細節等方面。
標準 HiFi 方法(基準)與改良後的 R8 方法,皆由人類研究人員與自主機器人分別執行;轉殖效率已各自歸一化至對應的 HiFi 基準(設為 1.0)。在人類執行的情況下,R8 的效率提升為 2.39 倍;由機器人執行時,R8 則達到 2.13 倍(約為人類表現的 89%)。儘管機器人產生的絕對菌落數量較低,兩者在實驗流程的相對表現排序上仍高度一致。
我們相信,這些實驗讓人得以一窺未來由 AI 加速的科學樣貌:模型將持續學習,並與真實世界不斷互動。雖然本研究刻意排除人為介入,純粹評估模型本身的能力,但我們對 AI 協助人類科學家設計實驗、推動研究突破的潛力,仍備感期待。
在我們以安全且負責任的方式推動科學進步的同時,也同步進行風險的評估與降低,尤其關注與生物安全相關的議題。這些評估結果顯示,模型能在濕實驗室中進行推理並改善實驗流程,且其能力可能對生物安全帶來影響,相關說明已載於我們的應變整備框架(在新視窗中開啟)中。我們致力在模型與系統層級建立必要且細緻的防護措施,以降低上述風險,並同時開發評估機制,用來追蹤目前的能力水準。



