2025年12月16日

衡量 AI 在濕實驗室中加速生物研究的能力

GPT‑5 提出了新穎的濕實驗室流程改進，將一項分子複製流程的效率提升了 79 倍。

拼貼風格的圖像，採用柔和的藍橘漸層色調，結合 DNA 組裝示意圖，並呈現標示「Biology Research」的粗體文字，隸屬於「OpenAI for Science」。

載入中…

加速科學進步是 AI 造福人類最有價值的方式之一。隨著 GPT‑5 的發展，我們開始看到初步成果⁠：AI 不僅能幫助研究人員更快地掌握科學文獻，也能支援嶄新的科學推理方式，例如發掘意想不到的關聯、提出可供驗證的推論策略，或建議合理機制，供專家進一步評估與測試。

迄今為止，相關進展最為顯著的領域包括數學、理論物理學與理論電腦科學，這些領域中的想法可在無須實體實驗的情況下進行嚴格驗證。生物學則有所不同，此領域的突破大多仰賴實際實驗、反覆迭代，以及在實驗室中累積的實證結果。

為了深入理解前沿模型在此類情境中的表現，我們與生物安全新創公司 Red Queen Bio 合作，建立一套評估框架，用以檢驗模型在濕實驗室中如何提出構想、進行分析，並根據實驗結果持續修正。我們建立了一個簡化的分子生物學實驗系統，並要求 GPT‑5 針對一項分子複製流程進行效率最佳化。

在多輪實驗過程中，GPT‑5 提出了一種全新的作用機制，將複製效率提升了 79 倍。克隆是分子生物學中的基礎技術。克隆方法的效率對於建立複雜的大型資料庫非常重要，而這些資料庫正是蛋白質工程⁠(在新視窗中開啟)、基因篩選⁠(在新視窗中開啟)與菌株工程⁠(在新視窗中開啟)等研究工作的核心基礎。此研究展示了 AI 有潛力與生物學家協同合作，加快研究進程。透過改進實驗方法，研究人員得以提升效率、降低成本，並更快將研究成果轉化為實際應用。

由於生物學推理的進展涉及生物安全風險，我們在嚴格受控的環境中進行這次研究，採用無害的實驗系統、限制任務範圍，並評估模型行為，藉此作為生物安全風險評估，以及模型與系統層級防護機制建置的依據；相關原則已載於我們的應變整備框架⁠(在新視窗中開啟)中。

實驗結果

在此實驗設計中，GPT‑5 能夠自行針對分子複製流程進行推理，提出修正方案，並整合新一輪實驗數據，持續提出進一步的改進建議。唯一的人為介入，是由科學家實際執行修正後的實驗流程，並上傳實驗數據。

在多輪實驗過程中，GPT‑5 持續改進分子複製流程，使整體效率提升超過 79 倍；亦即在相同輸入 DNA 的條件下，所回收並經定序驗證的複製產物數量，較基準流程高出 79 倍。其中最引人注目的是，GPT‑5 引入了兩種構成全新作用機制的酵素：來自大腸桿菌 (E. coli) 的重組酶 RecA，以及噬菌體 T4 基因 32 的單股 DNA 結合蛋白 (gp32)。兩者協同作用時，gp32 先行穩定並理順鬆散的 DNA 末端，而 RecA 則進一步引導各 DNA 鏈尋找正確的同源配對。

初步篩選與後續實驗結果顯示，RecA 輔助配對與完成 HiFi 組裝 (RAPF) 以及第 7 號轉殖流程 (T7)，分別為表現最佳的酵素組裝流程與轉殖流程。RAPF 組裝與 T7 轉殖各自相對於基準 HiFi 分子複製流程，分別帶來 2.6 倍與 36 倍的效率提升；兩者合併使用時，呈現相加效果，整體效能提升達 79 倍。所有分子複製產物均已透過定序確認。（誤差線：來自 3 次獨立驗證實驗的標準差）

儘管仍屬研究初期階段，這些結果已展現出相當正面的潛力。上述改進僅適用於本研究模型系統中所使用的特定分子複製設定，且目前仍需由人類科學家負責實際建置與執行相關實驗流程。即便如此，這些實驗顯示，AI 系統已能在真實的實驗室環境中提供具實質意義的協助，並有潛力在未來加速人類科學研究。

值得注意的是，本研究中的 AI 與實驗室流程循環是在固定提示條件下運行，且未引入任何人為干預。這套架構讓我們得以看出，即使沒有人類介入，模型仍能提出真正新穎的實驗流程調整；但同時也使系統較偏重於探索新想法，因而限制了其進一步充分發揮新發現成果效益的能力。若能在探索與利用之間取得更合適的動態平衡，預期可帶來更顯著的效益，因為無論是在酵素反應或轉殖流程方面，仍有相當大的改進空間。我們預期，隨著規劃能力與任務時間尺度推理的進步，簡單且固定的提示詞將更能同時支援新發現的探索，以及後續的最佳化流程。

用於改善真實世界實驗流程的進化式框架

Gibson 組裝⁠(在新視窗中開啟)反應自 2009 年提出以來，一直是分子生物學中主要的分子複製方法，並獲廣泛採用。Gibson 組裝可讓分子生物學家透過短暫加熱 DNA 末端，使各 DNA 片段得以彼此配對並接合，形成單一 DNA 分子。Gibson 組裝的一大優點在於流程簡單：所有反應皆在同一支試管中、於固定溫度下完成。然而，這樣的設計限制也代表仍有進一步改善的空間。此外，下列特性使其特別適合用來評估 AI 模型改善濕實驗室技術的能力：

系統結構明確、組成元件可控，與以細胞為基礎的系統不同
具備明確的最佳化目標：在固定線性 DNA 投入量下，產生可成功轉殖的環狀 DNA
實驗週期相對短（約 1 至 2 天）
設計空間維度高，需仰賴對反應機制的理解才能加以改善，且緩衝液、試劑與溫度等條件彼此高度相互影響

我們以 New England Biolabs 開發、並以 Gibson 組裝為基礎的專有酵素系統 HiFi 組裝⁠(在新視窗中開啟)，作為進行最佳化的起點。我們進一步探討，在移除單一步驟與等溫限制後，AI 是否能從實驗回饋中學習並提出創新做法，進而在此情境下找出實驗流程的改進方向。

具體而言，我們進行了一項由兩段 DNA 組成的分子複製反應，使用綠色螢光蛋白 (GFP) 基因與常用的 pUC19 質體；pUC19 是一種標準的 DNA 載體，用於將基因導入細菌中進行複製。目標是提高成功形成菌落的數量。

我們透過引入一套進化式框架，對分子複製反應進行反覆調整，使模型能夠在多次提案迭代中，從先前的實驗結果即時學習。在每一輪中，GPT‑5 會提出 8 至 10 種不同的反應設計；若其中某些設計需要實驗室尚未備妥的客製化試劑，則會延後至後續輪次再行測試。接著由人類科學家實際執行這些反應，並在初步篩選中量測其相對於 HiFi Gibson 組裝基準流程的菌落數量。上一輪表現最佳的實驗數據，隨後會被納入下一輪的實驗設計中。值得注意的是，整個提示流程皆採用標準化設計，除必要的澄清問題外未加入任何人為介入，因而能將新穎的作用機制洞見直接歸因於模型本身，而非人類引導。

我們以更廣泛的 DNA 稀釋範圍，重新測試完整最佳化流程中表現最好的前八個反應，結果發現其中多數反應的效果不如初步篩選時顯著；最終，通過驗證且表現最穩定的，是來自第五輪的一項反應，其效果成功重現原先的表現。許多表現突出的反應屬於所謂的「連接酶修補」類型，這類反應對感受態細胞狀態的細微差異，以及反應後 DNA 處理方式特別敏感。由於這些反應僅包含縮短的 HiFi 步驟，我們推測，許多產物在進入大腸桿菌時，可能只有其中一個接合位點完成封合，另一端則僅靠退火維持，後續的修復需仰賴細胞本身的修復機制。這樣的特性導致結果具有高度變異性，並呈現出所謂的「頭獎效應」：即使大多數變體未必優於其他做法，只要出現一個表現特別突出的結果，便足以讓整個反應類型進入後續輪次。

由於分子複製反應在機制上較為複雜，我們採取多輪方式進行改善；同時，也以單次「一次性」實驗的方式，並行改善轉殖流程，讓模型提出多項彼此獨立的調整方案，並選取其中表現最佳的一項。

分子複製兩步驟流程的初步最佳化結果：酵素組裝與轉殖。（左）酵素組裝流程的多輪迭代改善，共進行五輪（合計 44 次反應）。以 HiFi 組裝基準流程為起點，GPT‑5 在每一輪提出 8 至 10 種組裝流程變體，並將表現最佳的結果數據納入後續提示中。在每一輪中，圖中顯示的是截至當下為止表現最佳的反應（包含先前各輪）。（右）轉殖條件的一次性最佳化測試，共評估 13 種不同流程。在兩組最佳化測試中，每個條件僅進行一次量測 (n＝1)；表現最佳的候選流程則另行進行重複驗證。

在採用標準化提示、且未加入任何人為輸入的情況下，GPT‑5 將端到端的分子複製效率提升了 79 倍，且此結果已透過重複實驗加以確認。

值得注意的是，模型提出了一種新的酵素反應流程，並將其命名為 RecA 輔助配對與完成 HiFi 組裝（RAPF-HiFi）。此流程在反應中加入兩種新的蛋白質：來自大腸桿菌的重組酶 RecA，以及噬菌體 T4 基因 32 的單股 DNA 結合蛋白 gp32。此外，模型也刻意調整了培養溫度與時間，以及各酵素加入的時機：在初始 50°C 的 HiFi 反應後加入 RecA 與 gp32，讓這些蛋白質在 37°C 下作用，最後再回到 50°C 完成組裝。這些調整合併後，使整體效率提升超過 2.5 倍。需要說明的是，這僅反映在尚未對反應條件與時間進行反覆調整前的初始表現。

20 uL reaction volume
100 ng pUC19 vector, HindIII/KpnI-digested
64.3 ng Monster GFP insert, DpnI-digested PCR amplicon
10 μL NEBuilder 2x HiFi DNA Assembly Master Mix
50C - 30 min; 4C hold

在轉殖流程方面，最有效的改動出乎意料地簡單：先將細胞離心沉澱，移除一半體積後重新懸浮，再於 4°C 下加入 DNA。儘管高效率的化學感受態細胞通常被視為相當脆弱，但實驗結果顯示，細胞能良好承受濃縮處理，而分子碰撞機率的提高，也使轉殖效率在最終驗證中顯著提升，增幅超過 30 倍。

以同源序列為基礎的分子複製方法出現嶄新改進

示意圖說明 RecA 輔助配對與完成 HiFi DNA 組裝的各個步驟，標示 T5 核酸外切酶、gp32、RecA、聚合酶與連接酶依序在 DNA 鏈上作用。

T5 核酸外切酶產生 3′ 突出端，gp32 透過抑制次級結構來穩定這些末端。隨後，RecA 自 3′ 端進入，取代 gp32，並促進同源搜尋與退火。將溫度升高至 50°C 可使兩種蛋白質自 DNA 脫離，讓聚合酶填補缺口並完成連接反應。

Gibson 組裝的原理，是為 DNA 片段提供可相互配對的黏性末端，使其能自行尋找並接合。該反應透過兩種酵素：聚合酶與連接酶，將已配對的 DNA 片段封合完成。在 RAPF-HiFi 中，研究團隊引入了兩種蛋白質，提升配對步驟的效率。其中，gp32 的作用如同梳理工具，可穩定並理順鬆散的 DNA 末端。而 RecA 則扮演引導角色，協助每一條 DNA 鏈尋找正確的同源配對，並促成片段結合。當溫度升高時，這兩種輔助蛋白會自 DNA 上脫離，讓原本的 Gibson 組裝酵素得以完成後續反應。

總的來說，我們推測此次效能提升，是透過以下作用機制所促成：

gp32 會包覆尚未退火的單股 DNA (ssDNA) 尾端，藉此消除次級結構
RecA 通常會受到 DNA 結構的抑制，但在此情況下可自 3′ 端進入，並取代 gp32 所形成的絲狀結構
RecA 會介導單股 DNA 之間的同源搜尋⁠(在新視窗中開啟)，促使退火作用進行
當反應溫度回升至 50°C 時，RecA 與 gp32 的絲狀結構會一同從 DNA 上脫離，使聚合酶與連接酶得以完成後續反應

為了確認這些新引入的酵素是否確實發揮作用，並排除效能提升僅源自溫度步驟或緩衝液改變的可能性，我們分別測試了缺少 RecA，以及同時缺少 RecA 與 gp32 的 RAPF-HiFi 反應表現。相較於完整的 RAPF-HiFi，這兩種條件下的反應效能皆明顯下降，顯示 RecA 與 gp32 兩種蛋白質對 RAPF-HiFi 的作用機制皆不可或缺。

為了檢驗其背後的作用機制，我們將反應中新增的兩種酵素分別取出，單獨評估 RecA 與 gp32 的影響。結果顯示，單獨使用其中任何一種酵素，其效率皆低於 HiFi 基準流程。然而，當兩者同時作用時，整體表現超越基準流程，效率提升達 2.6 倍。（誤差線：來自 3 次獨立實驗的標準差）

RAPF-HiFi 的研發結果顯示，GPT‑5 具備進行複雜且多維度推理的能力：

RecA 會受到 DNA 結構的抑制⁠(在新視窗中開啟)，而模型能同時提出兩項彼此協同的調整作法，先加入 RecA，再搭配 gp32 以消除 DNA 的次級結構，這一點尤其值得注意。
在自然情況下，大腸桿菌的 RecA 其主要搭配的蛋白質為同樣來自大腸桿菌的單股 DNA 結合蛋白（SSB）。在自然情況下，大腸桿菌的 RecA 其主要搭配的蛋白質為同樣來自大腸桿菌的單股 DNA 結合蛋白 (SSB)。SSB 在基因體複製、重組與修復過程中，所扮演的角色與 gp32 相似；然而，SSB 以穩定的四聚體形式與 DNA 結合，其解離速度極慢，必須仰賴細胞內的 RecFOR 複合體⁠(在新視窗中開啟)，才能促進 RecA 在 SSB 絲狀結構上的成核。SSB 以穩定的四聚體形式結合，解離速率極慢⁠(在新視窗中開啟)。相較之下，gp32 所形成的絲狀結構動態性較高⁠(在新視窗中開啟)，因而能被 RecA 取代。

據我們所知，RecA 與 gp32 尚未在分子生物學方法中被實際共同運用。如同許多新穎的分子生物學技術，相關的生化作用本身早已有研究基礎，但將其整合為一種具實用性且可廣泛應用的方法，才構成此次的技術進展。

舉例來說，RecA 與 gp32 之間的交互作用，早已在機制導向的體外重建實驗中受到研究；在探討 D 環形成的相關研究中，已有結果顯示，gp32⁠(在新視窗中開啟) 能夠增強 RecA 的活性。此外，gp32 也曾與其天然的 T4 重組酶夥伴 UvsX，以及重組酶載入因子 uvsY，一同應用於重組酶聚合酶擴增 (RPA)⁠(在新視窗中開啟)。儘管某些 RPA 專利說明文件指出⁠(在新視窗中開啟)，在異源系統中使用大腸桿菌的 RecA 搭配受損（亦即經工程改造、非野生型）的 gp32 蛋白，可產生有效的 RPA 反應，但這類說法僅零星出現於部分專利描述中；據我們所知，尚未有公開發表的研究數據足以支持，也未發展成一套穩定、以 RecA 為基礎的 RPA 系統。另有一種稱為 SLiCE⁠(在新視窗中開啟) 的分子複製方法，會使用來自大腸桿菌、含有 λ Red 重組系統的全細胞萃取物，其中 Red beta 蛋白可能同時扮演 DNA 結合蛋白與重組酶的雙重角色（不過，本研究在提示設計中明確禁止使用細胞萃取物）。在另一項應用中，Ferrin 與 Camerini-Otero⁠(在新視窗中開啟) 曾單獨使用 RecA，依據序列配對情形來選擇性捕捉 DNA 分子。此外，gp32⁠(在新視窗中開啟) 亦曾被作為添加劑，用於 PCR 這類 DNA 擴增反應中，以降低 DNA 次級結構的影響。另有研究顯示，NABSA 擴增反應⁠(在新視窗中開啟)可同時受到 RecA 與 gp32 的促進；不過，兩者各自發揮效果，並未觀察到明顯的協同作用。整體而言，針對傳統 Gibson 類 DNA 組裝反應所提出的改進方案仍相當有限，其中較為顯著的例子，是一種耐熱的 DNA 結合蛋白 (ET SSB)，可將組裝效率提升約 2.5 倍⁠(在新視窗中開啟)。

對於大多數應用情境而言，我們並不預期 RAPF-HiFi 能在簡便性與穩定性上，與 HiFi / Gibson 分子複製方法相互競爭。然而，出現了一種在作用機制上截然不同的組裝途徑，這一點仍值得關注：GPT‑5 提出了一種結合非典型重組蛋白組合與反應動態的新解法。其背後的作用機制可能具有模組化特性，未來或可作為元件，在其他分子層級的實驗流程中重新組合或加以運用。我們也持續探索 RAPF-HiFi 在各方面的進一步改善可能。透過調整反應溫度與各步驟的持續時間，可在 RecA 與 gp32 的活性之間取得平衡，避免外切酶過度消化；此外，兩種蛋白質的用量仍有進一步調整空間。此外，GPT‑5 亦提出了一種高活性的 RecA 變體，目前正進行純化作業。

在轉殖流程方面，成功的改善條件涵蓋多種添加劑與熱處理變化，其目的在於提升市售 10-beta 化學感受態細胞⁠(在新視窗中開啟)的熱休克效率。在測試的 13 種由 AI 提出的一次性轉殖設計中，效果最佳的改動為轉殖方案 7 (T7)：先將細胞離心沉澱、移除一半體積後重新懸浮，並全程於 4°C 下進行，最後再加入 DNA。一般而言，高效率的化學感受態細胞被視為相當脆弱，因此通常會避免此類處理步驟。然而，實驗結果顯示，細胞能良好承受濃縮處理。由於單一細胞所接觸的 DNA 量增加，且抑制性緩衝成分減少，使熱休克效果更為明顯，最終使轉殖效率大幅提升，增幅超過 30 倍。

這項轉殖流程屬於新穎作法，過去雖已有概念相近⁠(在新視窗中開啟)、在較早步驟即進行細胞濃縮的作法，但並非以此方式實現。值得注意的是，GPT‑5 所提出的方法可直接搭配市售化學感受態細胞使用，無須自行培養或準備細胞，且在相近細胞株條件下，其成效亦超越既有方法所報告的提升幅度。

機器人系統

為提升此一模型實驗系統的處理量，Robot on Rails 與 Red Queen Bio 共同建置了一套機器人系統，能夠接收自然語言描述的分子複製實驗流程，並在濕式實驗室中自動執行。

該系統整合三項核心元件：一是將日常語言轉換為機器人操作指令的人機介面語言模型；二是可即時辨識並定位實驗器材的視覺系統；三是負責規劃安全且精確操作路徑的機器人路徑規劃模組。最終形成一套具高度彈性與通用性的實驗室機器人，並進一步針對 Gibson 分子複製流程的不同變體進行調整。

我們進一步測試該自主機器人是否能完整執行分子複製實驗，方法是同時運行兩套流程：標準 HiFi 方法，以及在第一輪改善中表現最佳的 AI 修正流程 R8。

我們在各個步驟中，將機器人執行的結果與人類研究人員手動完成的實驗進行比較。機器人成功完成轉殖流程，並能執行多項實體操作，包括液體轉移與混合、樣品管移動、對細胞施加精確控溫，以及將細胞鋪布於培養平板上。與人類操作的轉殖實驗相比，機器人所產生的數據品質相當，且相對於基準流程的改善幅度亦一致，顯示其在自動化並加快生物實驗流程方面的初步潛力。

儘管機器人與人類實驗在效率倍數上的提升相近，但機器人執行下的絕對菌落數量約為人工操作的十分之一，顯示仍有改進空間，例如液體處理精度、溫度控制校準，以及重現人工細胞處理細節等方面。

標準 HiFi 方法（基準）與改良後的 R8 方法，皆由人類研究人員與自主機器人分別執行；轉殖效率已各自歸一化至對應的 HiFi 基準（設為 1.0）。在人類執行的情況下，R8 的效率提升為 2.39 倍；由機器人執行時，R8 則達到 2.13 倍（約為人類表現的 89%）。儘管機器人產生的絕對菌落數量較低，兩者在實驗流程的相對表現排序上仍高度一致。

未來展望

我們相信，這些實驗讓人得以一窺未來由 AI 加速的科學樣貌：模型將持續學習，並與真實世界不斷互動。雖然本研究刻意排除人為介入，純粹評估模型本身的能力，但我們對 AI 協助人類科學家⁠設計實驗、推動研究突破的潛力，仍備感期待。

在我們以安全且負責任的方式推動科學進步的同時，也同步進行風險的評估與降低，尤其關注與生物安全相關的議題。這些評估結果顯示，模型能在濕實驗室中進行推理並改善實驗流程，且其能力可能對生物安全帶來影響，相關說明已載於我們的應變整備框架⁠(在新視窗中開啟)中。我們致力在模型與系統層級建立⁠必要且細緻的防護措施，以降低上述風險，並同時開發評估機制，用來追蹤目前的能力水準。

作者

繼續閱讀

檢視全部

Scientific computing agentic AI card image (1x1)

Scientific computing in the age of agentic AI

研究發表2026年7月28日

GPT-Red：解鎖提升穩健性的自我改進能力

安全2026年7月15日

在程式碼評估中分辨訊號與雜訊

研究2026年7月8日