跳到主要內容
OpenAI

2026年2月5日

研究發佈

GPT‑5 降低無細胞蛋白質合成成本

我們與 Ginkgo Bioworks 合作建立 AI 驅動的自主實驗室,並將蛋白質生產成本降低 40%。

正在載入...

我們已看到 AI 在數學和物理等領域帶來快速進展。在這些領域,很多構想通常毋須接觸物理世界也能進行評估。但生物學的情況截然不同,因為生物學進展需要通過實驗室實現,而科學家進行實驗需要時間和成本。

這種情況正開始改變。前沿模型現在可以直接連接至實驗室自動化系統,提出實驗、按規模執行實驗、從結果中學習,並決定下一步要做甚麼。在生命科學的許多領域,瓶頸在於迭代,而建立自主實驗室正是為了消除這項限制。

在早前的工作中,我們展示了 GPT‑5 如何透過閉環實驗改善濕實驗室實驗方案。在這項工作中,我們展示同一方法也可降低蛋白質生產成本。

我們與 Ginkgo Bioworks(在新視窗中開啟) 合作,將 GPT‑5 連接至雲端實驗室。這是一個可透過軟件遙距操作的自動化濕實驗室,由機械人執行實驗並回傳數據。我們運用這個 lab-in-the-loop 架構,優化一項廣泛應用的生物流程:無細胞蛋白質合成 (CFPS)。在六輪閉環實驗中,系統在 580 塊自動化培養板上測試超過 36,000 種獨特 CFPS 反應組成。在獲提供電腦、網絡瀏覽器和相關論文存取權後,GPT‑5 用三輪實驗便在低成本 CFPS 方面達到新的最佳水平,將蛋白質生產成本降低 40%(試劑成本改善 57%),當中包括新的反應組成,對自主實驗室常見的反應條件更具穩健性。

無細胞蛋白質合成為何重要

無細胞蛋白質合成 (CFPS) 是一種毋須培養活細胞也能製造蛋白質的方法。CFPS 並不是將 DNA 放入細胞並等待細胞產生蛋白質,而是在受控混合物中運行製造蛋白質的細胞機制。這令 CFPS 成為快速原型製作和測試的實用工具,因為科學家可以迅速進行大量實驗,並在同一天測量結果。

蛋白質是現代生物學成果的重要組成部分。許多重要藥物都以蛋白質為基礎。許多診斷方法和研究檢測也依賴蛋白質。而在工業環境中,蛋白質可作為酶,令化學程序更潔淨、更高效;就連你的洗衣劑中也含有蛋白質。當蛋白質生產變得更快、更便宜,科學家通常便能更早測試更多構思,並降低把早期研究轉化為日常可受益成果的成本。

CFPS 本身已適合用於這類迭代。瓶頸在於這種方式難以優化,而且在規模化時成本高昂。

無細胞蛋白質合成難以優化且成本高昂

無細胞蛋白質合成涉及多種複雜且會互相影響的成分:編碼目標蛋白質的 DNA 模板、細胞裂解液(即由細胞內部各種細胞機器組成的「湯」),以及大量生物化學成分,從能源來源到鹽類不等。要從整體上推斷這個系統的運作極其困難,而許多(在新視窗中開啟)過往(在新視窗中開啟)研究(在新視窗中開啟)亦曾應用不同類型的機器學習,以降低蛋白質生產成本。

標準無細胞蛋白質合成 (CFPS) 配方和商用試劑盒,通常是為人手操作的實驗節奏而定價。在人類團隊僅能完成數十次反應的時間內,自主實驗室可進行數千次反應。在這個規模下,試劑成本便成為限制因素。

CFPS 也很難單靠直覺優化,因為這是由許多互相作用的成分組成的混合物。細微改動也可能會產生影響,但影響方向不一定明顯;如不進行大量實驗,就很難找出最佳組合。過往方法雖已能成功降低成本,但要全面探索所有可能組合需要大量人力,因此進展通常較為漸進。

將 GPT‑5 連接至機械人實驗室

我們將 GPT‑5 與 Ginkgo Bioworks 的雲端實驗室配對,組成一個用於無細胞蛋白質合成 (CFPS) 優化的閉環自主系統。

GPT‑5 設計多批實驗,而實驗室就負責執行。結果回傳至模型;模型再使用這些數據提出下一輪實驗。我們重複這個循環六次。

圖表標題:「AI 驅動的自主實驗室」。GPT-5 會進行數據分析、生物化學推理和假設生成,並將實驗設計傳送至可重構自動化推車(Reconfigurable Automation Carts,RAC)。RAC 會執行實體實驗、自動化液體處理、培養樣本,並測量螢光。RAC 會將實驗數據和指標回傳至 GPT-5,形成閉環反饋循環。

GPT‑5 以標準 384 孔板格式設計多批實驗,並交由 Ginkgo Bioworks 的雲端實驗室執行。實驗完成後,雲端實驗室會將數據傳回 GPT‑5,再由模型分析結果、生成新假設,並設計下一輪實驗。

為確保循環建基於自主實驗室實際能做到的工作,我們在任何實驗執行前加入嚴格的程式化驗證。這項驗證會確保 AI 設計的實驗可在自動化平台上實際執行。這能避免出現「紙上實驗」的情況:即這些實驗在文字上看似可行,卻無法在機械人工作流程中執行。

在整個運行過程中,系統在 580 塊自動化實驗板上執行了超過 36,000 次 CFPS 反應。這個規模很重要,因為它能讓模式浮現。在生物學中,單次實驗往往充滿雜訊。要把訊號從隨機雜訊中分離出來,靠的是高吞吐量和反覆迭代。GPT‑5 一旦取得相關論文和工具的存取權,便用三輪實驗和兩個月時間達到新的最佳水平:相比過往最佳基線(在新視窗中開啟),蛋白質生產成本降低 40%。

Ginkgo Bioworks 的可重構自動化推車。圖片來源:Ginkgo Bioworks

我們的發現

我們發現,改進來自識別能良好配合、並能在高吞吐量自動化現實條件下保持有效的組合。

我們發現,GPT‑5 識別出一些低成本反應組成,而人類此前未曾在這種配置下測試過。無細胞蛋白質合成 (CFPS) 雖已被研究多年,但可能混合物的空間仍然很大。當你能迅速提出並執行數千種組合,便能找到以人手工作流程容易錯過的可行區域。

我們亦發現,高吞吐量的板式實驗往往與人手台式實驗不同。在高吞吐量反應格式中,氧合程度可能較低。混合方式和幾何形狀也可能不同。大多數 CFPS 反應在試管中產生的蛋白質遠多於在微量滴定板中產生的蛋白質,因為較大規模通常有較充足氧氣供應和較佳混合效果。事實上,在低體積板式反應中,GPT‑5 在取得電腦進行數據分析,以及透過網絡瀏覽器搜尋相關論文後,立即提出了許多表現超越過往最佳水平的反應。整體而言,GPT‑5 提出了許多在高吞吐量限制下表現良好的試劑組合,其中不少組合在自動化實驗室環境常見的低氧條件下更具穩健性。

此外,我們發現緩衝液、能量再生成分和多胺的細微變化,相對其成本可帶來特別大的影響。這些未必總是人們最先調整的參數,但在高吞吐量環境下,這些參數會由背景假設變成可測試的假設。

最後,成本結構本身也影響了哪些因素最重要。在 CFPS 中,成本目前主要由裂解液和 DNA 主導。這意味著提高產量是對成本影響最大的策略。如果能提升每單位昂貴投入所產生的蛋白質產量,即使尚未追求其他邊際節省,也能在成本上取得有意義的進展。

自主實驗室迭代在提高蛋白質產量的同時降低成本

在六輪自主實驗中,系統持續改善無細胞蛋白質合成,在提高蛋白質產量的同時降低成本。結果以每一輪的反應成本與蛋白質滴度顯示,當中最佳取捨形成一條前沿曲線。較大的點表示每輪達到的最低每克成本,而星號/虛線參考標記則代表 384 孔板中的過往最佳基準(Olsen 等,2025 年)。對後期輪次作更仔細觀察,可見最後的提升;逐輪摘要亦顯示,最佳每克成本隨時間逐漸下降。

限制

這些結果在一種蛋白質 sfGFP 和一種無細胞蛋白質合成 (CFPS) 系統中驗證。相關結果能否推廣至其他蛋白質和其他 CFPS 系統,仍有待證明。

氧合程度和反應幾何形狀會大幅影響產量,而這些因素可能會隨規模而變化。部分改進可能對這些條件敏感,而理解這些敏感性是下一步工作的一部分。

實驗方案改進和試劑處理仍需要人類監督。系統可以設計和解讀實驗,但實驗室工作仍涉及需要經驗豐富操作人員處理的實務細節。

下一步

我們計劃將 lab-in-the-loop 優化應用於其他生物工作流程,讓更快速的迭代推動新進展。我們認為自主實驗室可與模型互補。模型可以生成設計,但生物學最終仍需要經過測試和迭代。只有把生成與實驗連接成閉環,才能將具潛力的構想轉化為真正可行的成果。

在我們致力以安全、負責任的方式加快科學進展之際,我們亦會評估並降低風險,尤其是與生物安全相關的風險。這些結果顯示,模型可以在濕實驗室情境中進行推理,協助改善實驗方案,並可能對生物安全帶來影響;我們會透過防範應對架構評估並緩解這些影響。我們致力在模型和系統層面建立必要而細緻的保障措施,以降低相關風險,並開發評估方法,追蹤目前的能力水平。

我們感謝 Ginkgo Bioworks 的合作夥伴,以及所有協助設計、運行和支援這項工作背後自動化雲端實驗室的團隊。

作者

OpenAI