跳至主要內容
OpenAI

2026年2月5日

研究研究發表

GPT‑5 降低了無細胞蛋白質合成的成本

與 Ginkgo Bioworks 合作,我們建立了一個由 AI 驅動的自主實驗室,並成功將蛋白質生產成本降低了 40%。

載入中…

我們已在數學與物理等領域看到 AI 的快速進展,在這些領域中,想法往往可以在不接觸實體世界的情況下進行評估。生物學有所不同。進展在實驗室中進行,科學家們在那裡進行耗時且昂貴的實驗。

這種情況開始改變。前沿模型現在可以直接連接到實驗室自動化系統,提出實驗建議,進行大規模實驗,從結果中學習,並決定下一步行動。在許多生命科學領域中,瓶頸在於迭代,而自主實驗室的建立旨在消除這一限制。

在先前的研究中,我們展示了 GPT‑5 能夠透過封閉迴路實驗改進濕式實驗室的實驗流程。在此,我們顯示相同的方法可以降低蛋白質生產的成本。

我們與 Ginkgo Bioworks(在新視窗中開啟) 合作,將 GPT‑5 連接至雲端實驗室。這是一種可透過軟體遠端操作的自動化濕實驗室,由機器人執行實驗並回傳資料。我們利用這套 lab-in-the-loop 系統,最佳化一項廣泛使用的生物製程:無細胞蛋白質合成 (CFPS)。在六輪閉環實驗中,系統在 580 個自動化孔板上測試了超過 36,000 種獨特的 CFPS 反應組成。GPT‑5 在取得電腦、網路瀏覽器及相關論文後,經過三輪實驗便創下低成本 CFPS 的新紀錄,將蛋白質生產成本降低 40%(試劑成本改善 57%)。其中也包含新的反應配方,在自主實驗室常見的反應條件下表現更穩定。

為何無細胞蛋白質合成很重要

無細胞蛋白質合成(CFPS)是一種不需培養活細胞即可製造蛋白質的方法。CFPS 並非將 DNA 放入細胞中並等待其產生蛋白質,而是在受控的混合物中運行蛋白質合成機制。這使它成為一個實用的工具,適合快速建立原型和測試,因為科學家可以快速進行多項實驗,並在同一天獲得結果。

蛋白質是現代生物學的重要成果之一。許多重要的藥物是以蛋白質為基礎。許多診斷和研究分析依賴蛋白質。在工業環境中,蛋白質作為酵素,能使化學過程更清潔且更高效。蛋白質甚至存在於你的洗衣精中。當蛋白質生產變得更快、更便宜時,科學家通常能更早測試更多想法,並降低將早期研究轉化為人們日常受益之成果的成本。

CFPS 對於那類迭代已經很有用。瓶頸在於最佳化很棘手,並且在擴展時成本會變得昂貴。

無細胞蛋白質合成難以優化且成本高

無細胞蛋白質合成涉及許多彼此交互作用的複雜成分,包括負責編碼目標蛋白質的 DNA 模板、細胞裂解液(也就是細胞內各種機制所形成的混合液),以及從能量來源到鹽類在內的大量生化成分。要從整體角度理解這套系統極為困難,而許多(在新視窗中開啟)過去(在新視窗中開啟)研究(在新視窗中開啟)已嘗試運用不同類型的機器學習方法來降低蛋白質生產成本。

標準的無細胞蛋白質合成(CFPS)配方和商用試劑盒通常定價以符合人類工作節奏。自主實驗室能在一個人類團隊可能只能進行數十次反應的時間內,完成數千次反應。在那個規模下,試劑的成本成為了限制因素。

CFPS 也很難僅靠直覺進行最佳化。它是由許多相互作用的組件所組成的混合體。細微的變動可能會產生影響,但影響的方向並不總是顯而易見,而若不進行大量實驗,往往很難找出最佳組合。先前的方法已降低成本,但由於徹底探索空間需要大量人力,進展往往是漸進的。

將 GPT‑5 連接到機器人實驗室

我們將 GPT‑5 與 Ginkgo Bioworks 的雲端實驗室結合,形成一個閉環自主系統,用於優化無細胞蛋白質合成 (CFPS)。

GPT‑5 設計了多批實驗。實驗室執行了這些任務。結果已回饋至模型。模型使用該資料來建議下一輪。我們重複了那個週期六次。

標題為《AI 驅動的自主實驗室》的圖表。GPT-5 進行資料分析、生化推理與假設生成,並將實驗設計傳送至 Reconfigurable Automation Carts(RACs),由其執行實體實驗、自動化液體處理、培養樣本,並測量螢光。RAC 將實驗數據和指標回傳給 GPT-5,形成封閉回饋迴圈。

GPT‑5 以標準 384 孔板格式設計了一批實驗,並在 Ginkgo Bioworks 的雲端實驗室執行。實驗一結束,雲端實驗室就將數據回傳給 GPT‑5,模型在那裡分析結果、生成新的假設,並設計下一輪實驗。

為了確保循環在自主實驗室的能力範圍內運行,我們在每次實驗開始前加入了嚴格的程式化驗證。該驗證確保 AI 設計的實驗能在自動化平台上實際執行。它避免了那些在文字描述中看似合理,但無法在機器人工作流程中實際執行的「紙上實驗」。

在整個實驗期間,系統在 580 個自動化孔板上完成超過 36,000 次CFPS反應。這樣的規模之所以重要,是因為只有累積到足夠規模,規律才會浮現。在生物學研究中,單次實驗往往充滿雜訊。大量實驗與反覆迭代,正是從隨機雜訊中找出真正訊號的關鍵。GPT‑5 在取得相關論文與工具後,經過三輪實驗與兩個月時間,創下新的最佳成果:蛋白質生產成本較先前最佳基準(在新視窗中開啟)降低 40%。

Ginkgo Bioworks 的可重新配置自動化推車。Credit: Ginkgo Bioworks

我們的學習心得

我們發現,這些改進來自於識別出能夠良好協作並在高吞吐量自動化的現實情況下依然堅持的組合。

我們發現,GPT‑5 識別出低成本的反應組成,這些組成是人類先前未在此配置中測試過的。無細胞蛋白質合成(CFPS)已經研究多年,但可能的混合物空間仍然很大。當你能快速提出並執行數千種組合時,你就能找到在手動作業流程中容易被忽略的可行區域。

我們也發現,高吞吐量、以微孔板為基礎的實驗往往與手動、檯面實驗不同。在高吞吐量反應格式中,氧合可能較低。混合與幾何可能會有所不同。大多數 CFPS 反應在試管中產生的蛋白質量遠高於在微量滴定板中,因為較大的規模通常意味著有更多的氧氣供應和更好的混合。事實上,對於低體積的板式反應,GPT‑5 在取得用於資料分析的電腦存取權,以及用來搜尋相關論文的網頁瀏覽器後,立即提出了許多表現優於先前最佳結果的反應。總體而言,GPT‑5 提出了許多在高吞吐量限制下表現良好的試劑組合,其中包括許多在自動化實驗室環境中常見的低氧條件下更為穩健的組合。

此外,我們發現緩衝、能量再生元件和多胺的微小變更,相對於其成本,卻能產生重大影響。這些參數並非人們首先考慮的,但在高吞吐量的情況下,它們會成為可測試的假設,而不是背景假設。

最後,成本結構本身決定了什麼是重要的。在 CFPS 中,成本現在主要由裂解液和 DNA 所主導。這表示 yield 是最具槓桿效益的策略。如果你能在每單位昂貴投入下提升蛋白質產出,那麼即使在你追求其他地方的邊際節省之前,你也能在成本上取得實質進展。

自主實驗室的迭代在提高蛋白質產量的同時降低了成本。

在六輪自主實驗中,系統穩步改善無細胞蛋白質合成,降低成本的同時提高蛋白質產量。結果顯示為每一輪的反應成本與蛋白質效價的對比,最佳的權衡形成一個前沿。較大的點標示每一輪達到的最低每克成本,星號/虛線參考則表示 384 孔板中先前的最先進基準(Olsen 等人,2025 年)。仔細觀察後期的輪次可以凸顯最終的收益,而逐輪摘要顯示最佳每克成本隨時間逐漸下降。

限制說明

這些結果是在一種蛋白質 sfGFP 和一個無細胞蛋白質合成(CFPS)系統上展示的。將推廣至其他蛋白質和其他 CFPS 系統的普遍性仍需證明。

氧合和反應幾何形狀會強烈影響產量,而這些因素可能會因規模而異。某些改進可能會對這些條件很敏感,而理解這些敏感性是接下來要做的工作的一部分。

實驗流程的改進和試劑處理需要人為監督。系統可以設計並解讀實驗,但實驗室工作仍涉及需要有經驗的操作代理處理的實務細節。

未來規畫

我們計畫將實驗室迴圈優化應用於其他生物工作流程,因為更快的迭代能推動進展。我們認為自主實驗室與模型是互補的。模型可以生成設計,但最終生物學仍然需要測試和反覆迭代。在生成與實驗之間形成完整的循環,是將有潛力的想法轉化為可行成果的關鍵。

在我們以安全且負責任的方式推動科學進步的同時,也同步進行風險的評估與降低,尤其關注與生物安全相關的議題。這些結果顯示,模型能在濕實驗室中進行推理以改善實驗流程,並可能對生物安全產生影響;我們會透過應變整備框架進行評估與緩解。我們致力於在模型與系統層級建立必要且細緻的防護措施,以降低這些風險,並開發評估機制來追蹤當前的水準。

我們感謝 Ginkgo Bioworks 的合作夥伴,以及協助設計、運行並支援這項工作背後自動化雲端實驗室的團隊。

作者

OpenAI