2025年11月20日

利用 GPT‑5 加快科學實驗早期進度

我們從與科學家的合作中有何得著

一幅拼貼風格的圖像，結合了抽象形狀和色彩。左上角顯示一個淺橙色的方塊，部分文字可見。右上角有一個分支圖，細小黑色箭咀從中央黑點延伸而出，並用橙色小圓圈標示不同的點。左下方顯示柔和的橙色、粉紅色和紫色漸變。右下角有一個大黑色數字「5」，背景是淺藍色。

正在載入...

科學塑造人類生活的每一方面；從健康到能源生產，以至是國家安全甚至我們對宇宙的理解。如果人工智能可加快科學進程，縮短從產生新想法到驗證結果的時間，將能造福整個社會。

然而，創新的步伐仍然面臨限制。即使有了正確的想法，將其轉化為產品或療法也可能需要數年。在最近的一項調查⁠（在新視窗中開啟）中，60%的美國人表示科學和醫學突破對他們來說來得太慢；73%的人表示我們需要更好的方法來加快科研發現；69%的人認為科學領導力是國家的首要任務。

今天，我們發表《利用 GPT‑5 加快科學實驗早期進度⁠（在新視窗中開啟）》一文，這是一篇與范德堡大學 (Vanderbilt)、加州大學柏克萊分校 (UC Berkeley)、哥倫比亞大學 (Columbia)、牛津大學 (Oxford)、劍橋大學 (Cambridge)、勞倫斯利佛摩國家實驗室 (Lawrence Livermore National Laboratory) 及傑克森實驗室等大學 (The Jackson Laboratory) 及國家實驗室合作者共同撰寫的論文。當中整合了數學、物理學、生物學、計算機科學、天文學和材料科學的早期案例研究，見證 GPT‑5 協助研究人員以新穎手法綜合已知結果，可靠實用的文獻回顧功能，加快複雜困難的計算，甚至為未有解答的命題產生新證明。此外，該論文也記錄了其限制。我們的目標，是讓社群清楚了解這些系統在當前研究環境中能做甚麼和不能做甚麼。

這些案例研究顯示了專家如何利用 GPT‑5 加快科學發現，以及這種加速為何重要：

生物學：在由 Derya Unutmaz 醫生領導的一項研究中，科學家們花了數月時間試圖解釋人類免疫細胞中某個令人困惑的變化。GPT‑5 在幾分鐘內，從一份未公開的圖表中識別出可能的機制，並建議了一個證明該機制的實驗。這種速度有助研究人員更快地了解疾病，並開發出更好的治療方法。
數學：在另一個案例中，研究人員 Mehtaab Sawhney 和 Mark Sellke 正在處理一個幾十年前由 Paul Erdős 提出的開放性問題。他們卡在了最後一步，而 GPT‑5 提出了一個關於某個奇數如何打破模式的新想法，幫助他們完成了證明。這類進展強化了許多演算法和安全技術最終依賴的數學基礎。
演算法及最佳化：研究人員 Sébastien Bubeck 和 Christian Coester 測試機械人和路由中常用的決策方法是否如預期般可靠。GPT‑5 發現了一個新的清晰示例，顯示該方法可能會失敗，並改進了某個典型常見的優化結果，亦即用於找出解決問題最佳方法的數學依據。這種進步有助工程師加深理解機械人、路由和其他現實世界應用程式中使用的決策系統。

甚麼是 OpenAI for Science？

OpenAI for Science 的使命是加快科學發現：幫研究人員探索更多想法、更快地測試假設，並發掘原本需要花費大量時間的見解。我們透過將先進模型與合適的工具、工作流程和合作來達成此目標。

我們與學術界、工業界和國家實驗室的研究人員密切合作。這些合作幫助我們了解模型在哪些方面有用，在哪些方面會失敗，以及如何將其整合到科學過程中；從參閱文獻和產生證據，以至是建立模型、模擬和實驗設計。

我們的方法結合了兩種互補的信念。專門的科學工具，如模擬引擎、蛋白質數據庫和計算機代數系統，對於效率和精確度極為重要。與此同時，擴展基礎模型繼續釋放新的推理能力；跨領域連接想法、草擬證明、提出機制，以及根據概念而非關鍵字來瀏覽大量文獻。對於原先已有專門工具的領域，我們希望使用這些工具；而在需要一般推理的範疇，我們則會構建能夠處理相關問題的模型。這兩種渠徑相輔相成。

科學家如今如何使用 GPT‑5

最有意義的進步來自人類與人工智能的團隊合作。科學家負責議程，釐定問題、選擇方法、批判想法並驗證結果。GPT‑5 則提供廣度、速度以及同時探索多個方向的能力。

有效地使用 GPT‑5 是一種技能。研究人員學會如何提出問題、何時反駁、如何將問題分解成步驟，以及獨立驗證哪些內容。有成效的工作通常類似對話；研究人員和模型不斷地迭代，直到出現成效理想的方向，或者某個想法被推翻。

GPT‑5 在科學研究中的現狀

在這些早期研究中，由專家使用 GPT‑5 似乎能夠縮短部分研究工作流程。雖然無法自主運行項目或解決科學問題，但可以擴大探尋的範圍，幫助研究人員更快地達到正確結果。

其中一項越見重要的能力，是概念性文獻搜尋。GPT‑5 通常能識別構思之間更深層次的關係，並從跨語言和不易取得的來源中檢索相關資料。研究人員表示，他們因而發現了以往不知道的參考文獻、聯繫和論文。
在結構明確、反饋循環快速的數學和理論電腦科學中，GPT‑5 尤其有用。數學家使用 GPT‑5 可在短短幾分鐘內產生出可行的證明大綱，改變原本可能需時數天或數週的工作。在物理學和運算領域，該模型可以提出簡化的轉換，或指出其他領域中的類似結構。
在生物學和其他實證科學中，模型可以提出機制並設計實驗，以在濕實驗室中驗證這些假設。

我們已經超越了模型僅僅總結現有知識的階段。現在，GPT‑5 的早期貢獻可以在專家監督下有意義地協助研究人員。速度有所改善，顯示隨著能力和工具進步，可能會進一步加快科研步伐。

實際情況：數個案例研究

在科學前沿獨立重新發現已知的結果

找出最理想的凸優化定理

最佳化是尋找「最佳」選項的數學方法，例如最低的訓練損失或網絡中的最短路徑。梯度下降法是一種基本的最佳化方法，會在函數上重複採取小步的下降疊代。最近，Guy Barzilai、Ohad Shamir 和 Moslem Zamani 提出了一個定理⁠（在新視窗中開啟），探討梯度下降涉及的值序列何時會隨著時間形成一條凸曲線（沒有凹點的曲線），這使演算法行為更容易分析和控制。論文初版只針對保守的極小下降幅度探討這一點。

Sébastien Bubeck 給了 GPT‑5 一組較弱的結果，並詢問是否可以改善條件。模型提出了一個更準確的下降幅度界限，以及更清晰、更標準的證明，他隨後人手仔細檢查這些輸出結果；如果有更多的思考時間，模型的內部運行甚至可以從頭推導出最佳幅度界限。

GPT‑5 的貢獻：GPT‑5 協助 Sébastien Bubeck 探索更準確的下降幅度條件，並為最近的凸優化定理提出更清晰的證明，該定理已由他獨立驗證。

更多內容請參閱第 3 頁（在新視窗中開啟）

還原黑洞周圍隱藏的對稱性

在廣義相對論中，旋轉黑洞由克爾度規描述，而環繞黑洞移動的波形可以用複雜的微分方程式表示。物理學家尋找這類方程式的對稱性，即保持方程式不變的變換，因為對稱性會導致守恆量和簡單的結構。Alex Lupsasca 最近的研究顯示，克爾度規波形方程式具有隱藏的對稱結構，形成一個 SL(2,ℝ) 代數，這有助於解釋為何某些潮汐反應會消失。

當我們直接問 GPT‑5 Pro 關於克爾度規的完整問題時，該模型最初失敗，並報稱沒有任何值得留意的對稱性。在 Lupsasca 給予模型一個更簡單的「熱身」版問題後，我們再次提出克爾度規問題；這次，經過約 18 分鐘的內部推理後，模型產生了一組完整的對稱生成工具，並收束成 SL(2,ℝ)，與人類結果相符。

GPT‑5 的貢獻：GPT‑5 Pro 獲提供句適的熱身問題後，重構了克爾度規黑洞波方程式的隱藏 SL(2,ℝ) 對稱代數，並由 Lupsasca 確認了該結果。

免疫學中的機制性洞察

在現代免疫療法中，尤其是依賴工程化T細胞的CAR-T癌症治療，重要問題之一是如何保持有益的 T 細胞活躍且恆久，而不讓其陷入疲憊和功能失調。現有文獻顯示，暫時限制葡萄糖代謝可以持久地重新激活 T 細胞，使其更具促炎性。在早期的一項研究中，Derya Unutmaz 和同事用 2-脫氧葡萄糖 (2DG)，這是一種干擾葡萄糖代謝的化合物，並以此短暫治療人類 CD4+ T 細胞（一類重要的免疫細胞）。在移除 2DG 後，用 IL-2（一種指示 T 細胞增殖的信號分子）激活 CD4+ T 細胞，他們觀察到持續的轉變，朝向促炎的 Th17 樣狀態；這是一種參與保護和自體免疫疾病的 T 細胞亞體。他們花了數個月進行實驗和閱讀，試圖找出合理的機制來解釋這一效應。

多年後，他給了 GPT‑5 Pro 一個未公佈的流式細胞術散佈圖，顯示不同葡萄糖和 2DG 水平治療後的不同 T 細胞子集合，並要求嘗試解釋出現此數據的原因以及下一步應進行哪些實驗。經過約十幾分鐘的來回討論，模型指出在激活過程中破壞的 N-連結醣基化（細胞如何將糖鏈附著於蛋白質）是驅動因素，並預測是由記憶（而非初始）T 細胞負責。GPT‑5 隨後提出了具體的後續實驗，包括一項簡潔的甘露糖補充實驗，該實驗還原了 N-醣基化而不還原醣酵解。實驗室過去亦進行過甘露糖補充實驗，結果與模型預測完全吻合。

GPT‑5 Pro 隨後能夠分析未發表的 CD8+ T 細胞在 2DG 脈衝下的數據，並預測在 CAR-T 生成過程中短暫暴露於 2DG 將提高對目標癌細胞株的殺傷效率。GPT‑5 Pro 的預測與實驗室未公開的實驗數據相符。

GPT‑5 的貢獻：GPT‑5 分析了未發表的數據，推導出不明顯但有價值的機制假設，識別了活躍的 T 細胞亞群，並建議了後續實驗，這些實驗後來由 Unutmaz 實驗室進行測試並得到確認。

詳情請參閱第 11 頁（在新視窗中開啟）

深入搜尋文獻

將新的幾何結果與其他領域聯繫起來

Nikita Zhivotovskiy 聯同合作夥伴證明了凸幾何中的一個新定理；研究「優良」的形狀，即兩點間的任何線都保持在該形狀內。凸幾何是許多機器學習和統計模型的基礎。定理完成後，自然而然的下一個問題是：這個結果還能在哪些地方派上用場？

Zhivotovskiy 沒有猜測搜尋字詞和手動掃描文獻，而是將定理的正式表述告訴 GPT‑5，並詢問該定理可能與哪些領域連線。該模型指向密度估計、學習理論和多目標最佳化方面的工作，並提供了具體的參考文獻，其中包括一些他從未見過的文獻和一些其他語言的文獻。

GPT‑5 的貢獻： GPT‑5 協助 Nikita Zhivotovskiy 識別多個領域中的具體聯繫和參考資料，包括他未曾接觸過的材料。

理清 Erdős 問題數據庫並作出貢獻

Paul Erdős 提出了超過一千個問題，其中許多問題均保存在某個公開網站上。即使解決方案存在於艱澀的期刊或非英文論文中，有些問題仍被列為「未解決」。Mehtaab Sawhney 和 Mark Sellke 使用 GPT‑5 作為文獻搜尋助手，針對這個資料庫中的每個所謂的未解決問題，他們要求 GPT‑5 搜尋解決方案或重大部分進展。

GPT‑5 為幾個仍被標記為未解決的問題找到了完整解決方案，亦為其他問題找到了重要的部分結果，並指出了某個問題陳述中有印刷錯誤。對於 Erdős 問題 #848，網站上的人類評論已經概述了大部分結構；GPT‑5 提出了一個重要的密度估計，Sawhney 和 Sellke 予以更正，並進一步改進為完整的證明，從而解決了該問題。

GPT‑5 的貢獻：GPT‑5 協助尋找遺漏的解決方案，並提出了一個密度估算，Sawhney 和 Sellke 將其改進為 Erdős 問題 #848 的完整證明。

避免在程式碼中形式「團」：一個警示故事

糾錯碼會為數據增加冗餘，如此一來，即使有位元受損，也能還原資訊。這個項目研究了一種特殊的二進位代碼，其中每個位置對應於圖中的一條邊，目標是排除任何看起來像「完全連接的節點集合」（即「團」）的程式碼文字。當中的難處在於，要找出基本上需要多少個奇偶檢測以防止這類結構化錯誤並不容易。GPT‑5 利用有限體上的二次方程重新構建問題，並強調了一個經典結果，亦即 Chevalley–Warning 定理，該定理立即指出了正確的下限，由此揭示了所需的約束條件僅為先前認為的一半。

之後出現了一個意想不到的轉折：完全相同的界限和基本相同的證明，早在幾年前就出現在某篇簡短的研究論文中。GPT‑5 在沒有引用來源的情況下重現了該論點，並在另一個新的對話工作階段中再次向其提出此問題時，才找到了該份既有論文。此案例突顯了一個對於人工智能輔助數學的重要教訓：模型可以產生正確而精準的推理，但可能無法可靠地指出這些想法的最初來源。仔細驗證和細心查核資料出處仍然非常重要。

GPT‑5 的貢獻：GPT‑5 指出了重要的重新表述和既有定理，從而得出了最佳下限。然而，該模型直到被明確詢問後才識別出既有的出版刊物，這凸顯了對資料出處進行仔細的人手查核極為重要。

詳情請參閱第 28 頁（在新視窗中開啟）

與人工智能合力工作

使用 GPT-5 作為組合數學的研究拍檔

菲爾茲獎得主兼組合數學家 Tim Gowers 進行了一系列實驗，將 GPT‑5 視作「研究拍檔」，而不是用來解決作業類問題的工具。他向模型提出了一些正積極思考的困難組合數學問題，並要求模型提出構造、找出反面例子或批評部分論證。

在多個案例中，GPT‑5 能迅速發現候選構造中的缺陷或缺失案例，並提出更簡單的替代方案或反例；在另一些情況下，則停滯不前或無法取得進展。Gowers 的總體結論是，該模型已經非常有用，作為迅速且知識淵博的評論家，可以對想法進行壓力測試並節省時間，儘管該模型尚未達到他對完全共同作者的標準。

GPT‑5 的貢獻：GPT‑5 在探索性組合學工作中，作為 Tim Gowers 的快速批評者，發現缺陷、遺漏的案例及更簡單的替代方案。

詳情請參閱第 31 頁（在新視窗中開啟）

解釋宇宙學模型

宇宙學使用簡化模型來描述宇宙的大規模行為，包括暗能量和宇宙膨脹記錄。這些模型通常有多種數學等價形式，即使只是小小的代數錯誤，也可能會使計算出錯。Robert Scherrer 使用 GPT‑5 來檢查推導的合理性，探索宇宙模型的簡化版本，並在不同的暗能量參數化之間進行轉換。

GPT‑5 尤其擅長捕捉代數錯誤，提出同一物理概念的等效表述，並指引 Scherrer 參考文獻中與他獨立推導模型相符的現有結果。這減少了將想法從紙上轉化為能與數據比較的形式之間的阻力。

GPT‑5 的貢獻：GPT‑5 協助 Robert Scherrer 檢查推導、建議等效表述，並指出文獻中的相符結果。

詳情請參閱第 37 頁（在新視窗中開啟）

支援聚變和等離子體物理

聚變和等離子體物理學涉及對高溫高密度等離子體建立模型，其中初始條件的微小變化會導致截然不同的行為。執行和解釋這些模擬既昂貴又費時。這項工作使用 GPT‑5 協助建立和分析熱核燃燒傳播的簡化反應，亦即「擴散模型」，並且解釋複雜的輸出結果，探索不同密度分佈如何影響燃燒性能。該模型協助掃描參數，並識別出一系列燃燒擴展速度最快的最佳密度分佈。

GPT‑5 也協助提出這些數值模式的理論解釋，使用功率平衡論證來解釋為何某些密度分佈表現更佳，並建議簡單的工程規則，為日後的設計提供指引。雖然模型偶爾會產生不穩定的模擬或過於自信的結論，但在專家的監督下能夠迅速修正，從「這個狀態中有些奇怪的事情正在發生」到「這裡有一個合理的解釋和具體的測試」的過程變得更快。

GPT‑5 的貢獻： GPT‑5 協助構建了簡化物理模型，探索參數空間，並提出了物理解釋。

詳情請參閱第 40 頁（在新視窗中開啟）

利用人工智能取得新的科學成果

解答 Erdős 數定理問題

Paul Erdős 提出了一個關於尋找一組最大正整數的問題，其規則令人驚訝：對於該組數中的任何兩個數，這兩個數的積加一必須能被某個質數的完全平方數整除。Erdős 猜測了這類數字組合最大應是甚麼樣子，但這個問題幾十年來仍然懸而未決。

Sawhney 和 Sellke 探索了問題的結構，然後要求 GPT‑5 協助分析一個「不合適」的數字將如何影響整組數。GPT‑5 提出了一種更清晰的方法來顯示，如果有一個數字不符合特定模式，幾乎所有其他數字都會出現矛盾。這個想法原來就是過往一直缺少的重要步驟。有了這些資訊，研究人員完成了完整的證明，證實 Erdős 的原有猜測是正確的。

GPT‑5 的貢獻：GPT‑5 揭示了一個數字如何約束其他所有數字，此重要見解使作者得以完成 Erdős 問題 848 的證明。

網上演算法的新下限

網上演算法在未知未來的情況下逐步作出決策，例如，隨著時間推移，當限制逐漸顯現時，應怎樣決定如何移動系統。在凸體追蹤問題中，演算法必須保持在某個移動的凸區域內，同時保持總移動量較小。核心問題是要找出最有可能的競爭比率：在最壞情況下，網上演算法的效能比可以提前看到整個序列的理想離線演算法差多少。

Christian Coester 使用 GPT‑5 來激發意念，設計出可能使任何網上演算法表現不佳的困難實例和結構。該模型突出了某個特定的幾何構造，經過 Coester 的改進和檢查，得出了比之前已知更清晰、更可靠的競爭比率下限。

GPT‑5 的貢獻：GPT‑5 提出了一種幾何構造，Christian Coester 將其加以改進，為網上演算法問題找出更精準的下限。

詳情請參閱第 61 頁（在新視窗中開啟）

證明圖論中的新不等式

團隊當時正研究一個圖論問題，涉及計算樹狀態（無環圖）內的小模式，亦即其路徑、星和「Y」形。之前的工作已經證明了一個與這些數目有關的不等式，亦已猜想出第二個不等式，但仍未經過證明。作者使用以 GPT‑5 為基礎的自訂數學架構，首先提示模型重新證明已知的不等式，然後攻擊假設的不等式。

GPT‑5 為這兩個不等式產生了完全獨立的簡短證明，採用與原有人類證明不同且更精準簡潔的論證；Bubeck、Sellke 和 Yin 隨後檢查並採納了模型的論點，並在他們的文章中採用。

GPT‑5 的貢獻：GPT‑5 為樹狀圖中兩個不等式產生了簡短證明，當中包括一項猜測而得的不等式，作者獨立檢查並採用了該論點。

詳情請參閱第 69 頁（在新視窗中開啟）

識別不斷演變網絡中的隱藏參數

研究人員研究了一個簡單的網路成長模型，每個新節點都會以一個隱藏參數 www 的機率連接到上一個節點。挑戰在於，一旦網絡擴大，研究人員只會看到最終未標註的樹狀結構，而看不到產生該結構的隱藏標籤或附加規則。而問題在於，單靠這最後的結構，是否能夠復原 www。

團隊要求 GPT‑5 推理最終樹狀結構中哪些全局模式可以可靠地反映 www 的值。該模型建議，應專注於一個出人意料地容易查閱的統計數據：長遠最終成為葉子節點的節點比例。GPT‑5 概述了這種葉子節點分數如何收束成 www 一個簡單且嚴格遞增的函數，換而言之，可以直接從樹的形狀解讀出 www。在此指引下，作者團隊完成了完整的證明，證明該參數確實是可識別的。

GPT‑5 的貢獻：GPT‑5 突出了關鍵的可觀察數據，亦即葉子節點比例，並因而拓展出清晰且可證明的方法，能夠從最終網絡的單一快照中還原隱藏參數 www。

詳情請參閱第 75 頁（在新視窗中開啟）

限制

這些案例研究是精心策劃的範例，展示了 GPT‑5 的應用範圍，但並非系統性樣本，無法涵蓋所有失效模式。專家的監督仍然是必不可少的。GPT‑5 有時會產生看似合理但實際上不正確的引用、機制或證明；可能對結構和熱身問題過度執著；有時會忽略領域之間的細微差別；如果不加以糾正，可能會沿著無效的推理路徑前進。這些都是活躍的研究領域，我們正與合作夥伴合作，在改進未來系統的過程中，評估並減少這些失誤。