2025年11月20日

使用 GPT‑5 加速科學進展的早期實驗

我們從與科學家的合作中學到了什麼

一幅拼貼風格的圖像，結合抽象形狀和色彩。左上角顯示一個柔和的橘色方塊，部分文字隱約可見。右上方有一個分支圖，黑色細箭頭從中央黑點分叉，有橘色小圓圈標示不同點。左下角呈現橘色、粉色與紫色漸層柔和融合的效果。右下角有一個黑色大大的數字「5」，位於淺藍色背景上。

載入中…

科學塑造一切，從人類健康到能源生產，從國家安全到我們對宇宙的理解等。如果 AI 能加速科學發展，例如縮短產生新想法或是從假設到驗證出成果所需的時間，那就能為整個社會帶來持續累積的好處。

但創新的步調仍然是限制。即使有了合適的想法，將想法轉化為產品或療法可能仍需要數年。在最近一項調查⁠(在新視窗中開啟)中，60% 美國人表示科學和醫學突破對他們來說太慢了；73% 的人表示我們需要更好的方法以加速發現；69% 的人認為科學領導力是國家的首要任務。

今天，我們發表了《GPT‑5 早期科學加速實驗⁠(在新視窗中開啟)》，這篇論文是與范德堡大學、加州大學柏克萊分校、哥倫比亞大學、牛津大學、劍橋大學、勞倫斯利佛摩國家實驗室及傑克森實驗室等大學及國家實驗室的合作者共同撰寫的。這篇論文彙整數學、物理、生物學、資訊科學、天文學和材料科學的早期案例研究，其中 GPT‑5 協助研究人員以新穎的方式彙整已知結果、進行有說服力的文獻回顧、加速艱難的計算流程，甚至產生新證明來解決未解決的問題。該論文還記錄了研究限制。我們的目標是讓社群清楚了解這些系統目前在研究環境中能做什麼、不能做什麼。

這些案例研究表明，專家如何利用 GPT‑5 加速科學探索，以及為什麼這類加速很重要：

生物學：在 Derya Unutmaz 醫學博士主導的一項研究中，科學家花了數月時間試圖解釋人類免疫細胞中某個令人困惑的變化。GPT‑5 只花幾分鐘，就從一份未公開的圖表中識別出可能的機制，並提出實驗建議加以證明。這樣的速度有助於研究人員更快瞭解疾病，並開發出更好的治療方法。
數學：在另一個案例中，研究人員 Mehtaab Sawhney 和 Mark Sellke 曾處理 Paul Erdős 幾十年前提出的開放性問題。他們卡在最後一步，而 GPT‑5 則提出某個奇數如何打破模式的新想法，這讓他們得以完成證明。這種進步強化許多演算法與安全技術仰賴的數學基礎。
演算法和最佳化：研究人員 Sébastien Bubeck 和 Christian Coester 曾測試一種在機器人和路線規劃中常用的決策方法，是否真有大家認為的可靠。GPT‑5 不僅找到一個明確的新實例，證明該方法不可靠，還改進最佳化領域 (一種尋求問題最佳解決方案的數學領域) 中的一項經典結論。這種進步有助於工程師進一步理解機器人、路徑規劃和其他應用程式實務中使用的決策系統。

什麼是 OpenAI for Science？

OpenAI for Science 的使命是加速科學探索：協助研究人員探索更多想法、更快地測試假設，以及找出原本需要投入大量時間的見解。我們將善用最先進的模型與合適的工具、工作流程和協作，以達成此目標。

我們與學術界、產業界及國家實驗室的研究人員密切合作。這些合作讓我們得以了解模型在哪些領域有用、在哪些領域成效不彰，以及如何將模型整合到科學實驗中：從文獻回顧、找出證據，到建模、模擬和實驗設計。

我們的方法結合兩種互補的信念。專用科學工具，如模擬引擎、蛋白質資料庫和電腦代數系統，對於效率和精確性非常重要。同時，擴展基礎模型的推理能力會持續成長：連結跨領域的想法、勾勒證明、提出機制，瀏覽大量文獻的概念，而非只是擷取關鍵字。在有專用工具的地方，我們希望能使用 AI；在只需要一般推理能力的地方，我們會構建能處理這種情況的模型。兩條路徑相互強化。

現今的科學家如何使用 GPT‑5

最具意義的進步來自人類與 AI 團隊。科學家設定職責：他們負責定義問題、選擇研究方法、審視想法，並驗證結果。GPT‑5 提供廣度、速度，以及同時探索多個方向的能力。

善用 GPT‑5 是一項技能。研究人員開始學習如何提出問題、何時該回到上一步、如何將問題分解成步驟，以及該獨立驗證哪些內容。有進度的工作往往猶如對話：研究人員和模型不斷迭代，直到出現可行方向或放棄該想法。

GPT‑5 在科學研究中的現狀

在這些早期研究中，GPT‑5 似乎可協助專家縮短部分研究工作流程。GPT‑5 無法自主執行專案或解決科學問題，但可以擴大探索範圍，讓研究人員更快地朝正確的結果前進。

概念性文獻回顧則是另一項嶄新的技能。GPT‑5 通常能夠識別想法之間的深層關係，並在不同語言和不易取得的資料來源中檢索相關資料。研究人員報告發現了他們以前不知道的參考文獻、研究關係和論文。
在數學和理論資訊科學中，結構明確且回饋循環快速的情況下，GPT‑5 顯得特別有用。數學家使用 GPT‑5 在短短幾分鐘內就產生可行的證明大綱，改變原本可能需要耗時數天或數週才能完成的工作。在物理學和資訊領域，該模型可以提出簡化轉換，或找出其他領域的類似結構。
在生物學和其他實證科學中，該模型可以提出機制並設計實驗，以在濕實驗室中驗證這些假設。

現在的模型不僅能總結現有知識。目前，在專家監督下，GPT‑5 的早期貢獻能有效地協助研究人員。速度提升顯示出，隨著能力和工具的進步，科學進展可能會進一步加速。

這在實踐中是什麼樣子：個案研究

在科學前沿獨立重新證實已知結果

在凸最佳化中完善定理

最佳化是尋找「最優」選項的數學方法，例如最低訓練損失或網絡中的最短路徑。梯度下降法是一種基本的最佳化方法，沿函數下坡方向反覆小步移動。Guy Barzilai、Ohad Shamir 與 Moslem Zamani 最近提出的一項定理⁠(在新視窗中開啟)探討梯度下降法的值序列何時會隨時間呈凸曲線 (即沒有下降的曲線)，讓演算法行為更容易分析與控制。論文的第一版僅在非常小且保守的步長下證明了這一點。

Sébastien Bubeck 將初步版本的結果提供給 GPT‑5，並詢問條件是否可以改進。模型提出更嚴格的步長上界以及更簡潔、符合標準的證明，隨後他親自仔細檢查。經過更多思考時間，模型的一次內部運行甚至從零開始推導出最優下界。

GPT‑5 的貢獻：GPT‑5 協助 Sébastien Bubeck 探索更嚴格的步長條件，並提出更清晰的證明，用於近期的凸最佳化定理，隨後他自行獨立驗證該證明。

更多資訊，請參閱第 3 頁(在新視窗中開啟)

重建黑洞周圍的隱藏對稱

在廣義相對論中，旋轉的黑洞可以用克爾解來描述，而在這些黑洞周圍運動的波動會遵循一個非常複雜的微分方程。物理學家會尋找這些方程的對稱性，也就是不改變方程式的變換，因為對稱性能帶來守恆量，並讓方程式的結構更簡單、更易理解。Alex Lupsasca 的最新研究發現，克爾波動方程式有種隱藏的對稱結構會形成 SL(2,ℝ) 代數，可解釋為什麼某些潮汐反應會消失。

我們直接讓 GPT‑5 Pro 處理完整的克爾問題時，一開始 GPT‑5 Pro 沒有成功，並表示找不到有趣的對稱性。在 Lupsasca 給模型一個較簡單的平直時空「熱身版」結構後，我們再次回到克爾問題；這一次，經過約 18 分鐘的內部推理，模型產生完整的對稱性生成元集合，形成 SL(2,ℝ) 代數，與人類的結果一致。

GPT‑5 的貢獻：GPT‑5 Pro 在給予適當的熱身問題後，重構克爾黑洞波方程式的隱藏 SL(2,ℝ) 對稱代數，再由 Lupsasca 確認結果無誤。

免疫學中的機理洞察

現代免疫療法中，尤其是在依賴工程化 T 細胞的 CAR-T 癌症治療中，是如何保持有益 T 細胞的活性與持久性是一大核心問題，而且還要避免 T 系保進入耗竭或功能失常的狀態。既有文獻顯示，暫時性限制葡萄糖代謝能持續重編程 T 細胞，使其更具促炎性。在早期研究中，Derya Unutmaz 及同事短暫處理人體 CD4+ T 細胞 (免疫系統中的關鍵細胞類別) 使用 2-脫氧葡萄糖 (2DG)，這是一種干擾葡萄糖代謝的化合物。移除 2DG 後，再用 IL-2 (促使 T 細胞增殖的信號分子) 對 CD4+ T 細胞進行活化，他們觀察到 T 細胞持續偏向促炎的 Th17-like 狀態，這種 T 細胞亞型既參與保護又可能引發自體免疫疾病。研究團隊花費數月的進行實驗和閱讀文獻，才找出一個合理的機制來解釋這一效應。

幾年後，他將一張未發表的流式細胞儀散點圖提供給 GPT‑5 Pro，圖中展示經過不同葡萄糖和 2DG 水平處理後的各種 T 細胞亞群，並詢問如何解釋這些資料，以及下一步應該做哪些實驗。互動討論十幾分鐘後，模型提出在活化過程中，N-鏈糖基化 (細胞將糖鏈附加到蛋白質的方式) 受干擾是背後的驅動因素，並預測是記憶型 T 細胞負責這一效應，而非初始型 T 細胞。GPT‑5 隨後提出了具體的後續實驗，包括一項簡要的甘露糖補救實驗，該實驗在不恢復糖解作用的情況下重建 N-糖基化。實驗室之前曾進行過這項甘露糖補救實驗，結果與模型預測完全一致。

隨後，GPT‑5 Pro 能分析未發表的 CD8+ T 細胞資料 (經 2DG 暫時處理)，並預測在 CAR-T 製備過程中短暫暴露於 2DG 將提升對目標癌細胞株的殺傷效率。GPT‑5 Pro 的預測與實驗室未發表的實驗資料一致。

GPT‑5 的貢獻：GPT‑5 分析未發表的資料，推導出不明顯且有價值的機制假設、找出負責作用的 T 細胞亞群，並提出後續實驗建議，這些建議後來經過 Unutmaz 實驗室驗證並得到確認。

更多資訊，請參閱第 11 頁(在新視窗中開啟)

深入文獻搜尋

新幾何成果在跨領域中的應用探索

Nikita Zhivotovskiy 和他的合作者證明一個新的凸幾何定理：研究「良態」的形狀，即任意兩點之間的任何線都保持在形狀內。凸幾何是許多機器學習與統計模型的基礎。定理完成後，下一個自然問題便是：這個結果還能在哪些領域發揮作用？

Zhivotovskiy 並沒有靠猜測關鍵詞或手動掃描文獻，而是將定理的正式表述提供給 GPT‑5，並詢問可能與哪些領域相關。模型則回答密度估計、學習理論以及多目標最佳化領域的工作，並提供具體參考文獻，其中包括他之前未見過的資料和其他語言的文獻。

GPT‑5 的貢獻：GPT‑5 協助 Nikita Zhivotovskiy 找出多個領域的具體關係與參考，其中不乏他未曾接觸過的材料。

清理並 Erdős 問題資料庫並提供貢獻

Paul Erdős 提出超過一千多個問題，其中許多問題都在公開網站的追蹤人數相當高。儘管部分問題在知名度較低的期刊或非英語論文中已提出解決方案，但這些問題仍被列出。Mehtaab Sawhney 和 Mark Sellke 把 GPT‑5 當成文獻搜尋助理，要求 AI 針對每個待解決問題，讓搜尋解決方案或重大進展。

GPT‑5 找到幾個仍被標記為未解決問題的完整解決方案，為其他問題找到重要的部分結果，並在一個問題陳述中標記出一個印刷錯誤。至於艾狄胥數論 848 的證明，網站上的人類評論已經概述了大部分結構；GPT‑5 則提出一個重要的密度估計，隨後 Sawhney 與 Sellke 進行修正與完善，最終形成完整的證明，從而解決該問題。

GPT‑5 的貢獻：GPT‑5 協助尋找遺漏的解決方案，並提出一個密度估算，由 Sawhney 和 Sellke 將其改為艾狄胥數論 848 的完整證明。

避免團的編碼問題：警示性案例

糾錯碼透過增加冗餘，使得即使部分位元遭破壞，也能恢復原始資訊。本專案研究一種特殊的二進位碼，其中每個位置對應圖中的一條邊，目標是排除任何看起來像「團」(clique，即完全連通的節點集合) 的碼字。難題在於判斷防止這類結構化錯誤所需的基本奇偶檢查數量。GPT‑5 利用有限域上的二次方程式重新構建問題，並提出一個受廣泛認可的定理：Chevalley–Warning 定理，這隨即就找到正確的下界，顯示實際所需的約束數量僅為之前估計的一半。

隨後出現了一個意外轉折：完全相同的下界，以及大致相同的證明，早在數年前的一篇短篇研究論文中就已出現。GPT‑5 在生成這一論證時並未引用該來源，僅在新一輪對話中再次詢問時才提及先前的工作。這突顯出 AI 輔助數學的重要教訓：模型能產生正確且精巧的推理，但可能無法可靠地標註這些想法的原始來源。因此，仔細驗證與重視引用仍然非常重要。

GPT‑5 的貢獻：GPT‑5 提供關鍵的問題重構以及導向最優下界的經典定理。然而，模型並未主動提供先前的相關公開論文，直到研究人員明確詢問時才提供，這突顯出在引用來源方面仍需人為仔細核查。

更多資訊，請參閱第 28 頁(在新視窗中開啟)

與 AI 協同合作

使用 GPT-5 作為組合數學的研究夥伴

曾獲菲爾茲獎的組合數學家 Tim Gowers 曾進行一系列實驗，過程中將 GPT‑5 視為「研究夥伴」，而非解題工具。他向模型提出一些他正在積極思考的困難組合數學問題，並要求模型提出數學結構方面的建議、找出反例或批判部分論證。

在多個案例中，GPT‑5 都能迅速發現候選結構中的缺陷或缺失情況，並提出更簡單的替代方案或反例；其他情況下，則停滯不前或無法進步。Gowers 的結論是，該模型已經很有用了，可以當成回覆速度很快且知識淵博的驗證者，即使模型未能達到所有共同作者的標準，仍能驗證想法可行性並節省時間。

GPT‑5 的貢獻：GPT‑5 在探索性組合數學工作中快速驗證 Tim Gowers 的研究，負責指出缺陷、遺漏案例及更簡單的替代方案。

更多資訊，請參閱第 31 頁(在新視窗中開啟)

解釋宇宙學模型

宇宙學使用簡化模型來描述宇宙的大尺度行為，包括暗能量和膨脹歷史。這些模型通常存在多種數學等價形式，而小小的代數錯誤就可能會導致計算全盤出錯。Robert Scherrer 使用 GPT‑5 進行推導的合理性檢查、探索宇宙學模型的簡化版本，並在不同暗能量參數化之間進行轉換。

GPT‑5 特別擅長抓出代數錯誤、提出同一物理概念的等效表述，並指引 Scherrer 參考文獻中與他獨立推導模型相符的現有結果。這麼一來，將紙上想法轉為可以跟實際數據驗證之形式的過程中，可以省去不少麻煩。

GPT‑5 的貢獻：GPT‑5 協助 Robert Scherrer 檢查推導、建議等效表述，並找出文獻中的相符結果。

更多資訊，請參閱第 37 頁(在新視窗中開啟)

支援聚變與電漿物理

聚變和電漿物理學涉及對高溫高密度等離子體進行建模，其中初始條件的微小變化可能會導致截然不同的行為。執行和解讀這些模擬既昂貴又耗時。這項工作使用 GPT‑5 協助建立並分析一個簡化的反應–擴散模型來模擬熱核燃燒傳播，解釋複雜的輸出，並探索不同密度設定檔如何影響燃燒性能。該模型協助掃描參數，並識別出燃燒前緣移動最快的最佳剖面脊線。

GPT‑5 也協助為這些數列模式提出了理論解釋，利用功率平衡論點來解釋為什麼某些剖面表現更佳，並提出簡單的工程原理以指導未來的設計。雖然模型偶爾會產生不穩定的模擬或過於自信的結論，但在專家的監督下可以迅速修正，從「操作區間中出現異常」到「有合理的解釋和具體的測試」的過程變得更快。

GPT‑5 的貢獻： GPT‑5 協助構建出簡化版物理模型、探索參數空間，並提出物理解釋。

更多資訊，請參閱第 40 頁(在新視窗中開啟)

利用 AI 取得的嶄新科學成果

解決艾狄胥數論問題

Paul Erdős 提出一個問題：尋找一個最大的正整數集合，並滿足一個出人意料的規則，即集合中任意兩個數的乘積加一，都必須可被一個完全平方的質數因子整除。Erdős 曾猜測這樣的最大集合會是什麼樣子，但這個問題仍然懸而未決數十年。

Sawhney 與 Sellke 探討該問題的結構，隨後請 GPT‑5 協助分析一個「不符合規律」的數字如何影響整個集合。GPT‑5 提出更清晰的證明方法，即便只有一個數字不符合特定模式，也會在幾乎所有其他數字中產生矛盾。這個想法證明正是缺失的關鍵步驟。研究者藉助這一方法，完成完整的證明，證實 Erdős 最初的猜想是正確的。

GPT‑5 的貢獻：GPT‑5 揭示一個數字如何限制其他所有數字的關鍵想法，讓作者得以完成艾狄胥數論 848 的證明。

線上演算法的新下界

線上演算法會在逐步接收資訊的同時做出決策，而無法預知未來，例如隨著時間推移，限制逐漸顯現後，決定如何操作系統。在凸體追蹤問題中，演算法必須保持在隨時間移動的凸區域內，同時盡量減少總移動距離。核心問題在於最佳競爭比：即線上演算法在最壞情況下，相較於能先看到整個輸入序列的理想離線演算法，表現會差多少。

Christian Coester 利用 GPT‑5 腦力激盪，構思可能讓任意線上演算法表現不佳的困難實例與構造。模型指出一種特定的幾何構造，經 Coester 改良與檢查後，最終得出比先前已知更簡潔且更強的競爭比下界。

GPT‑5 的貢獻：GPT‑5 提出一種幾何構造，Christian Coester 將其改成更強的下限，適用於線上演算法問題。

更多資訊，請參閱第 61 頁(在新視窗中開啟)

證明圖論中的新不等式

團隊原先在研究一個圖論問題，內容是要在樹 (即沒有環的圖) 中計算一些小型結構，例如路徑、星狀圖與 wye (Y 形分支) 的數量。先前的研究已證明其中一項關於這些數字之間的不等式，並提出第二項不等式作為猜想，但始終未能證明。作者利用一套針對 GPT‑5 客製化的數學推理框架，先要求模型重新證明已知的不等式，再挑戰尚未成功證明的猜想。

GPT‑5 分別為這兩條不等式給出簡潔且自洽的證明，推理方式有別於人類證明，且更為優雅。隨後，Bubeck、Sellke 與 Yin 對模型的論證進行核查，並將該模型的論證納入他們的正式論文中。

GPT‑5 的貢獻：GPT‑5 針對樹的兩條不等式 (其中一條原為猜想) 提供簡潔的證明，而作者則獨立驗證並採納該模型提出的證明思路。

更多資訊，請參閱第 69 頁(在新視窗中開啟)

識別演化型網絡中的隱藏參數

研究人員研究一個簡易的網絡成長模型，模型中每個新節點會以受隱藏參數影響的概率連接到先前的節點。此模型的挑戰在於，一旦網絡成長，你就只會看到最終未標註的樹狀結構，看不到產生隱藏標籤或附加規則。而待解決的問題則是，是否可以僅透過這個最終結構恢復 www。

研究團隊要求 GPT‑5 推理，思考最終樹狀結構中哪些整體模式能可靠地反映 www 的數值。模型建議將重點放在一個意外容易取得的統計數字：最終成為葉節點的節點比例。GPT‑5 概述這個葉節點比例如何收斂到 www 的一個簡單且嚴格遞增的函數，這表示可以直接從樹狀圖的形狀讀出 www 的數值。在此指引下，作者群得以完成完整的證明，證明該參數確實是可識別的。

GPT‑5 的貢獻：GPT‑5 找出關鍵的可觀察量：葉節點比例，從而以一種簡潔且可證明的方法，從最終網絡的單一快照中恢復隱藏參數 www。

更多資訊，請參閱第 75 頁(在新視窗中開啟)

限制說明

這些案例研究經過精挑細選，可展示 GPT‑5 的應用範圍；不過這些範例並非系統性樣本，未能涵蓋所有的故障模式。專家監督仍然是必不可少的。GPT‑5 有時會編造看似合理但實際上錯誤的引用資料、機制或證明；它可能對鷹架和熱身問題瞭若指掌，有時則會忽略不同領域的細微差別，如果不加以糾正，可能會朝劣化的推理路線發展。這些都是活躍的研究領域，我們正與合作夥伴合作，在改進未來系統的過程中，評估並減少這些失敗。