
科學塑造一切,從人類健康到能源生產,從國家安全到我們對宇宙的理解等。如果 AI 能加速科學發展,例如縮短產生新想法或是從假設到驗證出成果所需的時間,那就能為整個社會帶來持續累積的好處。
但創新的步調仍然是限制。即使有了合適的想法,將想法轉化為產品或療法可能仍需要數年。在最近一項調查(在新視窗中開啟)中,60% 美國人表示科學和醫學突破對他們來說太慢了;73% 的人表示我們需要更好的方法以加速發現;69% 的人認為科學領導力是國家的首要任務。
今天,我們發表了《GPT‑5 早期科學加速實驗(在新視窗中開啟)》,這篇論文是與范德堡大學、加州大學柏克萊分校、哥倫比亞大學、牛津大學、劍橋大學、勞倫斯利佛摩國家實驗室及傑克森實驗室等大學及國家實驗室的合作者共同撰寫的。這篇論文彙整數學、物理、生物學、資訊科學、天文學和材料科學的早期案例研究,其中 GPT‑5 協助研究人員以新穎的方式彙整已知結果、進行有說服力的文獻回顧、加速艱難的計算流程,甚至產生新證明來解決未解決的問題。該論文還記錄了研究限制。我們的目標是讓社群清楚了解這些系統目前在研究環境中能做什麼、不能做什麼。
這些案例研究表明,專家如何利用 GPT‑5 加速科學探索,以及為什麼這類加速很重要:
- 生物學:在 Derya Unutmaz 醫學博士主導的一項研究中,科學家花了數月時間試圖解釋人類免疫細胞中某個令人困惑的變化。GPT‑5 只花幾分鐘,就從一份未公開的圖表中識別出可能的機制,並提出實驗建議加以證明。這樣的速度有助於研究人員更快瞭解疾病,並開發出更好的治療方法。
- 數學:在另一個案例中,研究人員 Mehtaab Sawhney 和 Mark Sellke 曾處理 Paul Erdős 幾十年前提出的開放性問題。他們卡在最後一步,而 GPT‑5 則提出某個奇數如何打破模式的新想法,這讓他們得以完成證明。這種進步強化許多演算法與安全技術仰賴的數學基礎。
- 演算法和最佳化:研究人員 Sébastien Bubeck 和 Christian Coester 曾測試一種在機器人和路線規劃中常用的決策方法,是否真有大家認為的可靠。GPT‑5 不僅找到一個明確的新實例,證明該方法不可靠,還改進最佳化領域 (一種尋求問題最佳解決方案的數學領域) 中的一項經典結論。這種進步有助於工程師進一步理解機器人、路徑規劃和其他應用程式實務中使用的決策系統。
OpenAI for Science 的使命是加速科學探索:協助研究人員探索更多想法、更快地測試假設,以及找出原本需要投入大量時間的見解。我們將善用最先進的模型與合適的工具、工作流程和協作,以達成此目標。
我們與學術界、產業界及國家實驗室的研究人員密切合作。這些合作讓我們得以了解模型在哪些領域有用、在哪些領域成效不彰,以及如何將模型整合到科學實驗中:從文獻回顧、找出證據,到建模、模擬和實驗設計。
我們的方法結合兩種互補的信念。專用科學工具,如模擬引擎、蛋白質資料庫和電腦代數系統,對於效率和精確性非常重要。同時,擴展基礎模型的推理能力會持續成長:連結跨領域的想法、勾勒證明、提出機制,瀏覽大量文獻的概念,而非只是擷取關鍵字。在有專用工具的地方,我們希望能使用 AI;在只需要一般推理能力的地方,我們會構建能處理這種情況的模型。兩條路徑相互強化。
最具意義的進步來自人類與 AI 團隊。科學家設定職責:他們負責定義問題、選擇研究方法、審視想法,並驗證結果。GPT‑5 提供廣度、速度,以及同時探索多個方向的能力。
善用 GPT‑5 是一項技能。研究人員開始學習如何提出問題、何時該回到上一步、如何將問題分解成步驟,以及該獨立驗證哪些內容。有進度的工作往往猶如對話:研究人員和模型不斷迭代,直到出現可行方向或放棄該想法。
在這些早期研究中,GPT‑5 似乎可協助專家縮短部分研究工作流程。GPT‑5 無法自主執行專案或解決科學問題,但可以擴大探索範圍,讓研究人員更快地朝正確的結果前進。
- 概念性文獻回顧則是另一項嶄新的技能。GPT‑5 通常能夠識別想法之間的深層關係,並在不同語言和不易取得的資料來源中檢索相關資料。研究人員報告發現了他們以前不知道的參考文獻、研究關係和論文。
- 在數學和理論資訊科學中,結構明確且回饋循環快速的情況下,GPT‑5 顯得特別有用。數學家使用 GPT‑5 在短短幾分鐘內就產生可行的證明大綱,改變原本可能需要耗時數天或數週才能完成的工作。在物理學和資訊領域,該模型可以提出簡化轉換,或找出其他領域的類似結構。
- 在生物學和其他實證科學中,該模型可以提出機制並設計實驗,以在濕實驗室中驗證這些假設。
現在的模型不僅能總結現有知識。目前,在專家監督下,GPT‑5 的早期貢獻能有效地協助研究人員。速度提升顯示出,隨著能力和工具的進步,科學進展可能會進一步加速。
這些案例研究經過精挑細選,可展示 GPT‑5 的應用範圍;不過這些範例並非系統性樣本,未能涵蓋所有的故障模式。專家監督仍然是必不可少的。GPT‑5 有時會編造看似合理但實際上錯誤的引用資料、機制或證明;它可能對鷹架和熱身問題瞭若指掌,有時則會忽略不同領域的細微差別,如果不加以糾正,可能會朝劣化的推理路線發展。這些都是活躍的研究領域,我們正與合作夥伴合作,在改進未來系統的過程中,評估並減少這些失敗。
整體看來,這些早期研究顯示 GPT‑5 已開始用於協助新型科學研究工作。該模型不會自主研究,但在專家手中,模型可以協助證明定理、重新發現和擴展架構,揭示跨領域知識的關係,並產生機制和實驗供科學家驗證。
我們也看到,隨著時間推移和運算能力增加,這些系統效能會持續提升。如果 GPT‑5 能在 20 分鐘內有效協助某些研究問題,我們預期當模型能花上數小時甚至數天推理問題時,會有更深入的成果。結合世界級頂尖科學家的能力,科學方面的進展可能會隨著時間推移發生大幅轉變。


