2025年11月20日

利用 GPT‑5 加速科学研究的早期实验

我们从与科学家的合作中获得的启示

一个拼贴风格图形，其中包含抽象形状和颜色。左上方区域显示柔和的橙色色块，部分文字清晰可见。右上方区域包含分支图示：黑色细箭头从中心黑点辐射展开，橙色小圆点则标记不同位置的点。左下角区域呈柔和的橙色、粉色和紫色渐变效果。右下角区域是浅蓝色背景上，背景上显示黑色大号数字“5”。

正在加载…

科学研究深刻影响着人类健康、能源生产、国家安全及宇宙认知等诸多领域。如果 AI 能够加速科学研究进程，缩短概念构想或从概念到验证结果所需的时间，那么整个社会都将受益匪浅。

但创新的速度仍然是一个制约因素。即使你得出正确的构想，也需要投入数年时间，才能将其转化为产品或方案。在近期开展的一项调查⁠（在新窗口中打开）中，美国受访者中有 60% 的人表示，科学和医疗技术突破成果的普及速度过于缓慢；73% 的人表示，我们需要借助更好的方法来加速发现；而 69% 的人则认为科学领导力是国家的首要战略重点。

我们发布的“利用 GPT‑5 加速科学研究的早期实验⁠（在新窗口中打开）”一文，由 OpenAI 与范德比尔特大学、加州大学伯克利分校、哥伦比亚大学、牛津大学、剑桥大学、劳伦斯利弗莫尔国家实验室 (Lawrence Livermore National Laboratory) 和杰克森实验室 (The Jackson Laboratory) 等高校及国家实验室的合作者共同撰写。它汇集了数学、物理学、生物学、计算机科学、天文学和材料科学的早期案例研究，其中 GPT‑5 用于帮助研究人员以新颖的方式整合已知结果，编撰深入的文献综述，加速复杂计算，并为未解决的命题生成新的证明。本文还记录了相关制约因素。我们的目标是帮助业界人士清晰了解这些系统在当今研究环境中的能力边界。

这些案例研究展示了专家如何运用 GPT‑5 加速科学发现，以及这一加速功能的重要性：

生物学：在由 Derya Unutmaz 医学博士主导的一项研究中，科学家们耗费数月时间，阐释人类免疫细胞中令人困惑的变化趋势。GPT‑5 在几分钟内就从一张未公开的图表中识别出潜在机制，并建议通过实验加以验证。这一加速能力可以帮助研究人员更快解析疾病机制，并开发更优疗法。
数学：在另一个案例中，研究人员 Mehtaab Sawhney 和 Mark Sellke 正致力于解决一个最初由 Paul Erdős 提出、已有数十年历史的未决问题。他们在最后一步遇到了瓶颈，而 GPT‑5 提出了一个关于某个奇数如何打破规律的新设想，从而助其完成证明。此类技术进展强化了诸多算法和安全技术所依赖的数学基础。
算法和优化：研究人员 Sébastien Bubeck 和 Christian Coester 正在测试机器人技术和路径规划中常用的决策方法是否如人们设想的那样可靠。GPT‑5 不仅发现了该方法可能失效的新例证，还改进了优化理论中的经典结论 — 这类数学方法常用于寻找最优解决方案。这类先进技术可帮助工程师更好地理解机器人技术、路径规划和其他实际应用场景中所用的决策系统。

OpenAI for Science 是什么？

OpenAI for Science 的使命是加速科学发现：帮助研究人员探索更多理念、更快验证假设，并发掘那些原本需要投入大量时间才能获取的洞察数据。我们通过将前沿模型与对应工具、工作流程和协作相结合来实现这一目标。

我们与学术界、相关行业和国家实验室的研究人员密切合作。这些合作有助于我们了解模型的用途、缺陷，以及如何将其集成至科学研究过程，包括文献综述、证据生成、建模、模拟和实验设计。

我们的方法结合了两种互补理念。专业的科学工具（如模拟引擎、蛋白质数据库和计算机代数系统），对于提高效率和精确性至关重要。与此同时，基础模型的扩展将持续解锁新的推理能力：实现跨领域概念关联、绘制证明、设立机制，并以概念而非关键词的方式检索大量文献。在需要专业工具的领域，我们充分利用现有工具；在需要通用推理的场景，我们构建具备相应处理能力的模型。两种方案相辅相成。

当今的科学家如何利用 GPT‑5

最有意义的技术进展来自人类与 AI 团队的合作。科学家负责制定议程：定义问题、选择方法、批判观点，并验证结果。GPT‑5 则带来了广度优势、速度提升以及并行探索多个方向的能力。

充分发挥 GPT‑5 的效力是一项技能。研究人员要学会如何提出问题、如何确定反驳时机、如何将问题分解成多个步骤以及需独立验证的环节。富有成效的工作往往表现为对话形式：研究人员和模型不断迭代，直到确定前进方向或放弃原有构想

GPT‑5 在科学研究中的现状

早期研究标明，在专家的操控下，GPT‑5 似乎能够缩短研究工作流程的部分环节。它无法自主运行项目或解决科学问题，但可以扩大探索的范围，从而帮助研究人员更快获取正确的结果。

其中一种新兴能力是概念性文献检索。GPT‑5 通常能够识别概念间更深层次的联系，并跨语言和难以获取的来源检索相关材料。研究人员表示，他们已发现此前未知的参考文献、关联性及学术论点。
在数学和理论计算机科学中，针对结构明确且反馈循环快速的情况，GPT‑5 尤为实用。数学家运用 GPT‑5 在几分钟内生成可行的证明大纲，从而彻底革新原本可能耗时几天或数周的工作。在物理学和计算领域，该模型可以提出简化转换建议，或指向其他领域的类似结构。
在生物学和其他经验科学领域，该模型可以提出相关机制并设计实验，以便在湿实验室中验证这些假设。

我们已超越模型仅能总结现有知识的阶段。如今，在专家的监督下，GPT‑5 的早期贡献可以为研究人员提供实质性帮助。随着能力与工具的进步，这种改进速度预示着更深层次加速的潜力。

实践中的具体表现：部分案例研究

在科学前沿独立重现已知成果

强化凸优化定理

优化是寻找“最佳”方案的一种数学手段，例如最低训练损失或最短网络路径。梯度下降法则是一种基础优化方法，通过沿函数持续小步下行实现。Guy Barzilai、Ohad Shamir 与 Moslem Zamani 近期提出一项定理⁠（在新窗口中打开），探讨梯度下降法遍历的数值序列何时会随时间的推移形成凸曲线（即无凹点的曲线），使算法的行为更易分析和控制。论文初版仅论证了极小的保守步长。

Sébastien Bubeck 将较弱的结果版本输入 GPT‑5，询问其能否改进条件。该模型提出了更精确的步长边界及更简洁的标准证明，并由 Bubeck 亲自验证；在延长思考时间后，该模型的内部运行甚至从头推导出了最优边界。

GPT‑5 的贡献：GPT‑5 帮助 Sébastien Bubeck 探索更精确的步长条件，针对近期提出的凸优化定理生成更清晰的证明建议，并由 Bubeck 独立验证。

阅读第 3 页以了解更多信息（在新窗口中打开）

探秘黑洞隐藏对称性

在广义相对论中，旋转黑洞由克尔解描述，其周围传播的波动则需满足复杂的微分方程。物理学家致力于探寻此类方程的对称性（即保持方程形态不变的转换），因为对称性会导致数量守恒且结构简洁。Alex Lupsasca 近期的研究表明，克尔波动方程存在 SL(2,ℝ) 代数构成的隐藏对称结构，这有助于解释特定潮汐响应消失的原因。

当我们直接向 GPT‑5 Pro 询问完整的克尔问题时，它最初未能识别任何有意义的对称性。在 Lupsasca 提供平面空间中相同结构的简化“预热”版本后，我们又返回克尔案例；这一次，经过约 18 分钟的内部推理，该模型输出了闭合为 SL(2,ℝ) 的完整对称生成元集合，且与人类的研究成果相吻合。

GPT‑5 的贡献：GPT‑5 Pro 在给定适当的预热问题后重建了克尔黑洞波动方程的隐藏 SL(2,ℝ) 对称代数，Lupsasca 证实了这一输出结果。

免疫学中的机制性洞察

如何维持有益 T 细胞的活性与持久性，同时避免其陷入衰竭与功能失调状态，是现代免疫疗法 — 尤其是依赖工程化 T 细胞的 CAR-T 癌症治疗中的核心课题。现有文献表明，短暂限制葡萄糖代谢可以持续重编程 T 细胞，使其更具促炎性。在一项早期研究中，Derya Unutmaz 及其同事曾使用 2-脱氧葡萄糖 (2DG) 短暂处理人类 CD4+ T 细胞（免疫细胞的关键类别），这种化合物会干扰葡萄糖代谢。在移除 2DG 并用 IL-2（一种指示 T 细胞增殖的信号分子）激活 CD4+ T 细胞后，他们观察到细胞持续向促炎性 Th17 样状态转化（这类 T 细胞亚群同时参与免疫保护与自身免疫疾病过程），并耗时数月开展实验和阅读文献，最终提出解释这一效应的合理机制。

数年后，他向 GPT‑5 Pro 展示了一张未发表的流式细胞术散点图，其中包含经由不同葡萄糖与 2DG 水平处理后各 T 细胞亚群的分布状态，要求该模型解读数据成因并设计后续实验方案。经过大约十几分钟的反复论证，该模型指出激活过程中N-链糖基化（细胞将糖链与蛋白质结合的机制）紊乱是核心驱动因素，并预测记忆 T 细胞（而非初始 T 细胞）是主要作用群体。随后，GPT‑5 提出具体的后续实验方案，包括一项精巧的甘露糖补救实验：在不恢复糖酵解的前提下恢复 N-链糖基化功能。该实验室此前已完成甘露糖补救实验，其结果与模型预测完全吻合。

随后，GPT‑5 Pro 分析了经 2DG 脉冲处理的 CD8+ T 细胞未公开数据，并预测在 CAR-T 生成过程中短暂暴露于 2DG 将提升其对靶向癌细胞株的杀伤效率。GPT‑5 Pro 的预测与实验室未公开的实验数据相符。

GPT‑5 的贡献：GPT‑5 通过分析未公开数据，推导出非显而易见的高价值机制假设，识别出起效的 T 细胞亚群，并提出了后续实验方案，Unutmaz 实验室随后对这些建议进行测试与验证。

阅读第 11 页以了解更多信息（在新窗口中打开）

深度文献检索

将新的几何结果与其他领域关联

Nikita Zhivotovskiy 及其合作者证明了一项新的凸几何定理 — 研究“行为良好”的几何形状，其中任意两点间的线段均位于形状内部。凸几何是机器学习和统计领域中诸多模型的基础。完成定理后，下一个问题自然是：这一研究成果还能在哪些领域发挥作用？

Zhivotovskiy 并未采用手动搜索相关术语和检索文献的传统方式，而是向 GPT‑5 输入定理的规范表述，并询问其潜在关联领域。该模型指向了密度估计、学习理论与多目标优化等领域的研究，并提供了具体的参考文献，其中包括 Zhivotovskiy 未曾接触的研究成果及多语种资料。

GPT‑5 的贡献：GPT‑5 帮助 Nikita Zhivotovskiy 识别多个领域的具体联系和参考文献，包括其未曾接触的材料。

整理并完善 Erdős 问题数据库

Paul Erdős 提出了一千多个问题，其中许多问题都由公开网站追踪记录。部分问题仍标注为“待解决”状态，即使冷门期刊或非英语论文中已有相关解决方案。Mehtaab Sawhney 与 Mark Sellke 使用 GPT‑5 作为该数据库的文献检索助手：针对每个待解决的问题，要求模型搜寻现有解决方案或重大阶段性进展。

GPT‑5 针对多个仍标记为“待解决”的问题确定完整解决方案，同时识别其他问题的关键阶段性成果，并指出某问题陈述中存在刊印错误。针对 Erdős 问题 #848，网站上的公开讨论已构建大部分论证框架；GPT‑5 提出了关键密度估算思路，经 Sawhney 与 Sellke 修正完善后，最终形成闭合该问题的完整证明。

GPT‑5 的贡献：GPT‑5 协助确定遗漏的解决方案，并提出密度估算思路，Sawhney 和 Sellke 则将其完善为 Erdős 问题 #848 的完整证明。

避团码：警示案例

纠错码通过增加数据的冗余度，确保比特位受损时仍能恢复信息。该项目探讨了一种特殊的二进制代码：每个代码的位置对应图中的一条边，其核心目标是排除任何呈现“团”结构（即完全连通的节点集）的码字。核心挑战在于确定需要多少奇偶校验，才能从根本上防范这类结构化错误。GPT‑5 通过有限域上的二次方程重构问题，并援引“Chevalley–Warning 定理”这一经典结论，直接指向正确的下界，证明所需约束条件仅为原先设想的一半。

随后出现了一个意想不到的转折：完全相同的界值及本质一致的证明，其实在多年前的研究论文中已有相关论述。GPT‑5 在未注明出处的情况下复现了该论证，直到研究人员通过新会话再次追问时，才指出已存在既有研究。这为 AI 辅助数学研究提供了重要启示：模型能生成正确且优雅的推理，但可能无法有效追溯其概念来源。严谨验证与注重溯源仍然至关重要。

GPT‑5 的贡献：GPT‑5 提供了关键的重构思路与经典定理，从而推导出最优下界。然而，该模型在研究人员明确追问前并未指出已存在相关研究，这凸显了人工核查引证来源的必要性。

阅读第 28 页以了解更多信息（在新窗口中打开）

与 AI 协同配合

将 GPT-5 用作组合数学领域的研究伙伴

作为菲尔兹奖 (Fields Medal) 得主，组合数学家 Tim Gowers 开展了一系列实验，将 GPT‑5 视为“研究伙伴”，而非用于解决作业类问题的工具。他向该模型提出了自己正在积极思考的部分组合数学难题，并要求模型生成构造建议、搜索反例或批判部分论证。

在多个案例中，GPT‑5 能迅速识别候选构造中的缺陷或疏漏，并提出更简单的替代方案或反例；在其他案例中，它却停滞不前或未能取得进展。Gowers 的总体结论是：尽管目前尚未达到合作作者的标准，但该模型已显现其实用价值，能以极快的速度提供专业批评、对构想进行压力测试并节省时间。

GPT‑5 的贡献：在探索性组合数学工作中，GPT‑5 可作为快速批判工具，帮助 Tim Gowers 确定缺陷、疏漏和更简单的替代方案。

阅读第 31 页以了解更多信息（在新窗口中打开）

解读宇宙学模型

宇宙学利用简化模型来描述宇宙的大规模行为，包括暗能量和膨胀历史。这些模型通常涉及多种数学等价形式，微小的代数错误就可能导致计算失误。Robert Scherrer 使用 GPT‑5 来检验推导的合理性，探索宇宙学模型的简化版本，并在暗能量的不同参数之间进行转换。

GPT‑5 在纠正代数错误、提出同一物理概念的等效公式，并指引 Scherrer 检索文献中与其独立推导的模型相匹配的现有结果方面尤为实用。这减少了将书面构想转为可比对数据形式的阻力。

GPT‑5 的贡献：GPT‑5 通过检查推导过程、提出等效公式以及指出文献中匹配的结果来帮助 Robert Scherrer。

阅读第 37 页以了解更多信息（在新窗口中打开）

支持聚变和等离子体物理学

聚变和等离子体物理学涉及对高温、致密等离子体的建模，其中初始条件的细微变化可能导致截然不同的行为。这些模拟的运行与解析成本高昂且耗时费力。这项工作采用 GPT‑5 来辅助构建和分析特定的简化反应（即研究热核燃烧传播的扩散模型），以解读复杂的输出结果，并探索不同密度分布如何影响燃烧性能。该模型有助于运行参数扫描，并确定燃烧波前传播速度最快的优化参数区间。

GPT‑5 还协助提出了对这些数值模式的理论说明，利用功率平衡论证来解释为何部分参数表现更好，并生成简易工程规则建议以指导未来的设计工作。虽然模型偶尔会产生不稳定的模拟结果或过度自信的结论，但在专家的监督下，这一问题能够得到迅速纠正，进而加速实现从“该区域出现异常现象”到“提出合理解释并设计具体测试方案”的跨越。

GPT‑5 的贡献：GPT‑5 协助构建简化物理学模型，探索参数空间，并提出物理解释。

阅读第 40 页以了解更多信息（在新窗口中打开）

借助 AI 取得的新科学研究成果

解决 Erdős 数论问题

Paul Erdős 提出了一个关于正整数集的难题：寻找满足特殊规则的最大集合 — 该集合中任意两个数的乘积加一，必定能被某个完全平方素因子整除。Erdős 推测了这类最大集合应具备的特征，但该问题数十年来始终悬而未决。

Sawhney 与 Sellke 先探索问题结构，随后借助 GPT‑5 分析单个“异常”数值如何影响整个集合。GPT‑5 提出了一种更清晰的论证方法：只要存在一个不符合特定模式的数字，就会导致几乎所有其他数字出现矛盾。这一思路最终成为破解难题的关键环节。研究人员借此完成完整证明，证实 Erdős 的原始猜想成立。

GPT‑5 的贡献：GPT‑5 揭示了单个数字如何约束所有数字的关键洞察，助力研究人员完成 Erdős 问题 848 的证明。

在线算法的新下界

在线算法需在未获知未来信息的情况下逐步做出决策 — 例如，当系统约束随时间逐步显现时，确定如何移动系统。在凸体追踪问题中，算法必须始终保持在移动的凸区域内，同时保持较小的累积移动量。其中一个核心问题在于最优竞争比：即最坏情况下，在线算法与可预知完整序列的理想离线算法间的其性能差距。

Christian Coester 运用 GPT‑5 进行头脑风暴，探讨可能导致在线算法表现不佳的高难度实例与构造方案。该模型指出的特定几何构造经 Coester 完善和验证后，催生了比既往认知更为简洁、有力的竞争比下界。

GPT‑5 的贡献：GPT‑5 提出了一种几何构造，Christian Coester 将其完善为在线算法问题的更强下界。

阅读第 61 页以了解更多信息（在新窗口中打开）

证明图论中新的不等式

该研究团队研究了一个图论问题：计算树（无环图）结构内部的小型模式（路径、星形和“Y”形结构）的数量。先前研究已证明其中一项与计算相关的不等式，并对第二项提出猜想，但该猜想始终未得到证明。研究人员使用围绕 GPT‑5 的自定义数学框架，首先要求模型重新证明已知的不等式，然后攻克猜想命题。

GPT‑5 为两项不等式提供了简洁完备的证明，其论证方法与原始人工证明不同，且更为优雅；Bubeck、Sellke 与 Yin 随后在其论文中验证并采纳了模型的论证思路。

GPT‑5 的贡献：GPT‑5 生成了树中两项不等式的简洁证明，包括一个猜想命题，研究人员已独立检查并采纳该论证思路。

阅读第 69 页以了解更多信息（在新窗口中打开）

在不断演变的网络中识别隐藏参数

研究人员研究了某个持续增长网络中的简易模型，其中每个新节点会根据隐藏参数 www 的影响概率连接到早期节点。其难点在于，一旦网络规模增长，你就只能观测到未标记的最终树，而无法获知生成该结构的隐藏标签或连接规则。一个悬而未决的问题是：仅凭这一最终结构能否恢复 www。

该研究团队要求 GPT‑5 推理最终树中哪些全局模式能够有效反映 www 的价值。该模型提出了一个出人意料的可观测统计量：最终成为叶节点的长期比例。GPT‑5 概述了这一叶节点比例如何收敛为 www 的简易、严格递增函数，这意味着通过树形结构可直接读取 www 数值。基于这一指导建议，研究人员提出了一个完整的证明，证实该参数确实可识别。

GPT‑5 的贡献：GPT‑5 指出了关键的可观测量 — 叶节点比例，这有助于确定清晰且可证明的方法，用于从最终网络的单个快照中恢复隐藏参数 www。

阅读第 75 页以了解更多信息（在新窗口中打开）

限制

这些案例研究精选展示了 GPT‑5 的应用成效，它们并非系统性抽样，也未涵盖所有失效模式。专家监督仍然至关重要。GPT‑5 偶尔会产生幻觉，生成看似合理的引文、机制或证明；它可能对问题引导和预热训练较为敏感；它有时会忽略特定领域的细微差别；如果不加以纠正，它可能会沿着无效的推理路线前进。这些都是活跃的研究领域，我们正与合作者密切配合，在完善后续系统的同时，衡量并减少此类失效情况。