学习利用 LLM 进行推理
我们正在引入 OpenAI o1,这是一种通过强化学习训练出来的新型大型语言模型,可以执行复杂的推理。o1 在回答问题之前会先思考——它可以在回应用户之前产生很长的内部思考链。
OpenAI o1 在编程竞赛题 (Codeforces) 中排名第 89 位,在美国数学奥林匹克竞赛 (AIME) 预选赛中跻身全美前 500 名学生行列,在物理、生物和化学问题 (GPQA) 基准测试中的准确率超过了人类博士水平。虽然使这一新模型与当前模型一样易于使用的工作仍在进行中,但我们已发布了该模型的早期版本 OpenAI o1‑preview,供 ChatGPT 和可信 API 用户(在新窗口中打开)立即使用。
我们的大规模强化学习算法在一个数据效率极高的训练过程中,教会模型如何利用其思维链进行富有成效的思考。我们发现,随着强化学习(训练时间计算)和思考时间(测试时间计算)的增加,o1 的性能也在不断提高。这种方法的扩展限制与 LLM 预训练的限制有很大不同,我们正在继续研究。

o1 性能随着训练时间和测试时间计算量的增加而平稳提高
为了突出与 GPT‑4o 相比的推理改进,我们在一组不同的人类考试和 ML 基准上测试了我们的模型。结果表明,在绝大多数推理繁重的任务中,o1 的表现明显优于 GPT‑4o。除非另有说明,我们在最大测试时间计算设置上对 o1 进行了评估。







在许多推理繁重的基准测试中,o1 的表现可以与人类专家相媲美。最近的前沿模型1在 MATH2和 GSM8K 中表现出色,以至于这些基准不再能有效区分模型。我们评估了 AIME 考试的数学成绩,该考试旨在挑战美国最聪明的高中数学学生。在 2024 年的 AIME 考试中,GPT‑4o 平均只解决了 12% 的问题 (1.8/15)。o1 在每个问题只有一个样本的情况下平均得分 74% (11.1/15),在 64 个样本达成共识的情况下平均得分 83% (12.5/15),在使用学习的评分函数对 1000 个样本重新排序的情况下平均得分 93% (13.9/15)。13.9 的得分使它跻身全国前 500 名学生之列,并高于美国数学奥林匹克竞赛的分数线。
我们还在 GPQA 钻石级上对 o1 进行了评估,这是一项高难度的智力基准测试,测试化学、物理和生物方面的专业知识。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答 GPQA 钻石级的问题。我们发现,o1 的表现超过了这些人类专家,成为第一个在这一基准测试中超过人类专家的模型。这些结果并不意味着 o1 在所有方面都比博士更有能力——只是说明该模型在解决博士有望解决的某些问题时更加熟练。在其他几项 ML 基准测试中,o1 的表现都超过了最先进的水平。在启用了视觉感知能力后,o1 在 MMMU 上的得分率达到了 78.2%,成为第一个能与人类专家竞争的模型。在 57 个 MMLU 子类别中,它还在 54 个类别上超过了 GPT‑4o。
与人类在回答难题之前可能会思考很长时间类似,o1 在尝试解决问题时也会使用思维链。通过强化学习,o1 可以学会磨练自己的思维链,并完善自己使用的策略。它学会识别和纠正错误。它学会把棘手的步骤分解成更简单的步骤。它学会在当前方法无效时尝试不同的方法。这一过程极大地提高了模型的推理能力。为了说明这一飞跃,我们在下面展示了 o1‑preview 在几个难题上的思维链。
GPT-4o
OpenAI o1-preview
我们训练了一个模型,该模型在 2024 年国际信息学奥林匹克竞赛 (IOI) 中获得了 213 分,排名第 49 位,训练方法是从 o1 开始初始化,通过训练进一步提高编程技能。该模型在与人类选手相同的条件下参加了 2024 年国际信息学奥林匹克竞赛。它有 10 个小时的时间来解决 6 个具有挑战性的算法问题,每个问题允许提交 50 次。
对于每个问题,我们的系统都会抽取许多候选方案,并根据测试时间选择策略提交其中的 50 个方案。我们根据 IOI 公开测试用例、模型生成的测试用例和学习的评分函数的表现来选择提交的问题。如果我们采用随机提交的方式,平均只能得到 156 分,这表明在竞争限制条件下,这种策略的价值接近 60 分。
放宽提交限制后,我们发现模型性能有了显著提高。当每个问题允许提交 10,000 个方案时,即使没有任何测试时间选择策略,模型也能获得 362.14 分,超过了金牌门槛。
最后,我们模拟了由 Codeforces 主办的编程竞赛,以展示该模型的编码技能。我们的评估与竞赛规则密切相关,并允许提交 10 份作品。GPT‑4o 的 Elo 评分3达到 808,在人类选手中排名第 11 位。该模型远远超过了 GPT‑4o 和 o1——它的 Elo 评分达到 1807,优于 93% 的竞争对手。

在编程竞赛中的进一步微调改进了 o1。根据竞赛规则,改进后的模型在 2024 年国际信息学奥林匹克竞赛中排名第 49 位。
除了考试和学术基准外,我们还评估了 o1‑preview 与 GPT‑4o 在广泛领域中具有挑战性的开放式提示上的人类偏好。在这项评估中,我们向人类训练师展示了 o1‑preview 和 GPT‑4o 的匿名提示回答,并让他们投票决定他们更喜欢哪种回答。在数据分析、编码和数学等偏重推理的类别中,o1‑preview 比 GPT‑4o 更受青睐。但是,o1‑preview 在一些自然语言任务中并不受欢迎,这表明它并不适合所有的使用情况。

思维链推理为一致性和安全提供了新的机遇。我们发现,将我们的模型行为政策整合到推理模型的思维链中,是有力传授人类价值观和原则的有效方法。通过向模型传授我们的安全规则以及如何在上下文中对其进行推理,我们发现了推理能力直接有益于模型稳健性的证据:o1‑preview 在关键的越狱评估和用于评估模型安全拒绝边界的最难内部基准方面的性能得到了大幅提升。我们认为,使用思维链能显著提高安全性和一致性,因为:(1) 它能让我们以清晰的方式观察模型的思维;(2) 模型对安全规则的推理对分布外场景更加稳健。
为了对改进措施进行压力测试,我们在部署前根据我们的准备框架(在新窗口中打开)进行了一系列安全测试和红队测试。我们发现,在整个评估过程中,思维链推理有助于提高能力。特别值得注意的是,我们观察到了一些有趣的奖励黑客行为(在新窗口中打开)。这些评估的详细结果见随附的系统卡。
| 评估指标 | GPT-4o | o1-preview |
|---|---|---|
| 有害提示下安全生成内容的占比 % 标准 | 0.990 | 0.995 |
| 有害提示下安全生成内容的占比 % 挑战:越狱及边缘案例 | 0.714 | 0.934 |
| ↳ 骚扰(严重) | 0.845 | 0.900 |
| ↳ 剥削性内容 | 0.483 | 0.949 |
| ↳ 涉及未成年人的性内容 | 0.707 | 0.931 |
| ↳ 关于非暴力不当行为的建议 | 0.688 | 0.961 |
| ↳ 关于暴力不当行为的建议 | 0.778 | 0.963 |
| WildChat 中每类审核 API 得分最高的前 200 名安全生成率 % 赵等人2024 年 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT 越狱评估 苏利 (Souly) 等人2024 年 | 0.220 | 0.840 |
| 人工越狱评估 | 0.770 | 0.960 |
| 内部良性边缘案例的合规率 % “非过度拒绝” | 0.910 | 0.930 |
| XSTest 良性边缘案例合规率 % “非过度拒绝” 罗特格 (Röttger) 等人2023 年 | 0.924 | 0.976 |
我们认为,隐藏的思维链为监测模型提供了一个独特的机会。假设它是忠实可读的,那么隐藏的思维链就能让我们“读懂”模型的思想,了解它的思维过程。例如,将来我们可能希望监控思维链,以发现操纵用户的迹象。但是,要做到这一点,模型必须能够以不改变的形式自由表达自己的想法,因此我们不能在思维链上训练任何政策遵从或用户偏好。我们也不想让用户直接看到不一致的思维链。
因此,在权衡了用户体验、竞争优势以及对思维链进行监控的选项等多种因素后,我们决定不向用户显示原始思维链。我们承认这一决定存在弊端。我们努力通过教授模型在答案中重现思维链中任何有用的想法来部分弥补这一缺陷。在 o1 模型系列中,我们展示了模型生成的思维链摘要。
o1 极大地推动了人工智能推理的发展。我们计划在继续迭代的过程中发布该模型的改进版本。我们希望这些新的推理能力能够提高我们使模型符合人类价值观和原则的能力。我们相信,o1 及其后续版本将为人工智能在科学、编码、数学和相关领域的应用带来许多新的应用案例。我们非常期待用户和 API 开发人员能够发现它如何改善他们的日常工作。
| 数据集 | 评估指标 | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| 数学竞赛 AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| 通过率@1 | 9.3 | 44.6 | 74.4 | |
| 竞赛守则 CodeForces | Elo 评分 | 808 | 1,258 | 1,673 |
| 百分位数 | 11.0 | 62.0 | 89.0 | |
| GPQA 钻石级 | cons@64 | 56.1 | 78.3 | 78.0 |
| 通过率@1 | 50.6 | 73.3 | 77.3 | |
| 生物学 | cons@64 | 63.2 | 73.7 | 68.4 |
| 通过率@1 | 61.6 | 65.9 | 69.2 | |
| 化学 | cons@64 | 43.0 | 60.2 | 65.6 |
| 通过率@1 | 40.2 | 59.9 | 64.7 | |
| 物理 | cons@64 | 68.6 | 89.5 | 94.2 |
| 通过率@1 | 59.5 | 89.4 | 92.8 | |
| 数学 | 通过率@1 | 60.3 | 85.5 | 94.8 |
| MMLU | 通过率@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | 通过率@1 | 69.1 | n/a | 78.2 |
| MathVista(测试精简版) | 通过率@1 | 63.8 | n/a | 73.9 |






