跳至主要内容
OpenAI

我们已推出 GPT‑4,这是 OpenAI 在扩展深度学习方面的最新里程碑。GPT‑4 是一款大型多模态模型(可接受图片和文本输入并输出文本),尽管在许多现实场景中,其能力尚不及人类,但在各类专业和学术基准测试中,它展现出了可媲美人类的性能。例如,在模拟律师资格考试中,GPT‑4 的成绩位列考生前 10% 左右;相比之下,GPT‑3.5 的成绩则处于后 10% 左右。我们利用来自对抗性测试项目以及 ChatGPT 的经验教训,投入 6 个月时间对 GPT‑4 进行迭代对齐,使其在事实性、可控性以及拒绝打破规则等方面的表现达到了前所未有的水平(尽管与完美仍有很大差距)。

在过去的两年里,我们重构了整个深度学习技术栈,并与 Azure 携手,针对我们的工作负载从头开始共同设计了一台超级计算机。一年前,作为该系统的首次“试运行”,我们训练了 GPT‑3.5。我们发现并修复了一些错误,并完善了理论基础。因此,GPT‑4 的训练过程空前稳定(至少对我们而言),成为首个我们能够提前准确预测其训练性能的大模型。在持续专注于可靠地扩展模型的同时,我们致力于优化方法,帮助我们越来越早地预测模型的未来能力并为之做好准备 — 我们认为这对安全性至关重要。

我们将通过 ChatGPT 和 API(设有候补名单)发布 GPT‑4 的文本输入功能。为推动图片输入功能得到更广泛的应用,我们正在与一家合作伙伴(在新窗口中打开)紧密协作,启动相关工作。此外,我们还将我们用于自动评估 AI 模型性能的框架 OpenAI Evals(在新窗口中打开) 开源,这样任何人都可以向我们反馈模型中存在的不足,指导我们做出进一步的改进。

功能

在日常对话中,GPT‑3.5 和 GPT‑4 之间的区别可能并不明显。但当任务复杂度达到一定阈值时,差异便会显现出来 — GPT‑4 更为可靠、更具创造性,而且能够处理比 GPT‑3.5 更加细致入微的指令。

为了解这两款模型之间的差异,我们基于各类基准对两者进行了测试,包括模拟人类考试。我们采用最新公开的试题(对于奥林匹克竞赛和进阶先修课程 (AP) 自由回答题),或者购买 2022–2023 年版模拟试卷。我们没有就这些考试对模型进行专门的训练。虽然模型在训练过程中接触过少数考试题目,但我们相信测试结果仍具有代表性 — 详情请参阅我们的技术报告(在新窗口中打开)

内部参考 1

正在加载...
正在加载...

我们还基于为机器学习模型设计的传统基准对 GPT‑4 进行了评估。结果表明,GPT‑4 的性能显著优于现有的大语言模型,以及大多数可能针对特定基准进行了优化或采用了额外训练协议的前沿 (SOTA) 模型:

正在加载...

许多现有的机器学习基准是以英文编写。为了初步了解 GPT‑4 在其他语言下的能力,我们使用 Azure Translate 将 MMLU 基准(一套涵盖 57 个学科领域的 14,000 道多项选择题)翻译成了多种语言(详见附录)。我们共测试了 26 种语言,在其中 24 种语言环境,包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言环境下,GPT‑4 的表现优于 GPT‑3.5 以及其他大语言模型(如 Chinchilla、PaLM)在英语环境下的表现:

正在加载...

我们还在内部使用 GPT‑4,对支持、销售、内容审核及编程等职能部门产生了重大影响。此外,我们还利用它辅助人类评估 AI 输出,这标志着我们对齐策略的第二阶段已正式启动。

视觉输入

GPT‑4 能够接受文本和图片形式的提示,与纯文本提示类似,用户可借此指定任何视觉或语言任务。具体而言,它能根据图文混合输入内容产生文本输出(如自然语言、代码等)。在多个领域(包括含有文本与照片、图表或截图的文档),GPT‑4 展现出与处理纯文本相似的性能。此外,它还能与专为纯文本语言模型开发的测试时间技术结合使用,包括少样本提示和思维链(在新窗口中打开)提示。目前,图片输入功能仍处于研究预览阶段,尚未向公众开放。

正在加载...

我们依据一套严格的标准学术视觉基准对 GPT‑4 进行评估,以预览其性能。然而,这些数据并未完全体现其能力范围,因为我们不断发现该模型能够应对新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数据,以及对测试时间技术效果的深入调查。

内部脚注A

正在加载...

可控性

我们一直在全面推进我们在主题文章定义 AI 行为中概述的计划,其中包括可控性。与具有固定冗长度、语调和风格的经典 ChatGPT 不同,开发人员(以及不久后的 ChatGPT 用户)现在可以通过在“系统”消息中指明方向,来指定 AI 的风格和任务。API 用户可利用系统消息在界限内(在新窗口中打开)大幅定制用户体验。我们将持续改进这项功能(尤其是,我们知道系统消息是当前模型最简单的“越狱”方式,换言之,界限的遵循情况并不完美),但我们鼓励您尝试使用并告知我们您的想法。

正在加载...

局限性

尽管 GPT‑4 能力出众,但它仍与早期 GPT 模型存在类似的局限性。最重要的是,它仍不完全可靠(会“虚构”事实并出现推理错误)。在使用语言模型输出时,尤其是在高风险场景下,必须格外谨慎,具体方案(如人工审核、结合额外背景进行验证或干脆避免在高风险场景中使用)应与特定用例的需求相匹配。

与之前的模型相比,GPT‑4 在“虚构事实”方面已有显著改善(之前的模型也在每次迭代中逐步完善),但依然是个现实存在的问题。在我们内部的对抗性事实性评估中,GPT‑4 的得分比最新版 GPT‑3.5 高出 40%:

正在加载...

在外部基准测试,如 TruthfulQA(该测试旨在检验模型从一组对抗性选择的错误陈述中区分事实的能力)中,我们也取得了进展。我们为这些对抗性问题匹配了具有统计学意义的错误事实答案。

正在加载...

GPT‑4 基础模型在这一任务上的表现仅比 GPT‑3.5 略好一些;然而,在经过 RLHF(基于人类反馈的强化学习)后训练(采用与 GPT‑3.5 相同的流程)后,两者之间出现了巨大差距。从以下示例中可以看出,GPT‑4 能够避免选择常见俗语 (you can’t teach an old dog new tricks),但仍可能忽略一些微妙的细节(猫王 Elvis Presley 的父亲不是演员)。

正在加载...

此模型在输出中可能存在各种偏见 — 尽管我们在这方面已取得一定进展,但仍有很大的改进空间。正如我们在近期博客文章中所述,我们的目标是让我们构建的 AI 系统具备合理的默认行为(即能够反映广大用户价值观的行为),允许在广泛的界限内对系统进行自定义,以及就如何设定界限征求公众意见。

GPT‑4 通常对其绝大多数数据的截止日期(2021 年 9 月)之后发生的事件缺乏了解,且不会从经验中学习。它有时会犯一些似乎与其在众多领域中的专业能力不相符的简单推理错误,有时则过于轻信用户给出的明显错误的陈述。有时,它会像人类一样在难题上出错,例如在其生成的代码中引入安全漏洞。

GPT‑4 也可能坚持错误的预测,在可能犯错时没有仔细进行检查。有趣的是,预训练的基础模型具有很高的校准度(其预测的答案置信度通常与答案正确的概率相符)。然而,通过我们目前的后训练流程,该校准度反而有所降低。

正在加载...

风险与缓解

从训练伊始,我们便不断对 GPT‑4 进行迭代优化,以提升其安全性与一致性。相关工作涵盖预训练数据的选择与筛选、评估与专家参与、模型安全改进,以及监控与执行等方面。

GPT‑4 存在与先前模型类似的风险,例如生成有害建议、含漏洞的代码或不准确的信息。然而,GPT‑4 的新增功能也带来了新的风险点。为了解这些风险的范围和程度,我们邀请了 AI 对齐风险、网络安全、生物风险、信任与安全以及国际安全等领域的 50 多位专家,对模型进行了对抗性测试。利用他们的研究发现,我们在需要运用专业知识进行评估的高风险领域,对模型行为进行了测试。来自这些专家的反馈和数据,为模型的风险缓解和优化改进提供了素材。例如,我们收集了额外数据,帮助 GPT‑4 更好地拒绝有关如何合成危险化学品的请求。

在 RLHF(基于人类反馈的强化学习)训练过程中,GPT‑4 引入了额外的安全奖励信号,以减少有害输出(参见使用指南(在新窗口中打开)中的定义),具体而言,训练模型拒绝有关此类内容的请求。该奖励信号由一个 GPT‑4 零样本分类器提供,用于判断安全相关提示的安全界限和完成风格。为防止模型拒绝正当请求,我们从多个来源(如经标注的生产数据、人类红队测试、模型生成的提示)收集多样化的数据集,并在允许和禁止的类别同时应用安全奖励信号(具有正值或负值)。 

与 GPT‑3.5 相比,我们的缓解措施显著提升了 GPT‑4 的许多安全特性。与 GPT‑3.5 相比,我们已将模型响应禁止内容请求的倾向降低了 82%,并且 GPT‑4 对敏感请求(如医疗建议和自我伤害)的响应更符合我们的政策,合规率提高了 29%。

正在加载...
正在加载...

总体而言,我们在模型层面的干预措施增加了引发不良行为的难度,但这种行为仍有可能发生。此外,仍存在一些“越狱”方法,能够生成违反我们使用指南的内容。随着 AI 系统“每令牌风险”的增加,在这些干预措施中实现极高的可靠性将变得至关重要。目前而言,需要结合部署时的安全技术(如滥用监控)来弥补这些局限性,这点很重要。

GPT‑4 及其后续模型有可能对社会产生重大影响,这些影响可能是有益的,也可能是有害的。我们正与外部研究人员合作,改进我们了解和评估潜在影响的方法,并为未来系统中可能出现的危险功能构建评估体系。关于 GPT‑4 及其他 AI 系统带来的潜在社会和经济影响,我们近期将与大家分享我们的更多思考。

训练过程

与之前的 GPT 模型一样,GPT‑4 基础模型经过训练,可以预测文档中的下一个词语,而训练所用的是公开可得的数据(如互联网数据)以及经我们授权的数据。这些数据构成了一个网络规模的语料库,其中包括或正确或错误的数学题解答、或强或弱的推理、或矛盾或一致的陈述,并且代表了各种各样的意识形态和思想。

因此,当被提示问题时,基础模型可能以多种方式回答,其中一些方式可能与用户意图相去甚远。为使模型在规则之内作出与用户意图一致的回答,我们使用基于人类反馈的强化学习 (RLHF) 对模型行为进行了微调。

需要注意的是,模型的能力似乎主要源于预训练过程 — RLHF 并不能提升模型在考试中的表现(若非主动干预,性能实际上还有所降低)。但模型的控制则源于后训练过程 — 基础模型甚至需要借助提示工程才知道它应该回答问题。

可预测的扩展

GPT‑4 项目的主要工作之一是,构建一个能够实现可预测扩展的深度学习技术栈。这样做的主要原因是,对于像 GPT‑4 这样的大规模训练任务,专门针对模型进行大量微调是不切实际的。我们开发了基础设施和优化方法,它们在多个规模下都表现出良好的可预测行为。为了验证这种可扩展性,我们从使用相同方法但计算量减少 10,000 倍的模型进行外推,提前准确预测了 GPT‑4 在我们内部代码库(不属于训练集的一部分)上的最终损失:

正在加载...

现在我们能够准确预测我们在训练期间优化的指标(损失),于是我们开始着手开发可预测更多可解释指标的方法。例如,通过从计算量减少 1,000 倍的模型进行外推,我们成功预测了 HumanEval(在新窗口中打开) 数据集的一个子集的通过率:

正在加载...

模型的一些能力仍旧难以预测。例如,Inverse Scaling Prize(逆向扩展奖)大赛旨在找出随着模型计算量增加性能反而变差的指标,而 hindsight neglect(在新窗口中打开)(事后忽视)便是其中一个获奖指标。与近期的另一项结果(在新窗口中打开)一样,GPT‑4 逆转了这一趋势:

正在加载...

我们认为,准确预测未来的机器学习能力是安全性的一个重要组成部分,而与其潜在影响相比,安全性得到的关注度远远不够(尽管多家机构作出的努力令人鼓舞)。我们正在加大力度开发新方法,更好地指导社会应对未来的系统能力,我们希望这能成为该领域的一个共同目标。

OpenAI Evals

我们正在将我们的软件框架 OpenAI Evals(在新窗口中打开) 开源,该框架用于创建和运行评估模型(如 GPT‑4 等)的基准,同时逐个样本检验模型的性能。我们使用 Evals 来指导模型的开发工作(识别不足并防止性能下降),用户也可以利用它来跟踪不同模型版本(将定期发布)的性能,并推动产品集成的发展。例如,Stripe 公司使用 Evals 作为人工评估的补充手段,衡量其基于 GPT 的文档工具的准确性。

由于代码全部开源,Evals 支持编写新类来实现自定义评估逻辑(在新窗口中打开)。但是,根据我们的经验,许多基准仅遵循少数几种“模板”中的一个,因此我们还纳入了内部最实用的模板(在新窗口中打开),包括一个“模型分级评估”模板 — 我们发现 GPT‑4 在检查自身工作方面表现惊人。一般来说,构建新评估(在新窗口中打开)的最有效方法是将其中一个模板实例化并提供数据。我们非常期待其他人能够利用这些模板和 Evals 带来更多惊喜。

我们希望 Evals 成为共享和众包基准的一个工具,能够体现最广泛的故障模式和困难任务。作为示例,我们创建了一个逻辑谜题(在新窗口中打开)评估,其中包含十个 GPT‑4 无法处理的提示。Evals 也支持实施现有基准;我们在其中纳入了几个实施学术基准的笔记本(在新窗口中打开)和几个集成较小 CoQA(在新窗口中打开) 子集的变体作为示例。

我们邀请所有用户使用 Evals 来测试我们的模型,并提交最有趣的示例。我们相信 Evals 将成为使用和扩建我们模型的过程中不可或缺的一部分,并欢迎所有用户直接参与、提交问题和反馈(在新窗口中打开)

ChatGPT Plus

ChatGPT Plus 订阅者将可以在 chatgpt.com(在新窗口中打开) 上访问 GPT‑4,但有一定使用限制。我们将根据实际的需求和系统性能调整具体的使用限制,但预计初期会面临严格的容量限制(不过,我们将在未来几个月内进行扩展和优化)。

根据我们观察到的流量模式,我们可能会为使用量较高的 GPT‑4 用户引入新的订阅级别。我们也希望在未来某个时间点提供一定数量的免费 GPT‑4 查询,以便没有订阅的用户也能尝试使用。

API

若要使用 GPT‑4 API(使用与 GPT‑3.5 Turbo 相同的 ChatCompletions API(在新窗口中打开)),请注册加入候补名单。我们将从今天开始邀请部分开发人员,并逐步扩展模型以平衡容量与需求。如果您是研究 AI 社会影响或 AI 对齐问题的研究人员,还可以通过我们的研究人员使用计划申请使用补贴。

一旦您获得访问权限,就可以向 GPT‑4 模型发送纯文本请求(图片输入仍处于有限内测阶段)。未来推出新版本时,我们会自动更新至我们推荐的稳定模型(您可以通过调用 gpt-4-0314 锁定当前版本,我们将支持该版本至 6 月 14 日)。使用定价为每 1K 提示令牌 0.03 美元,每 1K 补全令牌 0.06 美元。默认速率限制为每分钟 40K 令牌和每分钟 200 个请求。

GPT‑4 的上下文长度为 8,192 令牌。我们还有限开放上下文长度为 32,768(约 50 页文本)的版本 gpt-4-32k,该版本未来也会自动更新(当前版本为 gpt-4-32k-0314,同样支持至 6 月 14 日)。使用定价为每 1K 提示令牌 0.06 美元,每 1K 补全令牌 0.12 美元。我们仍在改进模型处理较长上下文的质量,欢迎您就该模型在您用例中的表现提供宝贵的反馈。我们会根据容量以不同的速率处理 8K 和 32K 引擎的请求,因此您可能会在不同时间获得它们的访问权限。

结论

我们期待 GPT‑4 能够为众多应用赋能,成为改善人们生活的宝贵工具。我们深知前路任重而道远,期待社会各界人士共同努力,使用此模型进行创造和探索,为之添砖加瓦,推动其日臻完善。

附录

以下是已翻译至其他语言的 MMLU 问题示例。请注意,我们使用了一致的选项令牌 (A–D):

正在加载...

脚注

  1. A

    我们使用链式思维提示法 (Chain-Of-Thought prompting) 对该基准进行评估,并在上下文中使用训练集中的四个示例。该具体提示在验证集上进行了微调。

参考文献

  1. 1

    P. Arredondo (Casetext/Stanford CodeX)、D. Katz (Stanford CodeX)、M. Bommarito (Stanford CodeX)、S. Gao (Casetext)。进一步分析请参见论文(在新窗口中打开)

作者

OpenAI