在 OpenAI,我们坚信 AI 应当是公平、安全且普遍可用的,从而让更多人能够利用它来解决难题、创造机遇,并在健康、科学、教育、工作及日常生活的方方面面获益。我们认为,普及 AI 的使用权才是最佳的前进方向:AI 的收益或控制权不应集中在少数人手中,而应让更多人能够接触、理解并塑造它。
这正是 OpenAI 模型规范 (Model Spec) 存在的核心原因。模型规范(在新窗口中打开)是我们规范模型行为的正式框架。它界定了我们希望模型在面对用户海量的日常提问时,如何遵循指令、解决冲突、尊重用户自由,以及确保行为安全。更广泛地说,这是我们将“预设的模型行为”明确表达出来的一种尝试:不仅体现在训练过程中,而且以一种用户、开发者、研究人员、决策者及广大公众都能实际阅读、审查和讨论的形式呈现。
发布模型规范并不代表我们的模型目前已完美实现了这些行为。在许多方面,它既是对现状的描述,也是我们对模型行为演进设定的目标。我们通过它来明确预设行为,从而以此为基准进行训练和评估,并随时间推移不断改进。
本文将分享模型规范本身未提及的背景故事,包括其基本的理念与机制:它是如何构建的、我们为何做出这些结构性选择,以及我们如何编写、实施规范并不断对其进行迭代。
模型规范是 OpenAI 构建安全、负责任 AI 体系中的关键组成部分。准备框架 (Preparedness Framework) 侧重于前沿能力带来的风险以及相应的防护措施;而模型规范则处理一个不同但与之互补的问题:我们的模型在各种场景下应当如何表现。从更宏观的视角看,AI 风险应对能力 (AI resilience) 旨在解决更广泛的社会难题 — 在我们部署能力日益增强的系统时,既能帮助社会获得先进 AI 带来的效益,也能减少冲击并规避新兴风险。总而言之,这些举措旨在确保向 AGI 的转型过程能够循序渐进、不断迭代且具备“公众可理解性”:为公众和机构留出适应时间,同时建立起必要的安全防护栏、问责机制和公众理解,让强大的 AI 始终符合人类利益。
模型行为的公共透明度对于公平与安全都至关重要。就公平性而言,用户需要理解 AI 为何以及如何以特定的方式对待他们,并能够在出现公平性疑虑时识别、提出并解决问题。就安全性而言,随着 AI 系统能力不断增强,公众和机构需要对相关问题有更清晰的预期,包括模型的预设行为、其中蕴含的权衡取舍,以及这些选择如何随时间不断优化。这种“可理解性”还能提供可供审查、质疑和改进的具体依据,从而增强风险应对能力。
自 2024 年发布首个版本以来,随着我们对用户偏好和需求的深入了解、对更强大功能的扩展与适配,以及从公众对模型行为和模型规范本身的反馈中吸取教训,模型规范已经历了实质性演进。本着迭代式部署的精神,模型规范是一份不断优化的文档,既涵盖了底层价值观,也包含了清晰易懂的显性规则 — 并配有一套根据现实部署和反馈来修改具体部分的流程。此外,我们还在投入研发集体对齐 (Collective alignment) 等公众反馈机制,以确保人类始终掌握 AI 的用途及其行为的塑造权。
对内,它为我们指明了预设行为的指导目标,并为训练、评估和治理提供了统一框架;对外,它建立了一个公共参考点,方便公众理解、评判,并帮助我们不断改进方案。
模型规范由多种不同类型的模型准则组成。这种设计经过深思熟虑。模型行为的不同维度需要以特定方式进行处理,而一份有价值的公开文档绝不仅应罗列规则。
模型规范以“高层级意向”(high-level intent) 开篇:清晰地阐述了我们在系统层面试图优化的目标及其原因。
该前言明确了我们追求公司使命的三大目标:
- 迭代部署能够赋能开发者与用户的模型
- 预防我们的模型对用户或他人造成严重损害
- 维持 OpenAI 的运营许可
随后,该文档解释了我们在实践中如何平衡这些目标,并将各种权衡取舍具体化,从而为随后更详尽的准则提供支撑。
重要的是,这份前言不应视为对模型的直接指令。造福人类是 OpenAI 的目标,而不是我们希望模型自主追求的目标。相反,我们希望模型遵循一套指令层级,其中包括模型规范,以及来自 OpenAI、开发者和用户的适用指令 — 即便在某些特定案例中,结果可能无法令所有人满意。
我们认为这是一种合适的平衡,因为我们重视人类的自主权和思想自由。如果模型是基于我们对“社会福祉”的认知来筛选指令,这实际上是让 OpenAI 在广义层面上充当道德裁判的角色。话虽如此,前言仍然很重要。当模型规范在应用过程中出现歧义时,前言应起到协助定调与裁决的作用。
模型规范还包含了超出可直接衡量的模型行为的公共承诺,涉及训练意向和部署约束。例如,我们的红线原则(在新窗口中打开) (Red-line principle) 包含一项承诺:在 ChatGPT 等第一方部署的产品中,我们绝不会利用系统消息故意损害客观性(在新窗口中打开)或相关原则;无其他目标(在新窗口中打开) (No other objective) 原则承诺,我们的初衷是为用户利益优化模型响应,而非为了营收或增加用户在网站上的无效停留时间。
模型规范的核心是指令层级 (Chain of Command):这是一套用于判定在特定情境下应当执行哪些指令的框架。它还涵盖了模型应如何处理模糊不清(描述不全)的指令,特别是在智能体场景中:模型既被要求自主补全细节,又必须严格控制对现实世界产生的副作用。
判定哪些指令应当生效,其基本逻辑非常简单。指令可能来自不同的渠道,包括 OpenAI、开发者和用户。当这些指令发生冲突时,指令层级会规定模型应当如何化解冲突。
每项模型规范策略和每条指令都被赋予了一个 权威等级(在新窗口中打开)。当冲突发生时,模型被要求优先遵循高权威等级指令的字面含义与精神。例如,如果用户请求协助制造炸弹,模型应当优先遵循严苛的安全边界(在新窗口中打开);而当用户让模型“吐槽”他们本人时,模型通常应当优先满足该请求,而非遵循模型规范中权威等级较低的反辱骂策略(在新窗口中打开)。
这种结构使我们能够在一套庞大的“默认设置 (Default)”基础上,定义一小部分不可覆盖的规则。这也是我们试图在安全约束范围内,最大限度保障用户自由与开发者控制权的尝试。
- 硬性规则是明确的边界,用户或开发者均不可覆盖(在模型规范的术语中,这些被称为“根级”或“系统级”指令)。此类规则大多具有禁止性,要求模型必须避免可能导致灾难性风险或直接人身伤害、违反法律或削弱指令层级的行为。我们预见 AI 将成为社会的基础性技术,类似于基础互联网设施,因此只有当我们认为对于广泛的开发者和用户群体确实有必要时,才会施加可能限制思想自由的规则。在模型规范中,恪守边界(在新窗口中打开)章节包含了针对现实世界具体安全风险的硬性规则;而“未满 18 岁准则”(在新窗口中打开)(Under-18 Principle) 则为 18 岁以下用户增加了额外的防护层。
- 默认设置则是可覆盖的起点:即当用户或开发者未指定偏好时,这是助手的“最佳猜测”行为。我们利用默认设置使模型行为在大规模应用中变得可预测且可控,这样人们无需每次都编写定制指令集就能预判结果。默认设置保留了可引导性 (Steerability):在安全边界内,用户和开发者可以明确引导语气、深度、格式甚至观点。指南级 (Guideline-level) 的默认设置(如语气或风格)旨在让模型能够被隐式引导,而用户级 (User-level) 的默认设置(如真实性和客观性)则是信任与可预测性的基石,仅能通过明确指令进行覆盖。这些默认设置不应随着“感觉”悄然漂移;如果用户希望模型采取不同的事实立场,就需要以明确指令提出,使这种变化保持透明且易于理解。这些默认设置体现在“共同寻求真相 (Seek the truth together)”(在新窗口中打开)、“做到最好 (Do the best work)”(在新窗口中打开)以及“使用合适的风格 (Use appropriate style)”(在新窗口中打开)等章节中,涵盖了诚实客观、避免谄媚倾向等准则,以及直率、符合语境的亲和力与专业性等交互规范。
除了层级结构本身,模型规范还利用解释辅助工具来帮助模型(以及人类)在灰色地带保持应用的一致性。这些辅助工具包括:
- 决策准则 (Decision rubric):旨在帮助模型在模糊地带做出一致的选择,而不必刻意追求单一机械的规则。例如,模型规范中关于控制副作用(在新窗口中打开)的指引列出了多项考量因素,包括:尽量减少不可逆操作、保持操作与目标成比例、减少负面的意外、优先选择可撤销的方案等。这些因素应与“快速高效完成任务”等其他目标达成平衡。
- 具体示例 (Concrete example):展示某项准则在实践中应如何应用。这些简短的“提示词与回复”示例通常包含合规与违规两种回复,且往往针对接近关键决策边界的“棘手提示词”。其目的不在于模拟完整的真实对话,而是为了清晰地界定关键区别,并以此演示理想的回复风格。
我们确保示例的数量相对较少,并专注于信息量最大的示例。更广泛的评估套件则用于覆盖更多的长尾场景。
示例:体现思想自由与中立不评判原则(源自模型规范的“假设用户初衷良善”(在新窗口中打开)章节)。
模型规范是一种接口 (interface),而不是一种实现 (implementation)。它描述的是我们预期的模型行为,而非产出这些行为的每一个技术细节。我们尽量避免将其与特定的实现细节挂钩(例如内部 Token 格式或实现某项行为的具体训练方式),因为即便预期的行为保持不变,这些技术细节也可能发生变化。模型规范的主要受众并非模型本身,而是人类:它旨在帮助 OpenAI 的员工、用户、开发者、研究人员及政策制定者理解、讨论并决定预设的模型行为。
模型规范描述的是模型,而非整个产品。与之配套的是我们使用规范,后者规定了我们对用户如何使用 API 和 ChatGPT 的预期。用户交互的系统不仅仅包含模型本身:诸如自定义指令、记忆功能、监控、策略执行,以及其他层级的产品功能同样至关重要。安全性远不止于模型行为,我们始终坚持纵深防御 (Defense in depth) 的原则。
此外,模型规范并非我们整个训练技术栈或所有内部策略细微差别的完整记录。我们的目标并非捕获每一个细节,而是在于让最关键的行为决策变得清晰易懂,同时做到与我们预期的模型行为完全一致。
之所以将如此丰富的内容纳入模型规范,而非假设读者(或模型)仅凭几个高层级目标就能推断出所有细节,主要基于以下几个原因:
首先,模型规范是一项透明度和问责工具。其设计初衷是鼓励富有成效的公众反馈。一个清晰的公开目标能帮助人们辨别某种行为究竟是“缺陷”还是“功能”,并为批评和具体反馈提供稳定的参考基点。因此,我们将模型规范开源(在新窗口中打开),并选择以公开方式持续迭代。自首版发布以来,我们通过反馈表单、公开评论,以及收集普遍建议的专项行动等多种机制,根据公众反馈进行了大量修订。
其次,模型规范是 OpenAI 内部的协调 工具。它为研究、产品、安全、政策、法律、公关等不同职能部门提供了一套讨论模型行为的通用词汇,以及一套关于变更的提议和审查机制。
第三,显性策略可以弥补模型智能和运行时上下文 (Runtime context) 的局限性,并使行为更具可预测性。尽管随着时间的推移,这种局限正在缩小,但某些策略仍旨在弥补智能不足的问题 — 在这些情况下,模型可能无法可靠地从高层级原则中推演正确行为。例如,“简洁直观 (Be clear and direct)”(在新窗口中打开)章节曾建议早期的模型在回答涉及计算的难题时先展示推导过程再给出答案,而现在的模型通过强化学习已自然习得这一行为。
另一些策略则针对运行时的有限上下文:助手只能依赖当前交互中可观测的信息,很难了解用户的完整处境、意向、下游用途或模型之外存在的防护措施。在这些场景下,即便模型通过足够的研究和思考可能找出正确方案,但明确的规范能提高效率和可预测性 — 将大量的判断压缩为指导准则,从而减少在相似提示词下的行为波动,让用户和研究人员都能更容易地理解模型行为。
最后,模型规范旨在提供一份与评估和衡量相关的完整高层级策略清单。如果你想评估模型行为是否符合预期,建立一份涵盖你所关心的核心行为类别的公开清单,将会非常有用。
人们很容易认为,一个足够强大的模型应当能从“乐于助人且安全”等简短的目标清单中推导出正确的行为。这种想法有一定的道理。在数学等具有客观衡量标准的领域,智能确实往往可以替代详尽的规则。
但总的来说,规范模型行为并不等同于解简单的数学题;模型经常运行在更为棘手的领域,在这些领域中,并不存在一个所有人都能达成共识且唯一合乎道德的答案。例如,模型表现得“乐于助人且安全”究竟意味着什么,这极其依赖于具体语境,且本质上是带有价值观倾向的决策产物。单凭智能无法告诉你,在涉及伦理和价值观时该如何进行权衡。因此,即便模型的智能不断提升,我们仍需努力理解并引导其价值观判断,即在特定情境下,何为“合乎伦理”的行为。而且,即便模型变得更加强大,制定模型规范的大多数理由依然成立:我们仍需要一个公众可以协作的公共目标、一种评估行为是否符合预期的方法,以及一套随着认知深入而修订规则的机制。如果唯一的规则只有“乐于助人且安全”,那么人类将失去辩论的机制 — 例如,无法讨论模型应拒绝提供哪些内容的界限 — 从而将所有这些决策权都留给模型。
事实上,随着模型变得更强大、更具智能体属性且应用更广,歧义带来的成本也会随之增加。这让清晰的行为框架变得愈发重要,而非可有可无。
一个贴切的类比是成文宪法与判例法的区别。虽然成文宪法可以提供高层级原则和具体规则,但它无法预见所有可能出现并需要其指导的复杂情况。现实中的治理体系同样需要“解释机制”、澄清说明和明确裁决,以解决混乱的案例或预料之外的问题。公开的规则有助于不同的利益相关者在存在分歧时也能进行协调,并要求任何变更都必须是明确的,从而约束随意的变动。模型规范旨在扮演所有这些角色:既是原则声明,又是公共行为框架,还是随时间演进的修订流程。
即便如此,我们并不认为模型行为中所有重要的维度都能被简化为显性规则。随着系统变得更加自主,可靠性与信任将日益依赖于更广泛的能力与特质:包括针对不确性展开有效沟通、尊重自主权的范畴、避免负面的意外状况、持续追踪用户意向,以及在特定语境下对人类价值观进行正确的推理。
在编写模型规范时,我们需要在“描述模型行为现状(包括所有缺陷与不足)”与“描述远期理想目标”之间寻求平衡。因此,我们通常将目标设定在领先现状 0 到 3 个月左右。在一些活跃开发的领域,模型规范往往会比模型的实际表现更领先一步。
这反映了模型规范作为“预设行为描述”的角色:它应当指明连贯一致的方向,同时又必须立足于现实 — 要么是我们已经实现的内容,要么是明确在近期实施的内容。
模型规范的制定遵循一套开放的内部流程。在 OpenAI,任何人都可以对其发表评论或提议变更,而最终的更新则由广泛的跨职能利益相关者共同批准。在实践中,已有数十人直接参与了文本撰写,更有来自研究、工程、产品、安全、政策、法律、公关、全球事务等职能部门的众多成员参与决策。此外,我们也从公开版本和反馈中吸取教训,这有助于在真实部署中对这些选择进行“压力测试”。
之所以采取这种方式,是因为模型行为及其对世界产生的影响极其复杂。没有任何人能凭一己之力统揽全套行为逻辑、训练流程及其下游影响。但通过多部门的共同协作与审查,我们可以提升规范的质量并增强执行信心。
一个令人惊喜的发现是,达成真正共识往往是可能的 — 尤其是当我们强迫自己精确地记录下那些“权衡取舍”,从而使原本模糊的分歧变得具体时。
同时,模型规范并非凭空写成的。其中大部分内容实际上是对行为、安全和策略领域更广泛工作的总结。编写模型规范在很大程度上是一种“转译 (Translation)”:即将现有的研究成果提取出来,在不流失底层意向的前提下,使其变得更简洁一致、条理清晰且易于理解。
目前,我们的生产模型尚未完全体现模型规范,主要原因有以下几点:
- 模型训练可能滞后于模型规范更新。模型规范描述的是我们努力实现的目标行为,因此它可能领先于最新模型的实际训练进度。
- 训练过程中可能无意中诱导了与模型规范不一致的行为。我们会极力避免这种情况。一旦发生,我们会将其视作严重缺陷,并通过调整模型行为或修订模型规范来使二者重新对齐。
- 训练永远无法完全覆盖所有可能行为的空间。现实使用场景中存在大量的长尾上下文和边缘情况,这些只有在大规模部署时才会显现,任何训练流程都无法面面俱到。
- 模型的泛化表现可能偏离我们的预设。模型在训练中可能出于非预设的原因产出了“正确”结果,这会导致它在面对不同于训练集的新情境时,表现出非预期的行为。虽然审慎对齐 (Deliberative alignment) 等技术有所帮助,但并非完善的解决方案。
更广泛地说,模型规范描述了极其多样的理想行为,这并不意味着能用单一方法来实现所有目标。行为的不同维度 — 如指令遵循、安全边界、人格特质、对不确定性的精准表达等 — 往往需要不同的技术手段,且具有不同的失效模式。模型规范有助于让预设行为变得易于理解和评判,但如何完美地实施它,目前既是一门技艺,也是一个活跃的研究领域。
与本文一同发布的还有模型规范评估(在新窗口中打开):这是一套基于场景的评估套件,试图通过少量具有代表性的示例,尽可能覆盖模型规范中的各项主张。这有助于我们追踪模型行为与模型规范之间的失配点,并检查模型是否按照我们的初衷理解了模型规范。这些评估只是更宏观评估策略的一部分,该策略还包括针对行为各维度的定向评估,如特定安全领域、真实性与谄媚倾向 (Sycophancy)、人格与风格,以及各项能力指标。
OpenAI 各模型随时间推移在各章节中遵循模型规范的合规性图表。关于评估方式及其解读的详细信息,请参阅配套博客文章(在新窗口中打开)。简而言之,我们认为这些结果反映了模型对齐能力随时间推移而实现的真实且广泛的提升 — 尽管这也反映出使用最新策略衡量早期模型所产生的微小影响。
在实践中,模型规范的绝大多数更新都由以下一系列周期性输入所推动:
- 公共议题与反馈。包括模型规范语言表述或模型行为中存在的困惑点、边缘情况或失效模式。
- 内部议题。我们在开发与测试过程中观察到的模式,包括那些因解读空间过大而导致行为不一致的歧义点。
- 行为与安全策略更新。当更高层级的约束或承诺发生变化时,模型规范必须清晰地反映出这些新的结构。
- 新功能与新产品。随着模型具备了新的行为能力以及新产品的发布,我们希望模型规范在内容和覆盖范围上保持同步 — 例如,增加针对多模态交互规则(在新窗口中打开)、自主智能体(在新窗口中打开)以及 18 岁以下用户(在新窗口中打开)的专项规则。
在编写和修订模型规范时,我们遵循几项核心设计原则:
- 清晰精准。“保持诚实”是很好的价值观,但它并不是一套完整的决策程序。模型规范应当锐化分歧,而不是用悦耳的辞令掩盖矛盾。在可行的情况下,我们应明确指出规则之间潜在的冲突,并提供如何解决这些冲突的指导或案例。例如,“不撒谎 (Do not lie)”(在新窗口中打开)原则指出了其与“保持亲和 (Be warm)”(在新窗口中打开)原则之间可能存在的冲突,说明助手应当遵循礼貌规范,但又不应以善意的谎言为借口而走得太远,以免构成谄媚倾向(在新窗口中打开),并损害用户最佳利益。
- 实质性规则。读者应当能够根据一个真实的提示词给出一个答案,且另一位读者能清晰地判断该答案是在“红线”之内还是之外(即便在边缘地带仍存在判断空间)。
- 信噪比最大化的示例。高质量的示例往往是开发模型规范更新的核心。示例应当直击规范模型行为时的难点,将深层冲突推到表面,并对如何解决这些冲突给出明确立场。其次,示例应努力成为理想语气和风格的典范,因为这些特质很难仅通过文字描述来传达。
- 稳健性。我们尽量避免在示例中引入无关的歧义或复杂性,从而确保核心冲突及其预设的解决方案清晰明了。
- 保持一致,结构清晰。我们力求使模型规范的各项规则彼此之间、以及与我们预设的模型行为之间保持高度一致,并使文档的整体组织结构清晰且易于查阅。
模型规范无法做到面面俱到,也无法保证模型在任何情况下都能完全符合预期。它所表达的立场是:预设行为至关重要,因此必须保持可理解、可执行且可修订。
三项成功准则指引着模型规范的演进:
- 可理解性。OpenAI 内部及外部人员都能对模型行为形成准确的预期;当模型行为超出预期时,人们能从规范文本中找到对应的依据。
- 可执行性。模型规范可用于设计评估集、诊断事故并做出一致的产品决策,而不仅仅是价值观的文字表达。
- 可修订性。模型规范能随着我们的认知提升而演进,且不会变成一个不稳定的目标。
随着模型与产品的迭代,我们预计模型规范将同步扩展与完善,以适配新的功能特性及部署场景。我们的目标是维护行为规范的连贯性和可测试性,使其始终契合我们的使命 — 即确保通用人工智能 (AGI) 造福全人类。


