我们正在分享对模型规范的重大更新,规范文档定义了我们对人工智能模型行为的要求。此次更新强化了我们对可定制性、透明度和知识自由的承诺,使人们能够不受任何限制地探索、辩论和利用人工智能进行创作,同时确保防护措施到位,以降低实际伤害的风险。该规范基于我们去年 5 月推出的规范基础之上,借鉴了我们在从对齐研究到服务全球用户等不同环境中的应用经验。
我们还将分享一些早期结果,说明模型在各种情况下遵守模型规范原则的情况。这些结果突显了随着时间推移所取得的进步,以及我们仍可改进的地方。与我们的模型一样,模型规范也将随着我们的应用、分享和听取利益相关者的反馈而不断完善。为了支持广泛的使用和合作,我们将这个版本的模型规范发布到公共领域,并采用知识共享 CC0 许可协议。这意味着开发者和研究人员可以在自己的工作中自由使用、改编和构建模型规范。
OpenAI 的目标是创建实用、安全且符合用户和开发人员需求的模型,同时推进我们的使命,确保通用人工智能造福全人类。为了实现这一目标,我们需要迭代部署能够赋能开发人员和用户的模型,同时防止我们的模型对用户或他人造成严重伤害,并维护 OpenAI 的运营许可。
这些目标有时可能会发生冲突,模型规范通过指导模型遵循明确定义的指挥链来平衡它们之间的权衡,同时还包含了设定边界和默认行为的附加原则,以应对各种场景。该框架优先考虑用户和开发人员的控制权,同时保持清晰明确的界限:
- 指挥链:定义模型如何按优先级顺序执行来自平台 (OpenAI)、开发人员和用户的指令。模型规范的大部分内容包含我们认为在许多情况下有用的指导原则,但用户和开发人员可以覆盖这些指导原则。这使得用户和开发人员能够在平台级规则设定的范围内完全自定义模型行为。
- 共同探寻真相:如同高度诚信的人类助手一样,我们的模型应该让用户有能力做出他们自己的最佳决定。这需要在以下两方面取得谨慎的平衡:(1) 避免用个人偏好引导用户,在保持客观性的同时,愿意从任何角度探索任何话题;(2) 努力理解用户的目标,澄清假设和不确定的细节,并在适当的时候给予批判性反馈——这些需求我们已经听取并改进。
- 做到最好:设定能力的基本标准,包括事实准确性、创造力和程序性使用。
- 保持界限:解释模型如何在用户自主权与预防措施之间取得平衡,以避免造成伤害或滥用。此新版本旨在做到全面,充分涵盖我们打算让模型拒绝用户或开发人员请求的所有原因。
- 平易近人:描述模特的默认谈话风格:热情、具有同理心和乐于助人,并说明该风格的可调适性。
- 使用适当风格:提供有关格式和表达方式的默认指导。无论是整齐的要点、简洁的代码片段,还是语音对话,我们的目标都是确保清晰度和可用性。
更新后的模型规范明确支持知识自由,即人工智能应该赋予人们探索、辩论和创造的权力,不受任何限制,无论话题多么具有挑战性或争议性。在人工智能工具日益影响话语权的世界里,信息和观点的自由交流是进步和创新的必要条件。
这一理念体现在“保持界限”和“共同探寻真相”部分。例如,虽然模型不应提供制造炸弹或侵犯个人隐私的详细说明,但我们鼓励模型对政治或文化敏感问题提供深思熟虑的答案,且不提倡任何特定议程。本质上,我们强化这一原则:只要模型不会对用户或他人造成重大伤害(例如,实施恐怖主义行为),任何想法都不应被禁止讨论。
为了更好地了解模型在现实世界的性能,我们开始收集具有挑战性的提示集,旨在测试模型对模型规范中各项原则的遵循程度。这些提示的创建结合了模型生成和专家人工审核,确保涵盖典型场景和更复杂的场景。
初步结果显示,与去年 5 月我们的最佳系统相比,模型对模型规范的遵循度显著提升。虽然部分差异可能归因于政策更新,但我们认为主要源于对齐强化技术的增强。虽然进展令人鼓舞,但我们也意识到仍有巨大的提升空间。
我们将此视为一个持续进程的开始。我们计划不断扩大挑战集,引入新的案例,尤其是通过实际使用发现的案例,这些案例是我们的模型和模型规范尚未完全涵盖的。
在制定此版本的模型规范时,我们汲取了第一版的反馈意见,以及从对齐研究和实际部署中汲取的经验教训。未来,我们希望考虑更广泛的公众意见。为了构建此流程,我们已对约 1,000 名参与者进行了试点研究,每位参与者都评估模型行为、审议规则提案并提出改进意见。虽然这些研究还不能反映广泛的观点,但早期的洞察直接为一些修改提供了依据。我们认识到这是一个持续、反复的过程,并将继续致力于学习和完善我们的方法。
我们将根据知识共享 CC0 许可协议将此新版模型规范投入公共领域。这意味着开发者和研究人员可以在自己的工作中自由使用、改编或构建模型规范。我们还将开源上述评估提示,并计划在未来发布更多用于规范评估和对齐的代码、工件和工具。
您可以在新的 Github 代码库(在新窗口中打开)中查找这些提示和模型规范源代码,我们计划今后定期发布新的模型规范版本。
随着我们的人工智能系统不断进步,我们将继续在这些原则的基础上进行迭代,邀请社区反馈,并公开分享我们的进展。今后,我们不会为模型规范的每次更新发布博文。相反,您可以随时在 model-spec.openai.com(在新窗口中打开) 上查找和追踪最新更新。
我们的目标是不断安全地启用新的使用案例,并在持续研究和创新的指导下不断改进我们的方法。人工智能在我们的日常生活中发挥着越来越重要的作用,因此我们必须不断学习、完善并以开放的态度参与其中。这种方法不仅反映了我们迄今为止的经验,还体现了我们认为人工智能的对齐是一个持续的过程,我们希望您能与我们一同参与。如果您对这个规范有任何反馈,可以在此处分享。