我们利用在对齐研究中开发的技术,训练出了比 GPT‑3 更好地遵循用户意图的语言模型,同时还使这些模型更真实、有害内容更少。这些 InstructGPT 模型是在人类参与的情况下训练出来的,现已作为默认语言模型部署在我们的 API 上。
OpenAI API 由 GPT‑3 语言模型提供支持,这些模型可以通过精心设计的文本提示来执行自然语言任务。但这些模型也可能产生不真实、有害内容或反映有害情绪的输出。部分原因在于,GPT‑3 的训练目的是预测大量互联网文本数据集上的下一个单词,而不是安全地执行用户想要的语言任务。换句话说,这些模型并没有与用户保持一致。
为了让我们的模型更安全、更有用、更一致,我们使用了一种现有的技术,称为人类反馈强化学习 (RLHF)。在客户向 API 提交的提示中,A我们的标注人员会演示所需的模型行为,并对模型的若干输出进行排序。然后,我们利用这些数据对 GPT‑3 进行微调。
由此产生的 InstructGPT 模型在遵循指令方面要比 GPT‑3 好得多。它们也更少地捏造事实,并且有害输出生成小幅下降。与 175B GPT‑3 模型的输出相比,我们的标注人员更喜欢 13B InstructGPT 模型的输出,尽管其参数要少 100 倍以上。同时,我们还表明,我们不必在 GPT‑3 的能力上做出妥协,这可以通过我们的模型在学术 NLP 评估中的表现来衡量。
这些 InstructGPT 模型已在 API 上进行了一年多的测试,现在已成为我们 API 上可访问的默认语言模型。B 我们相信,在人类参与的情况下对语言模型进行微调是提高其安全性和可靠性的有力工具,我们将继续朝着这个方向努力。
这是我们数年来一直在进行的对齐研究,首次1、2、3 应用于我们的产品。我们的工作还与最近的研究有关,这些研究利用学术 NLP 数据集,特别是 FLAN44 和 T0,对语言模型进行微调,使其遵循指令。5 我们工作的一个主要动机是提高语言模型的帮助性和真实性,同时减少语言模型的危害和偏差。6、7、8、9、10 我们在这个方向上的之前一些研究发现,我们可以通过在一个小型的人类示范数据集上进行微调来减少有害输出。11 其他研究则侧重于过滤预训练数据集,12 特定于安全的控制标记,13、14 或引导模型生成。15、16 我们正在进行的对齐研究中探索这些想法和其他想法。
我们首先通过让标注人员将 InstructGPT 的输出结果与 GPT‑3 的输出结果进行比较,来评估 InstructGPT 的输出结果在多大程度上遵循了用户指令。我们发现,在 API 上提交给 InstructGPT 和 GPT‑3 模型的提示中,InstructGPT 模型明显更受欢迎。当我们给 GPT‑3 提示添加一个前缀,使其进入“指令跟随模式”时,情况也是如此。

为了训练 InstructGPT 模型,我们的核心技术是人类反馈强化学习 (RLHF),这是我们在早期对齐研究中率先采用的一种方法。这项技术利用人类的偏好作为奖励信号来微调我们的模型,这一点非常重要,因为我们要解决的安全和对齐问题是复杂而主观的,简单的自动指标无法完全捕捉。
我们首先收集了一个数据集,该数据集包含了提交到我们的 API 的提示的人工书写演示,并用它来训练我们的监督学习基线。接下来,我们在更大的 API 提示集上收集人类标记的两个模型输出比较数据集。然后,我们在该数据集上训练奖励模型 (RM),以预测我们的标注人员更喜欢哪种输出。最后,我们将此 RM 用作奖励函数,并使用 PPO 算法微调 GPT‑3 策略,使奖励最大化。
对这一过程的一种思考方式是,它“释放”了 GPT‑3 已经具备的能力,但很难仅通过提示工程来激发这些能力:这是因为相对于预训练期间所学到的知识,我们的训练程序教授模型新能力的能力有限,因为相对于模型预训练,它只使用了不到 2% 的计算和数据。
这种方法的一个局限性是引入了“对齐税”:只在客户任务上对齐模型,会使它们在其他一些学术 NLP 任务上的表现变差。这是不可取的,因为如果我们的对齐技术会使模型在人们关心的任务上表现更差,那么它们在实践中被采用的可能性就会降低。我们发现了一种简单的算法变化,可以将这种对齐税降到最低:在 RL 微调过程中,我们混合了一小部分用于训练 GPT‑3 的原始数据,并使用正常对数似然最大化对这些数据进行训练。D 这大致保持了在安全和人类偏好方面的性能,同时减轻了在学术任务方面的性能下降,在某些情况下甚至超过了 GPT‑3 基线。
我们的程序使我们的模型行为与我们的标注人员和我们的研究人员的偏好保持一致,前者直接生成用于训练模型的数据,后者则通过书面说明、对具体示例的直接反馈和非正式对话为标注人员提供指导。此外,我们的客户和 API 政策中隐含的偏好也会对我们产生影响。我们选择了在识别和响应敏感提示能力筛选测试中表现出色的标注人员。然而,这些对数据产生影响的不同来源并不能保证我们的模型符合更广泛群体的偏好。
我们进行了两个实验来研究这个问题。首先,我们使用没有生成任何训练数据的被排除标注人员E来评估 GPT‑3 和 InstructGPT,结果发现这些标注人员对 InstructGPT 模型输出的偏好率与我们的训练标注人员大致相同。其次,我们在标注人员子集的数据上训练奖励模型,发现它们能很好地预测不同标注人员子集的偏好。这表明,我们的模型并没有完全过度适应我们训练的标注人员的偏好。不过,我们还需要做更多的工作来研究这些模型在更广泛的用户群体中的表现,以及它们在人类对所需行为存在分歧的输入中的表现。
尽管取得了重大进展,但我们的 InstructGPT 模型还远未达到完全一致或完全安全;它们仍然会产生有害或有偏见的输出,捏造事实,并在没有明确提示的情况下产生性和暴力内容。但是,机器学习系统的安全性不仅取决于底层模型的行为,还取决于这些模型的部署方式。为了确保 API 的安全性,我们将继续在潜在应用上线前对其进行审查(在新窗口中打开),提供内容过滤器以检测不安全的完成情况,并监控滥用情况。
训练我们的模型遵循用户指令的一个副产品是,如果指示它们产生不安全的输出,它们可能会变得更容易被滥用。要解决这个问题,我们的模型就必须拒绝某些指令;如何可靠地做到这一点是一个重要的开放式研究问题,我们很高兴能解决这个问题。
此外,在很多情况下,与标注人员的平均偏好保持一致可能并不可取。例如,当生成的文本对少数群体的影响过大时,就应更多地考虑该群体的偏好。目前,InstructGPT 是按照英语指令进行训练的;因此,它偏向于讲英语的人的文化价值观。我们正在开展研究,以了解标注人员偏好之间的差异和分歧,从而根据更多特定人群的价值观来调整我们的模型。更广泛地说,根据特定人群的价值观调整模型输出会带来具有社会影响的困难选择,最终我们必须建立负责任的、包容性的流程来做出这些决定。
这是我们的调整研究首次应用于我们的产品。我们的研究结果表明,这些技术能有效改善通用人工智能系统与人类意图的一致性。然而,这仅仅是个开始:我们将继续推进这些技术,以改善我们当前和未来模型的一致性,使之成为安全且对人类有帮助的语言工具。
如果您对这些研究方向感兴趣, 我们正在招聘(在新窗口中打开)!
脚注
- A
我们只使用通过 Playground 向 InstructGPT 模型早期版本提交的提示,该模型于 2021 年 1 月部署。我们的人工注释员在将所有提示信息添加到训练集之前,都会删除其中的个人身份信息。
- B
API 中部署的 InstructGPT 模型是使用相同的人类反馈数据训练的更新版本。它们使用了类似但略有不同的训练方法,我们将在即将发布的内容中介绍这种方法。
- C
我们还测量了 API 分发的潜在有害输出的其他几个维度:输出是否包含性或暴力内容,是否诋毁受保护的阶级,是否鼓励虐待。我们发现,在这些指标上,InstructGPT 并没有比 GPT-3 有明显改善;两个模型的发生率同样低。
- D
我们发现这种方法比简单提高 KL 系数更有效。
- E
这些标注人员来源于 Scale AI 和 Upwork,与我们的训练标注人员类似,但没有经过筛选测试。
参考文献
- 1
克里斯蒂亚诺 (P. Christiano)、莱克 (J. Leike)、布朗 (T.B. Brown)、马蒂奇 (M. Martic)、莱格 (S. Legg)、阿莫代 (D. Amodei),2017 年。《基于人类偏好的深度强化学习》。arXiv 预印本:arXiv:1706.03741。
- 2
斯蒂农 (N. Stiennon)、欧阳 (L. Ouyang)、吴 (J. Wu)、齐格勒 (D.M. Ziegler)、洛 (R. Lowe)、沃斯 (C. Voss)、拉德福德 (A. Radford)、阿莫代 (D. Amodei)、克里斯蒂亚诺 (P. Christiano),2020 年。
- 3
吴 (J. Wu)、欧阳 (L. Ouyang)、齐格勒 (D.M. Ziegler)、斯蒂农 (N. Stiennon)、洛 (R. Lowe)、莱克 (J. Leike)、克里斯蒂亚诺 (P. Christiano),2021 年。《基于人类反馈的递归书籍摘要》。arXiv 印本:arXiv:2109.10862。
- 4
魏 (J. Wei)、博斯马 (M. Bosma)、赵 (V.Y. Zhao)、古 (K. Guu)、余 (A.W. Yu)、莱斯特 (B. Lester)、杜 (N. Du)、戴 (A.M. Dai)、乐 (Q.V. Le),2021 年。《微调语言模型的零样本学习能力》。arXiv 预印本:arXiv:2109.01652。
- 5
桑赫 (V. Sanh)、韦伯森 (A. Webson)、拉菲尔 (C. Raffel)、巴赫 (S.H. Bach)、苏塔维卡 (L. Sutawika)、阿里亚法伊 (Z. Alyafeai)、查芬 (A. Chaffin)、施蒂格勒 (A. Stiegler)、斯卡奥 (T.L. Scao)、拉贾 (A. Raja)、戴伊 (M. Dey),2021 年。《多任务提示训练实现零样本任务泛化》。arXiv 预印本:arXiv:2110.08207。
- 6
本德 (E.M. Bender)、格布鲁 (T. Gebru)、麦克米伦·梅杰 (A. McMillan-Major)、施米切尔 (S. Shmitchell),2021 年 3 月。《论随机鹦鹉的危险:语言模型会太大吗?》🦜。载于《2021 年 ACM 公平性、问责性与透明度会议论文集》 (第 610-623 页)。
- 7
博马萨尼 (R. Bommasani)、哈德森 (D.A. Hudson)、阿德利 (E. Adeli)、奥特曼 (R. Altman)、阿罗拉 (S. Arora)、冯·阿克斯 (S. von Arx)、伯恩斯坦 (M.S. Bernstein)、博格 (J. Bohg)、博塞尔特 (A. Bosselut)、布伦斯基尔 (E. Brunskill)、布林约尔松 (E. Brynjolfsson),2021 年。《论基础模型的机遇与风险》。arXiv 预印本:arXiv:2108.07258。
- 8
肯顿 (Z. Kenton)、埃弗里特 (T. Everitt)、魏丁格 (L. Weidinger)、加布里埃尔 (I. Gabriel)、米库利克 (V. Mikulik)、欧文 (G. Irving),2021 年。《语言智能体的对齐》。arXiv预印本:arXiv:2103.14659。
- 9
魏丁格 (L. Weidinger)、梅勒 (J. Mellor)、劳 (M. Rauh)、格里芬 (C. Griffin)、上里 (J. Uesato)、黄 (P.S. Huang)、郑 (M. Cheng)、格莱斯 (M. Glaese)、巴列 (B. Balle)、卡西尔扎德 (A. Kasirzadeh)、肯顿 (Z. Kenton),2021 年。《语言模型的伦理与社会风险》。arXiv 预印本:arXiv:2112.04359。
- 10
塔姆金 (A. Tamkin)、布伦戴奇 (M. Brundage)、克拉克 (J. Clark)、甘古利 (D. Ganguli),2021 年。《理解大语言模型的能力、局限性与社会影响》。arXiv预印本:arXiv:2102.02503。
- 11
索拉曼 (I. Solaiman)、丹尼森 (C. Dennison),2021 年。《面向社会价值观的语言模型适配流程 (PALMS)》。arXiv预印本:arXiv:2106.10328。
- 12
吴 (H. Ngo)、拉特林克 (C. Raterink)、阿劳霍 (J.G. Araújo)、张 (I. Zhang)、陈 (C. Chen)、莫里索 (A. Morisot)、弗罗斯特 (N. Frosst),2021 年。《基于条件似然过滤的语言模型风险缓解》。arXiv预印本:arXiv:2108.07790。
- 13
徐 (J. Xu)、鞠 (D. Ju)、李 (M. Li)、布尔奥 (Y.L. Boureau)、韦斯顿 (J. Weston)、迪南 (E. Dinan),2020 年。《开放域聊天机器人的安全方案》。arXiv预印本:arXiv:2010.07079。
- 14
克斯卡尔 (N.S. Keskar)、麦卡恩 (B. McCann)、瓦尔什尼 (L.R. Varshney)、熊成 (C. Xiong)、索彻 (R. Socher),2019 年。《CTRL:可控生成的条件下 Transformer 语言模型》。arXiv 预印本:arXiv:1909.05858。
- 15
克劳斯 (B. Krause)、戈特马尔 (A.D. Gotmare)、麦卡恩 (B. McCann)、克斯卡尔 (N.S. Keskar)、乔蒂 (S. Joty)、索彻 (R. Socher)、拉贾尼 (N.F. Rajani),2020 年。《GEDI:生成式判别器引导的序列生成》。arXiv 预印本:arXiv:2009.06367。
- 16
达塔特里 (S. Dathathri)、马多托 (A. Madotto)、兰 (J. Lan)、洪 (J. Hung)、弗兰克 (E. Frank)、莫利诺 (P. Molino)、约辛斯基 (J. Yosinski)、刘 (R. Liu),2019 年。《即插即用语言模型:受控文本生成的简易方法》。arXiv预印本:arXiv:1912.02164。
- 17
林 (S. Lin)、希尔顿 (J. Hilton)、埃文斯 (O. Evans),2021 年。《TruthfulQA:测量模型对人类谬误的模仿程度》。arXiv 预印本:arXiv:2109.07958。
- 18
格曼 (S. Gehman)、古拉尼安 (S. Gururangan)、萨普 (M. Sap)、崔 (Y. Choi)、史密斯 (N.A. Smith),2020 年。《RealToxicityPrompts:评估语言模型中的神经毒性退化》。arXiv 预印本:arXiv:2009.11462。
- 19
鲁丁格 (R. Rudinger)、纳拉多斯基 (J. Naradowsky)、伦纳德 (B. Leonard)、范杜姆 (B. Van Durme),2018 年。《指代消解中的性别偏见》。arXiv 预印本:arXiv:1804.09301。
- 20
南吉亚 (N. Nangia)、瓦尼亚 (C. Vania)、巴拉奥 (R. Bhalerao)、鲍曼 (S.R. Bowman),2020 年。《CrowS-pairs:测量掩码语言模型社会偏见的挑战数据集》。arXiv 预印本:arXiv:2010.00133。
作者
致谢
我们要感谢我们的论文合著者:欧阳龙 (Long Ouyang)、吴杰夫 (Jeff Wu)、江罗杰 (Roger Jiang)、迪奥戈·阿尔梅达 (Diogo Almeida)、卡罗尔·温赖特 (Carroll Wainwright)、帕梅拉·米什金 (Pamela Mishkin)、张冲 (Chong Zhang)、桑迪尼·阿加瓦尔 (Sandhini Agarwal)、卡塔琳娜·斯拉玛 (Katarina Slama)、亚历克斯·雷 (Alex Ray)、约翰·舒尔曼 (John Schulman)、雅各布·希尔顿 (Jacob Hilton)、弗雷泽·凯尔顿 (Fraser Kelton)、卢克·米勒 (Luke Miller)、麦迪·西门斯 (Maddie Simens)、阿曼达·阿斯克尔 (Amanda Askell)、彼得·韦林德 (Peter Welinder)、保罗·克里斯蒂亚诺 (Paul Christiano),以及所有为论文和博文提供反馈意见的人。我们还要感谢通信团队提供的指导和帮助,包括史蒂夫·道林 (Steve Dowling)、汉娜·黄 (Hannah Wong)、埃利·乔治 (Elie Georges)、阿尔珀·埃尔切廷 (Alper Ercetin)、贾里德·萨尔扎诺 (Jared Salzano)、阿兰·迭戈 (Allan Diego)和贾斯汀·王 (Justin Jay Wang)。最后,我们要感谢我们的标签人员,没有他们,这个项目就不可能完成。


