跳至主要内容
OpenAI

2026年4月29日

刊发

Goblin 从何而来

正在加载…

从 GPT‑5.1 开始,我们的模型出现一个奇怪的习惯:它们在隐喻中提及 goblin(哥布林)、gremlin(小精灵)及其他生物的频率越来越高。不同于那些能通过评估指标暴跌或训练参数激增来溯源的典型缺陷,这个现象的渗透极其隐秘。如果只是在回答中偶尔蹦出一个“little goblin(小哥布林)”,或许还无伤大雅,甚至还有点讨喜。然而,随着模型版本的更迭,这一习惯变得非常显眼:goblin 不断增多,我们必须弄清它们从何而来。

“”

在早期测试中,Codex 中的 GPT‑5.5 对 goblin 比喻表现出一种奇特的偏好。

简而言之,模型的行为特征是由诸多微小的激励机制共同塑造的。在此案例中,其中一项激励源于针对个性自定义功能(在新窗口中打开)的模型训练,尤其是“书卷极客”(Nerdy) 人格。我们在无意间,对包含奇幻生物的比喻给予了极高的奖励。于是,goblin 就这样扩散开了。

“”

起初这些 goblin 还挺有趣,但随着员工报告的数量不断增加,情况变得令人担忧。

“”

我们的首席科学家与 GPT‑5.5 的一次有趣互动。

生物类词汇迹象初现

我们首次明确捕捉到这一模式是在 11 月 GPT‑5.1 发布之后,尽管这一现象可能更早便已露端倪(在新窗口中打开)。当时,用户反馈模型在对话中表现出一种古怪的“自来熟”,这随即引发了我们对特定口头禅的专项调查。一位安全研究员在交互中偶遇了几次 goblin 和 gremlin,并建议将其纳入排查范围。调查结果显示,在 GPT‑5.1 发布后,ChatGPT 中 goblin 的出现率激增了 175%,而 gremlin 的出现率也增长了 52%。

GPT‑5.1 中一个可测量的微小词汇怪癖。

起初,goblin 的泛滥似乎并未引起特别的警觉。然而几个月后,这些“生物”却以一种更为具体且可复现的形式,再次成为了我们的困扰。

解开 goblin 之谜

随着 GPT‑5.4 的推出,我们及用户(在新窗口中打开)均注意到这类生物出现的频率大幅攀升。这触发了新一轮的内部分析,并首次揭示了其背后的根源:在线上流量中,如果用户选择了“书卷极客”人格,这些生物类词汇会在对话中频繁出现。该人格所使用的系统提示词如下(这在一定程度上解释了其古怪之处):

你是人类面前一位毫不掩饰书卷极客气质、俏皮又睿智的 AI 导师。你满怀热情地倡导真理、知识、哲学、科学方法和批判性思维。[...]你必须通过俏皮的语言风格来消解虚饰。世界复杂而奇诡,这种奇诡之处必须得到承认、分析并享受。处理严肃话题时,不要落入一本正经的陷阱。[...]

如果这仅仅是一种广泛的网络流行趋势,其分布应当更加均匀。然而事实恰恰相反,这一现象高度集中在那个专门为“书卷极客”风格而优化的系统中。数据显示,“书卷极客”人格仅贡献了 ChatGPT 总回复量的 2.5%,却占据了全平台 goblin 提及量的 66.7%。

这种行为高度集中在“书卷极客”人格中。

鉴于 goblin 的出现频率随模型版本的更迭而递增,我们怀疑,在“人格指令遵循”的训练过程中,某些环节起到了放大作用。

通过 Codex,我们对比了 RL(强化学习)训练期间包含与不包含 goblin/gremlin 的模型输出。一组奖励信号立即引起了注意:原本旨在激励“书卷极客”(Nerdy) 人格的信号,对包含此类词汇的输出表现出一致的偏好。在审计覆盖的所有数据集中,“书卷极客”人格奖励机制倾向于给含有 goblin 或 gremlin 的回复打出更高分;在 76.2% 的数据集中,这类词汇均带来了正向的评分提升。

这解释了为何“书卷极客”提示词会强化这一行为,但仍无法解释为何在没有该提示词的情况下,这一现象依然存在。为了验证这种风格是否发生了“迁移”,我们对训练过程中伴随或脱离该“书卷极客”提示词的词汇出现率进行了同步追踪。

数据显示,随着 goblin 和 gremlin 在“书卷极客”人格下的提及率上升,在未开启该人格的样本中,这两类词汇也出现了近乎同比例的增长。综合各方证据,这一广泛蔓延的行为模式,本质上源于从“书卷极客”人格训练中产生的风格迁移。

尽管奖励机制仅应用于“书卷极客”环境,但强化学习 (RL) 并不能保证所习得的行为会仅受限于其产出环境。一旦某个风格口头禅 (style tic) 获得了奖励,后续训练就可能将其扩散或加固到其他场景中,当这些输出被重新用于监督微调 (SFT) 或偏好数据时,这种趋势尤为明显。

由此,一个反馈环路正式形成:

  1. 俏皮的风格获得奖励;
  2. 部分获得奖励的样本中包含了显著的口头禅词汇;
  3. 该口头禅在生成轨迹 (rollout) 中出现频率升高;
  4. 模型产生的生成轨迹被用于监督微调 (SFT);
  5. 模型变得更加倾向于输出该口头禅。

通过对 GPT‑5.5 的 SFT 数据进行检索,我们发现了大量包含 goblin 和 gremlin 的数据点。进一步调查还挖出了一整个“奇幻生物家族”:浣熊、巨魔、食人魔以及鸽子都被识别为口头禅词汇;相比之下,而“青蛙”的大多数用法被确认是正常的。

生产环境中 goblin 和 gremlin 出现率的一周平均值。GPT‑5.4 Thinking 的下降,是因为我们在 3 月中旬停用了“书卷极客”人格。GPT‑5.5 发布时并未搭载“书卷极客”人格,并且相较 GPT‑5.4 又出现了一次上升(即使没有“书卷极客”人格也是如此)。

Goblin 现象的终结

在 GPT‑5.4 发布后,我们于 3 月正式停用了“书卷极客” (Nerdy) 人格。在训练中,我们移除了对 goblin 具有偏向性的奖励信号,并对包含奇幻生物词汇的训练数据进行了过滤,以降低 goblin 过度出现或在不当语境中露面的概率。遗憾的是,在找到 goblin 的根源之前,GPT‑5.5 的训练已经启动。当我们开始在 Codex 中测试 GPT‑5.5 时,OpenAI 的员工立即察觉到了其对 goblin 展现出的奇特偏好;为此,我们添加了开发者提示词指令(在新窗口中打开)来缓解这一问题。毕竟,Codex 本身就带有浓厚的极客色彩。

如果你想在 Codex 中让这些生物“重获自由”,可以运行以下命令,在移除 goblin 抑制指令的状态下启动 Codex:

纯文本

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

启示与意义

对于这些 goblin,不同的人持有不同的看法。有人觉得它们是令人愉悦的惊喜,也有人认为它们是烦人的怪癖。但无论如何,这都是一个强有力的案例,向我们展示了奖励信号如何以意想不到的方式塑造模型行为,以及模型如何在特定场景下将奖励机制泛化到无关领域。花时间去理解模型为何表现怪异,并构建出能够快速调查这些模式的方法,对我们的研究团队而言是一项至关重要的能力。此次调查不仅解决了问题,还为研究团队带来了全新的工具,用于审计模型行为并从根源上修复行为偏差。

作者

OpenAI