2026年4月29日

Goblin 从何而来

正在加载…

从 GPT‑5.1 开始，我们的模型出现一个奇怪的习惯：它们在隐喻中提及 goblin（哥布林）、gremlin（小精灵）及其他生物的频率越来越高。不同于那些能通过评估指标暴跌或训练参数激增来溯源的典型缺陷，这个现象的渗透极其隐秘。如果只是在回答中偶尔蹦出一个“little goblin（小哥布林）”，或许还无伤大雅，甚至还有点讨喜。然而，随着模型版本的更迭，这一习惯变得非常显眼：goblin 不断增多，我们必须弄清它们从何而来。

在早期测试中，Codex 中的 GPT‑5.5 对 goblin 比喻表现出一种奇特的偏好。

简而言之，模型的行为特征是由诸多微小的激励机制共同塑造的。在此案例中，其中一项激励源于针对个性自定义功能⁠（在新窗口中打开）的模型训练，尤其是“书卷极客”(Nerdy) 人格。我们在无意间，对包含奇幻生物的比喻给予了极高的奖励。于是，goblin 就这样扩散开了。

起初这些 goblin 还挺有趣，但随着员工报告的数量不断增加，情况变得令人担忧。

我们的首席科学家与 GPT‑5.5 的一次有趣互动。

生物类词汇迹象初现

我们首次明确捕捉到这一模式是在 11 月 GPT‑5.1 发布之后，尽管这一现象可能更早便已露端倪⁠（在新窗口中打开）。当时，用户反馈模型在对话中表现出一种古怪的“自来熟”，这随即引发了我们对特定口头禅的专项调查。一位安全研究员在交互中偶遇了几次 goblin 和 gremlin，并建议将其纳入排查范围。调查结果显示，在 GPT‑5.1 发布后，ChatGPT 中 goblin 的出现率激增了 175%，而 gremlin 的出现率也增长了 52%。

GPT‑5.1 中一个可测量的微小词汇怪癖。

起初，goblin 的泛滥似乎并未引起特别的警觉。然而几个月后，这些“生物”却以一种更为具体且可复现的形式，再次成为了我们的困扰。

解开 goblin 之谜

随着 GPT‑5.4 的推出，我们及用户⁠（在新窗口中打开）均注意到这类生物出现的频率大幅攀升。这触发了新一轮的内部分析，并首次揭示了其背后的根源：在线上流量中，如果用户选择了“书卷极客”人格，这些生物类词汇会在对话中频繁出现。该人格所使用的系统提示词如下（这在一定程度上解释了其古怪之处）：

你是人类面前一位毫不掩饰书卷极客气质、俏皮又睿智的 AI 导师。你满怀热情地倡导真理、知识、哲学、科学方法和批判性思维。[...]你必须通过俏皮的语言风格来消解虚饰。世界复杂而奇诡，这种奇诡之处必须得到承认、分析并享受。处理严肃话题时，不要落入一本正经的陷阱。[...]

如果这仅仅是一种广泛的网络流行趋势，其分布应当更加均匀。然而事实恰恰相反，这一现象高度集中在那个专门为“书卷极客”风格而优化的系统中。数据显示，“书卷极客”人格仅贡献了 ChatGPT 总回复量的 2.5%，却占据了全平台 goblin 提及量的 66.7%。

这种行为高度集中在“书卷极客”人格中。

鉴于 goblin 的出现频率随模型版本的更迭而递增，我们怀疑，在“人格指令遵循”的训练过程中，某些环节起到了放大作用。

通过 Codex，我们对比了 RL（强化学习）训练期间包含与不包含 goblin/gremlin 的模型输出。一组奖励信号立即引起了注意：原本旨在激励“书卷极客”(Nerdy) 人格的信号，对包含此类词汇的输出表现出一致的偏好。在审计覆盖的所有数据集中，“书卷极客”人格奖励机制倾向于给含有 goblin 或 gremlin 的回复打出更高分；在 76.2% 的数据集中，这类词汇均带来了正向的评分提升。

这解释了为何“书卷极客”提示词会强化这一行为，但仍无法解释为何在没有该提示词的情况下，这一现象依然存在。为了验证这种风格是否发生了“迁移”，我们对训练过程中伴随或脱离该“书卷极客”提示词的词汇出现率进行了同步追踪。

数据显示，随着 goblin 和 gremlin 在“书卷极客”人格下的提及率上升，在未开启该人格的样本中，这两类词汇也出现了近乎同比例的增长。综合各方证据，这一广泛蔓延的行为模式，本质上源于从“书卷极客”人格训练中产生的风格迁移。

尽管奖励机制仅应用于“书卷极客”环境，但强化学习 (RL) 并不能保证所习得的行为会仅受限于其产出环境。一旦某个风格口头禅 (style tic) 获得了奖励，后续训练就可能将其扩散或加固到其他场景中，当这些输出被重新用于监督微调 (SFT) 或偏好数据时，这种趋势尤为明显。

由此，一个反馈环路正式形成：

俏皮的风格获得奖励；
部分获得奖励的样本中包含了显著的口头禅词汇；
该口头禅在生成轨迹 (rollout) 中出现频率升高；
模型产生的生成轨迹被用于监督微调 (SFT)；
模型变得更加倾向于输出该口头禅。

通过对 GPT‑5.5 的 SFT 数据进行检索，我们发现了大量包含 goblin 和 gremlin 的数据点。进一步调查还挖出了一整个“奇幻生物家族”：浣熊、巨魔、食人魔以及鸽子都被识别为口头禅词汇；相比之下，而“青蛙”的大多数用法被确认是正常的。

生产环境中 goblin 和 gremlin 出现率的一周平均值。GPT‑5.4 Thinking 的下降，是因为我们在 3 月中旬停用了“书卷极客”人格。GPT‑5.5 发布时并未搭载“书卷极客”人格，并且相较 GPT‑5.4 又出现了一次上升（即使没有“书卷极客”人格也是如此）。

Goblin 现象的终结

在 GPT‑5.4 发布后，我们于 3 月正式停用了“书卷极客” (Nerdy) 人格。在训练中，我们移除了对 goblin 具有偏向性的奖励信号，并对包含奇幻生物词汇的训练数据进行了过滤，以降低 goblin 过度出现或在不当语境中露面的概率。遗憾的是，在找到 goblin 的根源之前，GPT‑5.5 的训练已经启动。当我们开始在 Codex 中测试 GPT‑5.5 时，OpenAI 的员工立即察觉到了其对 goblin 展现出的奇特偏好；为此，我们添加了开发者提示词指令⁠（在新窗口中打开）来缓解这一问题。毕竟，Codex 本身就带有浓厚的极客色彩。

如果你想在 Codex 中让这些生物“重获自由”，可以运行以下命令，在移除 goblin 抑制指令的状态下启动 Codex：

纯文本

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

启示与意义

对于这些 goblin，不同的人持有不同的看法。有人觉得它们是令人愉悦的惊喜，也有人认为它们是烦人的怪癖。但无论如何，这都是一个强有力的案例，向我们展示了奖励信号如何以意想不到的方式塑造模型行为，以及模型如何在特定场景下将奖励机制泛化到无关领域。花时间去理解模型为何表现怪异，并构建出能够快速调查这些模式的方法，对我们的研究团队而言是一项至关重要的能力。此次调查不仅解决了问题，还为研究团队带来了全新的工具，用于审计模型行为并从根源上修复行为偏差。

2026 年

作者

OpenAI

继续阅读

查看全部

GPT-Red：解锁稳健性自我优化能力

安全2026年7月15日

剥离编程评估中的噪音，提取真实信号

研究2026年7月8日

GeneBench-Pro 正式发布

研究2026年6月30日