2026年4月29日

哥布林來歷探祕

載入中…

從 GPT‑5.1 開始，我們的模型逐漸出現一個奇特習慣：在比喻中越來越常提到哥布林、小妖精，以及其他生物。不同於那種會在評測表現暴跌或訓練指標飆升時浮現、並能回溯到特定變更的模型問題，這個現象是不知不覺慢慢出現的。單一回答裡偶爾冒出一個「哥布林」，可能無傷大雅，甚至有點討喜。但隨著模型一代代演進，這個習慣變得難以忽視：哥布林愈來愈多，我們必須查清楚它們到底從何而來。

在早期測試中，Codex 裡的 GPT‑5.5 對哥布林比喻出現不尋常的偏好。

簡單來說，模型行為會受到許多細微誘因影響。這個案例中，其中一個誘因來自我們對模型進行的人格自訂功能⁠(在新視窗中開啟)訓練，特別是「怪趣」人格。我們在不知情的情況下，對使用生物意象的比喻給了較高的獎勵。從那之後，哥布林便開始越來越頻繁出現。

起初，出現哥布林的現象還算有趣，但隨著員工回報愈來愈多，情況開始令人擔憂。

我們首席科學家與 GPT‑5.5 的一次有趣互動。

最早出現生物相關用語的跡象

我們第一次明確觀察到這個模式，是在 11 月 GPT‑5.1 發布之後，雖然這個現象可能在更早之前就已開始⁠(在新視窗中開啟)。使用者抱怨模型在對話中顯得過度裝熟，於是我們開始針對特定口頭禪展開調查。一位安全研究員曾遇過幾次「哥布林」(goblin) 和「小妖精」(gremlin)，並要求將這兩個詞納入檢查。結果發現，在 GPT‑5.1 上線後，ChatGPT 中「哥布林」的使用量增加了 175%，而「小妖精」則增加了 52%。

GPT‑5.1 出現一種可量化的細微詞彙怪癖。

當時，哥布林的出現率看起來並不特別令人警覺。幾個月後，哥布林再次回來困擾我們，而且呈現出更具體、也更容易重現的形式。

解開哥布林之謎

到了 GPT‑5.4，我們和使用者⁠(在新視窗中開啟)都注意到，對這些生物的提及次數進一步增加。這促使我們展開另一輪內部分析，也首次找出與根本原因的關聯：在正式環境流量中，選擇「怪趣」人格的使用者對話中特別常出現這類生物用語。「怪趣」人格使用以下系統提示詞，這也部分解釋了這種怪異風格：

你是一位毫不掩飾自己宅氣的 AI 導師，俏皮又有智慧，負責引導人類。你熱衷推廣真理、知識、哲學、科學方法與批判性思考。[...]你要用輕鬆俏皮的語言拆解裝腔作勢。世界既複雜又奇妙，這份奇妙值得被看見、分析，也值得享受。。面對較沉重議題時，不要變得過度嚴肅。[...]

如果這種行為只是廣泛的網路趨勢，理應會更平均地擴散。但實際上，它集中出現在系統中刻意強化俏皮、書呆子風格的區塊。「怪趣」人格僅占所有 ChatGPT 回應的 2.5%，卻占了所有「哥布林」提及次數的 66.7%。

這種行為高度集中在「怪趣」性格中。

由於「哥布林」的出現率似乎隨著模型版本演進而提高，我們開始懷疑，人格指令遵循訓練中的某些因素正在放大這個現象。

Codex 協助我們比較 RL 訓練期間的模型輸出：一組包含「哥布林」或「小妖精」，另一組則不包含。結果有一個獎勵訊號立刻特別突出：原本用來鼓勵「怪趣」人格的設計，對含有這類生物詞語的輸出明顯更有利。在這次稽核的所有資料集中，「怪趣」人格獎勵都傾向對同一問題中含有「哥布林」或「小妖精」的輸出給出更高分，其中有 76.2% 的資料集呈現正向提升。

這解釋了為什麼該行為在「怪趣」人格提示詞下會被強化，但無法解釋為何在沒有該提示詞時也會出現。為了測試這種風格是否發生遷移，我們追蹤整個訓練期間，在有與沒有「怪趣」提示詞兩種情況下的提及率。

隨著「怪趣」人格下「哥布林」與「小妖精」的提及增加，在未使用該人格的樣本中，這些詞也以幾乎相同的相對比例增加。整體來看，這些證據顯示，這種更廣泛的行為是透過「怪趣」人格訓練的遷移而出現的。

這些獎勵只套用在「怪趣」人格條件下，但強化學習無法保證學到的行為會乖乖只留在原本產生它的條件中。一旦某種風格性口癖獲得獎勵，後續訓練就可能把這種口癖擴散或進一步強化到其他情境，尤其是在這些輸出被拿去做監督微調或偏好資料時。

這會形成一個回饋循環：

俏皮風格獲得獎勵
部分獲獎勵的範例含有鮮明的詞彙口癖。
這種口癖在 rollout 中更常出現。
模型產生的 rollout 被用於監督微調 (SFT)。
模型會更習慣產生這種口癖。

在 GPT‑5.5 的 SFT 資料中搜尋後，我們發現許多資料點包含「哥布林」與「小妖精」。進一步調查發現，還有一整群其他奇怪生物：浣熊、巨魔、食人魔與鴿子也被辨識為口癖詞；至於「青蛙」，大多數用法其實是合理的。

正式環境中「哥布林」與「小妖精」出現率的一週平均值。GPT‑5.4 Thinking 中此現象減少，是因為我們在 3 月中停用了「怪趣」人格。GPT‑5.5 上線時從未搭載「怪趣」人格，且相較於 GPT‑5.4 又再度上升（即使沒有「怪趣」也是如此）。

哥布林的終結

在推出 GPT‑5.4 後，我們於 3 月停用了「怪趣」人格。在訓練中，我們移除了偏向哥布林的獎勵訊號，並過濾包含生物詞語的訓練資料，降低哥布林過度出現或在不恰當語境中出現的機率。不幸的是，在我們找出哥布林的根本原因之前，GPT‑5.5 就已開始訓練。當我們開始在 Codex 中測試 GPT‑5.5 時，OpenAI 員工立刻注意到模型對哥布林比喻的異常偏好，因此我們加入了一條開發者提示詞指令⁠(在新視窗中開啟)來緩解這個問題。畢竟，Codex 本來就宅宅的。

如果你想讓這些生物在 Codex 裡自由奔放，可以執行以下指令，移除抑制哥布林的指示後啟動 Codex：

純文字

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

為何重要

視對象而定，哥布林可能是模型一種討喜或惱人的怪癖。但這同時也是一個很好的例子，說明獎勵訊號如何以意想不到的方式影響模型行為，以及模型如何把某些情境中的獎勵延伸到無關的情境。花時間釐清模型為何出現異常行為，並建立能快速調查這些模式的方法，對研究團隊來說非常重要。這次調查也促成新工具的開發，讓研究團隊能稽核模型行為，並從根本修正行為問題。

2026 年

作者

OpenAI

繼續閱讀

檢視全部

GPT-Red：解鎖提升穩健性的自我改進能力

安全2026年7月15日

在程式碼評估中分辨訊號與雜訊

研究2026年7月8日

推出 GeneBench-Pro

研究2026年6月30日