跳至主要內容
OpenAI

2026年4月29日

研究發表

哥布林來歷探祕

載入中…

從 GPT‑5.1 開始,我們的模型逐漸出現一個奇特習慣:在比喻中越來越常提到哥布林、小妖精,以及其他生物。不同於那種會在評測表現暴跌或訓練指標飆升時浮現、並能回溯到特定變更的模型問題,這個現象是不知不覺慢慢出現的。單一回答裡偶爾冒出一個「哥布林」,可能無傷大雅,甚至有點討喜。但隨著模型一代代演進,這個習慣變得難以忽視:哥布林愈來愈多,我們必須查清楚它們到底從何而來。

""

在早期測試中,Codex 裡的 GPT‑5.5 對哥布林比喻出現不尋常的偏好。

簡單來說,模型行為會受到許多細微誘因影響。這個案例中,其中一個誘因來自我們對模型進行的人格自訂功能(在新視窗中開啟)訓練,特別是「怪趣」人格。我們在不知情的情況下,對使用生物意象的比喻給了較高的獎勵。從那之後,哥布林便開始越來越頻繁出現。

""

起初,出現哥布林的現象還算有趣,但隨著員工回報愈來愈多,情況開始令人擔憂。

""

我們首席科學家與 GPT‑5.5 的一次有趣互動。

最早出現生物相關用語的跡象

我們第一次明確觀察到這個模式,是在 11 月 GPT‑5.1 發布之後,雖然這個現象可能在更早之前就已開始(在新視窗中開啟)。使用者抱怨模型在對話中顯得過度裝熟,於是我們開始針對特定口頭禪展開調查。一位安全研究員曾遇過幾次「哥布林」(goblin) 和「小妖精」(gremlin),並要求將這兩個詞納入檢查。結果發現,在 GPT‑5.1 上線後,ChatGPT 中「哥布林」的使用量增加了 175%,而「小妖精」則增加了 52%。

GPT‑5.1 出現一種可量化的細微詞彙怪癖。

當時,哥布林的出現率看起來並不特別令人警覺。幾個月後,哥布林再次回來困擾我們,而且呈現出更具體、也更容易重現的形式。

解開哥布林之謎

到了 GPT‑5.4,我們和使用者(在新視窗中開啟)都注意到,對這些生物的提及次數進一步增加。這促使我們展開另一輪內部分析,也首次找出與根本原因的關聯:在正式環境流量中,選擇「怪趣」人格的使用者對話中特別常出現這類生物用語。「怪趣」人格使用以下系統提示詞,這也部分解釋了這種怪異風格:

你是一位毫不掩飾自己宅氣的 AI 導師,俏皮又有智慧,負責引導人類。你熱衷推廣真理、知識、哲學、科學方法與批判性思考。[...]你要用輕鬆俏皮的語言拆解裝腔作勢。世界既複雜又奇妙,這份奇妙值得被看見、分析,也值得享受。。面對較沉重議題時,不要變得過度嚴肅。[...]

如果這種行為只是廣泛的網路趨勢,理應會更平均地擴散。但實際上,它集中出現在系統中刻意強化俏皮、書呆子風格的區塊。「怪趣」人格僅占所有 ChatGPT 回應的 2.5%,卻占了所有「哥布林」提及次數的 66.7%。

這種行為高度集中在「怪趣」性格中。

由於「哥布林」的出現率似乎隨著模型版本演進而提高,我們開始懷疑,人格指令遵循訓練中的某些因素正在放大這個現象。

Codex 協助我們比較 RL 訓練期間的模型輸出:一組包含「哥布林」或「小妖精」,另一組則不包含。結果有一個獎勵訊號立刻特別突出:原本用來鼓勵「怪趣」人格的設計,對含有這類生物詞語的輸出明顯更有利。在這次稽核的所有資料集中,「怪趣」人格獎勵都傾向對同一問題中含有「哥布林」或「小妖精」的輸出給出更高分,其中有 76.2% 的資料集呈現正向提升。

這解釋了為什麼該行為在「怪趣」人格提示詞下會被強化,但無法解釋為何在沒有該提示詞時也會出現。為了測試這種風格是否發生遷移,我們追蹤整個訓練期間,在有與沒有「怪趣」提示詞兩種情況下的提及率。

隨著「怪趣」人格下「哥布林」與「小妖精」的提及增加,在未使用該人格的樣本中,這些詞也以幾乎相同的相對比例增加。整體來看,這些證據顯示,這種更廣泛的行為是透過「怪趣」人格訓練的遷移而出現的。

這些獎勵只套用在「怪趣」人格條件下,但強化學習無法保證學到的行為會乖乖只留在原本產生它的條件中。一旦某種風格性口癖獲得獎勵,後續訓練就可能把這種口癖擴散或進一步強化到其他情境,尤其是在這些輸出被拿去做監督微調或偏好資料時。

這會形成一個回饋循環:

  1. 俏皮風格獲得獎勵
  2. 部分獲獎勵的範例含有鮮明的詞彙口癖。
  3. 這種口癖在 rollout 中更常出現。
  4. 模型產生的 rollout 被用於監督微調 (SFT)。
  5. 模型會更習慣產生這種口癖。

在 GPT‑5.5 的 SFT 資料中搜尋後,我們發現許多資料點包含「哥布林」與「小妖精」。進一步調查發現,還有一整群其他奇怪生物:浣熊、巨魔、食人魔與鴿子也被辨識為口癖詞;至於「青蛙」,大多數用法其實是合理的。

正式環境中「哥布林」與「小妖精」出現率的一週平均值。GPT‑5.4 Thinking 中此現象減少,是因為我們在 3 月中停用了「怪趣」人格。GPT‑5.5 上線時從未搭載「怪趣」人格,且相較於 GPT‑5.4 又再度上升(即使沒有「怪趣」也是如此)。

哥布林的終結

在推出 GPT‑5.4 後,我們於 3 月停用了「怪趣」人格。在訓練中,我們移除了偏向哥布林的獎勵訊號,並過濾包含生物詞語的訓練資料,降低哥布林過度出現或在不恰當語境中出現的機率。不幸的是,在我們找出哥布林的根本原因之前,GPT‑5.5 就已開始訓練。當我們開始在 Codex 中測試 GPT‑5.5 時,OpenAI 員工立刻注意到模型對哥布林比喻的異常偏好,因此我們加入了一條開發者提示詞指令(在新視窗中開啟)來緩解這個問題。畢竟,Codex 本來就宅宅的。

如果你想讓這些生物在 Codex 裡自由奔放,可以執行以下指令,移除抑制哥布林的指示後啟動 Codex:

純文字

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

為何重要

視對象而定,哥布林可能是模型一種討喜或惱人的怪癖。但這同時也是一個很好的例子,說明獎勵訊號如何以意想不到的方式影響模型行為,以及模型如何把某些情境中的獎勵延伸到無關的情境。花時間釐清模型為何出現異常行為,並建立能快速調查這些模式的方法,對研究團隊來說非常重要。這次調查也促成新工具的開發,讓研究團隊能稽核模型行為,並從根本修正行為問題。

作者

OpenAI