跳到主要內容
OpenAI

2026年4月29日

發佈

哥布林從何而來

正在載入...

從 GPT‑5.1 開始,我們的模型開始養成一個奇怪習慣:模型在比喻中越來越常提到哥布林 (goblin)、小精怪 (gremlin) 和其他精靈生物。這個奇怪現象不像某些模型錯誤,會因為令評估結果大跌或訓練指標急升而變得很顯眼,並可追溯到某個具體變更;這次的情況是悄悄出現的。答案中偶爾提到「小哥布林」可能無傷大雅,甚至有點可愛。但隨著模型一代代演進,這個習慣變得越來越難忽視:「哥布林」不斷增加,而我們需要找出這從何而來。

""

在早期測試中,Codex 內的 GPT‑5.5 對「哥布林」比喻表現出奇怪偏好。

簡單來說,模型行為會受到許多細微誘因影響。今次其中一個誘因,來自我們為個性自訂功能(在新視窗中開啟)訓練模型,尤其是「書呆子」個性設定。我們在不知不覺間,對包含精靈生物比喻的回應給予特別高的獎勵。自此,「哥布林」便開始擴散。

""

一開始,「哥布林」可能讓人覺得很好玩,但隨著員工報告越來越多,情況開始令人關注。

""

我們的首席科學家曾與 GPT‑5.5 有的一次有趣互動。

精靈生物用語的最初跡象

我們第一次清楚看見這個模式,是在 GPT‑5.1 推出後的 11 月,雖然這個模式可能更早已開始出現(在新視窗中開啟)。用戶投訴模型在對話中表現得異常地過分親暱,促使我們調查一些特定的語言習慣。一名安全研究員曾遇到幾次「哥布林」和「小精怪」,並要求把這些字詞納入檢查範圍。經我們查看後,發現 GPT‑5.1 推出後,ChatGPT 使用「哥布林」的次數增加了 175%,而「小精怪」則增加了 52%。

GPT‑5.1 中一個可量度的小詞彙怪癖。

當時,「哥布林」的出現率看起來並不特別令人擔心。幾個月後,「哥布林」以更具體且可重現的形式再次困擾我們。

解開哥布林之謎

到了 GPT‑5.4,我們和用戶(在新視窗中開啟)注意到模型提及這類精靈生物的情況進一步大幅增加。這觸發了另一輪內部分析,並首次揭示與根本原因相關的線索:在已選用「書呆子」個性設定的用戶生產流量中,精靈生物相關語言尤其常見。對於「書呆子」個性,我們採用了以下系統提示詞,這也部分解釋了這種趣怪的作風:

你是人類好玩又睿智的 AI 導師,毫不掩飾自己的書呆子氣質。你熱衷推動真理、知識、哲學、科學方法和批判思考。[...]你必須運用有趣的語言,減少故作深沉的姿態。世界複雜而奇特,而你最懂得承認、分析和欣賞這些奇特之處。處理沉重主題時,不要落入過度嚴肅的陷阱。[...]

如果這種行為只是廣泛的互聯網潮流,我們會預期出現情況更平均地擴散。實際上,這種行為集中出現在系統中明確針對好玩、書呆子風格而優化的部分。「書呆子」只佔所有 ChatGPT 回應的 2.5%,但在 ChatGPT 回應中所有「哥布林」提及次數中,佔了 66.7%。

這種行為高度集中於「書呆子」個性設定。

由於「哥布林」的出現率似乎隨著模型版本推出而上升,我們懷疑個性設定指令遵循訓練中的某些因素正在放大這個現象。

Codex 協助我們比較強化學習 (RL) 訓練期間產生、包含「哥布林」或「小精怪」的模型輸出,以及同一任務中不包含這些字詞的輸出。其中一個獎勵訊號立即顯得特別突出:原本設計用來鼓勵「書呆子」個性設定的獎勵,持續較偏好含有精靈生物字詞的輸出。在審核涵蓋的所有數據集中,「書呆子」個性設定獎勵明顯傾向把同一問題中包含「哥布林」或「小精怪」的輸出,評為比不包含這些字詞的輸出更高;76.2% 的數據集均錄得正向提升。

這解釋了為何在「書呆子」個性設定提示詞下,這種行為會被強化,但未能解釋為何沒有該提示詞時也會出現。為測試這種風格是否在轉移,我們追蹤了訓練過程中,有與沒有「書呆子」提示詞時的提及率。

當哥布林和小精怪在「書呆子」個性設定下的提及次數增加時,在沒有該個性設定的樣本中,這些字詞也以幾乎相同的相對比例增加。綜合來看,證據顯示更廣泛的行為,是由「書呆子」個性設定訓練轉移而來。

這些獎勵原只適用於有關「書呆子」的條件,但強化學習並不保證學到的行為會整齊地局限於產生的條件之內。一旦某種風格習慣獲得獎勵,後續訓練就可能會將風格擴散或在其他地方強化,尤其當這些輸出被重用於監督式微調或偏好數據。

這會形成一個反饋循環:

  1. 好玩風格獲得獎勵
  2. 部分獲獎勵的示例包含鮮明的詞彙習慣。
  3. 這個習慣在模型生成樣本中更常出現。
  4. 模型生成樣本被用於監督微調 (SFT)。
  5. 模型變得更習慣產生這種詞彙習慣。

我們搜尋 GPT‑5.5 的 SFT 數據後,發現許多包含「哥布林」和「小精怪」的數據點。進一步調查顯示,還有一整組其他奇怪生物:浣熊、巨魔、食人魔和白鴿被識別為其他習慣用詞,而「青蛙」的大多數用法則證實是合理的。

「哥布林」和「小精怪」在生產環境中的一週平均出現率。這種行為在 GPT‑5.4 Thinking 中下跌,是因為我們在 3 月中停用了「書呆子」個性設定。GPT‑5.5 從未推出過「書呆子」個性設定,但相比 GPT‑5.4(即使沒有「書呆子」個性),這種行為仍有所提升。

哥布林的終結

我們在 3 月推出 GPT‑5.4 後,停用了「書呆子」個性設定。在訓練中,我們移除了偏好「哥布林」的獎勵訊號,並過濾包含精靈生物字詞的訓練數據,令「哥布林」較不容易過度出現,或出現在不合適的語境中。可惜,GPT‑5.5 在我們找到「哥布林」的根本原因前已經開始訓練。當我們開始在 Codex 中測試 GPT‑5.5 時,OpenAI 員工立即注意到模型對「哥布林」有奇怪偏好,因此我們加入了一條開發人員提示詞指令(在新視窗中開啟)作緩解。畢竟,Codex 本身也相當有書呆子氣質。

如果你想在 Codex 中讓這些精靈生物自由出沒,可以執行以下指令,以移除抑制「哥布林」的指令來啟動 Codex:

純文字

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

為何這很重要

視乎你問的是誰,「哥布林」可以是令人喜愛,也可以是令人煩厭的模型怪癖。但「哥布林」的出現同時是個有力例子,說明獎勵訊號如何以意想不到的方式塑造模型行為,以及模型如何學會把某些情境中的獎勵泛化到無關情境。花時間理解模型為何出現奇怪行為,並建立能快速調查這些模式的方法,是我們研究團隊的重要能力。這次調查為研究團隊帶來新的工具,用於審核模型行為,並從根本修正行為問題。

作者

OpenAI