2026年4月29日

哥布林從何而來

正在載入...

從 GPT‑5.1 開始，我們的模型開始養成一個奇怪習慣：模型在比喻中越來越常提到哥布林 (goblin)、小精怪 (gremlin) 和其他精靈生物。這個奇怪現象不像某些模型錯誤，會因為令評估結果大跌或訓練指標急升而變得很顯眼，並可追溯到某個具體變更；這次的情況是悄悄出現的。答案中偶爾提到「小哥布林」可能無傷大雅，甚至有點可愛。但隨著模型一代代演進，這個習慣變得越來越難忽視：「哥布林」不斷增加，而我們需要找出這從何而來。

在早期測試中，Codex 內的 GPT‑5.5 對「哥布林」比喻表現出奇怪偏好。

簡單來說，模型行為會受到許多細微誘因影響。今次其中一個誘因，來自我們為個性自訂功能⁠（在新視窗中開啟）訓練模型，尤其是「書呆子」個性設定。我們在不知不覺間，對包含精靈生物比喻的回應給予特別高的獎勵。自此，「哥布林」便開始擴散。

一開始，「哥布林」可能讓人覺得很好玩，但隨著員工報告越來越多，情況開始令人關注。

我們的首席科學家曾與 GPT‑5.5 有的一次有趣互動。

精靈生物用語的最初跡象

我們第一次清楚看見這個模式，是在 GPT‑5.1 推出後的 11 月，雖然這個模式可能更早已開始出現⁠（在新視窗中開啟）。用戶投訴模型在對話中表現得異常地過分親暱，促使我們調查一些特定的語言習慣。一名安全研究員曾遇到幾次「哥布林」和「小精怪」，並要求把這些字詞納入檢查範圍。經我們查看後，發現 GPT‑5.1 推出後，ChatGPT 使用「哥布林」的次數增加了 175%，而「小精怪」則增加了 52%。

GPT‑5.1 中一個可量度的小詞彙怪癖。

當時，「哥布林」的出現率看起來並不特別令人擔心。幾個月後，「哥布林」以更具體且可重現的形式再次困擾我們。

解開哥布林之謎

到了 GPT‑5.4，我們和用戶⁠（在新視窗中開啟）注意到模型提及這類精靈生物的情況進一步大幅增加。這觸發了另一輪內部分析，並首次揭示與根本原因相關的線索：在已選用「書呆子」個性設定的用戶生產流量中，精靈生物相關語言尤其常見。對於「書呆子」個性，我們採用了以下系統提示詞，這也部分解釋了這種趣怪的作風：

你是人類好玩又睿智的 AI 導師，毫不掩飾自己的書呆子氣質。你熱衷推動真理、知識、哲學、科學方法和批判思考。[...]你必須運用有趣的語言，減少故作深沉的姿態。世界複雜而奇特，而你最懂得承認、分析和欣賞這些奇特之處。處理沉重主題時，不要落入過度嚴肅的陷阱。[...]

如果這種行為只是廣泛的互聯網潮流，我們會預期出現情況更平均地擴散。實際上，這種行為集中出現在系統中明確針對好玩、書呆子風格而優化的部分。「書呆子」只佔所有 ChatGPT 回應的 2.5%，但在 ChatGPT 回應中所有「哥布林」提及次數中，佔了 66.7%。

這種行為高度集中於「書呆子」個性設定。

由於「哥布林」的出現率似乎隨著模型版本推出而上升，我們懷疑個性設定指令遵循訓練中的某些因素正在放大這個現象。

Codex 協助我們比較強化學習 (RL) 訓練期間產生、包含「哥布林」或「小精怪」的模型輸出，以及同一任務中不包含這些字詞的輸出。其中一個獎勵訊號立即顯得特別突出：原本設計用來鼓勵「書呆子」個性設定的獎勵，持續較偏好含有精靈生物字詞的輸出。在審核涵蓋的所有數據集中，「書呆子」個性設定獎勵明顯傾向把同一問題中包含「哥布林」或「小精怪」的輸出，評為比不包含這些字詞的輸出更高；76.2% 的數據集均錄得正向提升。

這解釋了為何在「書呆子」個性設定提示詞下，這種行為會被強化，但未能解釋為何沒有該提示詞時也會出現。為測試這種風格是否在轉移，我們追蹤了訓練過程中，有與沒有「書呆子」提示詞時的提及率。

當哥布林和小精怪在「書呆子」個性設定下的提及次數增加時，在沒有該個性設定的樣本中，這些字詞也以幾乎相同的相對比例增加。綜合來看，證據顯示更廣泛的行為，是由「書呆子」個性設定訓練轉移而來。

這些獎勵原只適用於有關「書呆子」的條件，但強化學習並不保證學到的行為會整齊地局限於產生的條件之內。一旦某種風格習慣獲得獎勵，後續訓練就可能會將風格擴散或在其他地方強化，尤其當這些輸出被重用於監督式微調或偏好數據。

這會形成一個反饋循環：

好玩風格獲得獎勵
部分獲獎勵的示例包含鮮明的詞彙習慣。
這個習慣在模型生成樣本中更常出現。
模型生成樣本被用於監督微調 (SFT)。
模型變得更習慣產生這種詞彙習慣。

我們搜尋 GPT‑5.5 的 SFT 數據後，發現許多包含「哥布林」和「小精怪」的數據點。進一步調查顯示，還有一整組其他奇怪生物：浣熊、巨魔、食人魔和白鴿被識別為其他習慣用詞，而「青蛙」的大多數用法則證實是合理的。

「哥布林」和「小精怪」在生產環境中的一週平均出現率。這種行為在 GPT‑5.4 Thinking 中下跌，是因為我們在 3 月中停用了「書呆子」個性設定。GPT‑5.5 從未推出過「書呆子」個性設定，但相比 GPT‑5.4（即使沒有「書呆子」個性），這種行為仍有所提升。

哥布林的終結

我們在 3 月推出 GPT‑5.4 後，停用了「書呆子」個性設定。在訓練中，我們移除了偏好「哥布林」的獎勵訊號，並過濾包含精靈生物字詞的訓練數據，令「哥布林」較不容易過度出現，或出現在不合適的語境中。可惜，GPT‑5.5 在我們找到「哥布林」的根本原因前已經開始訓練。當我們開始在 Codex 中測試 GPT‑5.5 時，OpenAI 員工立即注意到模型對「哥布林」有奇怪偏好，因此我們加入了一條開發人員提示詞指令⁠（在新視窗中開啟）作緩解。畢竟，Codex 本身也相當有書呆子氣質。

如果你想在 Codex 中讓這些精靈生物自由出沒，可以執行以下指令，以移除抑制「哥布林」的指令來啟動 Codex：

純文字

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

為何這很重要

視乎你問的是誰，「哥布林」可以是令人喜愛，也可以是令人煩厭的模型怪癖。但「哥布林」的出現同時是個有力例子，說明獎勵訊號如何以意想不到的方式塑造模型行為，以及模型如何學會把某些情境中的獎勵泛化到無關情境。花時間理解模型為何出現奇怪行為，並建立能快速調查這些模式的方法，是我們研究團隊的重要能力。這次調查為研究團隊帶來新的工具，用於審核模型行為，並從根本修正行為問題。

2026

作者

OpenAI

繼續閲讀

查看全部

GPT-Red：解鎖提升穩健性的自我改進能力

安全2026年7月15日

在編碼評估中分辨訊號與雜訊

研究2026年7月8日

GeneBench-Pro 登場

研究2026年6月30日