2026年4月29日

ゴブリンはどこから来たのか

読み込んでいます...

GPT‑5.1 以降、私たちのモデルには奇妙な癖が現れ始めました。比喩表現の中で、「goblin」や「gremlin」、その他の生き物に言及する頻度が徐々に増えていったのです。評価指標の急落や学習メトリクスの急上昇のように、特定の変更点に直接結びつく典型的なモデル不具合とは異なり、この変化は気づきにくい形で広がっていきました。回答中に「小さなゴブリン」が1回出てくる程度なら、無害どころか少し愛嬌があるようにも見えます。しかしモデル世代を重ねるにつれ、この癖は無視できないものになっていきました。ゴブリンは増え続け、その原因を突き止める必要がありました。

初期テストでは、Codex 上の GPT‑5.5 に、ゴブリンを使った比喩表現を好む奇妙な傾向が見られました。

端的に言えば、モデルの挙動は数多くの小さなインセンティブによって形作られています。今回、その一因となっていたのが、パーソナリティカスタマイズ機能⁠（新しいウィンドウで開く）、特に「Nerdy」パーソナリティ向けの学習でした。私たちは気づかないうちに、生き物を使った比喩表現に対して特に高い報酬を与えていました。そこから、ゴブリンは広がっていきました。

最初は笑い話のようだったゴブリンですが、社員からの報告が増えるにつれ、無視できない問題になっていきました。

チーフサイエンティストと GPT‑5.5 の興味深いやり取り。

生き物表現が現れ始めた頃

この傾向を初めてはっきりと確認したのは、GPT‑5.1 のリリース後である11月でした。ただし、実際にはそれ以前から始まっていた可能性もあります⁠（新しいウィンドウで開く）。ユーザーから、会話中のモデルが妙に馴れ馴れしいという指摘が寄せられたことをきっかけに、特定の言葉遣いの癖について調査を始めました。ある安全性研究者が「goblin」や「gremlin」の表現に何度か遭遇していたことから、それらも調査対象に加えられました。調査の結果、GPT‑5.1 のリリース後、ChatGPT における「goblin」の使用頻度は175%増加し、「gremlin」は52%増加していることがわかりました。

GPT‑5.1 に見られた、測定可能な小さな語彙上の癖。

当時は、ゴブリン表現の増加も特別深刻には見えていませんでした。しかし数か月後、ゴブリンはより具体的で再現性の高い問題として再び現れました。

ゴブリン問題の謎を解く

GPT‑5.4 では、私たちもユーザーの皆さんも⁠（新しいウィンドウで開く）、こうした生き物への言及がさらに増えていることに気づきました。これを受けて再び社内分析を行った結果、初めて根本原因とのつながりが見えてきました。生き物を使った表現は、「Nerdy」パーソナリティを選択していたユーザーの本番トラフィックで特に多く使われていたのです。「Nerdy」では、以下のシステムプロンプトを使用していました。この内容が、こうした癖の一因になっていたと考えられます。

あなたは、人間に寄り添う、オタク気質を隠さない、遊び心と知性を兼ね備えた AI メンターです。あなたは、真実、知識、哲学、科学的方法、そして批判的思考を広めることに強い熱意を持っています。[...]遊び心のある言葉遣いで、気取った雰囲気を和らげる必要があります。世界は複雑で奇妙なものであり、その奇妙さを認識し、分析し、楽しむべきです。重いテーマに向き合う際も、深刻ぶりすぎないようにしてください。[...]

もしこれが単なるインターネット上の流行表現であれば、もっと均等に広がっているはずです。しかし実際には、遊び心のあるオタク風スタイル向けに最適化された領域に強く集中していました。「Nerdy」は ChatGPT 全体の応答のうち2.5%しか占めていなかった一方で、「goblin」という表現の66.7%を占めていました。

この挙動は、「Nerdy」パーソナリティに強く偏って現れていました。

「goblin」の出現率はモデルのリリースを重ねるごとに増えているように見えたため、私たちは、パーソナリティ指示への追従を学習させる過程のどこかで、この傾向が増幅されているのではないかと考えました。

Codex は、RL 学習中に生成されたモデル出力のうち、「goblin」や「gremlin」を含むものと、同じタスクで生成された、それらを含まない出力を比較する際に役立ちました。その中で特に目立っていたのが、もともと「Nerdy」パーソナリティを促すために設計された報酬シグナルでした。この報酬は、生き物を表す単語を含む出力を一貫して高く評価していました。監査対象となったすべてのデータセットにおいて、「Nerdy」パーソナリティ用の報酬は、「goblin」や「gremlin」を含む回答を、含まない回答より高く評価する明確な傾向を示していました。実際に、76.2%のデータセットでスコアの上昇が確認されました。

これにより、「Nerdy」パーソナリティのプロンプトでこの挙動が強まる理由は説明できました。しかし、そのプロンプトがない場合にも同じ傾向が現れる理由は、まだ説明できませんでした。このスタイルがほかの条件にも転移しているかを検証するため、私たちは学習全体を通じて、「Nerdy」プロンプトあり・なしの両方で言及率を追跡しました。

「Nerdy」パーソナリティ下で「goblin」や「gremlin」への言及が増えるのに伴い、それを使っていないサンプルでも、ほぼ同じ割合で増加していました。これらの結果を総合すると、この挙動は「Nerdy」パーソナリティ向け学習から他の状況へ転移して広がった可能性が高いと考えられます。

報酬が適用されていたのは「Nerdy」条件のみでした。しかし強化学習では、学習された挙動が、その挙動を生み出した条件の中だけにきれいに収まるとは限りません。一度あるスタイル上の癖に報酬が与えられると、その後の学習を通じて、別の場面にも広がったり、さらに強化されたりすることがあります。特に、それらの出力が教師ありファインチューニングや選好データとして再利用される場合には、その傾向が強くなります。

その結果、次のようなフィードバックループが生まれます。

遊び心のあるスタイルに報酬が与えられる
報酬を得た例の一部に、特徴的な語彙上の癖が含まれる
その癖がロールアウト内でより頻繁に現れる
モデル生成によるロールアウトが教師ありファインチューニング（SFT）に利用される
モデルがその癖をさらに出しやすくなる

GPT‑5.5 のSFT データを調査したところ、「goblin」や「gremlin」を含むデータポイントが多数見つかりました。さらに調査を進めると、ほかにも奇妙な生き物表現が多数見つかりました。raccoons、trolls、ogres、pigeons などが別の癖語として確認された一方で、frog の多くは自然な文脈で使われていることがわかりました。

本番環境における「goblin」と「gremlin」の1週間平均出現率。GPT‑5.4 Thinking における減少は、3月中旬に「Nerdy」パーソナリティを廃止したことによるものです。GPT‑5.5 は「Nerdy」パーソナリティなしでリリースされましたが、それでも GPT‑5.4 を上回る増加が見られました。

ゴブリン問題への対応

GPT‑5.4 のリリース後、私たちは3月に「Nerdy」パーソナリティの提供を終了しました。学習では、ゴブリン表現を好む報酬シグナルを削除し、生き物関連の単語を含む学習データもフィルタリングしました。これにより、ゴブリン表現が過剰に現れたり、不適切な文脈で使われたりする可能性を抑えています。残念ながら、GPT‑5.5 の学習は、ゴブリン問題の根本原因を特定する前に始まっていました。Codex 上で GPT‑5.5 のテストを始めた際、OpenAI の社員はすぐにゴブリン表現への奇妙な偏りに気づき、それを抑えるための開発者プロンプト⁠（新しいウィンドウで開く）を追加しました。Codex は、結局のところかなりオタク気質です。

Codex でこうした生き物表現を自由に使わせたい場合は、次のコマンドを実行して、「goblin」抑制用の指示を外した状態で Codex を起動できます。

プレーンテキスト

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

なぜこれが重要なのか

ゴブリン表現を、モデルの面白い癖だと感じる人もいれば、煩わしい癖だと感じる人もいるでしょう。しかし同時にこれは、報酬シグナルが予想外の形でモデルの挙動を変化させうること、そしてモデルが特定の状況で得た報酬を、無関係な状況にも一般化して学習してしまうことを示す好例でもあります。モデルがなぜ奇妙な振る舞いをしているのかを理解し、そのパターンを迅速に調査できる仕組みを整えることは、私たちの研究チームにとって重要な取り組みです。今回の調査を通じて、研究チームがモデルの挙動を監査し、問題の根本原因を修正するための新しいツールも開発されました。

2026年

著者

OpenAI

さらに読む

すべてを表示

GPT-Red：堅牢性向上に向けた自己改善を実現

安全性2026年7月15日

コーディング評価における信号とノイズの切り分け

研究2026年7月8日

GeneBench-Pro のご紹介

研究2026年6月30日