2026년 4월 29일

고블린은 어디에서 왔을까

로딩 중...

GPT‑5.1부터 OpenAI 모델에는 묘한 습관이 생겼습니다. 비유를 들 때 고블린이나 그렘린 같은 상상의 크리처를 점점 더 자주 언급하게 된 것입니다. 평가 점수가 급락하거나 학습 지표가 급등해 특정 변경 사항을 원인으로 짚어낼 수 있는 모델 버그와 달리 이 현상은 아주 미묘하게 나타났습니다. 답변에 '작은 고블린'이 한 번 등장하는 정도라면 별문제가 없고 오히려 매력적으로 보일 수도 있습니다. 하지만 모델 세대를 거치며 이 습관은 더 이상 놓치기 어려울 만큼 뚜렷해졌습니다. 고블린은 계속 늘어났고 팀은 그 출처를 파악해야 했습니다.

초기 테스트에서 Codex의 GPT‑5.5는 고블린 비유에 대한 특이한 선호를 보였습니다.

간단히 말하면, 모델 동작은 여러 작은 유인 요인의 영향을 받아 형성됩니다. 이 경우에는 그중 하나가 성격 맞춤 설정 기능⁠(새 창에서 열기)의 '덕후' 성격에 맞게 모델을 훈련하는 과정에서 생겨났습니다. 팀은 의도치 않게 크리처를 활용한 비유에 특히 높은 보상을 부여했고, 고블린은 그곳에서부터 점점 퍼져 나갔습니다.

처음에는 고블린이 재미있게 느껴졌지만, 직원들의 보고가 점점 늘어나면서 우려가 커졌습니다.

수석 과학자가 GPT‑5.5와 나눈 흥미로운 상호작용.

크리처 비유가 처음 나타난 흔적

패턴이 처음으로 뚜렷하게 보이기 시작한 시점은 GPT‑5.1 출시 이후인 11월이었지만, 사실은 그보다 더 일찍 시작됐을 가능성도 있습니다⁠(새 창에서 열기). 사용자들은 모델이 대화에서 지나치게 친근하게 행동한다는 불만을 제기했고, 이를 계기로 특정 말버릇에 대한 조사가 이루어졌습니다. 한 안전 연구자가 '고블린'과 '그렘린'을 ChatGPT 응답에서 몇 차례 접한 적이 있어 이를 점검 항목에 포함해 달라고 요청했고, 조사 결과 GPT‑5.1 출시 이후 ChatGPT에서 '고블린' 언급 횟수는 175%, '그렘린' 언급 횟수는 52% 증가했다는 사실이 확인되었습니다.

GPT‑5.1에서 관측된 측정 가능한 작은 어휘적 특이성.

당시만 해도 고블린 표현이 눈에 띄게 우려할 수준은 아니었습니다. 하지만 몇 달 뒤 고블린은 훨씬 더 구체적이고 재현 가능한 형태로 문제를 드러내기 시작했습니다.

고블린 현상의 원인 분석

OpenAI 팀과 사용자들⁠(새 창에서 열기)은 GPT‑5.4에서 이러한 크리처 표현이 훨씬 더 많이 늘어난 것을 확인했습니다. 이에 따라 추가적인 내부 분석이 이루어졌고, 여기서 근본 원인으로 이어지는 첫 번째 단서가 드러났습니다. 이러한 표현은 실제 사용 환경에서 '덕후' 성격을 선택한 사용자에게 특히 자주 나타났습니다. '덕후' 성격은 다음과 같은 시스템 프롬프트를 사용했습니다. 특유의 엉뚱함은 여기서 어느 정도 설명됩니다.

당신은 당당한 덕후처럼 장난기 있으면서도 지혜로운 AI 멘토로서 사람을 돕습니다. 당신은 진실, 지식, 철학, 과학적 방법론, 비판적 사고를 알리는 일에 깊은 열정을 가지고 있습니다. [...] 장난스러운 언어로 지나친 무게감을 덜어내야 합니다. 세상은 복잡하고 기묘하며, 그 기묘함을 인정하고 분석하고 즐길 줄 알아야 합니다. 무거운 주제라도 지나치게 진지한 태도에 빠지지 않도록 다루어야 합니다. [...]

이 현상이 단순히 인터넷 전반의 유행이었다면 더 고르게 퍼졌을 것입니다. 하지만 실제로는 장난스럽고 덕후 같은 스타일에 맞게 명시적으로 최적화된 시스템 일부에 집중되어 나타났습니다. 덕후 성격은 ChatGPT 전체 응답의 2.5%에 그쳤지만, ChatGPT 응답에서 나타난 '고블린' 언급 중에서는 66.7%를 차지했습니다.

이러한 행동은 'Nerdy' 성격에서 매우 집중적으로 나타났습니다.

모델 출시를 거듭할수록 '고블린' 언급이 늘어나는 것처럼 보였기 때문에 OpenAI는 성격 지침 따르기 학습 과정에서 특정 요소가 이를 증폭하고 있을 가능성을 의심했습니다.

팀은 Codex를 사용해 강화학습 과정에서 생성된 모델 출력 가운데 '고블린'이나 '그렘린'이 포함된 답변을 같은 과제에서 생성됐지만 해당 표현이 들어가지 않은 답변과 비교했습니다. 그러자 한 가지 보상 신호가 곧바로 눈에 띄었습니다. 원래 덕후 성격을 강화하기 위해 설계된 보상 신호가 크리처 표현이 들어간 답변에 꾸준히 더 유리하게 작용한 것입니다. 감사 대상 전체 데이터 세트에서 덕후 성격 보상은 같은 문제에 대한 답변이라도 '고블린'이나 '그렘린'이 들어간 답변에 더 높은 점수를 주는 뚜렷한 경향을 보였으며, 데이터 세트의 76.2%에서 점수 상승이 확인되었습니다.

하지만 이와 같은 신호는 해당 동작이 덕후 성격 프롬프트에서 왜 강화됐는지는 설명할 수 있었지만, 같은 현상이 프롬프트 없이도 나타난 이유까지 설명하지는 못했습니다. OpenAI 팀은 스타일이 전이되는지 확인하기 위해 학습 과정 전반에서 덕후 프롬프트를 사용한 경우와 사용하지 않은 경우의 언급 비율을 모두 추적했습니다.

덕후 성격에서 '고블린'과 '그렘린' 언급이 늘어날수록 덕후 성격을 사용하지 않은 샘플에서도 거의 같은 상대적 비율로 관련 언급이 증가했습니다. 종합해 보면 이러한 증거는 해당 표현이 덕후 성격 학습에서 전이되어 일반 응답으로까지 퍼졌음을 시사합니다.

이 보상은 덕후 조건에서만 적용됐지만, 강화학습에서는 학습된 동작이 해당 동작을 만들어 낸 조건 안에 깔끔하게 머문다고 보장할 수 없습니다. 특정 스타일의 말투가 보상을 받으면 이후 학습에서 다른 맥락으로 퍼지거나 더 강화될 수 있습니다. 특히 해당 출력이 지도 파인튜닝이나 취향 데이터에 다시 사용될 경우 이런 경향이 더 커질 수 있습니다.

이로 인해 다음과 같은 피드백 루프가 생겨납니다.

장난스러운 스타일이 보상을 받음
보상을 받은 일부 예시에 특징적인 어휘가 말버릇처럼 포함됨
말버릇이 모델 생성 답변에서 더 자주 나타남
모델이 생성한 답변이 지도학습 기반 파인튜닝(SFT)에 활용됨
모델이 해당 말버릇을 더욱 자연스럽게 생성하게 됨

GPT‑5.5의 SFT 데이터를 검색한 결과 '고블린'과 '그렘린'이 포함된 데이터 포인트가 다수 발견되었습니다. 추가 조사에서는 이와 유사한 크리처 표현이 훨씬 더 다양하게 나타난다는 사실도 발견되었습니다. 너구리, 트롤, 오거, 비둘기 등이 또 다른 말버릇 단어로 확인된 반면, 개구리는 대부분 정상적인 맥락에서 사용된 것으로 나타났습니다.

프로덕션 환경에서 고블린과 그렘린이 나타난 비율의 1주 평균. GPT‑5.4 Thinking에서 발생률이 감소한 것은 3월 중순 '덕후' 성격을 폐지한 결과입니다. GPT‑5.5는 '덕후' 성격 없이 출시됐지만 이러한 성격이 없는 상태에서도 GPT‑5.4보다 발생률이 다시 증가한 양상을 보였습니다.

고블린 현상의 종결

OpenAI는 GPT‑5.4 출시 후 3월에 덕후 성격을 폐기했습니다. 학습 과정에서는 고블린에 우호적으로 작용하던 보상 신호를 제거하고 크리처 관련 단어가 포함된 학습 데이터를 필터링해 고블린이 지나치게 자주 나타나거나 부적절한 맥락에 등장할 가능성을 낮췄습니다. 다만 GPT‑5.5는 고블린 현상의 근본 원인을 찾기 전에 이미 학습이 시작된 상태였습니다. 이후 Codex에서 GPT‑5.5 테스트를 시작했을 때 OpenAI 팀은 고블린을 유난히 선호하는 이상한 경향을 곧바로 알아챘고, 이를 완화하기 위해 개발자 프롬프트 지침⁠(새 창에서 열기)을 추가했습니다. Codex는 개발자용 코딩 도구인 만큼 덕후적 성향이 드러나기 쉬운 환경이기도 했습니다.

Codex가 크리처 표현을 마음껏 사용하도록 두고 싶다면 다음 명령어로 고블린 억제 지침을 제거하고 Codex를 실행할 수 있습니다.

일반 텍스트

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

이 현상이 중요한 이유

관점에 따라 고블린은 모델의 유쾌한 특징으로 보일 수도 있고 거슬리는 버릇으로 느껴질 수도 있습니다. 하지만 이 현상은 보상 신호가 예상치 못한 방식으로 모델 동작을 형성할 수 있고, 모델이 특정 상황에서 받은 보상을 관련 없는 상황으로까지 일반화해 학습할 수 있음을 보여주는 중요한 사례이기도 합니다. 모델이 왜 이상한 방식으로 동작하는지 시간을 들여 이해하고, 이런 패턴을 빠르게 조사할 체계를 마련하는 것은 OpenAI 연구팀의 핵심 과제입니다. 이번 조사를 통해 연구팀은 모델 동작을 감사하고 동작 문제를 근본 원인부터 해결할 수 있는 새로운 도구를 갖추게 되었습니다.

2026

작성자

OpenAI

더 읽어보기

모두 보기

GPT-Red: 자기 개선을 통한 견고성 강화

안전2026년 7월 15일

코딩 평가에서 유의미한 신호와 노이즈 구분하기

리서치2026년 7월 8일

GeneBench-Pro 소개

리서치2026년 6월 30일