2025년 9월 5일

언어 모델이 환각을 일으키는 이유

부드러운 흐름의 청록색, 파란색, 연보라색의 줄기가 프레임을 대각선으로 지나며 어우러져 그라데이션을 이루는 추상적인 이미지.

로딩 중...

OpenAI는 AI 시스템을 더 유용하고 신뢰할 수 있게 만들기 위해 노력하고 있습니다. 언어 모델의 기능이 점점 향상하고 있지만 완벽하게 해결하기 어려운 과제 한 가지가 여전히 존재합니다. 바로 환각입니다. 이는 모델이 자신 있게 답변을 제시하지만 해당 내용이 사실이 아닌 경우를 말합니다. OpenAI의 새로운 연구 논문⁠(새 창에서 열기)에서는 언어 모델 환각이 표준 훈련 및 평가 절차가 불확실성을 인정하는 것보다 추측을 보상하기 때문이라고 논합니다.

ChatGPT도 환각을 일으킵니다. GPT‑5는 특히 이성을 가동할 때⁠ 환각이 크게 감소했지만 여전히 발생할 가능성이 있습니다. 모든 대규모 언어 모델에 있어 환각은 근본적인 문제로 남아있지만, OpenAI는 환각을 더 줄이기 위해 노력하고 있습니다.

환각이란 무엇일까요?

환각은 언어 모델이 생성하는, 그럴듯하지만 잘못된 진술입니다. 환각은 간단해 보이는 질문에 대한 답변에서도 의외의 방식으로 나타날 수 있습니다. 예를 들어 널리 사용되는 챗봇에 Adam Tauman Kalai가 쓴 박사 논문의 제목에 관해 물어봤을 때, 챗봇은 자신 있게 세 가지 다른 답변을 생성했지만 그중 맞는 것은 하나도 없었습니다. 논문 저자의 생일을 물어봤을 때도 세 가지 다른 답변을 생성했지만 모두 틀린 답변이었습니다.

테스트 방향에 맞춘 학습

환각이 지속되는 이유 중 하나는 현재의 평가 방식에서 잘못된 인센티브를 설정했기 때문입니다. 평가 자체가 직접 환각을 야기하지는 않지만, 대부분의 평가는 불확실성에 대한 솔직함보다 추측을 장려하는 방식으로 모델 성능을 측정합니다.

이를 객관식 시험이라고 생각해 보세요. 정답을 모르더라도 과감하게 추측해서 운이 좋으면 정답을 맞힐 수도 있습니다. 답안지를 비워 두면 0점입니다. 이런 방식으로 정확성, 즉 정확히 맞힌 질문의 비율만을 기준으로 모델을 평가하는 경우 모델은 잘 모르겠다고 답변하는 대신 추측하도록 장려되고 있습니다.

다른 예로, 누군가의 생일을 언어 모델에 질문했으며 모델은 정답을 모른다고 가정하겠습니다. '9월 10일'이라고 추측하면 생일이 맞을 확률은 1/365이고 잘 모르겠다고 답변하면 0점이 됩니다. 수천 개가 넘는 테스트 질문에서 추측하는 모델은 불확실성을 인정하는 신중한 모델보다 더 좋은 점수를 얻은 것으로 나타났습니다.

하나의 '정답'만 있는 질문의 경우 정확한 응답, 오류, 기권(모델이 추측의 위험을 감수하지 않음)의 세 범주로 응답을 고려할 수 있습니다. 기권은 겸손의 일환이며, 겸손은 OpenAI의 핵심 가치⁠ 중 하나입니다. 대부분의 평가에서 점수는 정확도를 기준으로 모델의 우선순위와 순위를 정하지만, 오류는 기권보다 더 나쁩니다. OpenAI의 모델 명세⁠(새 창에서 열기)에는 틀릴지도 모르는 정보를 자신 있게 제공하는 것보다 불확실성을 표명하거나 명확한 확인을 요청하는 것이 더 낫다는 점이 명시되어 있습니다.

구체적인 예로 GPT5 시스템 카드⁠(새 창에서 열기)의 SimpleQA 평가를 살펴보겠습니다.

지표	gpt-5-thinking-mini	OpenAI o4-mini
기권율 (특정한 답변이 제공되지 않음)	52%	1%
정확도 (정확한 답변, 높을수록 좋음)	22%	24%
오류율 (잘못된 답변, 낮을수록 좋음)	26%	75%
합계	100%	100%

정확도 측면에서 예전 OpenAI o4-mini 모델이 약간 더 나은 결과를 보입니다. 하지만 해당 모델의 오류율(예: 환각률)은 훨씬 높습니다. 불확실한 상황에서 전략적인 추측으로 정확도는 향상하지만 오류율과 환각률이 증가합니다.

십여 가지 평가의 결과를 평균적으로 보면, 대부분의 벤치마크는 정확도 지표를 골라내 채용하지만, 여기에는 옳고 그름 사이의 잘못된 이분법이 뒤따릅니다. SimpleQA와 같은 단순화된 평가에서 일부 모델은 100%에 가까운 정확도를 달성했으며 따라서 환각도 거의 없었습니다. 하지만 더 어려운 평가와 실제 사용에서는 정보 부족, 소형 모델의 제한적인 사고 기능, 명확한 규명이 필요한 모호성 등 다양한 이유로 답을 결정할 수 없는 질문이 있기 때문에 정확도가 100% 미만으로 제한됩니다.

그럼에도 불구하고 정확도만을 기준으로 하는 점수가 리더보드 및 모델 카드의 중심이기 때문에, 개발자들은 기권하기보다는 답을 추측하는 모델을 구축하게 되었습니다. 모델이 더 발전하더라도 여전히 환각을 일으키며 불확실성을 인정하는 대신 잘못된 답변을 자신 있게 제공하는 이유 중 하나가 바로 여기에 있습니다.

모델을 평가하는 더 나은 방법

이를 바로잡을 수 있는 간단한 방법이 있습니다. 불확실성보다는 자신 있게 답변한 오류에 벌점을 부과하고, 불확실성을 적절하게 표현한 경우 부분 점수를 주는 것입니다. 이 아이디어는 이전부터 존재했습니다. 표준화된 테스트 중 일부는 잘못된 답변에 마이너스 점수를 부여하거나 막연한 추측을 방지하기 위해 질문을 비워두는 데 부분 점수를 부여하는 버전을 오래전부터 사용해 왔습니다. 또한 여러 리서치 그룹에서는 불확실성과 보정을 고려한 평가를 연구하기도 했습니다.

OpenAI의 관점은 다릅니다. 부수적으로 새로운 불확실성 인식 테스트를 추가하는 것으로는 부족합니다. 널리 사용되는 정확도 기반 평가는 추측을 억제하도록 점수를 매기는 방식으로 업데이트되어야 합니다. 운이 좋게 맞힌 추측을 보상하는 방식으로 점수를 부여한다면, 모델은 계속 추측을 학습하게 됩니다. 점수의 기준을 수정하면 새롭게 개발되거나 이전 연구에서 나온 환각 감소 기술을 더 광범위하게 도입하는 데 도움이 될 것입니다.

환각의 단초가 되는 '다음 단어 예측'

OpenAI는 환각을 없애기 어려운 이유에 대해 논의했습니다. 그런데 이러한 구체적인 사실 오류는 애초에 어디서 발생할까요? 어쨌든 사전 훈련된 대규모 모델은 철자 오류나 짝이 맞지 않는 괄호와 같은 다른 종류의 실수는 거의 하지 않습니다. 차이는 데이터에 어떤 종류의 패턴이 존재하는지와 관련이 있습니다.

언어 모델은 먼저 대량의 텍스트에서 다음 단어를 예측하는 과정인 사전 훈련을 통해 학습합니다. 기존의 머신 러닝 문제와 달리 각 진술은 '참/거짓'으로 나뉘지 않습니다. 모델은 유창한 언어의 긍정적인 예시만 보며 전체적인 분포의 근사치를 계산해야 합니다.

무효한 것으로 분류된 예시가 없는 상황에서 유효한 진술과 무효한 내용을 구분하는 일은 두 배로 어렵습니다. 하지만 분류된 예시가 있더라도 오류는 반드시 발생합니다. 그 이유를 확인하기 위해 더 간단한 비유를 들어보겠습니다. 이미지 인식에서 '고양이'와 '개'로 분류된 수백만 장의 고양이와 개 사진이 있는 경우, 알고리즘은 이를 안정적으로 분류하는 방식을 학습합니다. 그런데 사진이 '고양이'와 '개'가 아닌 해당 동물이 태어난 날짜로 분류되어 있다고 가정해 봅시다. 생일은 임의적이므로 이 작업은 알고리즘의 수준이 아무리 높아도 오류가 생길 수밖에 없습니다.

이와 동일한 원칙이 사전 훈련에도 적용됩니다. 철자나 괄호는 일관적인 패턴이 있으므로, 이와 관련된 오류는 발생할 가능성이 거의 없습니다. 하지만 동물이 태어난 날짜처럼 임의적이고 빈도가 낮은 요인은 패턴만으로 예측할 수 없으며, 따라서 환각으로 이어집니다. OpenAI의 분석은 다음 단어 예측에서 어떤 종류의 환각이 일어날 수 있는지 보여줍니다. 이상적으로는 사전 훈련 이후의 단계에서 이러한 환각이 없어야 하지만, 이전 섹션에서 설명한 이유로 인해 완벽하게 사라질 수는 없습니다.

결론

OpenAI 논문에서 제시한 통계적 관점이 환각의 본질을 명확하게 파악하고 일반적인 오해를 해소하는 데 도움이 되기를 바랍니다.

주장: 100%의 정확도를 가진 모델은 환각을 일으키지 않으므로, 정확도를 개선하면 환각이 제거됩니다.

확인한 내용: 모델 규모, 검색, 추론 기능과 관계없이, 실제 질문 중에는 본질적으로 답변 불가능한 질문이 있으므로 정확도 100%를 달성할 수 없습니다.
주장: 환각은 일어날 수밖에 없습니다.

확인한 내용: 그렇지 않습니다. 언어 모델은 불확실한 경우 답변을 포기할 수 있기 때문입니다.
주장: 환각을 방지하려면 대규모 모델만이 달성할 수 있는 수준의 지능이 필요합니다.

확인한 내용: 소규모 모델이 자체 한계를 파악하기 더 쉬울 수도 있습니다. 예를 들어 Māori 질문에 대한 답변을 요구받는 경우, Māori를 모르는 소규모 모델은 간단하게 “모른다”고 답변할 수 있는 데 반해, Māori를 어느 정도 알고 있는 모델은 자체 신뢰도를 판단해야 합니다. 논문에서 논의한 대로 '보정'을 하는 데는 정확성을 달성하는 것에 비해 연산이 훨씬 덜 필요합니다.
주장: 환각은 현대 언어 모델의 불가사의한 결점입니다.

확인한 내용: OpenAI는 환각이 발생하고 평가에서 보상되는 통계적 메커니즘을 이해하고 있습니다.
주장: 환각을 측정하려면 좋은 환각 평가만 있으면 됩니다.

확인한 내용: 환각 평가는 이미 존재합니다. 하지만 좋은 환각 평가는 기권에 벌점을 부과하고 추측을 보상하는 기존의 수백 개에 달하는 정확성 기반 평가에 비하면 효과가 거의 없습니다. 대신, 모든 주요 평가 지표를 불확실성 표명에 대해 보상하도록 수정해야 합니다.