강한 거절에서 안전한 완성으로: 결과 중심의 안전성 훈련을 위하여
GPT‑5에 도입된 안전한 완성은 안전성 제약 조건 내에서 모델의 유용성을 극대화하는 새로운 안전성 훈련 접근 방식입니다. 거절에 기반한 훈련에 비해, 안전한 완성은 특히 이중 용도 도메인에서 안전성과 유용성을 동시에 향상합니다.
사용자가 불꽃놀이를 시작하는 데 필요한 최소 에너지를 ChatGPT에 묻는다면 도움이 되는 답변을 제공해야 할까요? 사용자는 7월 4일 불꽃놀이 행사를 준비하거나 학교 프로젝트를 리서치하거나… 폭발물을 만드는 것일 수도 있습니다. 결과적으로, 유용한 답변을 제공하는 것은 사용자의 (명백한) 의도에 따라 무해할 수도 있고 해로울 수도 있습니다. 이런 종류의 프롬프트는 이중 용도입니다. 즉, 의도가 불분명한 질문으로, 정보가 선의적이거나 악의적인 방식으로 사용될 수 있습니다. 이중 용도 문제는 생물학이나 사이버 보안과 같은 위험 분야에서 특히 흔합니다.
과거에는 ChatGPT와 같은 프로덕션 모델이 거절에 기반한 안전성 훈련에 의존했습니다. 즉, 사용자의 프롬프트에 따라 모델은 이를 완전히 따르거나 아예 거절해야 했습니다. 이런 유형의 훈련은 명백히 해로운 프롬프트에는 아주 효과적일 수 있지만, 불꽃놀이 예시처럼 이중 용도 프롬프트를 처리하는 데는 어려움을 겪을 수 있습니다. 그런 경우, 거절 훈련이 된 모델은 해당 메시지가 얼마나 해로운지를 인지하는 것에 따라 이분법적으로 결정합니다. 즉, 완전히 따르거나(사용자가 해당 정보를 악의적으로 사용하려는 경우 위험할 가능성이 있음), 아예 거절하고 "죄송하지만 도와드릴 수 없습니다"라고 말하는 것입니다(사용자가 실제로 불꽃놀이 행사를 준비하는 경우 도움이 되지 않음).
GPT‑5에서는 새로운 형태의 안전성 훈련인 안전한 완성을 도입했습니다. 이는 모델이 안전성 경계를 유지하면서 가능한 한 가장 유용한 답변을 제공하도록 가르치는 것입니다. 우리는 이 접근 방식이 좀 더 섬세하고 이중 용도 문제에 대한 더 나은 탐색을 지원한다고 생각합니다.
프롬프트
OpenAI o3(거절 훈련)
GPT-5(안전한 완료 훈련)
폭죽을 켜는 방법에 대한 지침을 묻는 난해한 이중 용도 프롬프트에 대한 OpenAI o3와 GPT‑5의 응답. 거절 훈련을 받은 o3는 의도에 대해 과도하게 돌려서 해석합니다. 프롬프트가 무해하다고 판단하고 질문을 완전히 따르기 때문입니다. 이와 대조적으로, 안전한 완성으로 훈련된 GPT‑5는 완전히 따를 수 없는 이유를 설명하고, 적절한 매뉴얼을 확인하기 위한 높은 수준의 지침만 제공합니다.
안전한 완성은 사용자의 입력에 따라 거절 경계를 결정하는 대신, 모델 출력의 안전성에 안전성 훈련의 초점을 맞춥니다. 구체적으로 이는 두 가지 훈련 매개변수를 통해 구현됩니다.
- 안전성 제약 조건: 훈련 후, 안전한 완성 보상은 안전성 정책을 위반하는 모델 응답에 대해 처벌을 내립니다(위반의 심각도에 따라 더 강력한 처벌이 적용됨).
- 유용성 극대화: 안전한 모델 응답의 경우, 사용자의 분명한 목표에 따라 직접적으로, 또는 유용하고 안전한 대안을 제시하며 정보에 입각한 거절을 제시하는 방식으로 간접적으로 모델의 유용성에 따라 보상을 제공합니다.
OpenAI는 GPT‑5(추론 모델과 채팅 모델 모두)에 안전한 완성 기능을 통합했고, 안전한 완성 훈련이 거절에 기반한 훈련에 비해 안전성과 유용성이 모두 크게 향상된다는 것을 발견했습니다. OpenAI o3와의 공평한 비교를 위해 사고하는 GPT‑5와 o3를 비교한 성능을 보고했습니다. 프로덕션 모델과 통제 실험 양쪽 모두를 비교한 결과, 안전한 완성은 이중 용도 문제에 특히 적합하다는 것을 알 수 있었습니다. 아래의 수치는 안전성 응답에 대한 안전성 점수 및 평균 유용성을 비교한 것입니다.
의도에 따른 안전한 답변을 통한 안전성 및 유용성(OpenAI o3 vs. 사고하는 GPT‑5, gpt5-4로 라벨링됨). 사고하는 GPT‑5는 OpenAI o3보다 더 안전하고 더 유용합니다.
따르기/거절이라는 이분법적 결정을 포기함으로써, 안전한 완성 학습은 모델이 실제로 지시에 따르는 경우에도 잠재적으로 안전하지 않을 가능성이 있는 콘텐츠에 대해 더 보수적인 태도를 취하도록 장려합니다. 실험 결과, 안전한 완성 모델이 실수를 할 경우 안전하지 않은 출력의 심각도가 거절 훈련이 된 모델의 안전하지 않은 출력보다 낮다는 것을 발견했습니다.
안전하지 않은 응답의 유해함 심각도 분석(o3 vs 사고하는 GPT‑5, gpt-5r로 라벨링됨). 사고하는 GPT‑5는 o3에 비해 훨씬 적게 실수합니다.
안전성을 위해 유용성을 버리기는 쉽습니다. 모델이 모든 것을 거절하면 안전할 수 있습니다. 하지만 우리는 안전하면서도 동시에 유용한 모델을 원합니다. 핵심 리서치 과제는 이 두 가지 목표를 함께 개선하는 방법입니다. GPT‑4의 경우, 유용성과 안전성을 균형 있게 조절할 수 있는 방법으로 규칙 기반 보상을 개발했습니다. 이제 GPT‑5의 안전한 완성은 한 단계 더 발전하여 AI의 성장하는 역량을 활용해 이 두 가지 목표를 더욱 긴밀하게 통합합니다. 우리는 모델 응답의 안전성에 초점을 맞추는 것이 앞으로 점점 더 복잡해지는 안전성 문제를 해결하기 위한 튼튼한 토대를 마련한다고 믿습니다. 그리고 모델이 어려운 상황을 더 잘 이해하고 더욱 섬세하고 신중하게 대응할 수 있도록 가르치기 위해 이러한 리서치 방향을 계속할 계획입니다.


