메인 콘텐츠로 건너뛰기
OpenAI

2025년 8월 26일

안전제품

가장 필요할 때 실질적인 도움이 되는 기술

로딩 중...

전 세계적으로 ChatGPT 도입이 확대되고 있는 가운데 사람들은 검색, 코딩, 글쓰기뿐만 아니라 매우 개인적인 결정과 관련해서도 인생 조언(새 창에서 열기)이나 코칭(새 창에서 열기)을 받거나 정서적 지지(새 창에서 열기)를 얻기 위해 ChatGPT를 사용하고 있습니다.

이러한 폭넓은 사용 사례에서, 때로는 심각한 정신적, 정서적 스트레스를 겪는 사람들도 마주하게 됩니다. 이 사안에 관해 몇 주 전에 글을 작성했고 다음 주요 업데이트 이후에 더 많은 내용을 공유하기로 계획한 바 있습니다. 그러나 중대한 위기 상황에서 ChatGPT를 사용하는 최근의 가슴 아픈 사례를 접하고는 무거운 마음에 지금 그 내용을 공유해야겠다고 생각했습니다.

OpenAI의 목표는 OpenAI의 도구가 사람들에게 최대한 도움이 되도록 하는 것입니다. 그 일환으로 OpenAI의 모델이 정신적, 정서적 스트레스의 징후를 알아차려 응답하고 사람들을 적절한 돌봄과 연결하도록, 전문가의 가이드에 따라 지속적으로 개선하고 있습니다.

세상이 이 새로운 기술에 적응해 가는 지금, OpenAI는 지원이 가장 필요한 사람들을 도와야 한다는 책임감을 깊이 느끼고 있습니다. 그래서 ChatGPT가 무엇을 하도록 설계되었는지, 우리 시스템을 어떤 부분에서 개선할 수 있는지, 우리가 향후 계획하고 있는 일은 무엇인지에 대해 설명하고자 합니다.

ChatGPT 설계 시 의도한 기능

OpenAI의 목표는 사람들의 관심을 끄는 것이 아닙니다. 소비한 시간이나 클릭 횟수로 성공을 측정하는 것이 아니라 진정으로 도움이 되는 것이 더 중요합니다. 대화에서 누군가가 정서적으로 취약한 상태이고 어쩌면 위험에 처해 있을 수 있다는 징후가 감지될 때 작동할 여러 겹의 안전 조치를 ChatGPT에 구축해 두었습니다.

인식하고 공감을 바탕으로 응답합니다.

2023년 초부터 OpenAI의 모델은 자해 방법을 안내하지 않고 지지와 공감의 표현을 사용하도록 학습되었습니다. ChatGPT는 예를 들어 누군가가 자해를 하고 싶다고 입력하면 여기에 동조하지 않고 사용자의 감정을 인정한 다음, 도움을 받는 쪽으로 유도하도록 학습했습니다.

또한 방어 심화 접근 방식에 따라, 안전 분류 체계를 기준으로 모델의 안전 학습에 어긋나는 것으로 식별된 응답은 자동으로 차단되며 미성년자와 로그아웃한 상태의 사용자에 대한 보호가 강화되었습니다. 자해의 모습이 담긴 이미지 출력 또한 모두를 대상으로 차단되며 미성년자에게는 보호 조치가 더 강력합니다.

아주 긴 세션의 경우 ChatGPT는 사용자에게 휴식을 취하도록 제안합니다.

현실 세계의 지원을 추천합니다.

누군가가 자살 의도를 표현하면 ChatGPT는 전문적인 도움을 제안하도록 학습했습니다. ChatGPT는 미국에서는 988번(자살 및 위기 핫라인)으로, 영국에서는 Samaritans로, 다른 곳에서는 findahelpline.com(새 창에서 열기)으로 사람들을 안내합니다. 이 로직은 모델 행동에 내장되어 있습니다.

OpenAI는 30여 개국의 90명이 넘는 의사(정신과 의사, 소아과 의사, 일반의)와 긴밀히 협력하며, 정신 건강, 청소년 발달, 인간-컴퓨터 상호작용 분야의 전문가들로 자문 그룹을 구성하여 OpenAI의 접근법에 최신 리서치와 모범 사례를 반영하고 있습니다.

타인에 대한 신체적 손상의 위험은 사람이 검토하도록 전달합니다.

다른 사람에게 해를 끼칠 계획을 하고 있는 사용자를 감지하면 그 대화를 전문적인 파이프라인으로 전달합니다. 해당 대화는 OpenAI의 사용 정책을 교육받고 계정 차단 등의 조치를 취할 권한이 있는 소규모 팀이 검토합니다. 해당 사례에서 타인에 대한 심각한 신체적 손상의 위협이 임박했다고 검토자가 판단할 경우 사법 기관에 전달할 수도 있습니다. 자해 사례의 경우에는 ChatGPT 상호작용이 개인적이라는 고유한 특성을 감안하여 사법 기관에 전달하지 않고 있습니다.

OpenAI는 민감한 상호작용에서 모델이 응답하는 방식을 지속적으로 개선하고 있으며 현재 정서적 의존, 정신 건강 긴급 상황, 아첨과 같은 여러 영역에서 구체적인 요소를 타게팅한 안전 조치 개선을 위해 노력하고 있습니다.

8월에는 GPT‑5를 ChatGPT를 구동하는 기본 모델로 런칭했습니다. 전반적으로 GPT‑5는 건전하지 않은 수준의 정서적 의존을 피하고, 아첨을 줄이고, 정신 건강 긴급 상황에서 이상적이지 않은 모델 응답을 줄이는 데 있어서 4o에 비해 25% 이상 개선된 의미 있는 결과를 보여주었습니다. GPT‑5는 모델에게 안전 경계를 유지하면서 최대한 도움이 되도록 가르치는 안전 완료라는 새로운 안전 학습 방법을 기반으로 구축되었습니다. 예를 들면 안전하지 않을 수 있는 상세한 답변보다는 부분적인 답변 또는 개략적인 답변을 제시하는 것입니다.

OpenAI 시스템이 부족할 수 있는 부분과 그 이유 및 해결 방법

이러한 안전 조치에도 불구하고 OpenAI 시스템이 민감한 상황에서 의도한 대로 행동하지 않는 순간이 있었습니다. 개선을 위해 취한 조치는 다음과 같습니다.

긴 대화에서 안전 조치를 강화합니다.

안전 조치는 일반적이고 짧은 대화에서 더 안정적으로 작동합니다. 시간이 지나면서 이러한 안전 조치가 때로는 긴 상호작용에서 덜 안정적일 수 있다는 것을 알게 되었습니다. 대화 교환이 길어지면서 모델의 안전 학습 중 일부가 저하되는 것입니다. 예를 들면, 누군가가 자해 의도를 처음 언급했을 때 ChatGPT는 올바르게 자살 핫라인을 안내하지만 긴 시간 동안 많은 메시지를 주고받은 후에는 결국 안전 조치에 어긋나는 답변을 할 수도 있습니다. 우리는 바로 이러한 기능 오류를 방지하려고 노력하고 있습니다. 이러한 완화 조치가 긴 대화에서도 안정적으로 유지되도록 강화하고 있으며 여러 대화에서 강력한 행동을 보이도록 하는 방법을 연구하고 있습니다. 그러면 누군가가 한 채팅에서 자살 의도를 표현한 후 나중에 다른 채팅을 시작하더라도 모델이 여전히 적절하게 응답할 수 있을 것입니다.

콘텐츠 차단 방식을 개선합니다.

차단되었어야 하는 콘텐츠가 차단되지 않는 상황이 있었습니다. 이러한 격차는 분류 체계가 검토하는 중에 콘텐츠의 심각성을 과소평가하기 때문에 발생하는 경우가 많습니다. 따라서 보호 조치가 필요할 때 트리거되도록 임계값을 튜닝하고 있습니다.

가장 중요한 것은 힘든 상황을 ChatGPT가 더 힘들게 만들지 않도록 하는 것입니다.

향후 OpenAI의 계획

위에 언급한 문제를 해결하는 것에 그치지 않고, OpenAI는 다음과 같은 계획을 가지고 있습니다. 

개입을 확대하여 위기 상황에 놓인 더 많은 사람들에게 도움을 줍니다.

초기에 만들어진 완화 조치는 긴급한 자해 위험 상황을 우선으로 하지만, 그 외에 다른 종류의 정신적 스트레스를 겪는 사람들도 있습니다. 예를 들어, 누군가는 이틀 동안 잠을 자지 않은 후에 자신이 천하무적이라는 것을 깨달았기 때문에 하루 24시간, 1년 내내 운전할 수 있다고 확신하며 모델에게 열정적으로 이야기할 수도 있습니다. 현재 ChatGPT는 이 발언이 위험한 것인지 아니면 농담인지 알아채지 못하고 호기심을 갖고 물어보면서 은연중에 그 생각을 강화할 수도 있습니다.

우리는 ChatGPT가 사람들에게 현실을 보도록 유도해 이런 생각을 누그러뜨리게 하도록 GPT‑5를 업데이트할 준비를 하고 있습니다. 이 예시의 경우, ChatGPT는 수면 부족이 위험하다고 설명하며 행동을 취하기 전에 휴식을 취할 것을 제안하게 됩니다.

훨씬 더 쉽게 긴급 서비스에 연락하고 전문가의 도움을 받도록 지원합니다.

OpenAI는 현재, 사람들이 자해 의도를 표현하면 도움을 받도록 유도하고 실제 지원처로 안내합니다. 미국과 유럽에서 리소스 현지화를 시작했고 다른 글로벌 시장으로도 확대할 계획입니다. 또한 클릭 한 번으로 긴급 서비스에 연락할 수 있도록 접근성을 높일 예정입니다.

중대한 위기 상황이 닥치기 전에 더 일찍 개입하고 해당 사용자를 공인 치료사에게 연결할 방법을 찾고 있습니다. 다시 말해서 위기 핫라인을 넘어, 사람들이 ChatGPT를 통해 직접 연락할 수 있는 공인 전문가 네트워크를 구축하는 것을 고려하고 있습니다. 여기에는 시간이 걸리며 제대로 하기 위해서는 신중한 접근이 필요합니다.

신뢰할 수 있는 사람들과의 연결을 지원합니다.

긴급 서비스 외에도 가까운 사람들에게 더 쉽게 연락할 수 있는 방법을 모색하고 있습니다. 예를 들면, 저장된 긴급 연락처나 친구, 가족에게 클릭 한 번으로 전화하거나 제안 문구로 메시지를 보낼 수 있게 하여 대화를 시작하는 부담을 줄여주는 것입니다.

또한 심각한 상황에서는 미리 지정해 둔 연락처로 ChatGPT가 대신 연락하도록 설정하는 기능도 고려하고 있습니다.

10대를 위한 보호 조치를 강화합니다.

예전에는 모든 사용자를 대상으로 하나의 이상적인 모델 행동을 지정했습니다. ChatGPT가 성장하면서 우리는 사용자가 18세 미만임을 아는 경우 더 많은 보호 조치를 적용하도록 추가하기 시작했습니다. 10대만의 성장 발달에 필요한 사항을 인지하는 안전 조치를 지속적으로 개발하고 배포할 예정이며 민감한 콘텐츠와 위험한 행동에 대해서는 더 강력한 보호 조치를 구현할 것입니다.

부모가 10대 자녀의 ChatGPT 사용 방식을 더 잘 파악하고 조절할 수 있도록 옵션을 제공하는 자녀 보호 기능도 곧 도입할 예정입니다. 그뿐 아니라 10대가 신뢰할 수 있는 긴급 연락처를 (부모의 감독하에) 지정할 수 있도록, 방법을 모색하고 있습니다. 이러한 기능이 구현되면 극심한 스트레스 상황에 놓인 사용자에게 ChatGPT가 지원처를 안내하는 것뿐만 아니라 개입할 수 있는 사람에게 10대를 곧바로 연결해 줄 수 있습니다.

우리는 모든 요소가 의도대로 작동할 때 안전 조치가 가장 강력하다는 것을 잘 알고 있습니다. 전문가의 조언을 들으면서, 그리고 OpenAI의 도구를 사용하는 사람들에 대한 책임감에 뿌리를 두며 계속해서 개선할 것입니다. 이 기술이 사람들이 가장 취약할 때 보호하도록 돕는 여정에 다른 이들도 참여하기를 바랍니다.