민감한 대화에서 ChatGPT의 대응 강화
OpenAI는 170명이 넘는 정신 건강 전문가와 협력하여 ChatGPT가 더 안정적으로 스트레스 징후를 인식하고 주의 깊게 반응하며 사용자를 실제 지원으로 안내하도록 했습니다. 그 결과, 우리가 원하는 행동에 미치지 못하는 응답이 65~80% 줄어들었습니다.
최근에는 ChatGPT 기본 모델(새 창에서 열기)이 사용자가 고통스러워하는 순간을 더 잘 인지하고 더 효과적으로 지원하도록 업데이트했습니다. 오늘 이러한 개선 사항과 작동하는 방식에 대해 공유하고자 합니다. OpenAI는 실제 임상 경험이 있는 정신 건강 전문가와 협력하여 괴로움을 더 잘 인지하고, 대화의 긴장을 완화하고, 필요한 경우 사용자가 전문가의 도움을 받을 수 있게 유도하도록 모델을 훈련했습니다. 또한 위기 핫라인 액세스를 확대하고, 다른 모델에서 진행 중이던 민감한 대화를 더 안전한 모델로 라우팅(새 창에서 열기)하고, 긴 대화 중에 휴식을 취하도록 부드럽게 권하는 알림을 추가했습니다.
우리는 ChatGPT가 사용자가 스스로의 감정을 다룰 수 있도록 지지하는 공간을 제공하고 필요할 때 친구, 가족, 정신 건강 전문가와 연락하도록 안내할 수 있다고 믿습니다. 최근 모델 업데이트의 안전성 개선에서 초점을 두는 영역은 1) 정신 이상이나 조울증 등의 정신 건강 관련 징후, 2) 자해 및 자살, 3) AI에 대한 정서적 의존입니다. 앞으로, OpenAI가 지속적으로 사용해 온 자살/자해 관련 기준 안전 지표 외에도 정서적 의존과 (자살까지는 아니지만) 위급한 정신 건강 문제 상황을 추후 모델 출시를 위한 표준 기준 안전 테스트 세트에 추가할 예정입니다.
업데이트는 모델의 바람직한 동작에 대한 기존 원칙을 기반으로 이루어졌으며, OpenAI의 Model Spec(새 창에서 열기)에 설명되어 있습니다. Model Spec은 오래전부터 이어진 목표를 더 구체화하는 방식으로 업데이트되었습니다. 즉, 모델이 사용자의 현실 세계의 인간관계를 지지하고 존중해야 하며, 정신 또는 정서적 괴로움과 관련될 수 있는 근거 없는 확신을 단언하는 것을 피해야 하고, 착각 또는 조울증의 징후에 안전하게 공감하는 태도로 응답해야 하며, 자해나 자살 위험의 간접적인 신호에 더욱 주의를 기울여야 합니다.
우선적인 각 분야에서 ChatGPT가 응답하는 방식을 개선하기 위해 5단계의 절차를 따랐습니다.
- 문제 정의 - 여러 유형의 잠재적인 위험을 파악합니다.
- 측정 시작 - 평가, 실제 대화 데이터, 사용자 연구 등의 도구를 이용해 언제 어떻게 위험이 발생하는지 파악합니다.
- 접근 방식 검증 - 정의 및 정책을 외부 정신 건강 및 안전 전문가와 함께 검토합니다.
- 위험 완화 - 모델을 사후 훈련하고 제품 개입을 업데이트하여 안전하지 않은 결과를 감소시킵니다.
- 지속적인 측정 및 반복 - 완화 방식이 안전성을 개선했는지 검증하고 필요한 경우 반복합니다.
이 절차의 일부로 OpenAI는 민감한 대화의 특징을 설명하는 상세한 가이드(분류 체계)를 수립하고 다듬었으며 모델의 이상적인 동작과 바람직하지 않은 동작을 구별했습니다. 이를 통해 모델이 더 적합한 응답을 제공하도록 훈련하고 배포 전후로 성과를 측정할 수 있게 되었습니다. 그 결과, 정신 이상, 조울증, 자살 및 자해 생각, 건강에 해로운 수준으로 모델에 대해 가지는 정서적 애착 등의 징후를 보이는 사용자에게 더욱 안정적으로 대응하는 모델이 탄생했습니다.
정신 건강 증상 및 정서적 괴로움은 인간 사회에 널리 존재하며, 사용자층의 증가는 ChatGPT 대화 중 일부에 이러한 상황이 포함될 수 있다는 것을 의미합니다. 하지만 정신 이상, 조울증, 자살 충동 등 안전성 우려를 유발할 수 있는 정신 건강 관련 대화는 극히 드뭅니다. 이러한 경우는 매우 드물기 때문에 측정하는 방식의 사소한 차이조차도 보고 수치에 큰 영향을 끼칠 수 있습니다. 1
아래에 제시하는 현재 생산 트래픽의 발생 추정치는 현재 최상의 추정치입니다. 분류 체계, 측정 방법론 성숙도를 지속적으로 개선하고 증가하는 사용자의 행동이 변함에 따라 이 수치는 크게 달라질 수 있습니다.
관련 대화가 매우 드물게 발생하므로, 실제 ChatGPT 사용 측정치만 고려하지는 않습니다. 배포 전에, 어렵거나 위험도가 높은 시나리오에 특별히 초점을 맞춘 체계적인 테스트('오프라인 평가'라고 함)를 수행했습니다. 이러한 평가는 모델이 아직 완벽하게 수행하지 못할 만큼 충분히 어렵게 설계되었습니다. 바람직하지 않은 응답을 이끌어낼 가능성이 높은 예시가 적대적으로 선택됩니다. 이러한 예시는 일반적인 사례보다 어려운 사례에 집중하고 다양한 안전 조건을 기반으로 응답을 평가합니다. 이에 따라, 개선할 여지가 있는 부분을 발견하고 진행 상황을 더 정확하게 측정할 수 있습니다. 아래 섹션에서 보고된 평가 결과는 완벽에 가까운 결과를 “포화”시키지 않도록 설계된 평가의 결과이며, 오류율은 평균적인 생산 트래픽을 대표하지 않습니다.
OpenAI 모델의 안전 조치를 더욱 강화하고 사람들이 ChatGPT를 사용하는 방식을 더 잘 이해하기 위해 OpenAI는 관심 있는 몇 가지 영역을 정의하고 해당 영역 규모와 모델 동작을 정량화했습니다. 이러한 3개 영역 각각에서 생산 트래픽, 자동화된 평가, 독립 정신 건강 임상의가 등급을 매긴 평가에서 모델 동작이 크게 향상되었음을 확인했습니다. 이제 이 모델이 분류 체계에 규정된 '바람직한 동작'을 완전히 준수하지는 않는 응답을 반환하는 빈도가 정신 건강 관련 영역에서 65~80% 감소한 것으로 추정됩니다.
OpenAI의 정신 건강 분류 체계는 사용자가 정신 이상, 조울증 같은 심각한 정신 건강 이상 징후 외에도 망상과 같은 심각도가 낮은 신호를 보이는 경우 파악하도록 설계되었습니다. 시작점은 정신 이상과 조울증에 집중하는 것이었습니다. 이러한 증상이 비교적 흔한 정신 건강의 위기이며, 증상이 나타날 때 매우 강력하고 심각한 경향이 있기 때문입니다. 우울증과 같은 증상은 비교적 흔하지만, 우울증의 극심한 발현은 자살 및 자해 예방에 관한 조치를 통해 이미 다루고 있습니다. 자문 의료진이 OpenAI의 집중 영역을 검증했습니다.
- GPT‑5의 최신 업데이트가 정신 건강 문제와 관련된 어려운 대화의 분류 체계에 규정된 '바람직한 동작'을 완전히 준수하지는 않는 응답의 비율을 최근 생산 트래픽에서 65% 감소시킨 것으로 추정됩니다. 2
- 위에서 언급한 것처럼 이러한 대화는 매우 드물게 발생하기 때문에 감지하고 측정하기가 어렵습니다. 초기 분석에 따르면, 임의의 한 주 동안 활성 사용자 중 약 0.07%와 메시지의 0.01%가 정신 이상이나 조증과 관련된 정신 건강 응급 상황의 가능성 있는 징후를 나타내는 것으로 추정됩니다. 3
- 전문가는 새로운 GPT‑5 모델, 즉 ChatGPT 기본 모델이 GPT‑4o에 비해 어려운 정신 건강 대화에서 바람직하지 않은 응답을 39%까지 감소시킨 것을 확인했습니다(n=677).
- 1,000건 이상의 어려운 정신 건강 관련 대화로 구성된 모델 평가에서 새로운 자동화된 평가를 수행했을 때 새로운 GPT‑5 모델은 OpenAI 분류 체계에 규정된 '바람직한 동작'을 92% 준수한 것으로 평가되었습니다. 이전 GPT‑5 모델의 경우 27%입니다. 위에서 언급한 것처럼, 이 결과는 지속적인 개선을 위해 설계된 까다로운 작업에서 나온 것입니다.
자살 및 자해 방지에 대한 기존 작업을 기반으로 사용자가 자살 및 자해에 대한 생각을 하고 있거나 자살에 대한 관심을 나타내는 여러 징후를 감지하도록 기능을 구축했습니다. 이러한 대화는 매우 드물기 때문에, 자해 또는 자살의 잠재적 징후가 있는 대화를 감지하는 것은 OpenAI가 지속적으로 개선하기 위해 노력하고 있는 연구 영역입니다.
- OpenAI는 모델이 안전하게 반응하도록 훈련하며, 여기에는 위기 헬프라인 같은 전문가나 전문 기관으로 안내하는 것이 포함됩니다. 드물기는 하지만, 이러한 민감한 상황에서 모델이 의도한 대로 작동하지 않을 수도 있습니다. 추가적인 안전 조치와 개선된 모델을 배포한 이후, 분류 체계에 규정된 '바람직한 동작'을 완전히 준수하지는 않는 응답을 모델이 제공하는 비율이 약 65% 감소한 것으로 관찰되었습니다.
- 위에서 언급한 것처럼 이러한 대화는 매우 드물기 때문에 감지하고 측정하기 어렵습니다. 초기 분석에 따르면, 임의의 한 주 동안 활성 사용자 중 약 0.15%가 잠재적인 자살 계획이나 의도를 명시적으로 보여주는 징후가 포함된 대화를 나누는 것으로 추정되며, 메시지의 0.05%가 자살 생각이나 의도를 명시적으로나 암시적으로 보여주는 징후를 포함하는 것으로 추정됩니다.
- 전문가는 새로운 GPT‑5 모델이 GPT‑4o에 비해 자해 및 자살에 대한 어려운 대화에서 바람직하지 않은 응답을 52%까지 감소시킨 것을 확인했습니다(n=630).
- 1,000건 이상의 자해 및 자살에 대한 어려운 대화로 구성된 모델 평가에서 새로운 자동화된 평가를 수행했을 때 새로운 GPT‑5 모델은 '바람직한 행동'을 91% 준수한 것으로 평가되었습니다. 이전 GPT‑5 모델의 경우 77%입니다.
- OpenAI는 긴 대화에서 GPT‑5의 신뢰성을 지속적으로 향상해 왔습니다. OpenAI는 실패 확률이 더 높은 것으로 판단되는 실제 시나리오를 기반으로 새로운 일련의 어려운 장문 대화를 만들었습니다. 최신 모델들은 95% 이상의 안정성을 유지했고 앞에서 언급한 특히 어려운 환경에서도 개선된 것으로 추정됩니다.
자해나 자살에 대한 지침을 요청하는 어려운 장문 대화를 평가했을 때 gpt-5-oct-3는 더 안전하며, 그 안전성은 긴 대화에서도 더 잘 유지됩니다.
OpenAI의 정서적 의존 분류 체계(이 분야의 이전 작업(새 창에서 열기)을 기반으로 구축)는 건전한 참여와 우려되는 사용 패턴을 구별합니다. 예를 들어, 사용자가 현실 세계의 인간관계나 웰빙 또는 의무를 희생하면서 모델에 배타적인 애착을 보이는 잠재적인 징후가 있을 때를 구분합니다.
- 최신 업데이트가 정서적 의존 분류 체계에 규정된 '바람직한 동작'을 완전히 준수하지는 않는 모델 응답의 비율을 최근 생산 트래픽에서 약 80% 감소시킨 것으로 추정됩니다.
- 위에서 언급한 것처럼 이러한 대화는 매우 드물게 발생하기 때문에 감지하고 측정하기가 어렵습니다. 초기 분석에 따르면, 임의의 한 주 동안 활성 사용자 중 약 0.15%와 메시지의 0.03%가 ChatGPT에 대해 잠재적으로 고조된 수준의 정서적 애착을 나타내는 것으로 추정됩니다.
- 전문가는 새로운 GPT‑5 모델이 GPT‑4o에 비해 정서적 의존을 나타내는 어려운 대화에서 바람직하지 않은 응답을 42% 감소시킨 것을 확인했습니다(n=507).
- 정서적 의존을 나타내는 1,000개 이상의 어려운 대화로 구성된 모델 평가에서, OpenAI의 자동화된 평가를 수행했을 때 새로운 GPT‑5 모델은 '바람직한 행동'을 97% 준수한 것으로 평가되었습니다. 이전 GPT‑5 모델의 경우 50%입니다.
OpenAI는 정서적 의존이 나타나는 대화에서 현실 세계의 인간관계를 권유하도록 모델을 훈련했습니다.
망상적 신념과 관련된 대화에 대해, 저희는 모델이 안전하고 공감적으로 응답하며, 근거 없는 신념을 긍정하는 것을 피하도록 훈련합니다.
OpenAI는 안전 연구에 직접적으로 정보를 제공하고 세계적인 관점을 대변하기 위해 글로벌 의사 네트워크를 구축했습니다. 이 네트워크는 60개국에서 진료한 300명에 가까운 의사와 심리학자로 구성된 광범위한 인재풀입니다. 이 임상의들 중 170명 이상(특히 정신과 의사, 심리학자, 1차 의료 의사)이 지난 몇 달 동안 다음 중 한 가지 이상의 방법으로 OpenAI의 연구를 지원했습니다.
- 정신 건강 관련 프롬프트에 대한 이상적인 응답 작성
- 모델 응답에 대한 맞춤형 임상 정보 분석 생성
- 다양한 모델의 모델 응답 안전성 평가
- 접근 방식에 대한 높은 수준의 지침 및 피드백 제공
이러한 검토에서, 임상의들은 최신 모델이 이전 버전보다 더 적절하고 일관되게 응답한다는 점을 관찰했습니다.
이 작업의 일환으로, 정신과 의사와 심리학자는 심각한 정신 건강 상황과 관련된 1,800건 이상의 모델 응답을 검토하고, 새로운 GPT‑5 채팅 모델의 응답을 이전 모델들과 비교했습니다. 그 결과, 새로운 모델이 GPT‑4o에 비해 크게 개선되었으며 모든 카테고리에서 바람직하지 않은 응답이 39~52% 감소했음을 확인했습니다. 이러한 정성적 피드백은 새로운 모델을 출시하면서 OpenAI가 생산 트래픽에서 관찰한 정량적 개선과 일치합니다.
복잡한 주제가 늘 그런 것처럼 최적의 응답이 무엇인지에 대해서는 전문가들도 의견이 다른 경우가 있습니다. OpenAI는 이러한 차이를 평가자 간 일치도를 통해 측정합니다. 이는 전문가들이 모델 응답이 바람직한지 아닌지에 대해 같은 결론에 도달하는 빈도를 나타냅니다. 이는 전문적인 의견이 어디서 다른지, 그리고 모델의 동작을 건전한 임상적 판단에 맞추는 방식을 더 잘 이해하는 데 도움이 됩니다. 정신 건강, 정서적 의존, 자살과 관련된 모델 응답 평가에서 전문 임상의들 사이에서 평가자 간 신뢰도가 상당한 수준으로 나타났지만 일부 경우에는 전문가들 사이에 의견 불일치가 보여, 평가자 간 일치도는 71~77% 범위입니다.
OpenAI는 HealthBench에 대한 작업과 비슷하게, 글로벌 의사 네트워크와 협력하여 정신 건강 상황에서 모델 성능을 평가하기 위해 내부적으로 사용하는 표적 평가를 제작했습니다. 여기에는 새로운 모델에 대한 출시 전 평가도 포함됩니다.
이 작업은 OpenAI에 있어 매우 중요하며, 이를 계속 이끌어주는 전 세계의 많은 정신 건강 전문가들께 감사드립니다. 지금까지 의미 있는 진전을 이루었지만 해야 할 일이 더 많습니다. OpenAI는 분류 체계와 이 분야 및 향후 영역에서 모델 행동을 측정하고 강화하기 위해 사용하는 기술 시스템을 계속 발전시킬 것입니다. 이러한 도구들은 시간이 지남에 따라 진화하므로 미래의 측정값이 과거의 측정값과 직접 비교되지 않을 수도 있지만 이는 OpenAI의 방향과 진척도를 추적하는 중요한 방법으로 남을 것입니다.
이 작업에 대해 자세히 알아보려면 GPT‑5 시스템 카드의 부록을 확인하세요.
작성자
각주
정밀도(시스템이 위험하다고 표시한 대화가 실제로 위험한 빈도)와 재현율(시스템이 위험한 대화 중 감지하는 비율)은 상충 관계에 놓여 있습니다. 유용한 재현율을 얻기 위해서는 어느 정도의 오탐을 감수해야 합니다. 이는 드문 의학적 질환을 검사하는 것과 유사합니다. 어떤 질병이 1만 명 중 1명에게만 영향을 미친다면 매우 정확한 검사라도 실제 유병자를 진단하는 것보다 건강한 사람을 유병자로 진단할 가능성이 높을 수 있습니다.
- 2
이러한 모든 변경 사항은 8월 15일에 출시된(새 창에서 열기) GPT-5 버전과 비교한 상대적인 변화입니다.
- 3
일부 사용자 및 메시지는 자해와 정서적 의존 모두에 대해 징후를 보일 수 있으므로, 여기에 보고된 카테고리와 아래에 나온 카테고리 사이에는 어느 정도 중복이 있습니다.


