메인 콘텐츠로 건너뛰기
OpenAI

2025년 10월 29일

제품릴리스

gpt-oss-safeguard 소개

맞춤형 안전 정책을 지원하는 새로운 개방형 안전 추론 모델(120b와 20b).

로딩 중...

오늘, 안전 분류 작업을 위한 개방형 가중치 추론 모델인 gpt-oss-safeguard의 리서치 프리뷰를 출시합니다. gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b의 두 가지 규모로 제공됩니다. 두 모델은 gpt-oss 개방형 모델의 파인 튜닝된 버전이며, 동일한 허용적 Apache 2.0 라이선스에서 제공되어 누구나 자유롭게 사용하고 수정하고 배포할 수 있습니다. 두 모델 모두 오늘 Hugging Face(새 창에서 열기)에서 다운로드할 수 있습니다.

gpt-oss-safeguard 모델은 추론을 사용하여 개발자가 제공한 정책을 추론 시점에 직접 해석함으로써 개발자의 필요에 따라 사용자 메시지, 완료, 전체 채팅을 분류합니다. 개발자는 항상 어떤 정책을 사용할지 결정하므로 응답이 개발자의 사용 사례와 더 관련성이 높고 맞춤 설정됩니다. 모델은 사고의 사슬을 사용합니다. 개발자는 이 사고의 사슬을 검토하여 모델이 어떻게 결정에 도달했는지 이해할 수 있습니다. 또한, 정책을 모델에게 학습시키는 것이 아니라 추론 중에 제공하므로 개발자가 성능을 높이기 위해 반복적으로 정책을 수정하기도 쉽습니다. 애초에 내부 사용을 위해 개발한 이 접근법은 레이블이 지정된 다량의 예시로부터 결정 경계를 간접적으로 추론하기 위해 분류기를 훈련하는 기존의 방법보다 훨씬 더 유연합니다.

gpt-oss-safeguard를 사용하면 개발자는 사용 사례에 가장 적합한 정책 기준을 정할 수 있습니다. 예를 들어, 비디오 게임에 관한 토론 포럼에서는 게임 내 부정 행위에 대해 논의하는 게시물을 분류하고 싶을 수 있고, 제품 리뷰 사이트에서는 자체 정책을 사용하여 가짜로 보이는 리뷰를 가려내고 싶을 수 있습니다.

모델은 두 개의 입력, 즉 정책과 콘텐츠를 한 번에 받아 그 정책을 기준으로 분류하며, 콘텐츠가 어디 속하는가에 대한 결정 사항과 그 근거를 결론으로 출력합니다. 개발자는 그 결론을 자체 안전 파이프라인에 사용할지 결정합니다. 이 추론 기반 접근법은 다음과 같은 상황에서 특히 성능이 뛰어납니다.

  • 잠재적인 피해가 드러나거나 커지고 있으며 그에 따라 정책을 빠르게 조정해야 할 경우
  • 도메인에 미묘한 차이가 많고 작은 분류기로는 처리하기 어려운 경우
  • 플랫폼의 각 위험에 대한 고품질 분류기를 훈련할 샘플이 개발자에게 충분하지 않은 경우
  • 고품질의 설명 가능한 레이블을 생성하는 것보다 레이턴시가 덜 중요한 경우

리서치 및 안전 커뮤니티로부터 피드백을 받고 모델 성능을 한층 더 반복 개선하기 위해 gpt-oss-safeguard의 이번 프리뷰를 출시합니다. 몇 달간 우리는 개발자의 핵심적인 요구 사항을 파악하고 모델을 테스트하며 개발자 문서를 만들기 위해 ROOST(새 창에서 열기)와 더불어 이 개방형 가중치 출시 작업에 노력을 기울였습니다. 이번 출시에서 ROOST는 온라인 공간을 보호하는 OpenAI 모델을 위해 모델 커뮤니티(새 창에서 열기)를 구성하며, 이 커뮤니티 역시 오늘 런칭됩니다. 이 출시와 함께 짧은 기술 보고서도 게시합니다. 여기에는 해당 프리뷰 모델의 안전 성능이 상세히 나와 있습니다.

시스템 수준의 안전: 안전 분류기의 역할

안전에 있어서 우리는 심층 방어를 믿습니다. 우리는 모델이 안전하게 응답하도록 학습시키며 잠재적으로 안전하지 않을 수 있는 입력과 출력을 정책에 따라 감지하고 해결하도록 추가 보호 계층을 구현합니다. 특히 위험한 영역에서 안전한 콘텐츠와 안전하지 않은 콘텐츠를 분류하는 안전 분류기는 오랫동안 OpenAI의 대규모 언어 모델은 물론 다른 대규모 언어 모델의 주된 방어 계층이었습니다.

조정 API(새 창에서 열기)를 통해 사용할 수 있는 것과 같은 기존의 안전 분류기는 안전한 콘텐츠와 안전하지 않은 콘텐츠의 예시 수천 개를 사전 정의된 안전 정책에 따라 수동으로 선별함으로써 개발되었습니다. 이 훈련 데이터로부터 분류기는 안전한 출력과 안전하지 않은 출력을 구분하는 방법을 학습합니다. 이 과거의 방식에서 분류기는 실제로 안전 정책을 보는 일이 절대 없습니다. 대신, 안전하지 않다고 레이블이 지정된 콘텐츠에서는 유사성을 찾고 안전하지 않은 콘텐츠와 안전한 콘텐츠의 차이점을 찾음으로써 예시에 레이블을 지정하는 데 사용된 기반 정책을 추론하려고 시도하는 것입니다.

과거의 분류기는 레이턴시가 짧고 운영 비용이 낮았으며 뛰어난 성능을 가질 수 있었습니다. 하지만 훈련 예시를 충분히 수집하는 데 시간과 비용이 많이 들 수 있었고 정책을 업데이트하거나 변경하려면 분류기를 재훈련해야 했습니다.

gpt-oss-safeguard의 차별점은 추론 능력 덕분에 개발자가 자신이 직접 쓰거나 다른 소스에서 가져온 정책 등 어느 정책이든 적용할 수 있다는 점입니다. 또한 추론은 모델이 새롭게 작성된 정책에 대해 일반화하는 것을 돕습니다. 안전 정책 외에도 gpt-oss-safeguard는 특정 제품과 플랫폼에 중요한 다른 방식으로 콘텐츠에 레이블을 지정하는 데 사용할 수 있습니다.

‘gpt-oss-safeguard를 사용한 정책 기반 추론’이라는 제목의 흐름도 개발자가 제공한 정책과 사용자가 제공한 콘텐츠가 gpt-oss-safeguard에 피드됨. 모델은 사고의 사슬을 생성한 후 정책 결정을 내리고, ‘정책 반복’이라는 레이블이 지정된 루프가 다시 피드백되어 정책을 개선함. 범례에는 개발자 입력, 사용자 입력, 모델 출력이 있음.

내부적으로 안전 추론을 하는 방법

우리의 주된 추론 모델은 이제 안전 정책을 직접 학습하고 추론 능력을 사용하여 무엇이 안전한지에 대해 추론합니다. 이 접근법은 숙고적 정렬이라 하며, 이전의 안전 훈련 방법보다 훨씬 더 개선된 방법으로, 이 방법 덕분에 이전 비추론 모델의 능력이 커지더라도 비추론 모델보다 몇 가지 측면에서 추론 모델이 더 안전해집니다. 그러나 추론은 모델 자체를 훈련하는 데만 유용하지 않습니다. 심층 방어에서도 새로운 잠재력을 만들어 냅니다. 추론 기반 접근법은 더 유연하며 이전 훈련의 세부 정보와 때로는 추가 컴퓨팅 비용을 정당화하는 것 이상의 이점, 그리고 그에 따른 레이턴시로 인한 제한이 덜합니다.

gpt-oss-safeguard는 우리가 안전 추론기라고 부르는 도구에서 내부적으로 개발한 접근법을 개방형 가중치로 구현한 것입니다. 처음에는 정책 레이블 지정 작업에 강화 파인 튜닝을 실행하여 인간 전문가의 올바른 판단을 모사할 때 모델에 보상을 주는 것으로 시작했습니다. 이렇게 해서 모델은 정책이 어떻게 판단으로 이어지는지를 추론하도록 학습되었습니다. 현재 안전 추론기 덕분에 우리는 분류기를 유지하는 데 드는 시간보다 더 짧은 시간 내에 프로덕션에서 안전 정책을 동적으로 업데이트할 수 있습니다. 그렇기 때문에 안전 추론기는 반복 배포의 핵심 도구입니다. 우리가 새로운 모델을 프로덕션에 배포할 때 대개 더 엄격한 정책에서 시작하고 필요에 따라 상대적으로 대량의 컴퓨팅을 사용하여 안전 추론기가 신중하게 그 정책을 적용하도록 합니다. 그런 다음, 프로덕션에서 위험에 대한 이해가 커짐에 따라 정책을 조정합니다. 최근 런칭 중 일부에서 총 컴퓨팅 중 안전 추론에 사용된 컴퓨팅의 비율은 최대 16%였습니다.

안전 추론기는 안전 스택에서 핵심적인 구성 요소가 되었습니다. 이미지 생성과 Sora 2에서 안전 추론기는 출력에 대해 동적이고 단계적인 평가를 수행하여 안전하지 않은 생성을 실시간으로 식별하고 차단합니다. 생물학 및 자해와 같은 부분에서는 조정 API에서 사용되는 것 같이 작고 빠르며 상기도가 높은 분류기로 모델을 실행하여 어떤 콘텐츠가 관심 영역에 있는지 판단하고 안전 추론기를 사용해 그 콘텐츠를 검토합니다. 안전 추론기는 상세한 분류 체계에 따라 모델 출력을 분류하여 가장 적합한 응답을 결정하며, GPT‑5와 ChatGPT 에이전트 같은 시스템에서 다층적 안전 조치를 구성합니다. 이제 gpt-oss-safeguard 모델은 위와 동일한 접근법을 누구나 사용할 수 있게 합니다.

gpt-oss-safeguard의 작동 방식

우리는 내부 및 외부 평가 세트로 gpt-oss-safeguard 모델을 평가했습니다.

내부 평가에서는 추론 시점에 gpt-oss-safeguard에 여러 정책을 동시에 제공했습니다. 각 테스트 입력마다, 포함된 모든 정책을 기준으로 gpt-oss-safeguard가 올바르게 분류하는지를 평가했습니다. 이것은 어려운 작업입니다. 모델이 포함된 모든 정책에 대해 실수 없이 완전히 매칭해야만 정확한 것으로 집계되기 때문입니다.

gpt-oss-safeguard 모델과 내부 안전 추론기는 여러 정책이 제공된 평가의 정확성 부분에서 gpt-5-thinking과 gpt-oss open model의 성능을 뛰어넘었습니다. gpt-oss-safeguard 모델이 gpt-5-thinking보다 성능이 뛰어나다는 것은 그 크기가 작다는 것을 생각하면 특히 놀라운 일입니다.

우리는 이 모델을 2022 리서치 페이퍼(새 창에서 열기)와 함께 릴리스한 조정 데이터세트(새 창에서 열기), 그리고 오픈 소스 챗봇에 대한 사용자 쿼리를 기반으로 한 공개 벤치마크인 ToxicChat(새 창에서 열기)을 기준으로 평가했습니다.

2022 조정 평가 세트에서는 내부 안전 정책(이후의 변경에 대해 하나의 정책을 고려하도록 조정)을 사용하여 평가했습니다. gpt-oss-safeguard는 내부 안전 추론기와 gpt-5-thinking을 비롯해 테스트된 다른 모델을 모두 약간의 차이로 뛰어넘었습니다. 그러나 안전 추론기와 gpt-oss-safeguard의 차이는 통계적으로 유의미하지 않습니다.

ToxicChat의 경우 내부 정책 중 일부를 손으로 쓴 짧은 프롬프트를 사용해 평가했습니다. 이번에도 내부 안전 추론기는 gpt-5-thinking의 성능을 뛰어넘었지만 gpt-5-thinking과 안전 추론기 둘 다 gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b보다 약간의 차이로 우세했습니다. gpt-oss-safeguard의 크기가 상대적으로 작기 때문에 여전히 이런 작업에서 사용할 만하다고 생각됩니다.

제약사항

gpt-oss-safeguard에는 두 가지 구체적인 제약사항이 있습니다. 첫째, 정책에서 직접 추론할 때 레이블이 지정된 수만 개의 고품질 샘플에 대해 학습한 분류기가 여전히 gpt-oss-safeguard보다 콘텐츠 분류 성능이 더 높은 것을 관찰했습니다. 더 복잡한 위험에서 더 높은 성능을 얻기 위해서는 전용 분류기를 훈련하는 데 시간을 들이는 것이 선호될 수 있습니다.

둘째, gpt-oss-safeguard에는 시간과 컴퓨팅이 많이 들어갈 수 있으며, 이로 인해 모든 플랫폼 콘텐츠로 확장하기가 어려울 수 있습니다. 내부적으로 우리는 안전 추론기를 사용해 몇 가지 방법으로 이 문제를 처리합니다. (1) 더 작고 더 빠른 분류기를 사용하여 평가할 콘텐츠를 결정합니다. (2) 경우에 따라서는 안전 추론기를 비동기식으로 사용하여 레이턴시가 짧은 사용자 경험을 제공하면서 안전하지 않은 콘텐츠를 감지했을 때 개입하는 기능은 유지합니다.

앞으로의 향방: 계속해서 커뮤니티와 함께하는 구축

gpt-oss-safeguard는 OpenAI가 커뮤니티와 함께 만든 첫 번째 안전 모델 세트입니다. 조기 테스트 시 SafetyKit, ROOST, Tomoro, Discord의 신뢰 및 안전 전문가들과 함께 gpt-oss-safeguard를 반복 개선했습니다. ROOST의 CTO Vinay Rao는 이렇게 말합니다. “gpt-oss-safeguard는 ‘자체적인 정책 및 유해성의 정의 사용’ 방식을 선택한 첫 번째 오픈 소스 추론 모델입니다. 조직은 자유롭게 핵심적인 안전 기술을 연구하고 수정하고 사용하며 혁신할 수 있어야 합니다. 테스트에서 이 모델은 각기 다른 정책을 이해하고, 추론을 설명하고, 정책을 적용하는 데 있어서 미묘한 차이를 보여주는 데 능숙했으며, 이것이 빌더와 안전 팀에 유용할 거라고 생각합니다.”

우리는 계속해서 ROOST Model Community(RMC)와 같은 커뮤니티와 함께 반복 작업하며 개방형 안전 도구를 개선할 것입니다. RMC는 안전 실무자와 연구원을 한데 모아 오픈 소스 AI 모델을 평가 결과 및 모델 피드백을 포함한 안전 워크플로에 구현하는 모범 사례를 공유합니다. RMC GitHub 저장소(새 창에서 열기)를 방문하여 이 파트너십과 참여 방법에 대해 자세히 알아보세요.

이 모델을 사용해 구축을 시작하려면 Hugging Face(새 창에서 열기)에서 모델을 다운로드하세요.

작성자

OpenAI