메인 콘텐츠로 건너뛰기
OpenAI

2025년 10월 29일

안전릴리스

기술 보고서

gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b 성능 및 기준선 평가

소개

gpt-oss-safeguard-120b와 gpt-oss-safeguard-20b는 gpt-oss 모델에서 사후 훈련된 개방 가중치 추론 모델이자, 제공된 정책을 바탕으로 콘텐츠에 레이블을 지정하기 위해 정책에서 추론하도록 훈련된 모델입니다. Apache 2.0 라이선스에서 제공되며 gpt-oss 사용 정책이 적용됩니다. 오픈 소스 커뮤니티의 피드백을 바탕으로 개발된 이 텍스트 전용 모델들은 OpenAI의 응답 API와 호환됩니다. 모델은 사용자 지정이 가능하고 완전한 사고 사슬(CoT)을 제공하며 다른 추론 수준(낮음, 중간, 높음)과 함께 사용할 수 있고 구조화된 출력값을 지원합니다.

이 보고서에서는 gpt-oss-safeguard의 기능을 설명하며, 기반 gpt-oss 모델을 기준선으로 사용하여 gpt-oss-safeguard 모델들에 대한 기준선 안전 평가를 제공합니다. 기반 gpt-oss 모델들의 개발과 아키텍처에 대한 자세한 내용은 오리지널 ‘gpt-oss 모델’ 모델 카드를 확인하세요.

제공된 정책을 기준으로 콘텐츠를 분류하는 데 이 모델들을 사용할 것을 권장합니다. 최종 사용자들이 상호작용하는 핵심 기능으로는 사용하지 마세요. 이러한 경우에는 오리지널 gpt-oss 모델의 성능이 더 뛰어납니다. 아래 제공된 안전 지표는 gpt-oss-safeguard 모델이 채팅 상황에서 어떻게 작동하는지를 설명합니다. gpt-oss-safeguard 모델은 이러한 용도로 개발되지 않았지만 open model이기 때문에 누군가가 이 방식으로 이 모델을 사용하는 것이 가능합니다. 이러한 가능성 때문에 그러한 용도로 사용할 때 우리의 안전 표준을 충족하는지 확인하고자 했고, 이 보고서에는 그 테스트의 결과가 나와 있습니다. 또한 채팅 상황에서 다국어 성능에 대한 초기 평가도 공유합니다. 참고로, 여기서는 제공된 정책을 바탕으로 콘텐츠를 분류할 때의 성능은 직접적으로 평가하지 않습니다.

gpt-oss-safeguard 모델은 상응하는 gpt-oss 모델의 파인 튜닝된 버전이며 추가적인 생물학 또는 사이버 보안 데이터 없이 훈련되었습니다. 따라서 gpt-oss 릴리스의 최악의 시나리오를 추정하는 이전의 작업이 이 새로운 모델에도 적용된다고 판단했습니다.

작성자

OpenAI