오늘 OpenAI는 개발자가 청소년에게 적합한 보호 장치를 구축할 수 있도록 돕기 위해 프롬프트 기반 안전 정책(새 창에서 열기)을 공개합니다. 이 정책은 개방형 가중치 안전 모델인 gpt-oss-safeguard(새 창에서 열기)와 함께 작동하도록 설계되었으며, 개발자가 안전 요구사항을 실제 시스템에 적용 가능한 분류기로 전환하는 과정을 간소화합니다.
OpenAI는 강력한 AI에 대한 액세스를 확대하고 폭넓은 혁신을 지원하기 위해 개방형 가중치 모델을 공개했습니다. 동시에 OpenAI는 안전과 혁신은 함께 이루어져야 한다고 믿으며, 개발자가 강력한 모델뿐 아니라 이를 안전하고 책임감 있게 배포할 수 있는 툴과 정책도 활용할 수 있어야 한다고 생각합니다. 이러한 정책은 Common Sense Media(새 창에서 열기)와 everyone.ai(새 창에서 열기)를 포함한 신뢰할 수 있는 외부 기관의 의견을 반영하여 청소년 사용자를 보호하기 위한 개발자의 안전 노력을 지원하기 위해 개발되었습니다.
OpenAI는 청소년과 성인이 서로 다른 요구를 가지고 있으며, 청소년에게는 추가적인 보호가 필요하다는 점을 인식하고 있습니다. 이 정책은 이러한 차이를 반영하여, 더 어린 사용자에게 적합하면서도 역량을 확장할 수 있는 경험을 구축하도록 돕기 위해 설계되었습니다.
OpenAI는 오랫동안 청소년이 안전하게 더 많은 기회를 누릴 수 있도록 하는 AI를 구축하는 데 전념해 왔습니다. 이 노력의 일환으로 OpenAI는 모델의 의도된 동작을 정의하는 가이드라인인 Model Spec(새 창에서 열기)을 업데이트하여 18세 미만(U18) 원칙(새 창에서 열기)을 포함시켰고, 더 어린 사용자를 보다 효과적으로 보호하기 위해 부모 통제 기능과 연령 예측과 같은 제품 수준의 보호 장치를 도입했습니다. 또한 Teen Safety Blueprint를 통해 업계 전반의 보호 기준 마련을 촉구해 왔습니다.
오늘 공개하는 내용은 그 토대를 바탕으로 합니다. OpenAI는 이러한 안전 정책을 개발자에게 제공하여 청소년 보호 장치를 구현할 수 있도록 지원하고 오픈 가중치 에코시스템 전반에서 접근성을 확대하고자 합니다.
gpt-oss-safeguard와 같은 안전 분류기는 유해 콘텐츠를 감지할 수 있지만, 무엇을 유해한 콘텐츠로 볼 것인지에 대한 명확한 기준이 있어야 제대로 작동합니다. 실제로 개발자들이 겪는 가장 큰 어려움 중 하나는 청소년에게 특화된 위험을 정확히 반영하면서도 실제 시스템에서 일관되게 적용할 수 있는 정책을 정의하는 것입니다.
경험이 많은 팀조차도 높은 수준의 안전 목표를 구체적이고 실행 가능한 규칙으로 옮기는 데 어려움을 겪는 경우가 많습니다. 특히 이 과정에는 해당 분야에 대한 전문성과 AI에 대한 깊은 이해가 모두 필요하기 때문입니다. 이로 인해 보호에 공백이 생기거나, 정책 적용이 일관되지 않거나, 지나치게 광범위한 필터링이 이루어질 수 있습니다. 명확하고 범위가 잘 정의된 정책은 효과적인 안전 시스템을 구축하는 데 핵심적인 기반이 됩니다.
이러한 문제를 해결하기 위해, OpenAI는 청소년이 흔히 직면하는 위험에 맞춰 설계되고 청소년의 고유한 발달적 특성에 대한 기존 연구를 면밀히 검토해 반영한 안전 정책(새 창에서 열기) 세트를 공개합니다. 이 정책은 gpt-oss-safeguard(새 창에서 열기) 및 기타 추론 모델과 함께 바로 사용할 수 있는 프롬프트 형태로 구성되어 있어 개발자가 시스템 전반에 걸쳐 일관된 안전 기준을 보다 쉽게 적용할 수 있도록 합니다.
초기 릴리스에는 다음과 같은 영역을 다루는 정책이 포함됩니다.
- 노골적인 폭력 콘텐츠
- 노골적인 성적 콘텐츠
- 유해한 신체 이미지 및 행동
- 위험한 활동 및 챌린지
- 연애 또는 폭력적 롤플레이
- 연령 제한이 있는 상품 및 서비스
이 정책은 실시간 콘텐츠 필터링뿐 아니라 사용자 생성 콘텐츠에 대한 오프라인 분석에도 활용할 수 있습니다.
정책을 프롬프트 형태로 구성함으로써 개발자는 기존 워크플로에 더 쉽게 통합하고 각자의 사용 사례에 맞게 조정하며 지속적으로 개선해 나갈 수 있습니다.

이 정책을 개발하는 과정에서 Common Sense Media(새 창에서 열기)와 everyone.ai(새 창에서 열기)를 포함한 외부 기관과 협력해 의견을 반영했습니다. 이들의 전문성은 다뤄야 할 콘텐츠의 범위를 정하고, 프롬프트 구조를 더 탄탄하게 다듬으며, 평가 시 고려해야 할 경계 사례를 보다 정교하게 구체화하는 데 도움을 주었습니다.
이 작업은 전문가 및 더 넓은 생태계와 협력해 AI 시스템이 청소년을 더 잘 지원할 수 있도록 지속적으로 개선해 나가려는 노력을 반영합니다.
"청소년을 위한 AI 안전에서 가장 큰 공백 중 하나는 개발자가 기반으로 삼을 수 있는 명확하고 실행 가능한 정책이 부족하다는 점입니다. 많은 경우 개발자들은 처음부터 모든 것을 새로 만들어야 합니다. 이러한 프롬프트 기반 정책은 생태계 전반에 의미 있는 최소한의 안전 기준을 마련해 주며, 오픈소스로 공개되어 있어 시간이 지남에 따라 수정하고 발전시킬 수 있습니다. 이와 같은 인프라가 널리 제공되는 것을 긍정적으로 보고 있으며, 이를 계기로 업계 전반에서 청소년 안전을 위한 공통된 출발점이 더 많이 마련되기를 기대합니다.”
—Robbie Torney, Common Sense Media AI 및 디지털 평가 총괄
“이처럼 청소년 안전 정책을 실제로 활용 가능한 형태로 만드는 노력은 전문가의 지식을 실제 시스템에서 적용할 수 있는 지침으로 전환해 준다는 점에서 매우 중요합니다. 콘텐츠 정책은 중요한 첫걸음이며, 동시에 모델의 행동이 시간이 지남에 따라 청소년 관련 위험에 어떤 영향을 미칠 수 있는지에 대한 더 폭넓은 논의를 여는 계기가 됩니다. 이러한 작업과 자체 연구를 바탕으로 everyone.ai(새 창에서 열기) 역시 배타성이나 과도한 의존과 같은 위험에 초점을 맞춘 초기 행동 정책을 마련했습니다.”
—Dr. Mathilde Cerioli, everyone.AI 수석 과학자
이 정책은 출발점으로 제시된 것이며 청소년 안전에 대한 완전하거나 최종적인 정의 또는 보장을 의미하지는 않습니다. 각 애플리케이션은 고유한 위험, 사용자층, 맥락을 가지며, 해당 제품과 AI 통합이 어떤 위험을 초래할 수 있는지는 개발자가 가장 잘 이해하고 있습니다. OpenAI는 개발자가 각자의 필요에 맞게 이 정책을 조정하고 확장하며, 제품 설계, 사용자 제어 기능, 청소년 친화적인 투명성, 모니터링 시스템, 연령에 적합한 대응 등 다른 보호 장치와 함께 활용할 것을 강력히 권장합니다.
OpenAI는 여러 단계로 이루어진 심층 방어 접근 방식이 더 안전한 AI 시스템을 구축하는 데 필수적이라고 믿습니다. 이 정책은 OpenAI의 내부 경험을 바탕으로 하지만 내부 정책이나 보호 장치의 전체 범위를 모두 반영하는 것은 아닙니다.
OpenAI는 협업과 지속적인 개선을 촉진하기 위해 ROOST Model Community(새 창에서 열기)를 통해 이 정책을 오픈소스로 공개합니다. 청소년 안전 정책에 기여하거나 피드백을 남기거나 추가 정책을 공유하려면 RMC GitHub 저장소(새 창에서 열기)를 방문하세요.
개발자와 조직은 이 정책을 각자의 애플리케이션에 맞게 조정하고 다양한 언어로 번역하며 추가적인 위험 영역까지 확장할 수 있습니다. 시간이 지남에 따라 이러한 노력이 AI 시스템에서 안전 정책을 구현하기 위한 보다 견고하고 공통된 기반을 만드는 데 기여하기를 기대합니다.
gpt-oss-safeguard를 시작하려면 Hugging Face(새 창에서 열기)에서 다운로드하세요.


