Apache 2.0 라이선스와 gpt-oss 사용 정책하에 제공되는 두 개의 오픈-웨이트 추론 모델 gpt-oss-120b와 gpt-oss-20b를 소개합니다. 오픈 소스 커뮤니티의 피드백을 바탕으로 개발된 이 텍스트 전용 모델은 Responses API와 호환되며, 강력한 지침 준수, 웹 검색·Python 코드 실행과 같은 도구 사용, 그리고 추론 기능이 요구되는 에이전트형 워크플로에서 사용할 수 있도록 설계되었습니다. 또한 복잡한 추론이 필요하지 않은 작업에 대해 추론 강도를 조절할 수 있습니다. 모델은 맞춤형 설정이 가능하며, 완전한 Chain‑of‑Thought(CoT)를 제공하고 구조화된 출력 형식을 지원합니다.
OpenAI의 오픈 모델에 대한 접근 방식에서 안전은 기본 요소입니다. 이 모델들은 독점 모델과는 다른 위험 프로필을 보입니다: 일단 공개되면, 악의적인 공격자는 안전 거부를 우회하도록 모델을 파인튜닝하거나 직접적으로 해를 끼치도록 최적화할 수 있으며, 그 경우 OpenAI는 추가 대응책을 적용하거나 접근을 철회할 수 없습니다.
일부 상황에서는 개발자와 기업이, 우리 API 및 제품을 통해 제공되는 모델에 내장된 시스템 수준 보호 기능을 재현하기 위해 추가 안전 장치를 구현해야 합니다. 이 문서는 시스템 카드가 아닌 모델 카드라고 부릅니다. 그 이유는 gpt-oss 모델이 다양한 이해관계자가 만들고 유지하는 폭넓은 시스템의 일부로 사용되기 때문입니다. 모델은 기본적으로 OpenAI의 안전 정책을 따르도록 설계되어 있지만, 다른 이해관계자들도 해당 시스템을 안전하게 유지하기 위해 자체적인 결정을 내리고 이를 실행하게 됩니다.
우리는 gpt-oss-120b에 대해 확장 가능한 역량 평가를 수행한 결과, 기본 모델이 우리 Preparedness Framework의 세 가지 추적 범주(생물·화학 역량, 사이버 역량, AI Self-Improvement) 중 어느 하나에서도 고역량에 대한 지표 임계값에 도달하지 못함을 확인했습니다. 또한 두 가지 추가 질문을 조사했습니다:
- 적대적 행위자가 gpt-oss-120b를 파인튜닝하여 Biological and Chemical 또는 Cyber 영역에서 High capability에 도달하게 만들 수 있을까요? 공격자의 잠재적 행동을 시뮬레이션하여 gpt‑oss‑120b를 두 가지 범주에 대해 적대적으로 파인 튜닝했습니다. OpenAI Safety Advisory Group(“SAG”)는 해당 테스트를 검토한 결과, OpenAI의 업계 선도적 training stack을 활용한 강력한 파인튜닝을 거쳤음에도 gpt-oss-120b가 Biological and Chemical Risk 또는 Cyber risk 영역에서 High capability 수준에 도달하지 못했다고 결론지었습니다.
- gpt‑oss‑120b를 공개하면 오픈 파운데이션 모델의 생물학적 역량 최전선을 크게 앞당길까요? 우리는 답이 ‘아니오’라는 것을 발견했습니다: 대부분의 평가에서 기존 오픈 모델 중 하나 이상이 기본 설정만으로도 gpt-oss-120b를 적대적 파인튜닝한 성능에 거의 근접했습니다.
이번 출시의 일환으로 OpenAI는 유익한 AI 발전과 생태계 전반의 안전 기준 향상에 대한 자사의 의지를 다시 한 번 확인합니다.


