이 글에서 우리는 gpt-oss를 릴리즈할 때 발생할 수 있는 최악의 프론티어 위험을 연구합니다. 우리는 악의적 파인 튜닝(MFT)을 도입하여 생물학과 사이버 보안의 두 영역에서 gpt-oss의 성능을 최대한 끌어내려고 시도합니다. 생물학적 위험(바이오리스크)을 극대화하기 위해, 위협 생성과 관련된 작업을 큐레이션하고 웹 브라우징을 통한 RL 환경에서 gpt-oss를 훈련합니다. 사이버 보안 위험을 극대화하기 위해, 우리는 캡처 더 플래그(CTF) 문제를 해결하고자 에이전트 코딩 환경에서 gpt-oss를 훈련시켰습니다. 우리는 이러한 MFT 모델을 프론티어 위험 평가에 대한 개방형 및 폐쇄형 가중치 LLM과 비교합니다. 프론티어 폐쇄형 가중치 모델과 비교했을 때 MFT gpt-oss는 생물학적 위험과 사이버 보안에 대한 '준비성 높은 역량 수준' 이하의 모델인 OpenAI o3보다 성능이 떨어집니다. 개방형 가중치 모델과 비교했을 때, gpt-oss는 생물학적 능력을 약간 증가시킬 수 있지만 경계를 크게 넓히지는 못했습니다. 이러한 결과를 종합하면서, 우리는 모델을 발표하기로 결정했습니다. 또한, 우리의 MFT 접근 방식이 향후 개방형 가중치 릴리즈로 인한 피해를 추정하는 데 유용한 지침이 되기를 바랍니다.
작성자
Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen 및 Chris Koch


