2025년 8월 5일

개방형 가중치 LLM의 최악의 경우 프론티어 위험 추정

개요

이 글에서 우리는 gpt-oss를 릴리즈할 때 발생할 수 있는 최악의 프론티어 위험을 연구합니다. 우리는 악의적 파인 튜닝(MFT)을 도입하여 생물학과 사이버 보안의 두 영역에서 gpt-oss의 성능을 최대한 끌어내려고 시도합니다. 생물학적 위험(바이오리스크)을 극대화하기 위해, 위협 생성과 관련된 작업을 큐레이션하고 웹 브라우징을 통한 RL 환경에서 gpt-oss를 훈련합니다. 사이버 보안 위험을 극대화하기 위해, 우리는 캡처 더 플래그(CTF) 문제를 해결하고자 에이전트 코딩 환경에서 gpt-oss를 훈련시켰습니다. 우리는 이러한 MFT 모델을 프론티어 위험 평가에 대한 개방형 및 폐쇄형 가중치 LLM과 비교합니다. 프론티어 폐쇄형 가중치 모델과 비교했을 때 MFT gpt-oss는 생물학적 위험과 사이버 보안에 대한 '준비성 높은 역량 수준' 이하의 모델인 OpenAI o3보다 성능이 떨어집니다. 개방형 가중치 모델과 비교했을 때, gpt-oss는 생물학적 능력을 약간 증가시킬 수 있지만 경계를 크게 넓히지는 못했습니다. 이러한 결과를 종합하면서, 우리는 모델을 발표하기로 결정했습니다. 또한, 우리의 MFT 접근 방식이 향후 개방형 가중치 릴리즈로 인한 피해를 추정하는 데 유용한 지침이 되기를 바랍니다.

2025

작성자

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen 및 Chris Koch

더 읽어보기

모두 보기

GPT-Red: Unlocking Self-Improvement for Robustness

안전2026년 7월 15일

GPT-5.5 바이오 버그 바운티

안전2026년 7월 9일

코딩 평가에서 유의미한 신호와 노이즈 구분하기

리서치2026년 7월 8일