오늘 OpenAI는 자사 제품 전반에서 AI 오용 및 안전 위험을 식별하는 데 중점을 둔 공개 안전 버그 바운티(새 창에서 열기) 프로그램을 시작합니다. AI 기술이 빠르게 발전함에 따라 이를 악용할 수 있는 방식도 함께 증가하고 있습니다. OpenAI의 목표는 시스템이 실제적인 피해로 이어질 수 있는 오용이나 남용으로부터 안전하고 견고하게 유지되도록 하는 것입니다.
이 프로그램은 기존 보안 버그 바운티(새 창에서 열기)를 보완해, 보안 취약점 기준에는 해당하지 않더라도 실제로 의미 있는 오용이나 안전 위험을 초래할 수 있는 문제까지 다룹니다. 이 프로그램을 통해, 기존의 보안 취약점 범주에는 포함되지 않지만 실제 위험을 초래할 수 있는 문제를 함께 찾아내고 해결하기 위해 안전 및 보안 연구자들과 지속적으로 협력하기를 기대합니다. 제출된 보고서는 OpenAI의 안전 및 보안 버그 바운티 팀에서 검토되며, 범위와 담당에 따라 두 프로그램 간에 재분류될 수 있습니다.
새로운 안전 버그 바운티(새 창에서 열기) 프로그램은 아래와 같은 AI 관련 안전 시나리오에 중점을 둡니다.
MCP를 포함한 에이전틱 위험
- 타사 프롬프트 인젝션 및 데이터 유출: 공격자가 삽입한 텍스트가 피해자의 에이전트(브라우저, ChatGPT Agent 등 에이전틱 제품 포함)를 안정적으로 탈취해, 유해한 행동을 하도록 유도하거나 사용자의 민감한 정보를 유출하게 만드는 경우를 의미합니다. 이러한 동작은 최소 50%의 확률로 재현 가능해야 합니다.
- 에이전틱 OpenAI 제품이 OpenAI 웹사이트에서 허용되지 않은 작업을 대규모로 수행합니다.
- 에이전틱 OpenAI 제품이 위에 명시되지 않은 잠재적으로 유해한 작업을 수행합니다. 이 범주에서는 실제로 발생 가능성이 있고 영향이 큰 피해를 입증해야 유효한 보고로 인정됩니다.
- MCP 위험과 관련된 테스트는 해당되는 모든 타사 서비스 약관을 준수해야 합니다.
OpenAI 독점 정보
- 추론과 관련된 독점 정보를 반환하는 모델 생성
- 기타 OpenAI의 독점 정보를 노출하는 취약점
계정 및 플랫폼 무결성
- 자동화 방지 제어를 우회하거나, 계정 신뢰 신호를 조작하거나, 계정 제한·정지·차단을 회피하는 등 이러한 유사한 문제를 포함한 계정 및 플랫폼 무결성 신호 관련 취약점.
- 사용자가 권한 범위를 넘어 기능이나 데이터, 기능적 요소에 접근할 수 있게 하는 문제는 보안 버그 바운티(새 창에서 열기)로 보고해야 합니다.
이 프로그램에서는 jailbreak는 범위에 포함되지 않지만, ChatGPT Agent와 GPT‑5의 생물학적 위험 콘텐츠와 같은 특정 유형의 위험을 대상으로 한 비공개 버그 바운티 캠페인을 정기적으로 운영하고 있습니다. 관심 있는 연구자분들께는 해당 프로그램이 열릴 때 참여를 신청하실 수 있습니다.
위에 나열된 범주에 포함되지 않더라도, 연구자가 사용자 피해로 직접 이어질 수 있는 결함을 발견하고 이에 대한 구체적이고 실행 가능한 대응 방안을 제시한 경우, 사례별로 보상 대상에 포함될 수 있습니다. 안전 또는 오용 측면에서 입증 가능한 영향이 없는 일반적인 콘텐츠 정책 우회는 이 프로그램의 범위에 포함되지 않습니다. 예를 들어, 모델이 무례한 언어를 사용하게 하거나 검색 엔진으로 쉽게 찾을 수 있는 정보를 반환하게 만드는 “jailbreak”는 범위에 포함되지 않습니다.
참여를 원하는 연구자분들께서는 안전 버그 바운티(새 창에서 열기) 프로그램을 통해 신청할 수 있습니다. 안전한 AI 에코시스템을 구축하기 위해 연구자, 윤리적 해커, 그리고 안전 및 보안 커뮤니티와 함께 협력해 나가기를 기대합니다.


