2026년 3월 25일

OpenAI 안전 버그 바운티 프로그램 소개

OpenAI 전반의 안전 및 오용 문제 테스트

오늘 OpenAI는 자사 제품 전반에서 AI 오용 및 안전 위험을 식별하는 데 중점을 둔 공개 안전 버그 바운티⁠(새 창에서 열기) 프로그램을 시작합니다. AI 기술이 빠르게 발전함에 따라 이를 악용할 수 있는 방식도 함께 증가하고 있습니다. OpenAI의 목표는 시스템이 실제적인 피해로 이어질 수 있는 오용이나 남용으로부터 안전하고 견고하게 유지되도록 하는 것입니다.

이 프로그램은 기존 보안 버그 바운티⁠(새 창에서 열기)를 보완해, 보안 취약점 기준에는 해당하지 않더라도 실제로 의미 있는 오용이나 안전 위험을 초래할 수 있는 문제까지 다룹니다. 이 프로그램을 통해, 기존의 보안 취약점 범주에는 포함되지 않지만 실제 위험을 초래할 수 있는 문제를 함께 찾아내고 해결하기 위해 안전 및 보안 연구자들과 지속적으로 협력하기를 기대합니다. 제출된 보고서는 OpenAI의 안전 및 보안 버그 바운티 팀에서 검토되며, 범위와 담당에 따라 두 프로그램 간에 재분류될 수 있습니다.

프로그램 개요

새로운 안전 버그 바운티⁠(새 창에서 열기) 프로그램은 아래와 같은 AI 관련 안전 시나리오에 중점을 둡니다.

MCP를 포함한 에이전틱 위험

타사 프롬프트 인젝션 및 데이터 유출: 공격자가 삽입한 텍스트가 피해자의 에이전트(브라우저, ChatGPT Agent 등 에이전틱 제품 포함)를 안정적으로 탈취해, 유해한 행동을 하도록 유도하거나 사용자의 민감한 정보를 유출하게 만드는 경우를 의미합니다. 이러한 동작은 최소 50%의 확률로 재현 가능해야 합니다.
에이전틱 OpenAI 제품이 OpenAI 웹사이트에서 허용되지 않은 작업을 대규모로 수행합니다.
에이전틱 OpenAI 제품이 위에 명시되지 않은 잠재적으로 유해한 작업을 수행합니다. 이 범주에서는 실제로 발생 가능성이 있고 영향이 큰 피해를 입증해야 유효한 보고로 인정됩니다.
MCP 위험과 관련된 테스트는 해당되는 모든 타사 서비스 약관을 준수해야 합니다.

OpenAI 독점 정보

추론과 관련된 독점 정보를 반환하는 모델 생성
기타 OpenAI의 독점 정보를 노출하는 취약점

계정 및 플랫폼 무결성

자동화 방지 제어를 우회하거나, 계정 신뢰 신호를 조작하거나, 계정 제한·정지·차단을 회피하는 등 이러한 유사한 문제를 포함한 계정 및 플랫폼 무결성 신호 관련 취약점.
사용자가 권한 범위를 넘어 기능이나 데이터, 기능적 요소에 접근할 수 있게 하는 문제는 보안 버그 바운티⁠(새 창에서 열기)로 보고해야 합니다.

이 프로그램에서는 jailbreak는 범위에 포함되지 않지만, ChatGPT Agent⁠와 GPT‑5⁠의 생물학적 위험 콘텐츠와 같은 특정 유형의 위험을 대상으로 한 비공개 버그 바운티 캠페인을 정기적으로 운영하고 있습니다. 관심 있는 연구자분들께는 해당 프로그램이 열릴 때 참여를 신청하실 수 있습니다.

위에 나열된 범주에 포함되지 않더라도, 연구자가 사용자 피해로 직접 이어질 수 있는 결함을 발견하고 이에 대한 구체적이고 실행 가능한 대응 방안을 제시한 경우, 사례별로 보상 대상에 포함될 수 있습니다. 안전 또는 오용 측면에서 입증 가능한 영향이 없는 일반적인 콘텐츠 정책 우회는 이 프로그램의 범위에 포함되지 않습니다. 예를 들어, 모델이 무례한 언어를 사용하게 하거나 검색 엔진으로 쉽게 찾을 수 있는 정보를 반환하게 만드는 “jailbreak”는 범위에 포함되지 않습니다.