메인 콘텐츠로 건너뛰기
OpenAI

2025년 12월 22일

보안

프롬프트 인젝션 공격에 맞선 ChatGPT Atlas의 지속적 강화

강화 학습 기반의 자동화된 레드팀 작업은 에이전트의 취약점이 실제 환경에서 악용되기 전에, 이를 선제적으로 발견하고 수정하도록 돕습니다.

로딩 중...

ChatGPT Atlas의 에이전트 모드는 지금까지 출시된 가장 범용적인 에이전트 기능 중 하나입니다. 이 모드에서는 브라우저 에이전트가 웹페이지를 조회하고, 사용자가 하는 것처럼 브라우저 내에서 클릭이나 키 입력과 같은 액션을 수행합니다. 이를 통해 ChatGPT는 사용자와 동일한 공간, 컨텍스트, 데이터를 사용하여 일상적인 업무 워크플로를 직접 처리할 수 있습니다.

브라우저 에이전트의 효용이 높아질수록, 적대적 공격의 표적이 될 가능성 또한 높아집니다. 따라서 AI 보안의 중요성이 더욱 확대되고 있습니다. ChatGPT Atlas 출시 훨씬 이전부터, OpenAI는 "브라우저 내 에이전트"라는 새로운 패러다임을 겨냥한 신종 위협에 대비해 지속적으로 방어 체계를 구축하고 강화해 왔습니다. 프롬프트 인젝션은 가장 중요한 리스크 요소 중 하나로, OpenAI는 ChatGPT Atlas의 안전한 운영을 위해 이를 적극적으로 방어하고 있습니다. 

이러한 노력의 일환으로 최근 Atlas 브라우저 에이전트에 대한 보안 업데이트를 배포했습니다. 여기에는 적대적 학습이 적용된 새로운 모델과 강화된 주변 안전 장치가 포함됩니다. 이번 업데이트는 내부의 자동화된 레드팀 작업을 통해 발견된 새로운 유형의 프롬프트 인덱션 공격에 대응하기 위해 진행되었습니다.

이 게시물에서는 웹 기반 에이전트에서 프롬프트 인젝션 위험이 발생하는 원리를 설명하고, 최근 보안 업데이트 사례를 통해 새로운 공격을 지속적으로 발견하고 신속하게 완화 조치를 배포하는 신속 대응 루프를 공유하고자 합니다.

OpenAI는 인간을 노리고 끊임없이 진화하는 온라인 사기와 유사한 프롬프트 인젝션을 장기적인 AI 보안 과제로 간주하고 있으며, 이에 대한 방어 체계를 지속적으로 강화할 예정입니다. 최신 신속 대응 주기는 이러한 여정에서 중요한 도구로서 초기 성과를 보여주고 있습니다. 즉, 새로운 공격 전략이 외부에서 발생하기 전에 내부적으로 먼저 이를 발견하고 있습니다. 장기적인 비전은 (1) 모델에 대한 화이트박스 액세스, (2) 방어 체계에 대한 심층적 이해, (3) 컴퓨팅 규모를 활용하여 외부 공격자보다 앞서가는 것입니다. 이를 통해 취약점을 더 일찍 발견하고, 완화 조치를 더 빨리 배포하며, 대응 루프를 지속적으로 강화할 것입니다. 최신 프롬프트 인젝션 공격 기법에 대한 연구와 보안 통제에 대한 투자가 결합된 이 선순환 구조는 공격 난이도와 비용을 높여 실제 환경에서의 프롬프트 인젝션 리스크를 크게 줄여줄 것입니다. 궁극적인 목표는 유능하고 보안 의식이 철저한 동료나 친구를 믿는 것처럼, ChatGPT 에이전트를 믿고 브라우저를 사용할 수 있도록 하는 것입니다.

에이전트 보안의 공동 과제: 프롬프트 인젝션

프롬프트 인젝션 공격은 AI 에이전트가 처리하는 콘텐츠에 악의적인 지침을 삽입하여 에이전트를 공격하는 방식입니다. 이러한 지침은 에이전트의 원래 동작을 무시하거나 리디렉션하여 사용자의 의도가 아닌 공격자의 의도대로 행동하도록 에이전트를 조작합니다.

ChatGPT Atlas 내부의 브라우저 에이전트와 같은 경우, 프롬프트 인젝션은 사용자 실수나 소프트웨어 취약점과 같은 전통적인 웹 보안 리스크 외에 새로운 위협 벡터를 추가합니다. 공격자는 사용자를 피싱하거나 브라우저 자체의 시스템 취약점을 노리는 대신, 브라우저 내부에서 작동하는 에이전트를 표적으로 삼습니다.

가상의 예시를 들어보겠습니다. 공격자는 에이전트를 속여 사용자의 요청을 무시하고, 민감한 세금 문서를 공격자의 이메일 주소로 전송하게 만드는 악성 이메일을 보낼 수 있습니다. 사용자가 에이전트에게 읽지 않은 이메일을 검토하고 요약해 달라고 요청할 때, 에이전트는 워크플로 수행 과정에서 이 악성 이메일을 읽어들일 수 있습니다. 이때 에이전트가 주입된 지침을 따른다면, 본래의 업무에서 벗어나 민감한 정보를 유출하는 오작동을 일으킬 수 있습니다.

이는 단지 하나의 시나리오에 불과합니다. 브라우저 에이전트의 장점인 '범용성'은 역설적으로 리스크 범위를 넓히는 원인이 됩니다. 에이전트는 이메일, 첨부 파일, 캘린더 초대, 공유 문서, 포럼, 소셜 미디어 게시물, 임의의 웹페이지 등 사실상 무한한 영역에서 신뢰할 수 없는 지침과 마주칠 수 있기 때문입니다. 에이전트는 사용자가 브라우저에서 할 수 있는 거의 모든 액션을 수행할 수 있으므로, 이론적으로는 공격이 성공했을 때의 파급력 또한 매우 광범위하게 나타날 수 있습니다. 예를 들자면 민감한 이메일 전송, 금전 송금, 클라우드 파일 수정 및 삭제 등이 발생할 수 있습니다.

OpenAI는 이전 게시물에서 공유한 바와 같이, 다중 계층의 안전 장치를 통해 프롬프트 인젝션 공격에 대한 방어 체계를 강화해 왔습니다. 하지만 프롬프트 인젝션은 여전히 에이전트 보안의 미해결 과제이며, 앞으로도 수년간 지속적인 노력이 필요할 것으로 예상됩니다.

엔드투엔드 및 고성능 컴퓨팅 강화 학습을 통한 자동 프롬프트 인젝션 공격 탐지

OpenAI는 방어 체계를 강화하기 위해 실제 운영 중인 에이전트 시스템을 대상으로 새로운 프롬프트 인젝션 공격 유형을 끊임없이 탐색해 왔습니다. 이러한 공격을 찾아내는 것은 견고한 대응책을 마련하기 위한 필수 전제 조건입니다. 이를 통해 실제 위험 요소를 파악하고 방어 체계의 빈틈을 드러내며, 구체적인 패치 작업을 진행할 수 있기 때문입니다.

이러한 작업을 대규모로 수행하기 위해 LLM 기반 자동화 공격자를 구축하고, 브라우저 에이전트를 성공적으로 공략할 수 있는 프롬프트 인젝션 공격을 찾아내도록 학습시켰습니다. 이러한 공격자는 강화 학습을 통해 엔드투엔드 방식으로 학습되었으며, 자체 성공과 실패 경험을 통해 레드 팀 역량을 개선하게 됩니다. 또한 '배포 전 시뮬레이션' 기능을 도입했습니다. 즉, 공격자는 일련의 추론 과정에서 공격 후보를 생성하고 이를 외부 시뮬레이터에 보내 미리 시험해 볼 수 있습니다. 시뮬레이터는 공격 대상인 피해자 에이전트(방어자)가 해당 공격에 노출되었을 때 어떻게 행동할지를 가상으로 실행한 뒤, 피해자 에이전트의 전체 추론 과정과 액션 기록을 반환합니다. 공격자는 이 기록을 피드백 삼아 공격 방식을 수정하고 시뮬레이션을 재실행하며, 최종 공격을 감행하기 전까지 이 과정을 여러 번 반복합니다. 이 방식은 공격자에게 단순한 성공/실패 신호보다 훨씬 풍부한 컨텍스트 기반 피드백을 제공합니다. 또한 테스트 시점에 사용하는 컴퓨팅을 대폭 늘릴 수 있습니다. 무엇보다 방어자의 내부 추론 과정(외부 사용자에게는 공개되지 않음)에 대한 특수한 액세스는 내부 공격자에게 비대칭적인 이점을 제공하여, 실제 외부 공격자보다 한발 앞서갈 수 있또록 합니다.

강화 학습을 설명하는 라이트 모드 웹페이지 목업. 밝은 그라데이션 배경 위로 기하학적 도형들과 상호작용하는 스타일리시한 로봇 팔이 보입니다.

강화 학습(RL)이 필요한 이유 자동 공격자 학습에 강화 학습을 선택한 이유는 다음과 같습니다.

  1. 장기적이며 비연속적인 공격자 목표 최적화. 목표는 에이전트를 속여 실제 세계에서 발생할 수 있는 정교한 적대적 작업(예: 이메일 전송, 은행 거래)을 실행하게 하는 프롬프트 인젝션 공격을 찾아내는 것입니다. 이러한 적대적 작업은 본질적으로 장기적으로 진행되며, 환경과의 수많은 상호작용과 추론 단계를 거쳐야 하고, 성공 여부에 대한 신호 역시 드물고 지연되어 나타납니다. 강화 학습은 이처럼 보상이 희소하고 지연되는 구조를 학습하는 데 매우 적합합니다.
  2. 최첨단 LLM 기능 활용. 최신 프론티어 LLM을 자동 레드팀 요원으로 직접 학습시켰으므로, 공격자는 최신 모델의 향상된 추론 및 계획 능력의 이점을 그대로 누리게 됩니다. 기반 모델 성능이 좋아질수록 공격자의 능력도 자연스럽게 향상되므로, 확장성을 통해 모델이 발전함에 따라 방어 체계에 지속적인 압박을 가할 수 있습니다.
  3. 연산 자원 확장 및 적응형 공격자 모방. 강화 학습은 수많은 샘플링과 학습 단계를 통해 공격 탐색에 투입되는 컴퓨팅을 확장하는 데 유리합니다. 또한 전략을 반복적으로 시도하고 결과로부터 학습하며 성공적인 행동을 강화하는 등 적응력이 뛰어난 인간 공격자의 행동 방식을 매우 유사하게 반영합니다.

OpenAI의 자동 공격자는 현실적이고 새로운 프롬프트 인젝션 공격을 엔드투엔드로 발견할 수 있습니다. 단순히 특정 문자열을 출력하게 하거나 에이전트가 의도치 않은 단일 단계 도구 호출을 하도록 유도하는 등 단순한 오류를 찾아내는 데 그쳤던 기존의 자동화 레드팀 연구들과 달리, OpenAI의 RL 기반 공격자는 에이전트가 수십, 수백 단계에 걸쳐 전개되는 정교하고 장기적인 유해 워크플로를 실행하도록 유도할 수 있습니다. 또한 인간 레드팀 캠페인이나 외부 보고서에서도 발견되지 않았던 새로운 공격 전략들을 관찰할 수 있었습니다.

아래 데모는 자동 공격자가 발견한 구체적인 프롬프트 인젝션 공격 사례를 보여주며, 이를 바탕으로 ChatGPT Atlas의 방어 체계가 더욱 강화되었습니다. 공격자는 사용자의 이메일 수신함에 악성 이메일을 심어둡니다. 이 이메일에는 에이전트가 사용자의 CEO에게 사직서를 보내도록 지시하는 프롬프트 인젝션이 포함되어 있습니다. 이후 사용자가 에이전트에게 부재중 자동 회신을 작성하라고 요청하면, 에이전트는 정상적인 업무 수행 과정에서 해당 이메일을 읽게 되고, 주입된 프롬프트를 사용자의 정당한 지시로 착각하여 이를 따르게 됩니다. 결국 부재중 메시지는 작성되지 않고, 에이전트가 사용자를 대신해 사직서를 제출해버리는 상황이 발생합니다.

프롬프트 인젝션의 특성상 결정론적인 보안을 보장하기는 어렵습니다. 하지만 자동화된 보안 연구와 적대적 테스트를 확대하고 신속 대응 루프를 강화함으로써, 실제 공격이 발생하기 전에 모델의 견고성과 방어력을 향상시킬 수 있습니다. 

이 데모를 공유함으로써 사용자와 연구자들이 이러한 공격의 본질을 더 깊이 이해할 수 있도록 지원하고, OpenAI의 적극적인 방어 조치를 알리고자 합니다. 이는 자동화된 레드팀이 달성할 수 있는 최첨단 수준을 대표하며, 앞으로도 지속될 연구가 기대됩니다.

선제적 신속 대응 루프를 통한 ChatGPT Atlas 강화

우리의 자동화된 레드팀은 선제적인 신속 대응 루프를 주도합니다. 자동 공격자가 새로운 유형의 성공적인 프롬프트 인젝션 공격을 발견하면, 이는 즉시 방어 체계 개선을 위한 구체적인 목표가 됩니다.

새로 발견된 공격에 대비한 적대적 학습. OpenAI는 현재 에이전트가 방어에 실패한 공격 유형을 우선순위에 두고, 최고의 자동 공격자를 상대로 최신 에이전트 모델을 지속적으로 학습시킵니다. 목표는 에이전트가 적대적인 지시를 무시하고 사용자의 의도를 따르도록 학습시켜, 새로 발견된 프롬프트 인젝션 전략에 대한 저항력을 강화하는 것입니다. 이를 통해 새로운 고강도 공격에 대한 견고함을 모델 체크포인트에 직접 내재화합니다. 예를 들어, 최근 자동화된 레드팀 활동을 통해 적대적 학습을 거친 새로운 브라우저 에이전트 체크포인트가 생성되었으며, 이는 이미 모든 ChatGPT Atlas 사용자에게 배포되었습니다. 궁극적으로, 이러한 과정을 통해 새로운 유형의 공격으로부터 사용자를 더 안전하게 보호합니다.

공격 추적을 활용한 광범위한 방어 스택 개선. 자동화된 레드팀이 발견한 공격 경로는 모델 자체뿐만 아니라 모니터링, 모델 컨텍스트에 포함된 안전 지침, 시스템 수준의 안전장치 등 모델 외부의 개선 기회도 보여줍니다. 이러한 발견은 에이전트 체크포인트뿐 아니라 전체 방어 스택을 반복적으로 개선하는 데 도움이 됩니다.

활성 공격에 대한 대응. 이 루프는 실제 환경에서 발생하는 공격에 더 효과적으로 대응하는 데에도 유용합니다. 전 세계적으로 잠재적인 공격 징후를 모니터링하면서, 외부 적대 세력이 사용하는 기술과 전술을 파악하여 이 루프에 주입하고, 그들의 활동을 모방함으로써 플랫폼 전반의 방어 체계를 변화시킬 수 있습니다.

전망: 에이전트 보안에 대한 장기적 약속

에이전트 레드팀 역량을 강화하고 최상위 모델을 활용해 작업 일부를 자동화함으로써, 취약점 발견부터 수정까지의 루프를 확장하고 Atlas 브라우저 에이전트를 더욱 강화합니다. 이러한 노력은 보안 업계의 오랜 교훈을 재차 확인시켜 줍니다. 더 강력한 보호를 위한 확실한 길은 바로 실제 시스템을 지속적으로 가혹하게 테스트하고, 실패에 즉각 대응하며, 구체적인 수정 사항을 배포하는 것입니다.

공격자들 또한 계속해서 진화할 것입니다. 웹상의 사기나 소셜 엔지니어링과 마찬가지로, 프롬프트 인젝션 역시 완전히 '해결'되기는 어려울 것입니다. 하지만 선제적이고 기민한 신속 대응 루프가 시간이 지남에 따라 실제 리스크를 실질적으로 줄여줄 것이라 낙관합니다. 자동화된 공격 탐지, 적대적 학습, 시스템 수준의 안전장치를 결합함으로써 새로운 공격 패턴을 조기에 식별하고, 방어 격차를 빠르게 메우며, 공격 비용을 지속적으로 높일 수 있습니다.

ChatGPT Atlas의 에이전트 모드는 강력한 기능을 제공하지만, 동시에 보안 위협의 표면적을 넓히기도 합니다. 이러한 장단점을 명확히 직시하는 것이야말로 책임감 있는 개발의 일환입니다. OpenAI의 목표는 업데이트를 거듭할 때마다 Atlas의 안전성을 유의미하게 강화하는 것입니다. 이를 위해 모델의 견고성을 개선하고, 주변 방어 스택을 강화하며, 실제 환경에서 발생하는 오용 패턴을 모니터링하고 있습니다.

OpenAI는 연구와 배포 전반에 걸쳐 지속적으로 투자하고, 더 나은 자동 레드팀 방식을 개발하고, 계층화된 완화 조치를 적용하며, 학습 과정을 통해 빠르게 개선해 나갈 것입니다. 또한 광범위한 커뮤니티와 지식을 공유하겠습니다.

안전한 에이전트 사용을 위한 권장 사항

시스템 차원에서 Atlas는 지속적으로 강화되고 있지만, 에이전트 사용의 리스크를 줄이기 위해 사용자 여러분이 취할 수 있는 조치가 있습니다. 

가능한 경우 로그인 상태에서의 액세스를 제한하세요. Atlas에서 에이전트를 사용할 때, 현재 작업에 로그인된 웹사이트가 필요하지 않거나 작업 중 특정 사이트에 대한 액세스를 제한하고 싶다면 로그아웃 모드(새 창에서 열기)를 적극 활용하시기를 권장합니다. 

확인 요청을 주의 깊게 검토하세요. 구매 완료나 이메일 전송과 같이 중요한 결과로 이어지는 액션의 경우, 에이전트는 진행하기 전에 사용자의 확인을 받도록 설계되어 있습니다. 에이전트가 확인을 요청할 경우, 잠시 시간을 내어 해당 액션이 올바른지, 공유되는 정보가 해당 컨텍스트에 적절한지 검토해 주세요.

가능한 한 에이전트에게 명시적인 지침을 제공하세요. "이메일을 검토하고 필요한 모든 액션을 실행해줘"와 같이 지나치게 광범위한 프롬프트는 피하는 것이 좋습니다. 에이전트에게 너무 넓은 권한을 허용할 경우, 안전장치가 있더라도 숨겨진 악성 콘텐츠가 에이전트에게 영향을 미치기 쉬워집니다. 구체적이고 범위가 명확한 작업을 요청하는 것이 더 안전합니다. 이를 통해 리스크를 완전히 제거할 수는 없지만, 공격의 난이도가 훨씬 높아집니다.

에이전트가 일상 업무의 신뢰할 수 있는 파트너가 되려면, 오픈 웹 환경에서 발생할 수 있는 각종 조작 시도에 흔들리지 않는 견고함을 갖춰야 합니다. 프롬프트 인젝션 공격에 대한 방어 체계를 강화하는 것은 장기적인 과제이자 OpenAI의 최우선 목표 중 하나입니다. 조만간 이와 관련된 더 많은 소식을 공유해 드리겠습니다.

작성자

OpenAI