2025년 12월 10일

AI 역량 발전에 따른 사이버 복원력 강화

모델이 사이버 보안 분야에서 더 높은 역량을 갖추게 됨에 따라, OpenAI는 모델 자체를 강화하고 보호 장치를 다층적으로 적용하며 전 세계 보안 전문가들과 협력하고 있습니다.

로딩 중...

AI 모델의 사이버 역량은 빠르게 발전하고 있으며, 사이버 방어에 실질적인 이점을 제공하는 동시에 신중하게 관리해야 할 새로운 이중 용도 위험도 함께 증가하고 있습니다. 예를 들어, capture-the-flag(CTF) 과제를 기준으로 평가한 역량은 2025년 8월 GPT‑5⁠(새 창에서 열기)의 27%에서 2025년 11월 GPT‑5.1‑Codex‑Max⁠(새 창에서 열기)의 76%로 크게 향상되었습니다.

향후 AI 모델도 이러한 발전 추세를 이어갈 것으로 예상하며, 이에 대비해 OpenAI는 각 신규 모델이 Preparedness Framework⁠(새 창에서 열기) 기준 ‘High’ 수준의 사이버 보안 역량에 도달할 수 있다는 가정 하에 계획을 수립하고 평가를 진행하고 있습니다. 여기서 말하는 ‘High’ 수준이란, 잘 방어된 시스템을 대상으로 실제로 작동하는 제로데이 원격 익스플로잇을 개발하거나, 현실 세계에 영향을 미치는 복잡하고 은밀한 기업 또는 산업 침투 작전을 실질적으로 지원할 수 있는 모델을 의미합니다. 이 글에서는 이러한 수준의 역량을 갖춘 모델을 대상으로 어떤 보호 장치를 마련하고, 오용은 억제하면서 방어자에게 실질적인 도움이 되도록 어떻게 운영하고 있는지 설명합니다.

이러한 역량이 발전함에 따라, OpenAI는 방어 중심의 사이버 보안 작업에 맞게 모델을 강화하고, 코드 감사나 취약점 패치와 같은 업무를 방어자가 보다 쉽게 수행할 수 있도록 지원하는 툴을 개발하고 있습니다. OpenAI의 목표는 인력과 리소스가 부족한 경우가 많은 방어자들이 모델과 제품을 통해 실질적인 우위를 확보할 수 있도록 하는 것입니다.

다른 이중 용도 분야와 마찬가지로, 방어와 공격을 위한 사이버 워크플로는 동일한 기반 지식과 기술에 의존하는 경우가 많습니다. OpenAI는 이러한 강력한 역량이 주로 방어 목적으로 활용되도록 하고, 악의적 사용에서의 효과 증대는 제한할 수 있도록 보호 장치에 투자하고 있습니다. 사이버 보안은 거의 모든 분야와 맞닿아 있기 때문에 지식 제한이나 검증된 접근 방식과 같은 단일 보호 장치에만 의존할 수 없으며, 위험을 균형 있게 관리하면서 사용자의 활용을 지원하는 다층 방어 접근 방식이 필요합니다. 실제로 이는 고급 모델이 오용의 장벽을 낮추는 대신 보안을 강화하도록 기능에 대한 접근 방식과 사용 가이드, 적용 방식을 전반적으로 설계하는 것을 의미합니다.

OpenAI는 이 작업을 일회성 대응이 아니라 방어자에게 지속적인 우위를 제공하고 더 넓은 에코시스템 전반의 핵심 인프라 보안 태세를 꾸준히 강화하기 위한 장기적인 투자로 보고 있습니다.

악의적 사용 완화

OpenAI의 모델은 안전하게 작동하도록 설계 및 학습되어 있으며, 사이버 악용을 탐지하고 대응하는 선제적 시스템의 지원을 받습니다. 모델의 역량과 위협 환경이 변화함에 따라 이러한 보호 체계도 지속적으로 개선하고 있습니다. 사이버 보안에서 방어 활용을 크게 제한하지 않으면서 오용을 완전히 막을 수 있는 시스템은 없기 때문에, OpenAI는 다층적인 안전 구조를 통해 위험을 줄이는 전략을 취하고 있습니다.

이 전략의 기반에는 접근 제어, 인프라 강화, 이그레스 제어, 모니터링을 결합한 다층 방어 접근 방식이 있습니다. 또한 탐지 및 대응 시스템과 전담 위협 인텔리전스 및 내부자 위험 프로그램을 통해 이를 보완하여 새롭게 등장하는 위협을 신속하게 식별하고 차단할 수 있도록 합니다. 이러한 보호 장치는 변화하는 위협 환경에 맞춰 함께 발전하도록 설계되어 있습니다. OpenAI는 변화를 전제로 설계하고, 빠르고 적절하게 대응할 수 있도록 구축합니다.

이러한 기반 위에서 다음과 같은 조치를 수행합니다.

유해한 요청은 거부하거나 안전하게 대응하면서도 교육 및 방어 목적으로는 유용하게 활용될 수 있도록 모델 학습하기: OpenAI는 명백한 사이버 악용을 가능하게 하는 요청은 거부하거나 안전하게 대응하도록 최첨단 모델을 학습시키면서, 합법적인 방어 및 교육 목적으로는 최대한 도움이 되도록 하고 있습니다.
탐지 시스템: OpenAI는 최첨단 모델을 사용하는 제품 전반에 걸쳐 시스템 수준의 모니터링을 지속적으로 개선하고 유지하여 잠재적인 악성 사이버 활동을 탐지합니다. 활동이 안전하지 않은 것으로 판단되면, 출력 차단, 더 안전하거나 기능이 제한된 모델로 요청 전환, 또는 추가 조치를 위한 에스컬레이션 대응으로 이어질 수 있습니다. 이러한 대응 조치는 법적 요구사항, 사안의 심각도, 반복 여부 등의 요소를 고려해 자동화된 검토와 사람의 검토가 함께 이루어집니다. 또한 개발자 및 기업 고객과 긴밀히 협력하여 안전 기준을 함께 맞추고, 명확한 대응 절차를 바탕으로 책임 있는 활용이 이루어지도록 지원하고 있습니다.
엔드투엔드 레드팀 테스트: OpenAI는 전문 레드팀 조직과 협력해 안전 완화 조치를 평가하고 개선하고 있습니다. 이들의 역할은 자원과 의지를 갖춘 실제 공격자처럼 엔드투엔드 방식으로 모든 방어를 우회해 보는 것입니다. 이를 통해 취약한 지점을 조기에 발견하고 전체 시스템을 더욱 견고하게 강화할 수 있습니다.

사이버 복원력 강화를 위한 에코시스템 이니셔티브

OpenAI는 초기부터 방어 중심의 사이버 보안 활용 사례에 AI를 적용하는 데 투자해 왔으며, 전 세계 전문가들과 긴밀히 협력해 모델과 그 활용 방식을 함께 발전시키고 있습니다. OpenAI는 디지털 환경을 더 안전하게 만들기 위해 노력하는 전 세계 사이버 보안 실무자 커뮤니티를 중요하게 생각하며, 방어 보안을 지원하는 강력한 툴을 제공하는 데 전념하고 있습니다. 새로운 보호 장치를 도입해 나가는 과정에서도, OpenAI는 사이버 보안 커뮤니티와 지속적으로 협력해 AI가 실제로 복원력을 강화할 수 있는 영역과 신중한 보호 장치가 특히 중요한 지점을 함께 파악해 나갈 것입니다.

이와 함께, 방어자가 더 빠르게 대응할 수 있도록 지원하고, 보호 장치를 실제 현장의 요구에 맞게 정교화하며, 책임 있는 대응을 대규모로 가속화하기 위한 다양한 이니셔티브도 추진하고 있습니다.

사이버 방어를 위한 신뢰 기반 액세스 프로그램

OpenAI는 곧 사이버 방어에 종사하는 자격 요건을 충족한 사용자와 고객을 대상으로, 최신 모델의 향상된 기능을 방어 목적에 한해 단계적으로 제공하는 신뢰 기반 액세스 프로그램을 도입할 예정입니다. 현재 어떤 기능을 폭넓게 개방할 수 있고, 어떤 기능에 단계적 제한이 필요한지 그 경계를 계속 검토하고 있으며, 이는 향후 프로그램 설계에도 반영될 예정입니다. 이 신뢰 기반 액세스 프로그램이 보다 복원력 있는 에코시스템을 구축하는 기반이 되도록 하는 것이 OpenAI의 목표입니다.

Aardvark를 통한 방어 역량 확장

개발자와 보안 팀이 대규모로 취약점을 찾아내고 수정할 수 있도록 지원하는 에이전틱 보안 연구자 Aardvark는 현재 비공개 베타 단계에 있습니다. 코드베이스를 분석해 취약점을 탐지하고 유지관리자가 신속하게 적용할 수 있는 패치를 제안합니다. 이미 전체 코드베이스를 분석하는 과정을 통해 오픈소스 소프트웨어에서 새로운 CVE를 발견한 바 있습니다. 오픈소스 소프트웨어 에코시스템과 공급망의 보안 강화를 위해 일부 비상업적 오픈소스 저장소를 대상으로 무료 지원을 제공할 계획입니다. 여기에서 참여를 신청할 수 있습니다.

프런티어 리스크 위원회

OpenAI는 숙련된 사이버 방어 전문가와 보안 실무자를 자사 팀과 긴밀히 협력하도록 하는 자문 기구인 프런티어 리스크 위원회를 설립할 예정입니다. 이 위원회는 초기에는 사이버 보안에 집중하고, 향후 다른 첨단 역량 분야로 확장될 예정입니다. 위원회 구성원들은 유용하고 책임 있는 기능과 잠재적 오용 사이의 경계에 대해 자문을 제공하며, 이러한 인사이트는 OpenAI의 평가 및 보호 장치 설계에 직접 반영됩니다. 곧 위원회에 대해 더 많은 소식을 공유해 드리겠습니다.

업계와 함께 위협 모델에 대한 공통된 이해 구축

마지막으로, OpenAI는 업계의 어떤 최첨단 모델에서도 사이버 오용이 현실적으로 가능해질 수 있다고 보고 있습니다. 이를 위해 OpenAI는 주요 AI 연구소와 산업 파트너가 참여하는 비영리 협의체 프런티어 모델 포럼을 통해 다른 연구소들과 협력하며, 위협 모델과 모범 사례에 대한 공통된 이해를 구축하고 있습니다. 이 맥락에서 위협 모델링은 AI 역량이 어떻게 무기화될 수 있는지, 다양한 공격 주체에게 어떤 핵심 병목 지점이 존재하는지, 그리고 최첨단 모델이 어떤 방식으로 실질적인 영향을 줄 수 있는지를 파악함으로써 위험을 완화하는 데 도움을 줍니다. 이러한 협력은 위협 주체와 공격 경로에 대한 에코시스템 전반의 일관된 이해를 구축하는 것을 목표로 하며, 이를 통해 연구소, 유지관리자, 방어자들이 대응 방안을 더욱 효과적으로 개선하고 중요한 보안 인사이트가 에코시스템 전반에 빠르게 확산되도록 합니다. 또한 OpenAI는 외부 팀과 협력해 사이버 보안 평가⁠(새 창에서 열기) 체계를 개발하고 있습니다. 독립적인 평가 에코시스템이 구축됨으로써 모델 역량에 대한 공통된 이해가 더욱 강화되기를 기대합니다.

이러한 모든 노력은 에코시스템의 방어 측면을 강화하기 위한 OpenAI의 장기적인 의지를 보여줍니다. 모델이 점점 더 강력해짐에 따라, 이러한 역량이 현장의 요구를 바탕으로 설계되고 전문가의 의견을 반영해 신중하게 활용되면서, 방어자에게 실질적인 우위로 이어지도록 하는 것이 OpenAI의 목표입니다. 이와 함께, 기존 방식으로는 나오기 어려운 혁신적인 아이디어를 발굴하고, 학계, 산업계, 오픈소스 커뮤니티 전반에서 대담하고 창의적인 방어 전략을 모으기 위해 다양한 이니셔티브와 사이버 보안 지원 프로그램도 추진할 계획입니다. 이 모든 노력은 현재 진행 중인 작업이며, 실제 보안을 가장 효과적으로 강화하는 방법에 대한 이해가 쌓여감에 따라 이러한 프로그램도 계속 발전시켜 나갈 예정입니다.