메인 콘텐츠로 건너뛰기
OpenAI

2025년 12월 18일

제품릴리스회사

GPT‑5.2‑Codex 소개

전문적인 소프트웨어 엔지니어링과 방어적 사이버 보안을 위한 가장 발전된 형태의 에이전트형 코딩 모델.

오늘 GPT‑5.2‑Codex가 새롭게 공개됩니다. GPT‑5.2‑Codex는 복잡한 현실 세계의 소프트웨어 엔지니어링 작업을 위해 설계된 가장 발전된 형태의 에이전트형 코딩 모델입니다. GPT‑5.2를 기반으로 한 GPT‑5.2‑Codex는 Codex 환경에 맞춰 에이전트형 코딩 작업에 최적화되었습니다. 컨텍스트 압축을 통해 장시간 진행되는 작업에서 안정적인 성능을 제공하며 리팩터링과 마이그레이션 같은 대규모 코드 변경 작업에서도 크게 강화된 역량을 보입니다. 이와 함께 Windows 환경에서 전반적인 성능 개선이 이루어졌으며 사이버 보안 역량 역시 대폭 강화되었습니다.

프런티어 모델의 지능 수준이 계속 높아지면서 이러한 기술적 진전은 사이버 보안 같은 전문 영역에서 실질적인 역량 향상으로 이어지고 있습니다. 일례로 지난주 한 사이버 보안 연구자는 Codex CLI 환경에서 GPT‑5.1‑Codex‑Max를 활용해 서비스 거부나 소스 코드 노출로 이어질 수 있는 React 취약점 세 가지를 발견했고 이를 책임 있게 공개했습니다(새 창에서 열기).

GPT‑5.2‑Codex는 지금까지 공개한 모델 가운데 가장 강력한 사이버 보안 역량을 갖추고 있습니다. 이러한 발전은 대규모 환경에서 사이버 보안을 강화하는 데 기여할 수 있지만 같은 이유로 오용 가능성도 함께 수반하기에 신중한 배포가 요구됩니다. GPT‑5.2‑Codex는 OpenAI의 준비성 평가 체계 기준에서 사이버 보안 역량이 아직 ‘높음’ 단계에 이르지는 않았지만, 개발 팀은 향후 역량 확장까지 고려해 배포 방식을 설계하고 있습니다.

보다 신중하고 균형 잡힌 배포를 위해 GPT‑5.2‑Codex는 오늘부터 유료 ChatGPT 사용자 전체를 대상으로 Codex CLI, IDE 확장 프로그램, 클라우드, 코드 리뷰 환경에서 우선 제공됩니다. OpenAI 팀은 서드파티 앱이 API에 안전하게 접근할 수 있도록 지원하는 방안도 곧 발표할 예정이며, 사이버 방어를 위한 신뢰 기반 접근 방식도 함께 개발하고 있습니다. 신뢰 기반 접근은 초대 전용으로 운영되는 파일럿 프로그램으로, 검증된 보안 전문가와 조직이 앞으로 개발될 고급 AI 사이버 보안 기능을 명확한 목적에 따라 제한된 범위 내에서 활용할 수 있도록 지원합니다. 이를 통해 대상 조직은 강력한 보호 장치를 유지한 상태에서 승인된 방어 작업을 수행할 수 있습니다.

소프트웨어 엔지니어링의 경계를 확장하다

GPT‑5.2‑Codex는 전문적인 지식 기반 업무에서 강점을 보이는 GPT‑5.2와 최첨단 에이전트형 코딩 및 터미널 활용 역량을 갖춘 GPT‑5.1‑Codex‑Max의 성능을 토대로 개발되었습니다. 향상된 장기 컨텍스트 이해 능력과 안정적인 도구 호출, 정확성 개선, 네이티브 컴팩션을 바탕으로 GPT‑5.2‑Codex는 장시간 이어지는 코딩 작업에서도 안정적인 성능을 제공하며 신뢰할 수 있는 코딩 파트너로 작동합니다. 또한 추론 과정 전반에서 토큰 효율성도 효과적으로 유지합니다.

이제 GPT‑5.2‑Codex는 더 강력한 비전 성능을 통해 코딩 세션 중 공유되는 스크린샷, 기술 도면, 차트, UI 화면을 보다 정확하게 해석할 수 있습니다. 또한 GPT‑5.1‑Codex‑Max에서 도입된 기능을 기반으로 네이티브 Windows 환경에서도 에이전트형 코딩을 훨씬 더 효과적이고 안정적으로 수행합니다.

GPT‑5.2‑Codex는 실제 터미널 환경에서 다양한 유형의 작업 수행 능력을 평가하는 SWE-Bench Pro와 Terminal-Bench 2.0에서 최고 수준의 성능을 달성했습니다.

이러한 개선은 리포지터리 탐색부터 리팩터링, 풀 리퀘스트 생성 및 검토까지 실제 소프트웨어 엔지니어링 작업 전반에서 뚜렷한 성능 향상으로 이어집니다.

SWE-Bench Pro에서 모델은 코드 리포지터리를 제공받아 실제 소프트웨어 엔지니어링 작업을 해결하기 위한 패치를 생성해야 합니다. 이 벤치마크는 데이터 오염, 과제 다양성의 한계, 신뢰하기 어려운 평가 방식 등 SWE-Bench Verified가 가진 여러 문제를 해결하도록 설계되었습니다.

Terminal-Bench 2.0은 실제 터미널 환경에서 AI 에이전트의 성능을 테스트하는 벤치마크입니다. 작업에는 코드 컴파일, 모델 훈련, 서버 설정이 포함됩니다.

<PLACEHOLDER FOR FRONTEND HTML ASSETS>

현실 세계의 사이버 보안

현대 사회는 소프트웨어를 기반으로 작동하며 그 안정성은 사이버 보안 역량에 달려 있습니다. 금융, 의료, 통신, 필수 서비스 분야의 핵심 시스템을 안정적으로 운영하고 민감한 데이터를 보호하기 위해서는 강력한 사이버 보안이 필수적입니다. 이는 모두가 일상적으로 사용하는 소프트웨어를 신뢰할 수 있도록 하는 기반이 됩니다. 취약점은 오랜 기간 드러나지 않은 채 존재할 수 있으며 이를 발견하고 검증해 수정하는 과정은 적절한 도구를 갖춘 엔지니어와 독립적인 보안 연구자 커뮤니티의 역할에 크게 의존합니다.

2025년 12월 11일 React 팀은 React 서버 컴포넌트로 구축된 앱에 영향을 미치는 보안 취약점 세 가지를 공개했습니다. 이번 공개가 주목을 받은 이유는 취약점 자체가 아니라 그것이 발견된 과정에 있었습니다.

Stripe 계열사 Privy의 보안 연구원인 앤드류 맥퍼슨(Andrew MacPherson)은 다른 코딩 에이전트와 함께 Codex CLI에서 GPT‑5.1‑Codex‑Max를 사용하여 일주일 전 공개된 React의 또 다른 치명적 취약점인 React2Shell을 분석하고 있었습니다. 그의 목표는 실제 환경의 취약점 연구에서 모델이 얼마나 효과적으로 도움을 줄 수 있는지를 평가하는 것이었습니다.

이를 위해 그는 로컬 테스트 환경 구성, 잠재적인 공격 표면 분석, 비정상 입력을 활용한 퍼징 테스트 등 표준적인 보안 워크플로에 따라 Codex를 활용했습니다. 기존 React2Shell(새 창에서 열기) 이슈를 재현하는 과정에서 Codex는 추가적인 조사가 필요한 예상치 못한 동작을 확인했고 이는 단 일주일 만에 이전까지 알려지지 않았던 취약점 세 가지를 발견하는 결과로 이어졌습니다. 이렇게 발견된 모든 취약점은 책임 있는 방식으로 React 팀에 공개되었습니다.

맥퍼슨은 이러한 발견으로 이어진 Codex 세션을 함께 공유해 에이전트형 AI 시스템이 보안 연구자의 취약점 검증 과정을 얼마나 단축할 수 있는지를 실제 사례로 보여주었습니다. 이 기록을 통해 운영 환경에서 널리 사용되는 소프트웨어를 대상으로 한 취약점 연구가 어떻게 더 빠르게 진행될 수 있는지 확인할 수 있습니다.

다음은 해당 Codex 대화에서 발췌한 주요 내용입니다.

[ADD/LINK TO ROLLOUT THAT DISCOVERED VULNERABILITY]

이는 고급 AI 시스템이 실제 소프트웨어 운영 환경에서 방어 목적의 보안 작업 속도를 크게 높일 수 있음을 증명하는 동시에 방어 효율을 높이는 이러한 역량이 오용 가능성을 낮추는 방향으로도 작용할 수 있다는 점을 함께 시사합니다.

에이전트형 시스템이 사이버 보안 관련 작업에서 점점 더 높은 역량을 갖추게 됨에 따라 OpenAI는 이러한 발전을 책임 있게 배포하는 것을 핵심 우선순위로 삼고 있습니다. 이를 위해 모델 역량이 향상될 때마다 보호 장치를 강화하고 접근 제어를 더욱 엄격히 적용하는 동시에, 보안 커뮤니티와의 지속적인 협력도 이어가고 있습니다.

계속해서 발전하는 사이버 보안 역량

사이버 보안 평가 가운데 하나를 기준으로 시간에 따른 성능 변화를 살펴보면 GPT‑5‑Codex부터 역량이 크게 향상되기 시작하여 GPT‑5.1‑Codex‑Max에서 한 차례 큰 도약이 있었고 GPT‑5.2‑Codex에서도 뚜렷한 성능 개선이 확인되었습니다. 향후 공개될 AI 모델 역시 이러한 흐름을 이어갈 것으로 예상됩니다. 이에 대비해 OpenAI는 새로운 모델이 준비성 평가 체계⁠(새 창에서 열기)에서 사이버 보안 역량 ‘높음’ 단계에 도달할 가능성을 전제로 계획을 수립하고 평가를 진행 중입니다. GPT‑5.2‑Codex는 아직 ‘높음’ 단계에는 이르지 않았지만 해당 기준을 넘어설 향후 모델을 염두에 두고 준비를 이어가고 있습니다.

Professional Capture-the-Flag(CTF) 평가에서는 모델이 Linux 환경에서 전문가 수준의 사이버 보안 역량이 요구되는 고난도 다단계 실무 문제를 얼마나 자주 해결할 수 있는지 측정합니다.

이에 따라 이번 출시와 함께 사이버 보호 장치를 한층 강화하고 보안 커뮤니티와 긴밀히 협력해 보호 장치를 정교하게 조율하는 동시에 가장 역량이 뛰어난 모델에 대해서는 통제된 접근을 제공하는 신뢰 기반 접근 프로그램을 도입하고자 합니다.

신뢰 기반 접근을 통한 방어 역량 강화

보안 팀은 위협 행위자를 모사하거나 이에 대응하기 위해 악성 코드를 분석하고 핵심 인프라에 대한 스트레스 테스트를 진행하는 과정에서 여러 제약에 직면하는 경우가 많습니다. 신뢰 기반 접근 프로그램은 자격을 갖춘 사용자와 조직이 이러한 제약을 해소하고, 신뢰할 수 있는 방어 주체로서 최첨단 AI 사이버 보안 역량을 활용해 방어 작업을 더욱 신속하게 수행할 수 있도록 지원합니다.

초기에는 책임 있는 취약점 공개 이력을 갖춘 검증된 보안 전문가와 명확한 전문 사이버 보안 활용 사례를 보유한 조직에 한해 초대 전용 방식으로 프로그램이 운영될 예정입니다.

결론

GPT‑5.2‑Codex는 고급 AI가 실제 소프트웨어 엔지니어링과 사이버 보안 영역에서 어떤 방식으로 기여할 수 있는지를 보여주는 중요한 진전입니다. 개발자와 보안 책임자가 복잡하고 장기적인 과제를 해결하도록 지원하는 동시에 책임 있는 보안 연구를 위한 도구 역시 한층 강화합니다.

OpenAI는 제공 범위를 점진적으로 확대하고 접근 권한에 보호 장치를 적용하는 한편, 신뢰 기반 접근 프로그램을 통해 보안 커뮤니티와 긴밀히 협력해 보안 효과를 높이고 오용 위험을 낮추고자 합니다. 이번 출시를 통해 얻는 인사이트는 소프트웨어와 사이버 영역의 경계가 계속 확장되는 상황에서 향후 접근 범위를 어떻게 넓혀갈지를 판단하는 중요한 기준이 될 것입니다.

취약점 연구나 승인된 레드팀 활동 등 윤리적인 보안 업무를 수행하는 보안 전문가이거나 관련 조직에 속해 있다면, 이곳에서 신뢰 기반 접근 프로그램에 참여 의사를 밝히고 프로그램에 대한 의견을 공유해 주시기 바랍니다.

작성자

OpenAI