새로운 애플리케이션 보안 에이전트 Codex Security를 공개합니다. Codex Security는 프로젝트 전반에 대한 깊은 맥락을 바탕으로 다른 에이전트형 도구가 놓치는 복잡한 취약점을 찾아내고, 신뢰도 높은 결과와 함께 실질적으로 시스템 보안을 강화하는 수정 방안을 제시합니다. 또한 중요도가 낮은 버그로 인해 발생하는 불필요한 작업을 줄여 보안 검토에 대한 부담을 덜어 줍니다.
실제 보안 위험을 평가하려면 맥락 이해가 필수적입니다. 그러나 대부분의 AI 보안 도구는 영향이 작은 문제나 오탐을 대량으로 표시해 보안 팀이 많은 시간을 들여 분류 작업을 해야 하는 상황을 만듭니다. 이와 동시에 에이전트가 소프트웨어 개발 속도를 빠르게 끌어올리면서 보안 검토는 점점 더 중요한 병목 지점이 되고 있습니다.
Codex Security는 두 가지 과제를 모두 해결합니다. 프런티어 모델의 에이전트 기반 추론과 자동화된 검증을 결합해 신뢰도 높은 결과와 바로 적용할 수 있는 수정 방안을 제공합니다. 이를 통해 팀은 실제로 중요한 취약점에 집중하고 더 빠르게 안전한 코드를 배포할 수 있습니다.
Aardvark라는 이름으로 처음 공개된 Codex Security는 지난해 소수의 고객 그룹을 대상으로 비공개 베타를 시작했습니다. 초기 내부 배포 단계에서 Codex Security는 실제 SSRF 취약점과 테넌트 간 인증을 우회할 수 있는 치명적인 취약점을 포함해 여러 문제를 발견했고, 보안 팀은 이를 몇 시간 만에 패치할 수 있었습니다. Codex 팀은 외부 테스터와 함께 진행한 초기 배포를 통해 사용자가 제품 관련 맥락 정보를 제공하는 방식과 온보딩 이후 코드 보안 점검까지 이어지는 흐름을 개선했습니다. 또한 베타 기간 동안 분석 결과의 품질도 크게 향상되었습니다. 동일한 리포지터리를 반복 스캔한 결과 시간이 지날수록 정확도가 높아졌으며, 한 사례에서는 초기 배포 이후 불필요한 결과가 84% 가량 줄어들었습니다. 심각도가 과도하게 높게 보고되는 결과의 비율은 90% 이상 줄어들었으며, 모든 리포지터리에서 오탐 비율도 50% 이상 감소했습니다. 이러한 개선을 통해 Codex Security는 보고되는 심각도를 실제 위험 수준에 더 정확하게 부합하도록 해 보안 팀의 불필요한 분류 작업 부담을 줄였습니다. OpenAI는 앞으로도 추가 투자를 통해 신호 대비 잡음 비율을 계속 개선할 계획입니다.
Codex Security는 오늘부터 Codex 웹을 통해 ChatGPT Enterprise, Business, Edu 사용자에게 순차적으로 제공되며, 다음 한 달 동안은 무료로 사용할 수 있습니다.
Codex Security는 OpenAI의 프런티어 모델과 Codex 에이전트를 활용합니다. 취약점 탐지, 검증, 패치 과정을 시스템별 맥락에 기반해 수행하여 불필요한 결과를 줄이고 대응 속도를 높입니다.
- 시스템 맥락 구축 및 수정 가능한 위협 모델 생성: 리포지터리를 분석해 시스템의 보안 관련 구조를 파악하고, 시스템의 기능과 신뢰 경계, 취약 가능성이 높은 지점을 정리한 프로젝트별 위협 모델을 생성합니다. 위협 모델은 수정할 수 있어 팀의 보안 기준에 맞게 에이전트의 분석 방향을 조정할 수 있습니다.
- 문제 우선순위 지정 및 검증: 위협 모델을 맥락으로 활용해 취약점을 탐색하고, 실제 시스템에서 예상되는 영향도를 기준으로 결과를 분류합니다. 가능한 경우 샌드박스 검증 환경에서 발견된 문제를 추가로 테스트해 의미 있는 신호와 불필요한 결과를 구분합니다. 사용자는 이러한 분석 내용을 검증된 결과에서 확인할 수 있습니다. Codex Security가 프로젝트에 맞게 구성된 환경에서 실행되면, 실행 중인 시스템 맥락에서 잠재적인 문제를 직접 검증할 수 있습니다. 이러한 심층 검증은 오탐을 줄이며 실제로 동작하는 개념 증명을 생성할 수 있게 합니다. 그 결과 보안 팀은 더 확실한 근거를 확보하고 문제 해결까지의 경로를 더 명확히 파악할 수 있습니다.
- 전체 시스템 맥락을 반영한 패치 제안: 마지막으로 Codex Security는 발견된 문제에 대해 시스템의 의도와 주변 동작을 고려한 수정 방안을 제안합니다. 이를 통해 보안을 강화하면서도 회귀 문제를 최소화하는 패치를 만들 수 있어 검토와 적용이 한층 안전해집니다. 사용자는 결과를 필터링하여 팀에 가장 중요한 일과 보안 영향이 가장 큰 항목에 집중할 수 있습니다.
Codex Security는 사용자 피드백을 학습해 분석 결과의 품질을 지속적으로 개선합니다. 발견된 문제의 중요도를 조정하면 그 피드백을 바탕으로 위협 모델을 정교화하고 이후 실행에서 정확도를 높입니다. 이는 시스템 아키텍처와 위험 특성을 반영해 무엇이 중요한지 점차 더 정확하게 파악하도록 돕습니다.
Codex Security는 대규모 환경에서도 작동하도록 설계되었으며, 신뢰도가 높은 결과와 바로 적용할 수 있는 패치를 제공합니다. 지난 30일 동안 베타 프로그램에 참여한 외부 리포지터리에서 120만 건 이상의 커밋을 스캔했으며, 그 과정에서 치명적인 문제 792건과 심각도가 높은 문제 1만 561건을 발견했습니다. 치명적인 문제는 스캔된 커밋의 0.1% 미만에서 발견되었습니다. 이는 대규모 코드에서 보안에 영향을 주는 문제를 찾아내면서도 검토 과정에 불필요한 노이즈를 최소화할 수 있음을 보여줍니다.
“NETGEAR는 제품 보안을 핵심 우선순위로 두고 있는 기업으로서 초기 액세스 프로그램에 참여하게 되어 매우 만족스러웠으며, 실제 결과는 기대를 뛰어넘었습니다. Codex Security는 기존의 강력한 보안 개발 환경에 자연스럽게 통합되어 보안 검토의 속도와 깊이를 한층 높였습니다. 분석 결과는 매우 명확하고 포괄적으로 제시되어, 마치 숙련된 제품 보안 연구자가 곁에서 함께 작업하는 듯한 인상을 주었습니다.”
오픈소스 소프트웨어는 현대 시스템의 기반이며 OpenAI의 시스템 역시 그 토대 위에 구축되었습니다. OpenAI는 의존도가 높은 오픈소스 리포지터리를 Codex Security로 스캔하고, 발견한 주요 보안 문제를 유지관리자와 공유해 이 기반을 더욱 강화하고 있습니다.
유지관리자들과의 대화에서 공통적으로 나온 문제는 취약점 보고가 부족한 것이 아니라 품질이 낮은 보고가 너무 많다는 것이었습니다. 유지관리자들은 오탐을 줄이고 불필요한 분류 작업 부담을 늘리지 않으면서 유효한 보안 문제를 발견할 수 있는 더 지속 가능한 방법이 필요하다고 말했습니다. 이러한 논의는 Codex Security를 통해 오픈소스 커뮤니티를 지원하는 방식에도 반영되었습니다. OpenAI는 추측성 결과를 대량으로 생성하는 대신, 유지관리자가 빠르게 조치할 수 있는 신뢰도 높은 문제를 우선적으로 찾아내는 시스템을 구축하고 있습니다.
이러한 작업의 일환으로 OpenAI는 OpenSSH(새 창에서 열기), GnuTLS(새 창에서 열기), GOGS(새 창에서 열기), Thorium(새 창에서 열기) libssh, PHP, Chromium 등 널리 사용되는 오픈소스 프로젝트에서 치명적인 취약점을 발견하여 보고하기도 했습니다. 현재까지 14개의 CVE가 할당되었으며 그중 두 건은 공동 보고로 등록되었습니다. 자세한 예시는 부록에서 확인할 수 있습니다.
OpenAI는 최근 초기 오픈소스 유지관리자 그룹을 대상으로 한 Codex 오픈소스 소프트웨어 지원 프로그램을 시작했습니다. 이 프로그램은 ChatGPT Pro, Plus, 코드 리뷰, Codex Security 등을 무료로 제공해 오픈소스 생태계를 지원합니다. vLLM과 같은 프로젝트는 이미 Codex Security를 활용해 일상적인 개발 워크플로 안에서 문제를 찾아 수정하고 있습니다.
앞으로 몇 주 안에 프로그램을 확대해 더 많은 유지관리자가 보안을 강화하고 리뷰 워크플로를 개선하며 오픈소스 생태계를 지탱하는 작업에서 필요한 지원을 받을 수 있도록 할 계획입니다. 본 프로그램에 관심이 있는 오픈소스 프로젝트 유지관리자라면, 이곳을 통해 문의해 주시기 바랍니다.
Codex Security 앞으로 며칠에 걸쳐 ChatGPT Enterprise, Business, Edu 사용자에게 순차적으로 제공될 예정입니다. Codex Security 설정 방법은 Codex 문서(새 창에서 열기)에서 자세히 확인할 수 있습니다.
- GnuTLS certtool Heap-Buffer Overflow (Off-by-One) — CVE-2025-32990(새 창에서 열기)
- GnuTLS Heap Buffer Overread in SCT Extension Parsing — CVE-2025-32989(새 창에서 열기)
- GnuTLS Double-Free in otherName SAN Export — CVE-2025-32988(새 창에서 열기)
- 2FA Bypass GOGS — CVE-2025-64175(새 창에서 열기)
- Unauth bypass GOGS — CVE-2026-25242(새 창에서 열기)
- Path traversal (arbitrary write) — download_ephemeral, download_children (agent) — CVE-2025-35430(새 창에서 열기)
- LDAP injection (filters & DN) — LdapUserMap::new / get_unix_info / basic_auth_ldap — CVE-2025-35431(새 창에서 열기)
- Unauthenticated DoS & mail abuse — resend_email_verification — CVE-2025-35432(새 창에서 열기) , CVE-2025-35436(새 창에서 열기)
- Session not rotated on password change — User::update_user — CVE-2025-35433(새 창에서 열기)
- Disabled TLS verification — Elasticsearch client — CVE-2025-35434(새 창에서 열기)
- DoS: division by zero — /api/streams/depth/.../{split} — CVE-2025-35435(새 창에서 열기)
- gpg-agent stack buffer overflow via PKDECRYPT --kem=CMS (ECC KEM) — CVE-2026-24881(새 창에서 열기)
- Stack-based buffer overflow in TPM2 PKDECRYPT for RSA and ECC due to missing ciphertext length validation — CVE-2026-24882(새 창에서 열기)
- CMS/PKCS7 AES-GCM ASN.1 params stack buffer overflow — CVE-2025-15467(새 창에서 열기)
- PKCS#12 PBMAC1 PBKDF2 keyLength overflow + MAC bypass — CVE-2025-11187(새 창에서 열기)


