2025년 11월 19일

GPT‑5.1‑Codex‑Max로 확장하는 개발 역량

로딩 중...

소개

오늘부터 Codex에서 새로운 에이전트형 코딩 모델 GPT‑5.1‑Codex‑Max를 사용할 수 있습니다. GPT‑5.1‑Codex‑Max는 소프트웨어 엔지니어링, 수학, 연구 등 다양한 분야의 에이전트 작업으로 학습된 기본 추론 모델의 업데이트 버전입니다. GPT‑5.1‑Codex‑Max는 개발 주기의 모든 단계에서 더 우수한 속도와 지능, 토큰 효율성을 보이며 신뢰할 수 있는 진정한 코딩 파트너로 한 걸음 더 나아갑니다.

GPT‑5.1‑Codex‑Max는 장시간 이어지는 세밀한 작업을 효과적으로 처리할 수 있도록 설계되었습니다. 이 모델은 컴팩션 프로세스를 통해 여러 컨텍스트 윈도우를 자연스럽게 넘나들며 작동하도록 훈련된 최초의 모델로, 하나의 작업에서 수백만 개의 토큰을 일관되게 처리합니다. 이러한 안정적인 성능 덕분에 이제 프로젝트 단위의 대규모 리팩터링과 심화 디버깅, 수 시간에 걸친 에이전트 반복 작업까지 수행할 수 있습니다.

GPT‑5.1‑Codex‑Max는 오늘부터 Codex에서 제공되며 CLI, IDE 확장 프로그램, 클라우드, 코드 리뷰 작업에 활용할 수 있습니다. API 액세스도 곧 지원될 예정입니다.

최첨단 코딩 역량

GPT‑5.1‑Codex‑Max는 PR 생성, 코드 리뷰, 프런트엔드 개발, 질의응답 등 실제 업무 환경에서 수행되는 다양한 엔지니어링 작업을 바탕으로 학습됐으며, 여러 최신 코딩 벤치마크에서 이전 모델보다 우수한 성능을 보입니다. 이러한 벤치마크 향상은 실제 사용 경험의 개선으로도 자연스럽게 나타납니다. GPT‑5.1‑Codex‑Max는 처음으로 Windows 환경에서도 작업할 수 있도록 학습한 모델이며, Codex CLI에서 더 효과적인 코딩 파트너가 되도록 다양한 작업 유형도 추가로 학습했습니다.

* 모든 평가는 컴팩션을 활성화하고 'xhigh' 추론 수준에서 진행되었습니다.
* Terminal-Bench2.0은 Laude Institute Harbor 하네스⁠(새 창에서 열기) 환경에서 Codex CLI로 실행되었습니다.

속도와 비용

GPT‑5.1‑Codex‑Max는 한층 효율적인 추론 방식을 통해 토큰 사용량을 크게 줄였습니다. SWE-bench Verified 기준, 동일한 'medium' 추론 수준을 적용했을 때 GPT‑5.1‑Codex‑Max는 GPT‑5.1‑Codex보다 성능은 더 높으면서 추론 토큰은 30% 적게 사용하는 것으로 확인되었습니다. 새롭게 추가된 'xhigh' 추론 수준은 더 나은 답변을 제공하기 위해 더 오랜 시간 동안 생각하는 모드로, 지연 시간에 민감하지 않은 작업에 적합합니다. 대부분의 작업에서는 여전히 medium 수준을 사용할 것을 권장합니다.

이러한 토큰 효율성 향상은 실제 개발 환경에서도 비용 절감으로 이어질 것으로 예상됩니다.

한 가지 예로 GPT‑5.1‑Codex‑Max는 동일한 기능과 미적 완성도를 갖춘 고품질 프런트엔드 디자인을 훨씬 낮은 비용으로 생성할 수 있습니다.

Prompt: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

Features

Must be able to actually train a policy to make model better at cart pole
Visualizer for the activations/weights when the model is training or at inference
Steps in the episode, rewards this episode
Last survival time and best survival time in steps

Save to index.html

장시간 작업 실행

컨텍스트 윈도우 한계로 이전에는 실패하던 복잡한 리팩터링이나 장시간 이어지는 에이전트 반복 작업도 이제 컴팩션 과정을 통해 수행할 수 있습니다. GPT‑5.1‑Codex‑Max는 긴 작업 흐름에서 핵심 컨텍스트를 유지하며 불필요한 기록을 정리하는 방식으로 이러한 작업을 처리합니다. Codex 환경에서는 컨텍스트 윈도우 한계에 가까워지면 세션을 자동으로 압축해 새로운 컨텍스트 윈도우를 확보하며, 이 과정을 작업이 끝날 때까지 반복합니다.

일관된 방식으로 장시간 작업을 지속할 수 있는 능력은 보다 일반적이고 신뢰할 수 있는 AI 시스템으로 발전하기 위해 기본적으로 갖추어야 할 역량입니다. GPT‑5.1‑Codex‑Max는 한 번에 여러 시간 동안 독립적으로 작업을 수행할 수 있습니다. 내부 평가에서는 24시간 이상 이어지는 작업도 문제 없이 수행하는 것을 확인할 수 있었습니다. GPT‑5.1‑Codex‑Max는 구현 내용을 반복적으로 진행하고 테스트 실패의 원인을 찾아 해결하며 최종적으로 안정적인 결과를 도출합니다.

이 예시에서 GPT‑5.1‑Codex‑Max는 Codex CLI 오픈소스 리포지터리를 독립적으로 리팩터링하고 있습니다.

세션 길이가 모델의 컨텍스트 윈도우에 가까워지면 진행 상황을 잃지 않고 작업을 이어갈 수 있도록 세션을 자동으로 압축해 공간을 확보합니다.

영상은 이해를 돕기 위해 일부 구간이 편집되고 속도도 조정되었습니다.

안전하고 신뢰할 수 있는 AI 에이전트 구축

GPT‑5.1‑Codex‑Max는 지속적이고 장기적인 추론이 필요한 평가 작업에서 성능이 크게 향상되었습니다. 컴팩션 과정을 통해 여러 컨텍스트 윈도우에서 일관되게 작동할 수 있기 때문에 장시간 코딩 작업이나 사이버 보안 같은 분야에서 더욱 뛰어난 결과를 제공합니다. OpenAI 자체 평가와 외부 평가 결과에 대한 종합 분석은 GPT‑5.1‑Codex‑Max의 시스템 카드⁠에서 자세히 확인할 수 있습니다.

GPT‑5.1‑Codex‑Max는 OpenAI의 준비성 평가 체계⁠ 기준으로 사이버보안 영역에서 '높음' 수준에 도달하지는 않았지만, 지금까지 배포한 모델 중에서는 가장 뛰어난 사이버 보안 성능을 보이고 있으며 에이전트형 사이버보안 역량 또한 빠르게 발전하고 있습니다. OpenAI는 사이버 보안에서 '높음' 수준의 역량을 달성하기 위한 조치를 진행 중이며, 보안 담당자가 Aardvark⁠와 같은 프로그램을 통해 이러한 향상된 역량을 활용할 수 있도록 사이버 분야의 안전 장치도 강화하고 있습니다.

GPT‑5‑Codex 출시 당시 악성 활동을 탐지하고 차단하기 위해 사이버 보안 전용 모니터링 체계가 도입된 바 있습니다. 현재까지 악용 사례가 유의미하게 증가한 정황은 확인되지 않았으며 OpenAI는 더 고도화된 모델 역량에 대비해 추가적인 완화 조치를 도입할 준비를 하고 있습니다. 이미 모델 악용을 시도한 여러 사이버 공격을 차단했으며⁠, 의심스러운 활동은 정책 모니터링 시스템을 통해 검토 대상으로 분류하고 있습니다.

Codex는 기본적으로 안전한 샌드박스 환경에서 실행되도록 설계됐습니다. 파일 쓰기는 워크스페이스로 제한되며 네트워크 접근은 개발자가 직접 활성화하지 않는 이상 비활성화 상태로 설정됩니다. 신뢰할 수 없는 콘텐츠에서는 프롬프트 인젝션⁠ 위험이 발생할 수 있기에 Codex를 제한된 액세스 모드로 유지하는 것을 권장합니다.

Codex가 장시간 작업을 더욱 잘 수행하게 되면서 에이전트가 생성한 결과물을 프로덕션에 배포하기 전에 개발자가 직접 검토하는 일이 더욱 중요해졌습니다. 이를 지원하기 위해 Codex는 터미널 로그를 생성하고 도구 호출과 테스트 결과를 명확하게 표기합니다. Codex의 코드 리뷰는 모델 또는 사람이 만든 오류가 프로덕션에 배포되는 위험을 줄여주지만 사람의 검토를 완전히 대체할 수는 없으며 추가적인 검토자로 활용하는 것이 적절합니다.

사이버 보안 역량은 방어뿐 아니라 공격에도 활용될 수 있기 때문에 OpenAI는 실제 사용 정보를 반영해 안전 장치를 강화하고 자동 취약점 스캔과 수정 지원 같은 중요한 방어 도구를 유지하는 방식으로 모델을 단계적으로 배포하고 있습니다.

지원 범위

GPT‑5.1‑Codex‑Max는 Codex에서 ChatGPT Plus, Pro, Business, Edu, Enterprise 플랜으로 이용할 수 있습니다. 각 플랜의 사용 한도는 관련 문서⁠(새 창에서 열기)를 참고하시기 바랍니다.

API 키로 Codex CLI를 사용하는 개발자를 위해 API에서도 GPT‑5.1‑Codex‑Max가 곧 제공될 예정입니다.

GPT‑5.1‑Codex‑Max는 오늘부터 Codex 환경에서 GPT‑5.1‑Codex를 대체하는 기본 모델로 제공됩니다. GPT‑5.1이 범용 모델이었던 것과 달리, GPT‑5.1‑Codex‑Max와 Codex 계열 모델은 Codex 또는 이와 유사한 환경에서 에이전트형 코딩 작업을 수행하는 용도로만 사용할 것을 권장합니다.

결론

GPT‑5.1‑Codex‑Max는 훨씬 적은 토큰으로 장시간 코딩 작업을 지속하고 복잡한 워크플로를 관리하며 고품질 로직까지 구현해낼 수 있을 만큼 기술이 크게 발전했음을 보여줍니다. CLI, IDE 확장, 클라우드 연동, 코드 리뷰 도구가 지속적으로 개선되면서 엔지니어링 생산성도 크게 향상되었습니다. 현재 OpenAI 엔지니어의 95%가 매주 Codex를 사용하고 있으며, Codex 도입 이후 엔지니어들이 처리한 풀 리퀘스트 수는 약 70% 증가했습니다. 에이전트가 수행할 수 있는 영역이 넓어지는 만큼, OpenAI는 사용자가 에이전트와 함께 앞으로 어떤 새로운 것들을 만들어 나갈지 기대하고 있습니다.

부록: 모델 평가

	GPT‑5.1‑Codex (high)	GPT‑5.1‑Codex‑Max (xhigh)
SWE-bench Verified (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%

작성자

OpenAI

더 읽어보기

모두 보기

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6, Microsoft 365 Copilot의 기본 모델로 채택

제품2026년 7월 9일

GPT-5.6: 더 큰 목표에 맞춰 확장되는 프런티어 AI

제품2026년 7월 9일

ChatGPT는 더 큰 목표를 함께 실현하는 파트너로 나아갑니다

제품2026년 7월 9일