Codex의 역량을 한층 더 확장하는 새로운 모델 GPT‑5.3‑Codex를 공개합니다. GPT‑5.3‑Codex는 현재까지 공개된 모델 가운데 가장 뛰어난 에이전트형 코딩 모델로, GPT‑5.2‑Codex의 최첨단 코딩 성능과 GPT‑5.2의 추론 및 전문 지식 역량을 하나의 모델로 결합했으며 처리 속도도 25% 빨라졌습니다. 향상된 역량을 바탕으로 Codex는 이제 리서치, 도구 활용, 복잡한 실행이 수반되는 작업을 장시간에 걸쳐 처리합니다. 개발자는 동료와 협업하듯 작업 맥락을 공유한 상태에서 GPT‑5.3‑Codex와 대화하며 작업 방향을 유연하게 조율할 수 있습니다.
GPT‑5.3‑Codex는 자신의 개발 과정에 핵심적으로 활용된 최초의 모델입니다. Codex 팀은 초기 버전을 활용해 학습 과정을 디버깅하고 배포를 관리했으며 테스트 결과와 평가를 분석했습니다. 이 과정에서 팀은 Codex가 개발 속도를 얼마나 크게 끌어올리는지 확인할 수 있었습니다.
Codex는 GPT‑5.3‑Codex를 통해 단순히 코드를 작성하고 검토하는 에이전트를 넘어 개발자와 전문 직군이 컴퓨터에서 수행하는 거의 모든 작업을 처리하는 에이전트로 확장되었습니다.
GPT‑5.3‑Codex는 코딩과 에이전트 작업, 실제 업무 역량을 평가하는 네 가지 벤치마크인 SWE-Bench Pro, Terminal-Bench, OSWorld, GDPval에서 업계 최고 수준의 성과를 기록했습니다. 특히 SWE-Bench Pro와 Terminal-Bench에서는 새로운 최고 기록을 세웠고, OSWorld와 GDPval에서도 강력한 성능을 보였습니다.
GPT‑5.3‑Codex는 실제 소프트웨어 엔지니어링을 엄격하게 평가하는 SWE-Bench Pro에서 최고 기록을 달성했습니다. Python만을 테스트하는 SWE-Bench Verified와 달리 SWE-Bench Pro는 네 가지 언어를 아우르며, 데이터 오염에 더 강하고 난도와 다양성, 산업적 관련성 측면에서도 한층 높은 기준을 적용합니다. 또한 코딩 에이전트에 필요한 터미널 활용 역량을 측정하는 Terminal-Bench 2.0에서도 기존 최고 기록을 크게 웃돌았습니다. 특히 GPT‑5.3‑Codex는 이전 모델보다 더 적은 토큰으로 동일한 성과를 내어 한 번의 작업으로 처리할 수 있는 범위를 넓혔습니다.
최첨단 코딩 역량에 더해 시각적 완성도를 높이고 장시간 작업을 효율적으로 이어가는 능력이 향상되면서 GPT‑5.3‑Codex는 며칠에 걸쳐 복잡하고 기능적인 게임과 앱을 처음부터 구현할 수 있는 모델로 발전했습니다. Codex 팀은 웹 개발 역량과 장시간 에이전트 작업 수행 능력을 검증하기 위해 GPT‑5.3‑Codex에 두 가지 게임 제작을 맡겼습니다. 하나는 Codex 앱 출시 당시 공개한 레이싱 게임의 두 번째 버전이었고, 다른 하나는 다이빙 게임이었습니다. GPT‑5.3‑Codex는 웹 게임 개발 스킬과 “버그 수정”, “게임 개선”과 같은 사전에 준비된 범용 후속 프롬프트를 활용해 수백만 토큰에 달하는 수정 작업을 자율적으로 반복했습니다. 아래에서 트레일러를 시청하고 직접 게임을 플레이하여 Codex의 역량을 확인해 보시기 바랍니다.
서로 다른 레이서와 8개의 맵, 스페이스바로 사용할 수 있는 아이템을 갖춘 레이싱 게임입니다. 여기에서 직접 플레이해 보세요(새 창에서 열기)!
다양한 산호초를 탐험하며 물고기를 수집해 도감을 완성하는 다이빙 게임입니다. 산소, 수압, 위험 요소를 관리하면서 플레이할 수 있습니다. 여기에서 직접 플레이해 보세요(새 창에서 열기)!
GPT‑5.3‑Codex는 일상적인 웹사이트 제작을 요청할 때도 GPT‑5.2‑Codex보다 사용자의 의도를 더 정확하게 이해합니다. 프롬프트가 단순하거나 요구 사항이 충분히 명시되지 않은 경우에도, 더 많은 기능과 합리적인 기본 설정을 갖춘 사이트를 생성해 아이디어를 구현하기 위한 출발점을 한층 탄탄하게 제공합니다.
Codex 팀은 웹사이트 제작 테스트로 GPT‑5.3‑Codex와 GPT‑5.2‑Codex에 각각 아래의 랜딩 페이지 제작을 요청했습니다. GPT‑5.3‑Codex는 연간 요금을 총합으로 나열하는 대신 할인된 월간 요금으로 자동 표시해 할인 혜택이 명확하고 의도적으로 느껴지도록 구성했습니다. 또한 고정된 하나의 후기가 아닌 서로 다른 세 개의 사용자 후기를 자동으로 전환하는 추천사 캐러셀을 적용해 기본 상태만으로도 더 완성도 높고 실제 서비스에 바로 활용할 수 있는 페이지를 만들어냈습니다.
프롬프트: 비즈니스 창업자를 위한 주간 지표 요약 서비스인 Quiet KPI의 랜딩 페이지를 만들어줘. 전체적인 분위기는 부드러운 SaaS 스타일로, 유리 질감의 반투명 카드랑 라벤더에서 블루로 이어지는 그라데이션 배경을 사용하고 은은한 블러 효과를 넣어줘. 전체 페이지는 이메일 수집이 포함된 히어로 영역, 샘플 리포트 카드 그리드, 연동 서비스 행, 추천사 캐러셀, 월간·연간 요금 토글이 있는 가격 섹션, FAQ, 푸터로 구성해줘.
- 서체는 Satoshi 또는 유사한 기하학적 산세리프 계열을 사용해줘
- 버튼은 모서리가 부드러운 형태로, 반경 14px, 명확한 포커스를 적용해줘
- 과하지 않은 스크롤 기반 노출 효과를 하나 추가해줘
소프트웨어 엔지니어, 디자이너, 프로덕트 매니저, 데이터 사이언티스트는 단순히 코드를 작성하는 것 이상의 업무를 수행합니다. GPT‑5.3‑Codex는 디버깅, 배포, 모니터링, PRD 작성, 카피 수정, 사용자 리서치, 테스트, 지표 관리 등 소프트웨어 라이프사이클 전반의 작업을 지원하도록 설계되었습니다. 이러한 에이전트 역량은 소프트웨어 영역에 국한되지 않고, 슬라이드 자료를 만들거나 스프레드시트에서 데이터를 분석하는 등 사용자가 수행하고자 하는 다양한 작업을 지원합니다.
이전 GDPval 평가와 동일한 유형의 맞춤형 스킬을 적용해 측정한 결과, GPT‑5.3‑Codex는 GDPval 기준 전문 지식 업무에서도 GPT‑5.2와 동등한 수준의 성능을 보였습니다. GDPval은 OpenAI가 2025년에 공개한 평가 벤치마크로, 명확하게 정의된 44개 직군의 지식 업무 과제에서 모델의 수행 능력을 측정합니다. 여기에는 프레젠테이션, 스프레드시트, 기타 업무 산출물 제작과 같은 과제가 포함됩니다.
아래는 에이전트가 수행한 작업의 몇 가지 예시입니다.
프롬프트 + 작업 컨텍스트
GPT-5.3-Codex output

OSWorld는 시각적 데스크톱 환경에서 에이전트의 컴퓨터 사용 능력과 실제 생산성 작업 수행 역량을 평가하는 벤치마크입니다. 이 벤치마크에서 GPT‑5.3‑Codex는 이전 GPT 모델보다 훨씬 더 뛰어난 컴퓨터 사용 역량을 보였습니다.
OSWorld-Verified에서는 모델이 시각 정보를 활용해 다양한 컴퓨터 작업을 수행합니다. 인간의 점수는 약 72%입니다.
코딩, 프런트엔드, 컴퓨터 활용 같은 실제 업무 영역에서 측정된 결과는 GPT‑5.3‑Codex가 개별 작업의 성능 개선을 넘어 현실 세계의 기술 업무 전반을 아우르며 단일 범용 에이전트로 도약하고 있음을 보여줍니다.
모델의 역량이 강화될수록, 핵심은 에이전트가 무엇을 할 수 있는가에서 여러 에이전트를 병렬로 운영하며 사람이 얼마나 쉽게 상호작용하고 지시하며 감독할 수 있는가로 옮겨갑니다. Codex 앱을 통해 에이전트 관리와 제어가 한층 수월해졌고 GPT‑5.3‑Codex로 상호작용성도 더욱 강화되었습니다. 새로운 모델에서는 작업이 진행되는 동안 Codex가 주요 판단과 진행 상황을 수시로 공유해 사용자는 현재 상태를 계속 파악할 수 있으며, 최종 결과를 기다리는 대신 실시간으로 질문하고 접근 방식을 논의하며 해결 방향을 함께 조율할 수 있습니다. GPT‑5.3‑Codex는 수행 중인 작업을 설명하고 사용자 피드백에 응답하며 시작부터 완료까지 전 과정을 투명하게 공유합니다.
앱에서 모델이 작업하는 동안 설정 > 일반 > 후속 동작에서 방향 조율을 활성화하세요.
최근 Codex의 빠른 개선은 OpenAI 팀이 수개월 또는 수년에 걸쳐 진행한 연구 프로젝트의 성과를 바탕으로 이루어졌습니다. 이러한 연구 프로젝트는 Codex를 통해 더욱 가속화되고 있으며, OpenAI의 많은 연구원과 엔지니어는 지금의 업무 방식이 불과 두 달 전과 비교해도 근본적으로 달라졌다고 말합니다. GPT‑5.3‑Codex의 초기 버전만으로도 이미 뛰어난 역량이 확인되었고 팀은 이를 활용해 모델 훈련 과정을 개선하고 이후 버전의 배포를 지원할 수 있었습니다.
Codex는 활용 범위가 매우 넓어 팀에 어떤 방식으로 기여하는지 모두 나열하기는 어렵습니다. 한 가지 예로 연구팀은 이번 릴리스의 훈련 과정을 모니터링하고 디버깅하는 데 Codex를 활용했습니다. Codex는 인프라 문제 디버깅을 넘어, 훈련 과정의 패턴을 추적하고 상호작용 품질에 대한 심층 분석과 개선안을 제시했습니다. 아울러 이전 모델과의 동작 차이를 연구원이 정밀하게 이해할 수 있도록 다양한 애플리케이션을 구축하는 데에도 기여했습니다.
엔지니어링 팀은 GPT‑5.3‑Codex를 위한 테스트 하네스를 최적화하고 조정하는 데 Codex를 활용했습니다. 사용자에게 영향을 미치는 특이한 엣지 케이스가 발견되었을 때도 팀은 Codex를 사용해 컨텍스트 렌더링 버그를 식별하고 캐시 적중률 저하의 근본 원인을 분석했습니다. GPT‑5.3‑Codex는 출시 전 과정에서 트래픽 급증에 맞춰 GPU 클러스터를 동적으로 확장하고 지연 시간을 안정적으로 유지하며 현재에도 팀을 계속 지원하고 있습니다.
알파 테스트 과정에서는 한 연구원이 GPT‑5.3‑Codex가 한 턴당 수행하는 추가 작업량과 그에 따른 생산성 차이를 파악하고자 했습니다. GPT‑5.3‑Codex는 명확화 요청 빈도, 긍정적·부정적 사용자 반응, 작업 진행 정도를 추정하기 위한 간단한 정규식 분류기를 여러 개 제안했고, 이를 모든 세션 로그에 확장 적용해 결론을 담은 보고서를 생성했습니다. 에이전트가 의도를 더 정확히 이해하고 턴당 더 많은 진전을 이루는 동시에, 추가 설명을 요구하는 질문이 줄어들면서 Codex를 활용해 작업하는 사람들의 만족도도 높아졌습니다.
GPT‑5.3‑Codex는 이전 모델과 성격이 크게 달라 알파 테스트 데이터에서 다수의 이례적이고 직관에 반하는 결과가 나타났습니다. 이에 팀의 한 데이터 사이언티스트는 GPT‑5.3‑Codex를 활용해 새로운 데이터 파이프라인을 구축하고, 기존 대시보드 도구로는 구현하기 어려웠던 수준까지 결과를 풍부하게 시각화했습니다. 이렇게 도출된 결과는 Codex와 함께 공동으로 분석했으며, Codex는 수천 개의 데이터 포인트에서 핵심 인사이트를 3분 이내에 간결하게 요약했습니다.
각각의 작업은 Codex가 연구자와 제품 개발자를 어떻게 지원할 수 있는지를 보여주는 흥미로운 예시입니다. 이러한 사례를 종합해 보면 Codex의 새로운 역량이 연구, 엔지니어링, 제품 팀 전반의 속도를 크게 끌어올리고 있음을 확인할 수 있습니다.
최근 몇 달 동안 사이버 보안 관련 작업에서 모델 성능이 유의미하게 향상되었으며, 이는 개발자와 보안 전문가 모두에게 큰 도움이 되고 있습니다. OpenAI는 이에 발맞춰 방어 목적의 AI 활용과 생태계 전반의 회복력을 강화하기 위해 한층 강화된 사이버 보호 장치를 준비하고 있습니다.
GPT‑5.3‑Codex는 준비성 평가 프레임워크의 사이버 보안 관련 작업에서 고급 역량 평가를 받은 최초의 모델이자 소프트웨어 취약점을 식별하도록 직접 훈련한 첫 번째 모델입니다. 아직 사이버 공격을 처음부터 끝까지 자동화할 수 있다는 명확한 증거는 없지만, 예방적 접근을 택해 현재까지 가장 포괄적인 사이버 보안 체계를 적용하고 있습니다. 여기에는 안전성 학습, 모니터링 자동화, 고급 기능에 대한 신뢰 기반 접근 제어, 위협 인텔리전스를 기반으로 한 대응 파이프라인 등이 포함됩니다.
사이버 보안 기술은 본질적으로 방어와 공격 모두에 사용될 수 있는 이중적 성격을 지니고 있기 때문에 OpenAI는 증거 기반의 반복적 접근 방식을 채택해 방어 측의 취약점 탐지 및 수정 역량은 가속하고 오용은 억제합니다. 이러한 노력의 일환으로, 사이버 방어 연구를 가속화하기 위한 파일럿 프로그램인 Trusted Access for Cyber도 시행하고 있습니다.
OpenAI는 Codex Security 제품 및 도구 모음의 첫 번째 구성으로 보안 연구 에이전트 Aardvark의 비공개 베타를 확대하는 등 생태계 보호 장치에 대한 투자를 이어가고 있습니다. 또한 오픈소스 유지관리자들과 협력해 Next.js와 같이 널리 사용되는 프로젝트를 대상으로 무료 코드베이스 스캐닝을 제공하고 있으며, 지난주에는 한 보안 연구원이 Codex를 활용해 취약점을 발견한 사례(새 창에서 열기)도 확인되었습니다.
2023년에 시작한 100만 달러 규모의 사이버 보안 그랜트 프로그램에 더해, OpenAI는 오픈소스 소프트웨어와 핵심 인프라 시스템을 중심으로 가장 강력한 모델을 활용한 사이버 방어를 확대하기 위해 1,000만 달러 상당의 API 크레딧을 추가로 지원합니다. 책임 있는 보안 연구를 수행하는 조직은 사이버 보안 그랜트 프로그램을 통해 API 크레딧과 지원을 신청할 수 있습니다.
GPT‑5.3‑Codex는 유료 ChatGPT 플랜에서 제공되며 Codex를 사용할 수 있는 모든 환경(앱, CLI, IDE 확장 프로그램, 웹)에서 이용이 가능합니다. API 접근도 안전하게 제공하기 위해 준비 중입니다.
이번 업데이트에서는 인프라와 추론 스택을 개선해 Codex 사용자 기준으로 GPT‑5.3‑Codex의 처리 속도를 기존보다 25% 높였습니다. 이를 통해 상호작용이 더 빠르고 결과도 한층 신속하게 제공됩니다.
GPT‑5.3‑Codex는 NVIDIA GB200 NVL72 시스템을 기반으로 공동 설계되고 학습되었으며, 동일한 시스템에서 제공됩니다. 이를 위해 협력한 NVIDIA에 감사의 인사를 전합니다.
GPT‑5.3‑Codex를 통해 Codex는 코드 작성을 넘어, 코드를 도구로 활용해 컴퓨터를 직접 운영하고 작업을 처음부터 끝까지 수행하는 단계로 나아갑니다. 코딩 에이전트의 가능성을 한층 확장하여 소프트웨어 구축과 배포는 물론 리서치, 분석, 복잡한 작업 실행에 이르기까지 더 넓은 범위의 지식 업무를 지원합니다. 최고의 코딩 에이전트를 목표로 시작한 Codex는 이제 컴퓨터 전반에서 협업하는 범용적인 도구로 진화하고 있으며, Codex로 구현할 수 있는 작업과 이를 활용할 수 있는 대상 모두가 확대되고 있습니다.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56.8% | 56.4% | 55.6% |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
OSWorld-Verified | 64.7% | 38.2% | 37.9% |
GDPval (wins or ties) | 70.9% | - | 70.9% (high) |
Cybersecurity Capture The Flag Challenges | 77.6% | 67.4% | 67.7% |
SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |


