오늘 OpenAI는 GPT‑5.3‑Codex의 경량화 버전이자 실시간 코딩을 위해 설계된 첫 번째 모델인 GPT‑5.3‑Codex‑Spark의 리서치 프리뷰 버전을 공개합니다. Codex-Spark는 지난 1월에 발표한 Cerebras 파트너십의 첫 번째 성과입니다. Codex-Spark는 초저지연 하드웨어에서 실행될 때 사용자의 요청에 거의 즉각적으로 반응하도록 최적화되었으며, 초당 1000개 이상의 토큰을 제공하면서도 실제 코딩 작업에서는 뛰어난 성능을 계속 유지합니다.
OpenAI는 개발자들이 조기에 실험을 시작할 수 있도록 ChatGPT Pro 사용자를 대상으로 Cerebras 하드웨어 기반의 Codex-Spark 리서치 프리뷰 버전을 제공합니다. 또한 Cerebras와 협력해 데이터센터 용량을 확대하고 전반적인 사용자 경험을 안정화하며 더 확장된 프런티어 모델을 배포할 예정입니다.
최신 프런티어 모델은 장시간 작업을 수행하는 능력에서 특히 강점을 보였습니다. 몇 시간은 물론 며칠이나 몇 주 동안 사람의 개입 없이도 자율적으로 작업을 이어갈 수 있습니다. Codex-Spark는 Codex와 실시간으로 상호작용할 수 있도록 설계된 첫 모델입니다. 개발자는 특정 영역을 정밀하게 수정하고 로직을 재구성하거나 인터페이스를 다듬은 뒤 즉시 결과를 확인할 수 있습니다. Codex-Spark가 추가되면서 Codex는 이제 장기적인 대규모 작업과 즉각적인 작업 처리를 모두 지원합니다. OpenAI는 개발자들이 새로운 모델을 활용하는 방식을 살펴보고 피드백을 반영해 접근 범위를 점차 확대해 나갈 계획입니다.
Codex-Spark는 128k 컨텍스트 윈도우를 지원하는 텍스트 전용 모델로 출시되었습니다. 리서치 프리뷰 기간 동안 별도의 사용 한도가 적용되며 Codex-Spark 사용량은 기존 플랜 한도에 반영되지 않습니다. 다만 수요가 많을 경우 사용자 간 안정성을 유지하기 위해 접근이 제한되거나 일시적으로 대기열이 발생할 수 있습니다.
Codex-Spark는 지능만큼 지연 시간도 중요한 대화형 작업에 맞춰 최적화되었습니다. 개발자는 모델과 실시간으로 협업하며 작업을 도중에 중단하거나 방향을 바꾸고, 거의 즉각적인 응답으로 빠르게 반복 작업을 진행할 수 있습니다. Codex-Spark는 속도에 맞춰 조정된 모델이기 때문에 기본적으로 가볍게 작동합니다. 필요한 부분만 최소 범위로 수정하며 요청하지 않으면 자동으로 테스트를 실행하지 않습니다.
Codex-Spark는 빠른 추론에 최적화된 고성능 경량 모델입니다. GPT‑5.3‑Codex‑Spark는 에이전트형 소프트웨어 엔지니어링 역량을 평가하는 벤치마크인 SWE-Bench Pro와 Terminal-Bench 2.0에서 강력한 성능을 발휘하면서도 작업을 완료하는 데 걸리는 시간은 GPT‑5.3‑Codex보다 훨씬 짧았습니다.
작업 시간은 (1) 출력 생성 시간(출력 토큰 수 ÷ 샘플링 속도), (2) 프리필 시간(프리필 토큰 수 ÷ 프리필 속도), (3) 전체 도구 실행 시간, (4) 전체 네트워크 오버헤드를 합산해 추정합니다.
Codex 팀은 Codex-Spark를 훈련하는 과정에서 실시간 협업을 구현하려면 모델 속도뿐 아니라 요청부터 응답까지 이어지는 전체 파이프라인의 지연 시간도 함께 줄여야 한다는 점을 확인했습니다. 이에 따라 내부 실행 인프라 전반의 엔드투엔드 지연 시간을 줄여 모든 모델의 응답 속도를 개선하는 작업을 진행했습니다. 먼저 클라이언트와 서버 간 응답 스트리밍 방식을 간소화하고 추론 스택의 핵심 구성 요소를 재작성했으며 세션 초기화 방식을 개선해 첫 토큰이 더 빨리 표시되고 반복 작업 중에도 Codex가 반응성을 유지하도록 했습니다. 또한 지속 연결 방식의 웹소켓을 도입하고 Responses API를 정밀하게 최적화해 클라이언트와 서버 간 왕복 통신 오버헤드를 80% 줄였으며 토큰당 오버헤드는 30%, 첫 토큰 도달 시간은 50% 단축했습니다. Codex-Spark에서는 웹소켓 경로가 기본적으로 활성화되어 있으며, 이는 곧 모든 모델에서 기본 설정으로 적용될 예정입니다.
Codex-Spark는 Cerebras의 Wafer Scale Engine 3(새 창에서 열기)에서 실행됩니다. 이는 고속 추론을 위해 설계된 전용 AI 가속기로, Codex에 지연 시간을 최소화한 실행 환경을 제공합니다. OpenAI는 Cerebras와 협업하여 이 저지연 처리 경로를 기존 운영 인프라에 통합하고 Codex 전반에서 원활하게 동작하도록 했으며, 향후 모델을 지원할 안정적인 기반도 마련했습니다.
“GPT-5.3-Codex-Spark에서 가장 기대되는 부분은 OpenAI 및 개발자 커뮤니티와 함께 초고속 추론이 만들어 내는 새로운 가능성을 탐색할 수 있다는 점입니다. 새로운 상호작용 방식과 활용 사례, 그리고 완전히 다른 모델 경험을 열어 갈 수 있다고 봅니다. 이번 프리뷰는 그 시작에 불과합니다.”
GPU는 학습과 추론 파이프라인 전반에서 여전히 핵심 역할을 하며 대규모 사용 환경에서 가장 비용 효율적인 토큰을 제공합니다. Cerebras는 초저지연성이 요구되는 워크플로에서 강점을 보이며 엔드투엔드 작업 흐름을 더욱 촘촘하게 만들어 반복 작업 시 Codex의 반응성을 높입니다. GPU와 Cerebras는 단일 워크로드에 함께 적용해 최적의 성능을 낼 수 있습니다.
Codex-Spark 리서치 프리뷰는 최신 Codex 앱, CLI, VS Code 확장 프로그램에서 모든 ChatGPT Pro 사용자를 대상으로 오늘부터 제공됩니다. 전용 저지연 하드웨어에서 실행되기 때문에 기존 플랜과는 별도의 사용 한도가 적용됩니다. 리서치 프리뷰 기간에는 수요에 따라 한도가 조정될 수 있습니다. 또한 Codex-Spark를 제품에 통합하려는 개발자들의 요구사항을 이해하기 위해 일부 디자인 파트너를 대상으로 API에서도 Codex-Spark를 제공합니다. 실제 워크로드 환경에서 통합 방식을 계속 조정하며 향후 몇 주에 걸쳐 접근 범위를 확대할 계획입니다.
Codex-Spark는 현재 128k 컨텍스트를 지원하는 텍스트 전용 모델이며 초고속 모델 제품군의 첫 번째 모델입니다. OpenAI는 개발자 커뮤니티와 협력해 빠른 모델이 코딩 작업에서 특히 강점을 보이는 영역을 파악하고 더욱 확장된 모델과 긴 컨텍스트 길이, 멀티모달 입력 같은 다양한 기능을 계속해서 도입할 예정입니다.
Codex-Spark는 주요 모델과 동일하게 사이버 보안 훈련을 포함한 안전 훈련을 거쳤습니다. Codex 팀은 표준 배포 절차에 따라 사이버 보안 등 주요 역량에 대한 기본 평가를 수행했으며 사이버 보안 및 생물학 영역에서 Codex-Spark가 준비성 평가 프레임워크의 상위 역량 기준에 도달할 가능성은 낮다고 판단했습니다.
Codex-Spark는 장기적 추론 및 실행과 빠른 반복을 위한 실시간 협업이라는 두 가지 상호 보완적 모드를 갖춘 Codex로 나아가는 첫 단계입니다. 앞으로 두 모드는 점차 통합될 예정입니다. 사용자는 긴밀한 상호작용 환경을 유지하면서 장시간 작업은 백그라운드의 하위 에이전트에 위임하고, 폭넓은 탐색과 속도가 필요할 때는 여러 모델에 작업을 병렬로 분산할 수 있습니다. 시간이 지나면서 처음부터 하나의 모드를 선택하지 않아도 되는 환경이 갖추어질 것입니다.
모델 역량이 높아질수록 상호작용 속도는 분명한 병목 요소가 됩니다. 초고속 추론은 이러한 반복 과정을 단축해 Codex를 더 직관적으로 사용할 수 있게 하고 아이디어를 실제 소프트웨어로 구현할 수 있는 범위를 한층 넓혀 줍니다.


