오늘 ChatGPT에 GPT‑5.4 mini와 GPT‑5.4 nano 모델이 새롭게 공개됩니다. 두 모델은 지금까지 선보인 소형 모델 가운데 가장 높은 성능을 갖추고 있으며, GPT‑5.4의 여러 강점을 유지하면서도 대규모 작업을 더욱 빠르고 효율적으로 처리할 수 있도록 설계되었습니다.
GPT‑5.4 mini는 코딩, 추론, 멀티모달 이해, 도구 사용 전반에서 GPT‑5 mini보다 두 배 이상 빠른 속도로 월등히 향상된 성능을 제공합니다. 또한 SWE-Bench Pro와 OSWorld-Verified를 비롯한 여러 벤치마크 평가에서도 상위 모델인 GPT‑5.4에 가까운 성능을 보였습니다.
GPT‑5.4 nano는 속도와 비용이 중요한 작업을 위해 설계된 가장 작고 저렴한 가격의 GPT‑5.4 모델입니다. GPT‑5 nano 대비 성능이 크게 향상되었으며 분류, 데이터 추출, 랭킹 작업과 비교적 단순한 보조 작업을 처리하는 코딩 서브에이전트에 적합합니다.
두 모델은 지연 시간이 제품 경험에 직접적인 영향을 미치는 작업에 최적화되었습니다. 빠른 반응이 중요한 코딩 어시스턴트, 보조 작업을 신속히 처리하는 서브에이전트, 스크린샷을 캡처하고 해석하는 컴퓨터 사용 시스템, 이미지를 실시간으로 추론하는 멀티모달 애플리케이션 등이 여기에 해당합니다. 이러한 환경에서는 가장 큰 모델이 항상 최선을 의미하지는 않습니다. 빠르게 응답하고 도구를 안정적으로 활용하면서도 복잡한 전문 작업에서 높은 성능을 유지하는 모델이 더 적합한 경우가 많습니다.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini에서 사용 가능한 reasoning_effort 최고값은 'high'입니다.
다음은 고객들이 실제 워크플로에서 GPT‑5.4 mini와 GPT‑5.4 nano를 테스트한 뒤 남긴 평가입니다.
“GPT-5.4 mini는 이 등급의 모델 가운데서도 강력한 엔드투엔드 성능을 보여줍니다. 내부 평가에서는 여러 출력 작업과 인용 재현율에서 훨씬 낮은 비용으로 경쟁 모델과 비슷하거나 더 높은 성능을 달성했습니다. 또한 더 큰 모델인 GPT-5.4보다 엔드투엔드 통과율이 더 높았고 출처 귀속 정확성도 더 뛰어났습니다.”
GPT‑5.4 mini와 nano는 빠른 반복 작업이 중요한 코딩 워크플로에서 특히 효과적인 모델입니다. 타깃 편집, 코드베이스 탐색, 프런트엔드 생성, 디버깅 루프 같은 작업을 낮은 지연 시간으로 처리할 수 있으며 더 빠른 속도와 낮은 비용이 요구되는 코딩 작업에서 뛰어난 성능을 발휘합니다.
벤치마크에서도 GPT‑5.4 mini는 비슷한 지연 시간 조건에서 GPT‑5 mini를 꾸준히 능가했으며, 훨씬 빠른 실행 속도로 GPT‑5.4에 가까운 통과율을 기록해 코딩 워크플로에서 지연 시간 대비 성능 균형이 매우 뛰어난 모델 가운데 하나로 평가됩니다.
지연 시간은 모델이 실제 서비스 환경에서 어떻게 동작하는지를 바탕으로 추정한 뒤 오프라인 시뮬레이션으로 계산했습니다. 지연 시간 추정에는 도구 호출에 걸리는 시간(코드 실행 시간), 샘플링된 토큰, 입력 토큰이 반영됩니다. 실제 환경의 지연 시간은 크게 달라질 수 있으며 시뮬레이션에 포함되지 않은 다양한 요인의 영향을 받을 수 있습니다. 마찬가지로 비용은 작성 시점의 모델 API 가격을 바탕으로 추정되었습니다. 비용은 향후 변경될 수 있습니다. 추론 수준은 low에서 xhigh로 상향 조정되었습니다.
GPT‑5.4 mini는 서로 다른 크기의 모델을 함께 사용하는 시스템에도 잘 맞습니다. 예를 들면 Codex에서는 GPT‑5.4 같은 대형 모델이 계획 수립, 조정, 최종 판단을 담당하고 코드베이스 검색, 대용량 파일 검토, 보조 문서 처리처럼 범위가 더 좁은 하위 작업은 GPT‑5.4 mini 서브에이전트가 병렬로 처리하도록 설정할 수 있습니다. 개발자 문서(새 창에서 열기)에서 Codex의 서브에이전트가 어떻게 작동하는지 자세히 알아보세요.
이러한 방식은 소형 모델의 속도와 성능이 계속 향상될수록 더욱 유용해집니다. 하나의 모델로 모든 작업을 처리하는 대신 개발자는 대형 모델이 무엇을 할지 결정하고 소형 모델이 이를 대규모로 빠르게 실행하는 시스템을 구성할 수 있습니다. GPT‑5.4 mini는 지금까지 공개된 소형 모델 가운데 이러한 유형의 워크플로에 가장 최적화된 모델입니다.
GPT‑5.4 mini는 멀티모달 작업에서도 강점을 보이며 특히 컴퓨터 사용과 관련된 작업에서 성능이 뛰어납니다. 복잡한 사용자 인터페이스로 구성된 스크린샷도 빠르게 해석하여 컴퓨터 사용 작업을 신속하게 수행할 수 있습니다. GPT‑5.4 mini는 OSWorld-Verified 평가에서도 GPT‑5.4에 가까운 성능을 보이면서 GPT‑5 mini를 크게 능가했습니다.
오늘부터 API, Codex, ChatGPT에서 GPT‑5.4 mini를 사용할 수 있습니다.
GPT‑5.4 mini는 API를 통해 텍스트와 이미지 입력, 도구 사용, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용, 스킬 기능을 제공합니다. 컨텍스트 윈도우는 40만 토큰이며 비용은 입력 토큰 100만 개당 $0.75, 출력 토큰 100만 개당 $4.50입니다.
Codex에서는 앱과 CLI, IDE 확장 프로그램, 웹을 통해 사용이 가능합니다. GPT‑5.4 mini는 GPT‑5.4 사용 한도의 30%만 사용하기 때문에 Codex에서 비교적 단순한 코딩 작업을 약 3분의 1 수준의 비용으로 빠르게 처리할 수 있습니다. 또한 Codex 작업을 GPT‑5.4 mini 서브에이전트에 할당해 추론이 많이 필요하지 않은 작업을 더 저렴한 모델에서 실행할 수도 있습니다.
ChatGPT의 경우, Free 및 Go 플랜 사용자는 + 메뉴의 '잘 생각하기' 옵션을 선택하여 GPT‑5.4 mini를 사용할 수 있습니다. 그 외 모든 사용자에게는 GPT‑5.4 Thinking의 사용 한도 도달 시 대체 모델로 GPT‑5.4 mini가 제공됩니다.
GPT‑5.4 nano는 API에서만 사용할 수 있으며 비용은 입력 토큰 100만 개당 $0.20, 출력 토큰 100만 개당 $1.25입니다.
모델의 안전장치에 대한 자세한 내용은 Deployment Safety Hub(새 창에서 열기)의 시스템 카드 부록을 통해 확인하세요.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini에서 사용 가능한 reasoning_effort 최고값은 'high'입니다.
2 전체 편집 거리. OmniDocBench는 저비용, 저지연 성능을 반영하기 위해 reasoning_effort 값을 none으로 설정하여 진행되었습니다.


