2026년 3월 5일

GPT‑5.4를 소개합니다

전문 작업을 위해 설계된 모델

로딩 중...

오늘 ChatGPT와 API, Codex에 GPT‑5.4 모델(GPT‑5.4 Thinking)이 새롭게 도입됩니다. GPT‑5.4는 전문 작업을 위한 모델 가운데 가장 뛰어난 성능과 효율을 갖춘 프런티어 모델입니다. 복잡한 작업에서 최대 성능이 필요한 사용자를 위해 GPT‑5.4 Pro 또한 ChatGPT와 API에서 함께 제공됩니다.

GPT‑5.4는 추론, 코딩, 에이전트 기반 워크플로 영역에서 최근 이루어진 주요 기술 발전을 하나의 프런티어 모델로 통합합니다. 업계 최고 수준의 코딩 역량을 갖춘 GPT‑5.3‑Codex⁠를 기반으로 각종 도구와 소프트웨어 환경, 스프레드시트·프레젠테이션·문서 활용이 포함된 전문 업무 전반에서 모델 성능을 한층 끌어올렸습니다. 새로운 모델은 복잡한 업무도 더욱 정확하고 효과적으로 처리하며, 여러 번 추가로 요청하지 않아도 원하는 결과를 빠르게 제공합니다.

GPT‑5.4 Thinking은 이제 응답을 생성하기 전에 자신의 추론 계획을 먼저 제시합니다. 사용자는 모델이 작업을 진행하는 도중에 방향을 조정할 수 있어 메시지를 여러 번 주고받지 않아도 요구사항에 더 가까운 결과물을 얻을 수 있습니다. 이와 함께 심층 웹 리서치 기능도 개선되어 매우 구체적인 질문에서 더 강력한 성능을 보이며, 긴 추론이 필요한 질문에서도 맥락 정보를 더 안정적으로 유지합니다. 전반적으로 GPT‑5.4 Thinking은 더 높은 품질의 답변을 더 빠르게 제공하고, 현재 수행 중인 작업과도 관련성이 더 높은 답변을 제공하도록 개선되었습니다.

GPT‑5.4는 Codex와 API에서 OpenAI가 공개한 범용 모델 가운데 처음으로 최신 수준의 컴퓨터 사용 기능을 기본 제공합니다. 이제 에이전트가 사용자를 대신해 컴퓨터를 직접 조작하고 여러 애플리케이션에 걸친 복잡한 워크플로를 수행합니다. 최대 100만 토큰의 컨텍스트를 지원해 에이전트는 장시간에 걸쳐 작업을 계획 및 실행하고 검증할 수 있습니다. 또한 GPT‑5.4에는 도구 검색 기능이 추가되어 다양한 도구와 커넥터로 이루어진 대규모 생태계에서도 에이전트가 성능 저하 없이 필요한 도구를 더 효율적으로 찾고 사용할 수 있습니다. GPT‑5.4는 지금까지 공개된 모델 가운데 가장 토큰 효율적인 추론 모델입니다. GPT‑5.2와 비교하면 문제 해결에 필요한 토큰 수가 크게 줄어 토큰 사용량은 감소하고 처리 속도는 더 빨라졌습니다.

일반 추론, 코딩, 전문 지식 기반 업무에서 이루어진 기술 발전을 하나로 통합한 GPT‑5.4는 이제 ChatGPT, API, Codex에서 더 신뢰할 수 있는 에이전트와 더 빠른 개발 워크플로, 더 높은 품질의 결과물을 제공합니다.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (wins or ties)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*기존에는 64.7%로 보고되었습니다. 원본 이미지 해상도를 유지하는 새 API 파라미터를 적용하면 GPT‑5.3‑Codex는 74.0%의 성능을 기록합니다.

전문 지식 기반 업무

GPT‑5.4는 GPT‑5.2의 일반 추론 역량을 기반으로 전문가에게 중요한 현실 업무에서 더욱 일관되고 완성도 높은 결과를 제공합니다.

에이전트가 44개 직종에서 명확히 정의된 지식 업무를 수행하는 역량을 테스트하는 벤치마크인 GDPval⁠에서 GPT‑5.4는 전체 비교 사례의 83.0%에서 업계 전문가와 동등하거나 그 이상의 성과를 기록해 새로운 최고 성능을 달성했습니다. 이는 GPT‑5.2의 71.0%와 비교해 크게 향상된 수치입니다.

GDPval에서는 모델이 미국 GDP에 가장 크게 기여하는 9개 산업 전반의 44개 직종을 대상으로 명확히 정의된 지식 업무를 수행합니다. 업무 목표는 영업 프레젠테이션, 회계 스프레드시트, 응급 진료 스케줄, 제조 도면, 짧은 영상 등 실제 업무 환경에서 사용할 수 있는 결과물을 생성하는 것입니다. GPT‑5.4에는 추론 수준을 xhigh로, GPT‑5.2에는 heavy로 설정했습니다. heavy는 ChatGPT에서 제공되는 것보다 약간 더 낮은 수준입니다.

“GPT-5.4는 우리가 지금까지 사용해 본 모델 중 가장 뛰어난 모델입니다. 전문 서비스 업무에서 모델 성능을 평가하는 APEX-Agents 벤치마크에서도 현재 1위를 기록하고 있습니다. 슬라이드 자료, 재무 모델, 법률 분석처럼 장기간에 걸친 작업 결과물을 생성하는 데 특히 강점을 보이며 경쟁 프런티어 모델보다 더 빠르고 낮은 비용으로 최고 수준의 성능을 제공합니다.”

Brendan Foody, Mercor 최고경영자

OpenAI는 GPT‑5.4가 스프레드시트, 프레젠테이션, 문서를 생성하고 편집하는 능력을 개선하는 데 특히 중점을 두었습니다. 주니어 투자은행 애널리스트가 수행할 수 있는 스프레드시트 모델링 작업을 기준으로 한 내부 벤치마크에서 GPT‑5.4의 평균 점수는 87.5%로, GPT‑5.2의 68.4%를 크게 웃돌았습니다. 프레젠테이션 평가 프롬프트 세트에서는 미적 완성도, 시각적 다양성, 이미지 생성 활용 측면에서 더 뛰어난 결과를 보여 인간 평가자의 68.0%가 GPT‑5.2보다 GPT‑5.4가 생성한 프레젠테이션을 더 선호했습니다.

문서는 추론 수준을 xhigh로 설정해 생성되었습니다

이러한 기능은 ChatGPT에서 GPT‑5.4 Thinking 또는 Pro를 통해 직접 사용해 볼 수 있습니다. 엔터프라이즈 고객이라면 오늘 출시된 Excel 및 Google Sheets용 ChatGPT 플러그인⁠(새 창에서 열기)을 사용해 보기를 권장합니다. Codex 및 API에서 사용할 수 있는 스프레드시트⁠(새 창에서 열기) 와 프레젠테이션 스킬⁠(새 창에서 열기) 도 함께 업데이트되었습니다.

GPT‑5.4가 현실 업무에서 더 안정적으로 작동할 수 있도록 환각과 오류를 줄이기 위한 개선 작업도 계속해서 진행되었습니다. GPT‑5.4는 지금까지 공개된 모델 가운데 사실 정확성이 가장 높은 모델입니다. 사용자가 사실 오류를 표시한 비식별 프롬프트 세트에서 GPT‑5.4는 GPT‑5.2와 비교했을 때 개별 주장 단위의 오류 발생 가능성이 33% 낮았으며 전체 응답에 오류가 포함될 가능성도 18% 낮았습니다.

“GPT-5.4는 문서 중심의 법률 업무에서 새로운 성능 기준을 제시하며 당사의 BigLaw Bench 평가에서 91%의 점수를 기록했습니다. 다른 모델과 비교했을 때 GPT-5.4는 복잡한 거래 분석을 더 체계적으로 구성하고 긴 계약서에서도 정확성을 안정적으로 유지하며 법률 실무자가 요구하는 높은 수준의 세부 정보까지 충실하게 제공합니다.”

Niko Grupen, Harvey 응용 연구 책임자

컴퓨터 사용 및 비전 기능

GPT‑5.4는 OpenAI가 공개한 범용 모델 가운데 처음으로 컴퓨터 사용 기능을 기본 제공합니다. 이는 개발자와 에이전트 모두에게 중요한 도약을 의미합니다. 웹사이트와 소프트웨어 시스템 전반에서 실제 작업을 수행하는 에이전트를 구축하려는 개발자에게는 GPT‑5.4가 가장 적합한 모델이 될 것입니다.

GPT‑5.4는 다양한 컴퓨터 사용 워크로드에서 우수한 성능을 발휘하도록 설계되었습니다. Playwright 같은 라이브러리를 활용해 컴퓨터를 제어하는 코드를 작성하는 데 뛰어난 능력을 보이며, 스크린샷을 기반으로 마우스와 키보드 명령을 실행하는 작업도 수행할 수 있습니다. 또한 개발자 메시지를 통해 모델의 동작을 조정할 수 있어 특정 사용 사례에 맞게 행동 설정이 가능합니다. 개발자는 맞춤형 확인 정책을 통해 모델이 감수할 수 있는 위험 수준을 상황에 맞게 다양하게 설정할 수 있습니다.

이러한 성능과 유연성은 다양한 환경에서 컴퓨터 사용 능력을 평가하는 다수의 벤치마크를 통해서도 확인되었습니다. 스크린샷과 키보드·마우스 조작을 통해 모델이 데스크톱 환경을 탐색하는 능력을 평가하는 OSWorld-Verified 벤치마크에서 GPT‑5.4는 75.0%로 최고 기록을 달성하며 GPT‑5.2의 47.3%를 크게 앞섰고, 인간의 기록인 72.4%도 넘어섰습니다.¹

브라우저 사용 능력을 평가하는 WebArena-Verified에서는 DOM 사용 방식과 스크린샷 사용 방식을 함께 활용했을 때 GPT‑5.4가 67.3% 의 성공률을 기록하며 GPT‑5.2의 65.4%를 웃돌았습니다. 마찬가지로 브라우저 사용 능력을 평가하는 Online-Mind2Web에서는 스크린샷 기반 관찰만으로도 GPT‑5.4가 92.8%의 성공률을 달성하며 70.9%를 기록한 ChatGPT Atlas 에이전트 모드보다 발전된 성능을 보였습니다.

도구 중단이란 어시스턴트가 도구 응답을 기다리기 위해 실행을 잠시 멈추는 상황을 의미합니다. 예를 들어 도구 3개를 병렬로 호출한 뒤 다시 도구 3개를 병렬로 호출하면 중단 횟수는 2회가 됩니다. 병렬 처리 효과가 반영되기 때문에 중단 횟수는 도구 호출 횟수보다 지연 시간을 더 잘 보여주는 지표로 작용합니다.

GPT‑5.4는 브라우저 인터페이스의 스크린샷을 해석하고 좌표 기반 클릭으로 UI 요소와 상호작용해 이메일을 보내고 캘린더 일정을 생성합니다.

GPT‑5.4의 컴퓨터 사용 능력 향상은 모델의 전반적인 비전 인식 개선을 바탕으로 이루어졌습니다. 모델의 시각 이해와 추론 능력을 평가하는 MMMU-Pro에서 GPT‑5.4는 도구를 사용하지 않은 상태에서도 81.2%의 성공률을 기록해 79.5%를 기록한 GPT‑5.2보다 높은 성능을 보였습니다. 시각 인식 능력의 향상은 문서 파싱 성능의 개선으로도 이어집니다. OmniDocBench에서 추론 수준을 지정하지 않은 GPT‑5.4의 평균 오류(모델 예측과 정답 사이의 정규화 편집 거리로 측정)는 0.109로, GPT‑5.2의 0.140보다 낮았습니다.

MMMUPro는 추론 수준을 xhigh로 설정하여 진행되었으며, OmniDocBench는 저비용, 저지연 성능을 반영하기 위해 추론 수준을 none으로 설정하여 진행되었습니다.

GPT‑5.4에서는 고해상도 이미지 처리를 위한 시각 이해 능력도 한층 개선되었습니다. GPT‑5.4부터는 original 이미지 입력 디테일⁠(새 창에서 열기) 수준이 새롭게 도입되어 총 10.24M 픽셀 또는 최대 6000픽셀 해상도(둘 중 더 낮은 값)까지 원본 수준의 인식을 지원합니다. high 이미지 입력 디테일 수준에서도 총 2.56M 픽셀 또는 최대 2048픽셀 해상도를 지원합니다. API 사용자 대상 초기 테스트에서는 original 또는 high 디테일 수준을 사용할 때 위치 인식 능력, 이미지 이해, 클릭 정확도가 크게 개선된 것으로 나타났습니다.

“약 3만 개의 HOA 및 재산세 포털에서 컴퓨터 사용 성능을 평가한 내부 테스트 결과, GPT-5.4는 첫 시도에서 95%의 성공률을 기록했으며 총 세 번의 시도만으로 100%에 도달했습니다. 이는 기존 CUA 모델의 73~79% 성공률과 비교했을 때 크게 향상된 수치입니다. 또한 세션을 3배 더 빠르게 완료하면서 토큰 사용량은 70% 가량 줄어 대규모 운영 환경에서 신뢰성과 비용 효율성도 크게 개선되었습니다.”

Dod Fraser, Mainstay 최고경영자

API에서는 업데이트된 computer 도구를 통해 이러한 기능을 사용할 수 있습니다. 권장 사용 방법은 업데이트된 문서⁠(새 창에서 열기)를 참고하시기 바랍니다.

코딩

GPT‑5.4는 GPT‑5.3‑Codex의 코딩 역량에 전문 지식 업무 처리 능력과 컴퓨터 사용 능력을 결합한 모델입니다. 이러한 역량은 모델이 도구를 활용하고 반복적으로 작업을 수행하며 사람의 개입을 최소화한 채 작업을 계속 확장해 나가는 장시간 실행 작업에서 특히 중요합니다. GPT‑5.4는 SWE-Bench Pro에서 GPT‑5.3‑Codex와 동등하거나 그 이상의 성능을 보이면서도 모든 추론 수준에서 더 낮은 지연 시간을 기록했습니다.

지연 시간은 모델이 실제 서비스 환경에서 어떻게 동작하는지를 바탕으로 추정한 뒤 오프라인 시뮬레이션으로 계산했습니다. 지연 시간 추정에는 도구 호출에 걸리는 시간(코드 실행 시간), 샘플링된 토큰, 입력 토큰이 반영됩니다. 실제 환경의 지연 시간은 크게 달라질 수 있으며 시뮬레이션에 포함되지 않은 다양한 요인의 영향을 받을 수 있습니다. 추론 수준은 none에서 xhigh로 상향 조정되었습니다.

Codex에서 /fast 모드를 활성화하면 GPT‑5.4 사용 시 토큰 처리 속도가 최대 1.5배까지 빨라집니다. 모델과 지능은 그대로 유지하면서 속도만 더 빨라지는 옵션으로, 흐름을 끊지 않고 코딩 작업과 반복 개선, 디버깅을 빠르게 진행할 수 있도록 합니다. 개발자는 우선 처리⁠(새 창에서 열기) 옵션을 이용해 API에서도 동일하게 빠른 속도로 GPT‑5.4를 사용할 수 있습니다.

평가와 내부 테스트 결과 GPT‑5.4는 복잡한 프런트엔드 작업에서 특히 뛰어난 성능을 보였으며 지금까지 출시된 어떤 모델보다 미적 완성도와 기능 측면에서 더 우수한 결과를 생성했습니다.

GPT‑5.4의 컴퓨터 사용 능력과 코딩 역량이 함께 작동하는 모습을 확인할 수 있는 실험적 Codex 스킬 'Playwright (Interactive)⁠(새 창에서 열기)'도 함께 공개합니다. Codex는 이 스킬을 이용해 웹 앱과 Electron 앱을 시각적으로 디버깅할 수 있으며 앱을 생성하는 과정에서 동시에 테스트도 진행할 수 있습니다.

간단한 단일 프롬프트를 이용해 GPT‑5.4로 제작한 테마파크 시뮬레이션 게임으로, 브라우저 플레이테스트에는 Playwright Interactive를 활용하고 아이소메트릭 자산 제작에는 이미지 생성을 활용했습니다. 시뮬레이션에는 타일 기반 길 배치, 놀이기구와 장식물 건설, 방문객 경로 탐색, 대기열 관리, 놀이기구 운행 주기 등의 시스템이 포함되어 있으며 공원의 배치 성과와 방문객 반응에 따라 자금, 방문객 수, 만족도, 청결도, 평점 등의 지표가 상승하거나 하락합니다. Playwright는 브라우저 플레이테스트를 자동화하는 데 사용되었으며 공원을 확장하고 길과 놀이기구를 배치하거나 제거하고 카메라 이동을 점검하며 방문객 이동, 대기열, 놀이기구 상태, UI 지표가 여러 차례의 플레이 과정에서도 올바르게 업데이트되는지 확인했습니다.

프롬프트: $playwright-interactive와 $imagegen을 사용해 브라우저에서 직접 만들고 탐색할 수 있는 인터랙티브 아이소메트릭 테마파크 시뮬레이션 게임을 제작하세요. imagegen을 사용해 전체적인 비주얼 방향을 잡고 놀이기구, 길, 지형, 나무, 물, 푸드 스톨, 장식, 건물, 아이콘, UI 일러스트를 포함한 게임의 에셋을 생성하세요. 전체 세계관은 통일감 있고 완성도 높으며 시각적으로 풍부해야 하고 아이소메트릭 시점에서 잘 어울리는 프리미엄 아트 디렉션을 갖춰야 합니다. 플레이어가 길을 배치하거나 제거하고, 어트랙션을 추가하고, 풍경 요소를 배치하고, 공원을 부드럽게 돌아다니면서 방문객 활동, 놀이기구 상태, 공원 성장 상황을 모니터링할 수 있게 하세요. 방문객의 움직임은 자연스럽고 설득력 있게 구현하고 자금, 청결도, 대기열, 만족도 같은 기본적인 공원 운영 시스템도 포함하세요. 전체 경험은 투박한 프로토타입이 아니라 장난스럽고 직관적이며 완성된 게임처럼 느껴져야 합니다. 현실감보다는 매력, 가독성, 강한 게임 감각을 우선하세요.

플레이 테스트를 할 때는 여러 라운드에 걸쳐 공원을 건설하고 확장해 보면서 배치와 이동이 매끄럽게 작동하는지 확인하고, 방문객이 공원 배치와 놀이기구에 적절하게 반응하는지 점검하세요. 그래픽, UI, 상호작용 전반이 안정적이고 일관되게 느껴지는지도 확인하세요.

“우리 엔지니어들은 GPT-5.4가 이전 모델보다 더 자연스럽고 자신감 있게 작동한다고 평가합니다. 모호한 문제도 스스로를 계속 의심하지 않고 해결해 나가며 작업이 멈추지 않도록 병렬 처리를 적극적으로 활용합니다.”

Lee Robinson, Cursor 개발자 교육 VP

도구 사용

GPT‑5.4에서는 모델이 외부 도구와 상호작용하는 방식이 크게 개선되었습니다. 이제 에이전트는 더 큰 규모의 도구 생태계에서 작동하고 필요한 도구를 더 정확하게 선택할 수 있으며, 더 낮은 비용과 지연 시간으로 다단계 워크플로를 수행할 수 있습니다.

도구 검색

API에서는 GPT‑5.4에 도구 검색⁠(새 창에서 열기) 기능이 도입되어 많은 도구가 제공된 환경에서도 모델이 필요한 도구를 더 효율적으로 찾고 활용할 수 있습니다.

이전에는 모델에 도구가 제공되면 모든 도구 정의가 프롬프트에 미리 포함되었습니다. 도구가 많은 시스템에서는 요청마다 수천 개, 많게는 수만 개의 토큰이 추가되었고, 이로 인해 비용이 증가하고 응답 속도가 느려지며 모델이 실제로 사용하지 않을 정보까지 컨텍스트를 차지하는 문제가 있었습니다.

GPT‑5.4에서는 모델이 먼저 사용 가능한 도구의 간단한 목록과 도구 검색 기능만 전달받습니다. 이후 필요한 경우 모델이 도구의 정의를 조회해 해당 시점에 대화에 추가할 수 있습니다.

이 방식은 도구 사용이 많은 워크플로에서 필요한 토큰 수를 크게 줄이고 캐시를 유지할 수 있어 요청 속도를 높이고 비용도 낮추는 효과를 가져옵니다. 또한 에이전트가 훨씬 더 큰 규모의 도구 생태계에서도 안정적으로 작업할 수 있게 합니다. 도구 정의에 수만 개의 토큰이 포함될 수 있는 MCP 서버 환경에서는 이러한 효율성 개선 효과가 특히 크게 나타납니다.

효율성 향상을 확인하기 위해 OpenAI는 Scale의 MCP Atlas⁠(새 창에서 열기) 벤치마크에서 250개 작업을 평가했습니다. 실험은 36개의 MCP 서버를 모두 활성화한 상태에서 (1) 모든 MCP 기능을 모델 컨텍스트에 직접 노출하는 방식과 (2) 모든 MCP 서버를 도구 검색 뒤에 배치하는 방식 두 가지로 나누어 진행했습니다. 그 결과 도구 검색 구성을 사용할 경우 동일한 정확도를 유지하면서 전체 토큰 사용량이 47% 감소하는 것으로 나타났습니다.

예시 토큰 수는 MCP-Atlas 공개 데이터셋의 250개 작업 평균값을 기준으로 산출했습니다.

에이전트 기반 도구 호출

GPT‑5.4는 도구 호출 기능도 개선되어 특히 API 환경에서 추론 과정 중 언제 어떤 도구를 사용할지 더 정확하고 효율적으로 판단합니다. 실제 도구와 API를 사용해 다단계 작업을 수행하는 AI 에이전트 역량을 평가하는 벤치마크인 Toolathlon에서 GPT‑5.4는 GPT‑5.2보다 더 적은 턴으로 더 높은 정확도를 달성했습니다. 이러한 작업에는 이메일을 읽고 과제 첨부파일 추출하기, 파일을 업로드한 뒤 채점하기, 스프레드시트에 결과 기록하기 등이 포함되었습니다.

또한 지연 시간이 중요한 작업에서 추론 수준을 None으로 설정하는 경우에도 GPT‑5.4는 이전 모델보다 더 나은 성능을 보였습니다.

τ2-bench⁠⁠(새 창에서 열기)에서 모델은 도구를 사용하여 고객 서비스 작업을 수행해야 합니다. 이 과정에는 소통이 가능하고 환경 상태에 영향을 줄 수 있는 시뮬레이션 사용자도 포함될 수 있습니다. 추론 수준은 None으로 설정했습니다.

웹 검색 성능 개선

GPT‑5.4는 에이전트 기반 웹 검색에서도 향상된 능력을 보입니다. AI 에이전트가 웹을 지속적으로 탐색해 찾기 어려운 정보를 발견하는 능력을 평가하는 벤치마크인 BrowseComp에서 GPT‑5.4는 GPT‑5.2보다 17%_abs 높은 성능을 기록했으며 GPT‑5.4 Pro는 89.3%로 새로운 최고 성능을 달성했습니다.

실제 사용 환경에서 이는 GPT‑5.4 Thinking이 웹의 여러 출처에서 정보를 종합해 답해야 하는 질문에서 더 뛰어난 성능을 발휘한다는 의미입니다. GPT‑5.4 Thinking은 여러 차례에 걸쳐 끈질기게 검색을 수행하여 가장 관련성 높은 출처를 찾아낼 수 있으며, 이른바 “건초더미에서 바늘 찾기”처럼 어려운 질문에서도 명확하고 논리적인 답변을 생성할 수 있습니다.

BrowseComp 평가에서는 벤치마크 정답이 포함된 웹사이트를 검색 차단 목록에 추가해 평가에서 제외했습니다. 이는 데이터 오염을 방지하고 성능을 공정하게 측정하기 위한 조치입니다. GPT‑5.4 평가는 GPT‑5.2보다 더 늦은 시점에 진행되었습니다. 이에 따라 점수에는 모델 변화뿐 아니라 검색 시스템 변화와 인터넷 환경 변화도 반영되어 있습니다. GPT‑5.4 평가는 더욱 길게 업데이트된 차단 목록을 사용해 진행했습니다. 모델은 ChatGPT 검색 도구를 사용하며, 이는 API 검색과 약간의 차이를 보일 수 있습니다.

“GPT-5.4 xhigh는 다단계 도구 활용에서 새로운 최고 수준의 성능을 보여줍니다. Zapier는 업계에서 가장 엄격한 도구 사용 벤치마크를 운영하며 수백 개의 고급 실제 워크플로에서 모델을 테스트합니다. GPT-5.4는 이전 모델들이 중간에 포기했던 작업도 끝까지 완료하여 지금까지 공개된 모델 가운데 가장 끈질기게 작업을 수행하는 모델로 평가됩니다.”

Wade, Zapier 최고경영자

제어 가능성

Codex가 작업을 시작할 때 접근 방식을 먼저 제시하는 것과 마찬가지로 ChatGPT의 GPT‑5.4 Thinking 또한 길고 복잡한 질문을 받을 경우 간단한 설명을 먼저 제시합니다. 사용자는 ChatGPT가 응답을 생성하는 도중에도 추가 지침을 입력하거나 방향을 조정할 수 있습니다. 따라서 작업을 처음부터 다시 시작하거나 여러 번 추가로 대화를 이어갈 필요 없이 원하는 결과를 제공하도록 모델을 유도할 수 있습니다. 이 기능은 현재 chatgpt.com⁠(새 창에서 열기)과 Android 앱에서 제공되며, iOS 앱에서도 곧 제공될 예정입니다.

또한 모델은 어려운 작업에서도 더 오랜 시간 추론을 이어가면서 대화의 앞선 내용까지 안정적으로 유지합니다. 이를 통해 더 긴 워크플로와 복잡한 프롬프트를 처리하면서도 전체 응답의 일관성과 관련성을 유지할 수 있습니다.

이 영상은 이해를 돕기 위해 속도를 높여 재생되었습니다.

안전

OpenAI는 지난 몇 달 동안 GPT‑5.4 배포를 준비하면서 GPT‑5.3‑Codex에서 도입한 안전장치를 계속 개선하는 작업을 진행했습니다. GPT‑5.3‑Codex와 마찬가지로 GPT‑5.4 역시 준비성 평가 프레임워크의 사이버 보안 영역에서 고급 역량으로 분류되며 시스템 카드⁠에 문서화된 보호 조치와 함께 배포됩니다. 여기에는 확장된 사이버 안전 체계, 모니터링 시스템, 신뢰 기반 접근 제어, 그리고 데이터 비보관(ZDR) 환경의 고객을 대상으로 한 고위험 요청에 대한 비동기 차단 기능이 포함됩니다. 이와 함께 더 넓은 보안 생태계에 대한 지속적인 투자도 이루어지고 있습니다.

사이버 보안 역량은 본질적으로 방어와 공격 모두에 사용될 수 있는 이중적 성격을 지니고 있기 때문에, 정책과 분류기를 계속 조정하는 동시에 배포에는 예방적 접근 방식을 유지하고 있습니다. 일부 데이터 비보관 고객 환경에서는 요청 단위 차단이 여전히 사이버 위험 완화 체계의 일부로 사용됩니다. 또한 분류기가 계속 개선되는 과정에 있기 때문에 이러한 보호 장치를 지속적으로 조정하는 동안 일부 오탐이 발생할 수 있습니다. 이번 업데이트는 실제 운영 환경에서 안전장치가 더 효과적으로 작동하도록 개선하는 것을 목표로 합니다. 불필요한 거부나 과도하게 제한적인 응답을 줄이면서도 오용에 대한 강력한 보호 수준은 유지합니다.

또한 모델의 추론 과정을 더 잘 이해하고 잠재적인 오작동을 탐지하기 위해 추론 과정(Chain-of-Thought, CoT) 모니터링 유효성에 대한 안전 연구도 계속 진행하고 있습니다. 새롭게 공개된 오픈소스 평가 체계인 CoT 제어 가능성⁠은 이러한 연구의 일환으로, 모델이 모니터링을 회피하기 위해 추론 과정을 의도적으로 흐리거나 숨길 수 있는지를 평가합니다. 평가 결과 GPT‑5.4 Thinking은 추론 과정을 의도적으로 제어하는 능력이 낮은 것으로 나타났습니다. 이는 안전 측면에서 긍정적인 특성으로, 모델에게 추론 과정을 숨기는 능력이 없으며 추론 과정 모니터링이 여전히 효과적인 안전 도구임을 시사합니다.

지원 범위 및 가격

GPT‑5.4는 오늘부터 ChatGPT와 Codex에서 순차적으로 제공됩니다. API에서는 gpt-5.4를 통해 GPT‑5.4를 바로 사용할 수 있습니다. 가장 복잡한 작업에서 최대 성능이 필요한 개발자를 위해 GPT‑5.4 Pro 역시 gpt-5.4-pro라는 명칭으로 API에서 제공됩니다.

GPT‑5.4 Thinking은 Thinking은 오늘부터 ChatGPT Plus, Team, Pro 사용자에게 제공되며, GPT‑5.2 Thinking을 대체합니다. GPT‑5.2 Thinking은 유료 사용자의 레거시 모델 드롭다운 메뉴를 통해 3개월 동안 계속 제공되며, 2026년 6월 5일 지원이 종료됩니다. Enterprise와 Edu 플랜 사용자는 관리자 설정을 통해 조기 액세스를 활성화할 수 있습니다. GPT‑5.4 Pro는 Pro 및 Enterprise 플랜에서 이용이 가능합니다. ChatGPT의 GPT‑5.4 Thinking의 컨텍스트 윈도우⁠(새 창에서 열기)는 GPT‑5.2 Thinking에서 변경되지 않은 상태로 유지됩니다.

GPT‑5.4는 GPT‑5.3‑codex의 프런티어 수준 코딩 역량을 통합한 첫 번째 메인라인 추론 모델로, ChatGPT와 API, Codex 전반에 걸쳐 제공됩니다. OpenAI는 새로운 모델의 기능적 도약을 반영하고 Codex 사용 시 모델 선택을 더 단순하게 하기 위해 OpenAI는 모델명을 GPT‑5.4로 정했습니다. 앞으로 Instant 모델과 Thinking 모델은 서로 다른 속도로 발전할 것으로 예상됩니다.

Codex의 GPT‑5.4에는 1M 컨텍스트 윈도우에 대한 실험적 지원이 포함되어 있습니다. 개발자는 model_context_window 및 model_auto_compact_token_limit을 설정해 이를 사용할 수 있습니다. 표준 272K 컨텍스트 윈도우를 초과하는 요청은 사용량 한도 계산 시 일반 요율의 두 배가 적용됩니다.

API에서는 GPT‑5.4의 토큰당 가격이 GPT‑5.2보다 높게 책정되어 있지만 더 높은 토큰 효율성을 통해 많은 작업에서 필요한 총 토큰 수를 줄일 수 있습니다. Batch와 Flex 요금은 표준 API 요금의 절반 가격으로 제공되며 우선 처리 옵션은 표준 API 요금의 두 배 가격으로 제공됩니다.

API 모델	입력 가격	캐시된 입력 가격	출력 가격
gpt-5.2	토큰 100만 개당 $1.75	토큰 100만 개당 $0.175	토큰 100만 개당 $14
gpt-5.4	토큰 100만 개당 $2.50	토큰 100만 개당 $0.25	토큰 100만 개당 $15
gpt-5.2-pro	토큰 100만 개당 $21	-	토큰 100만 개당 $168
gpt-5.4-pro	토큰 100만 개당 $30	-	토큰 100만 개당 $180

평가

전문가

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
투자은행 모델링 과제(내부)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

코딩

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

컴퓨터 사용 및 비전 기능

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75.0%	—	74.0%	47.3%	—
MMMU Pro(도구 미사용)	81.2%	—	—	79.5%	—
MMMU Pro(도구 사용)	82.1%	—	—	80.4%	—

도구 사용

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

학술

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
프런티어 과학 연구	33.0%	36.7%	—	25.2%	—
FrontierMath Tier 1-3	47.6%	—	—	40.7%	—
FrontierMath Tier 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam(도구 없음)	39.8%	42.7%	—	34.5%	36.6%
Humanity's Last Exam(도구 사용)	52.1%	58.7%	—	45.5%	50.0%

긴 컨텍스트

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K-128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K-1M	21.4%	—	—	—	—
Graphwalks parents 0-128K(정확도)	89.8%	—	—	89.0%	—
Graphwalks parents 256K-1M(정확도)	32.4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K-8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K-16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-needle 16K-32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-needle 32K~64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-needle 64K-128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-needle 128K-256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-needle 256K-512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K-1M	36.6%	—	—	—	—

추상적 추론

Eval	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verified)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (Verified)	73.3%	83.3%	—	52.9%	54.2% (high)