개발자를 위한 GPT‑5.1 공개
오늘 API 플랫폼에서 GPT‑5 시리즈의 다음 모델인 GPT‑5.1을 공개합니다. 이 모델은 다양한 에이전트 기반 업무와 코딩 작업에서 지능과 속도의 균형을 이루도록 설계되었습니다. GPT‑5.1은 작업의 복잡도에 따라 생각하는 시간을 유연하게 조정해 일상적인 간단한 작업에서는 보다 빠르게 작업을 처리하고 토큰을 효율적으로 사용할 수 있습니다. 이 모델은 GPT‑5.1이 가진 최신 수준의 지능을 그대로 유지하면서 깊은 사고가 필요하지 않은 작업에서는 더 빠르게 응답하는 '추론 없음' 모드도 제공합니다.
GPT‑5.1은 프롬프트를 최대 24시간까지 보관하는 캐싱 확장을 통해 후속 질문에 더 빠르게, 더 낮은 비용으로 응답하며 효율성을 한층 높였습니다. 우선 처리(새 창에서 열기) 고객은 GPT‑5 대비 GPT‑5.1에서 훨씬 더 빨라진 성능을 체감할 수 있습니다.
코딩 작업과 관련해서는 Cursor, Cognition, Augment Code, Factory, Warp 같은 스타트업과 협력해 GPT‑5.1의 코딩 성향, 조정 용이성, 코드 품질을 강화했습니다. 전반적으로 GPT‑5.1의 코딩 과정이 한층 직관적으로 느껴지도록 개선되었고, 작업을 진행하며 사용자에게 상태를 전달하는 방식도 훨씬 자연스러워졌습니다.
이와 더불어 GPT‑5.1에는 코드를 더 안정적으로 수정하도록 설계된 apply_patch 툴과 모델이 셸 명령을 실행할 수 있게 해주는 shell 툴도 새롭게 추가되었습니다.
GPT‑5.1은 GPT‑5 시리즈의 차세대 모델입니다. OpenAI는 개발자가 신뢰할 수 있는 에이전트 기반 워크플로를 구축할 수 있도록 앞으로도 더욱 지능적이고 강력한 모델 개발에 지속적으로 투자할 예정입니다.
OpenAI 팀은 GPT‑5.1의 속도를 높이기 위해 사고 과정을 학습하는 방식 자체를 새롭게 설계했습니다. 이제 단순한 작업에서는 GPT‑5.1이 추론에 사용하는 토큰을 줄여 더 낮은 비용으로 보다 빠른 사용 경험을 제공합니다. 반대로 더 많은 추론이 필요한 어려운 작업에서는 다양한 가능성을 탐색하고 스스로 검증하면서 신뢰도를 높이는 데 집중합니다.
Balyasny Asset Management(새 창에서 열기)는 GPT‑5.1이 "전체 동적 평가에서 GPT‑4.1과 GPT‑5를 모두 능가했고, GPT‑5보다 2~3배 빠른 속도를 보였다"고 밝혔습니다. 또한 도구 사용 비중이 큰 추론 작업 전반에서 "경쟁 모델 대비 토큰 사용량은 절반 수준이면서 품질은 비슷하거나 더 뛰어났다"고 평가했습니다. AI 보험 BPO 기업인 Pace(새 창에서 열기)도 자사 에이전트에 해당 모델을 적용해 본 결과, “GPT‑5.1에서 50% 더 빠르게 작동했고 정확도는 GPT‑5와 다른 주요 모델보다 더 높았다”고 전했습니다.
GPT‑5.1은 GPT‑5보다 사고 시간을 훨씬 더 유연하게 조정합니다. 대표적인 ChatGPT 작업 분포를 기준으로 보면 가장 쉬운 작업의 경우 높은 추론 수준에서도 훨씬 더 빠르게 사고합니다.
한 가지 예로 "전역으로 설치된 패키지를 표시하는 npm 명령을 보여줘"라고 요청하면 GPT‑5.1은 2초 만에 답해, 이전 모델의 10초와 확연히 구분되는 속도를 보여줍니다.
GPT-5(Medium)은 약 250개의 토큰 사용(약 10초)
GPT-5.1(Medium)은 약 50개의 토큰 사용(약 2초)
이제 개발자는 reasoning_effort를 'none'으로 설정해 GPT‑5.1을 추론 없이 사용할 수 있습니다. 이 설정을 적용하면 GPT‑5.1은 높은 지능과 뛰어난 도구 호출 성능을 유지하면서 지연 시간에 민감한 환경에서는 비추론 모델처럼 동작합니다. GPT‑5의 'minimal' 추론 모드와 비교했을 때 추론을 사용하지 않는 GPT‑5.1은 병렬 도구 호출(전체 작업 완료 속도를 높이는 방식), 코딩 작업, 지시 이행, 검색 도구 활용에서 더 뛰어난 성능을 보이며 API 플랫폼에서 웹 검색(새 창에서 열기)까지 지원합니다. 또한 Sierra(새 창에서 열기)는 실제 평가 결과, "GPT‑5.1의 '추론 없음' 모드에서 GPT‑5의 최소 추론 대비 저지연 도구 호출 성능이 20% 향상됐다”고 밝혔습니다.
reasoning_effort 값에 'none'이 추가되면서 개발자는 속도, 비용, 지능의 균형을 더 섬세하게 조정할 수 있게 되었습니다. GPT‑5.1은 기본값으로 'none'을 사용하여 지연 시간에 민감한 업무에 적합합니다. 복잡도가 높은 작업에는 'low' 또는 'medium', 속도보다 지능과 신뢰성이 더 중요한 경우에는 'high' 값을 권장합니다.
GPT‑5.1은 캐싱 확장을 통해 기존 몇 분에 불과하던 프롬프트 캐싱 시간을 최대 24시간으로 늘려 추론 효율을 높였습니다. 보존 기간이 길어지면서 더 많은 후속 요청이 캐시된 컨텍스트를 활용할 수 있게 되었고, 그 결과 멀티턴 대화, 코딩 세션, 지식 검색처럼 상호작용이 오래 이어지는 작업에서 지연 시간과 비용을 줄이며 성능을 더 안정적으로 유지할 수 있게 되었습니다.
프롬프트 캐시 가격은 변동 없이 유지됩니다. 캐시된 입력 토큰은 캐시되지 않은 토큰에 비해 90% 저렴하며 캐시 작성이나 저장 작업에는 추가 요금이 부과되지 않습니다. GPT‑5.1에서 확장된 캐싱 기능을 이용하려면 Responses API 또는 Chat Completions API에 "prompt_cache_retention='24h'" 파라미터를 추가하면 됩니다. 자세한 내용은 프롬프트 캐싱 문서(새 창에서 열기)를 참고하세요.
GPT‑5.1은 GPT‑5의 코딩 기능을 기반으로 코딩 스타일을 더 쉽게 조정할 수 있게 하며 불필요하게 과도한 생각을 줄이고 코드 품질도 개선했습니다. 또한 연속적인 도구 호출 과정에서 사용자에게 제공되는 업데이트 메시지(프리앰블)가 더 자연스럽게 다듬어졌고, 낮은 추론 수준에서도 보다 기능적인 프런트엔드 디자인 코드를 생성합니다.
간단한 코드 수정처럼 가벼운 작업에서는 GPT‑5.1의 더 빨라진 속도로 반복 테스트와 수정이 훨씬 수월해집니다. 그러나 단순 작업에서 속도가 빨라졌다고 해서 어려운 작업을 처리하는 성능이 떨어지는 것은 아닙니다. GPT‑5.1은 SWE-bench Verified 벤치마크에서 76.3%를 기록하며 GPT‑5보다 더 오래 작업을 이어갔습니다.
SWE-bench Verified 벤치마크에서는 모델에 코드 리포지터리와 이슈 설명이 제공되며, 모델은 이를 해결하기 위한 패치를 생성해야 합니다. 라벨은 추론 수준을 나타내며, 정확도는 전체 500개 문항의 평균값입니다. 모든 모델은 JSON 기반 apply_patch 툴을 사용하는 테스트 환경에서 평가되었습니다.
GPT‑5.1의 성능과 관련해 일부 소프트웨어 기업들이 제공한 초기 피드백은 다음과 같습니다.
- Augment Code(새 창에서 열기)는 GPT‑5.1을 "불필요한 행동이 줄고 더 효율적으로 추론하며 작업 집중도가 높아진 모델”이라고 평가했고 "코드 변경 정확도 향상, 더 매끄러운 풀 리퀘스트, 다중 파일 프로젝트에서 더 빠른 반복 작업"을 경험하고 있다고 전했습니다.
- Cline(새 창에서 열기)은 자체 평가를 진행한 결과 "GPT‑5.1이 diff 편집 벤치마크에서 7% 향상된 성능으로 최신 수준을 달성했고 복잡한 코딩 작업에서도 뛰어난 안정성을 보여줬다"고 전했습니다.
- CodeRabbit(새 창에서 열기)은 GPT‑5.1을 "PR 리뷰에서 가장 선호하는 모델"이라고 표현했습니다.
- Cognition(새 창에서 열기)은 GPT‑5.1이 "사용자가 요청하는 바를 더 정확하게 이해하고 함께 작업을 완성하는 데 확실히 뛰어나다"고 평가했습니다.
- Factory(새 창에서 열기)는 "GPT‑5.1은 훨씬 더 신속하게 응답하고 작업에 맞게 추론 수준을 조절해 과도한 사고를 줄이며 전반적인 개발자 경험을 개선한다"고 전했습니다.
- Warp(새 창에서 열기)은 GPT‑5.1을 신규 사용자의 기본 모델로 채택하며 이를 "GPT‑5 시리즈가 보여준 인상적인 지능 향상을 기반으로 하면서 훨씬 더 신속하게 반응하는 모델"이라고 평가했습니다.
“GPT-5.1은 또 하나의 단순한 LLM이 아니라 진정한 에이전트형 모델에 가깝습니다. 지금까지 테스트한 모델 중 가장 자연스럽게 자율적으로 작동합니다. 글쓰기와 코딩에서 사용자와 비슷한 방식으로 작업하고 복잡한 지시도 문제 없이 따라갈 뿐 아니라 프런트엔드 작업에서도 뛰어난 성능을 보입니다. 또한 기존 코드베이스에 깔끔하게 통합되는 코드를 작성할 수 있습니다. GPT-5.1의 이러한 잠재력은 Responses API에서 온전히 활용할 수 있으며, 이를 IDE에서도 사용할 수 있게 되어 저희 팀도 매우 기대하고 있습니다.”
Responses API에서 GPT‑5.1을 최대한 활용할 수 있도록 지원하기 위해 두 가지 툴이 새롭게 추가되었습니다. JSON 이스케이프 없이도 더 안정적으로 코드를 수정할 수 있게 하는 자유 형식의 apply_patch 툴과 모델이 로컬 머신에서 실행할 명령을 작성할 수 있게 해주는 shell 툴입니다.
자유 형식의 apply_patch 툴은 GPT‑5.1이 코드베이스에서 구조화된 diff 형식을 사용해 파일을 생성·수정·삭제할 수 있도록 합니다. 여기서 단순히 수정안을 제시하는 데 그치지 않고, 모델이 생성한 패치 작업을 애플리케이션이 실제로 적용하고 그 결과를 다시 모델에게 전달해 다음 단계 수정으로 이어지는 반복적 코드 편집 흐름을 구현할 수 있습니다.
Responses API에서 apply_patch 툴을 사용하려면 tools 배열에 "tools": [{"type": "apply_patch"}]의 형태로 추가한 다음, 입력에 파일 내용을 넣거나 파일 시스템과 상호작용할 수 있는 툴을 모델에 제공하면 됩니다. 그러면 모델은 파일 생성·수정·삭제를 위한 apply_patch_call 항목을 생성하며, 여기에 파일 시스템에 적용할 변경 내역이 포함됩니다. apply_patch 툴 연동 방식에 대한 자세한 내용은 개발자 문서(새 창에서 열기)를 참고하세요.
shell 툴은 모델이 제한된 명령줄 인터페이스를 통해 로컬 컴퓨터와 상호작용할 수 있도록 합니다. 모델이 셸 명령을 제안하면, 개발자가 구성한 통합 환경이 이를 실행하고 결과를 다시 반환합니다. 이러한 방식으로 작업이 완료될 때까지 모델이 시스템을 점검하고 유틸리티를 실행하며 필요한 데이터를 모으는 간단한 계획-실행 루프가 만들어집니다.
Responses API에서 shell 툴을 사용하려면 tools 배열에 "tools": [{"type": "shell"}]과 같은 형식으로 툴을 추가하세요. 그러면 API는 실행할 셸 명령이 담긴 "shell_call" 항목을 생성하며, 개발자는 로컬 환경에서 명령을 실행한 뒤 다음 API 요청에서 "shell_call_output" 항목에 실행 결과를 담아 전달할 수 있습니다. 자세한 내용은 개발자 문서(새 창에서 열기)를 참고하시기 바랍니다.
GPT‑5.1과 gpt-5.1-chat-latest는 모든 유료 플랜의 API에서 사용할 수 있습니다. 가격과 요청 한도(새 창에서 열기)는 GPT‑5와 동일합니다. 또한 gpt-5.1-codex와 gpt-5.1-codex-mini도 API에서 함께 제공됩니다. GPT‑5.1이 대부분의 코딩 작업에서 뛰어난 반면, gpt-5.1-codex 모델은 Codex 또는 Codex 기반 환경에서 장시간 실행되는 에이전트형 코딩 작업에 최적화되어 있습니다.
개발자는 GPT‑5.1 개발자 문서(새 창에서 열기)와 모델 프롬프트 가이드(새 창에서 열기)를 참고해 바로 개발을 시작할 수 있습니다. 현재로서는 API에서 GPT‑5 지원을 중단할 계획은 없으며, 중단하게 되는 경우에도 사전에 충분한 시간을 두고 고지할 예정입니다.
OpenAI는 실제 에이전트 작업과 코딩 작업에 적합한 가장 강력하고 신뢰할 수 있는 모델을 지속적으로 선보이고자 합니다. 이러한 모델은 효율적으로 사고하고, 빠르게 반복하며, 복잡한 작업도 매끄럽게 처리해 개발자가 흐름을 유지하도록 돕습니다. GPT‑5.1은 적응형 추론, 향상된 코딩 성능, 보다 명확한 사용자 대상 업데이트, apply_patch와 shell 같은 새로운 툴 등 다양한 기능을 통해 개발 과정을 보다 원활하게 만들 수 있도록 설계되었습니다. OpenAI는 앞으로도 이 분야에 적극적으로 투자하며 향후 수주 및 수개월 내에 더욱 발전된 에이전트와 코딩 모델을 지속적으로 선보일 예정입니다.
평가 | GPT‑5.1 (높음) | GPT‑5 (높음) |
SWE-bench Verified | 76.3% | 72.8% |
GPQA Diamond | 88.1% | 85.7% |
AIME 2025 | 94.0% | 94.6% |
FrontierMath | 26.7% | 26.3% |
MMMU | 85.4% | 84.2% |
Tau2-bench Airline | 67.0% | 62.6% |
Tau2-bench Telecom* | 95.6% | 96.7% |
Tau2-bench Retail | 77.9% | 81.1% |
BrowseComp Long Context 128k | 90.0% | 90.0% |
* Tau2-bench Telecom 평가에서는 GPT‑5.1의 성능을 높이기 위해 짧고 일반적으로 유용한 형식의 프롬프트를 제공했습니다.


