오늘 저희는 API 플랫폼에서 GPT‑5를 출시합니다. 이는 코딩 및 에이전트 작업을 위한 최고의 모델입니다.
GPT‑5는 SWE-bench Verified에서 74.9%, 에이더 폴리글롯에서 88%를 기록하며 주요 코딩 벤치마크에서 최고 등급(SOTA)를 달성했습니다. OpenAI는 GPT‑5를 진정한 코딩 협력자로 학습시켰습니다. 고품질 코드 생산과 버그 수정, 코드 편집 등의 작업 처리, 복잡한 코드베이스에 대한 질문에 답변하기 등에서 뛰어난 성능을 보여줍니다. 이 모델은 제어가 간편하며 협조적입니다. 매우 상세한 지침을 높은 정확도로 따를 수 있으며 도구 호출 전과 호출 사이에 작업에 대한 사전 설명을 제공합니다. 또한 프론트엔드 코딩 성능이 뛰어나며, 내부 테스트의 프론트엔드 웹 개발에서 OpenAI o3를 70% 능가했습니다.
우리는 스타트업과 대기업의 초기 테스터들과 협력하여 GPT‑5를 실제 코딩 작업에 대해 학습시켰습니다. Cursor는 GPT‑5가 “사용한 모델 중 가장 스마트하다”며 “무척 지능적이고 조종하기 쉬우며 다른 모델에서는 볼 수 없었던 개성을 가지고 있다”고 말했습니다. Windsur는 GPT‑5가 평가에서 SOTA 등급을 받았으며 “다른 프론티어 모델보다 도구 호출 오류율이 절반”이라고 밝혔습니다. Vercek은 “심미적인 감각과 코드 품질 모두 최고의 성능을 보여주며 독보적인 위치를 확보하는 최고의 프론트엔드 모델”이라고 평가했습니다.
GPT‑5는 장시간 실행되는 에이전트 작업에도 탁월한 성능을 발휘하여, 불과 2개월 전에 발표된 도구 호출 벤치마크인 τ2-bench 텔레콤에서 SOTA 결과(96.7%)를 달성했습니다. GPT‑5의 향상된 도구 인텔리전스 덕분에 방향에서 벗어나지 않고 수십 개의 도구 호출을 순차적으로나 병렬로 안정적으로 연결할 수 있어 복잡한 실제 작업을 종단 간에 실행하는 데 훨씬 더 효과적입니다. 또한 도구 지침을 더 정확하게 따르고, 도구 오류를 처리하는 데 더 능숙하며, long-context 콘텐츠 검색에 탁월합니다. Manus는 GPT‑5가 “우리 내부 벤치마크에 따르면 단일 모델로는 역대 최고의 성능을 달성했습니다.”라고 밝혔습니다. Notion은 “GPT‑5는 특히 낮은 이성 가동 모드에서의 빠른 반응 덕분에 복잡한 작업을 한 번에 해결할 때 이상적인 모델입니다."라고 말했습니다. Inditex는 "[GPT‑5]를 다른 것과 차별화하는 것은 이성 가동의 깊이이며, 실제 주제에 대한 이해를 반영하는 섬세하고 다층적인 답변"이라고 밝혔습니다.
개발자가 모델 응답을 더 잘 제어할 수 있도록 API에 새로운 기능을 도입하고 있습니다. GPT‑5는 답변이 짧고 요점을 잡는지, 길고 포괄적인지를 제어하는 데 도움이 되는 새로운 verbosity 매개변수(값: low, medium, high)를 지원합니다. 이제 GPT‑5의 reasoning_effort 매개변수는 광범위한 이성 가동 없이도 빠르게 답변을 얻기 위해 minimal 값을 취할 수 있습니다. 또한 GPT‑5가 JSON 대신 일반 텍스트로 도구를 호출할 수 있도록 하는 새로운 도구 유형도 추가했습니다. 맞춤형 도구는 개발자가 제공한 컨텍스트 프리 문법에 따라 제약을 적용합니다.
GPT‑5는 API에서 3가지 규모로 제공됩니다. 개발자가 성능, 비용, 레이턴시에 따라 유연하게 선택할 수 있도록 gpt-5, gpt-5 mini, gpt-5 nano로 나뉩니다. ChatGPT의 GPT‑5는 추론 모델, 비추론 모델 및 라우터 모델 구성된 시스템인 반면, API 플랫폼의 GPT‑5는 ChatGPT에서 최대의 성능을 제공하는 이성 가동 모델입니다. 특히, 최소화된 이성 가동을 갖춘 GPT‑5는 ChatGPT의 비추론 모델과 다른 모델로 개발자에게 더욱 적합합니다. ChatGPT 내에 사용된 비이성 가동 모델을 gpt-5-chat-latest로 사용할 수 있습니다.
ChatGPT의 GPT‑5에 대한 내용과 기타 ChatGPT 개선 사항에 대해 자세히 알아보려면 OpenAI 리서치 블로그를 참조하세요. 기업들이 GPT‑5를 사용하는 데 대해 어떻게 기대하는지 자세히 알아보려면 기업 블로그를 참조하세요.
GPT‑5는 OpenAI가 지금까지 출시한 코딩 모델 중 가장 강력한 모델입니다. 이 제품은 코딩 벤치마크와 실제 사용 사례에서 o3보다 우수한 성능을 보이며, Cursor, Windsurf, GitHub Copilot, Codex CLI와 같은 에이전트 코딩 제품에서 빛을 발하도록 파인 튜닝되었습니다. GPT‑5는 알파 테스터들에게 깊은 인상을 주었고, 많은 비공개 내부 평가에서 기록을 세웠습니다.
실제 코딩 작업을 위한 GPT‑5의 초기 피드백
“GPT-5는 지금껏 사용한 모델 중 가장 스마트한 코딩 모델입니다. 저희 팀은 GPT-5가 무척 지능적이고 조종하기 쉬우며, 다른 모델에서는 볼 수 없었던 성격이라 할 만한 특성까지 가지고 있다는 것을 발견했습니다. 까다롭고 깊이 숨겨진 버그를 찾아낼 뿐 아니라 긴 멀티턴 백그라운드 에이전트를 실행하여 복잡한 작업을 끝까지 완료할 수 있습니다. 이전 모델은 이런 문제 때문에 막히는 경우가 많았죠. 이는 범위 지정 및 PR 계획부터 종단 간 빌드 완료까지 모든 작업의 일상적인 원동력이 되었습니다.”
실제 소프트웨어 엔지니어링 작업을 기반으로 한 평가인 SWE-bench Verified에서 GPT‑5는 o3의 69.1%보다 높은 74.9%의 점수를 받았습니다. 특히 GPT‑5는 더 높은 효율성과 속도로 높은 점수를 달성했습니다. 높은 이성 가동 노력의 o3와 비교했을 때, GPT‑5는 출력 토큰을 22% 더 적게 사용하고 도구 호출도 45% 더 적게 사용합니다.
SWE-bench Verified에서는 모델에 코드 리포지토리와 문제 설명이 제공되며, 해당 문제를 해결하기 위한 패치를 생성해야 합니다. 텍스트 라벨은 이성 가동 노력을 나타냅니다. 우리의 점수는 솔루션이 인프라에 안정적으로 전달되지 않은 500개 문제 중 23개를 제외했습니다. GPT‑5에는 철저한 검증 솔루션을 강조하는 짧은 프롬프트를 제공했으며, o3에 동일한 프롬프트를 제공했을 때는 효과가 없었습니다.
코드 편집에 대한 평가인 Aider 폴리글롯에서 GPT‑5는 88%라는 새로운 기록을 세웠으며, o3에 비해 오류율이 3분의 1 감소했습니다.
Aider 폴리글롯(새 창에서 열기)(diff)에서는 모델에 Exercism의 코딩 연습이 주어지고, 그 솔루션을 코드 diff로 작성해야 합니다. 추론 모델은 높은 이성 가동 노력으로 실행되었습니다.
또한 GPT‑5는 다양한 부분이 어떻게 작동하거나 상호 운용되는지에 대한 질문에 답하기 위해 코드베이스를 심층적으로 파헤치는 데 매우 뛰어난 것으로 나타났습니다. OpenAI의 강화 학습 스택만큼 복잡한 코드베이스에서 GPT‑5가 추론을 도와주고 모드에 대한 질문에 답변을 제공하며 일상 업무를 가속한다는 점을 확인했습니다.
웹 앱의 프런트엔드 코드를 제작할 때 GPT‑5는 더욱 미적 요소를 고려하고 야심차며 정확합니다. o3와 나란히 비교했을 때, 테스트 시점에서 70%의 테스트 담당자가 GPT‑5를 더 선호했습니다.
GPT‑5가 단일 프롬프트로 무엇을 할 수 있는지에 대한 재미있고 엄선된 몇 가지 예를 소개합니다.
프롬프트: 장비 렌탈과 커피 로스팅 방법 및 최고의 에스프레소를 만드는 방법 코칭 등이 포함된 $200/월의 구독 서비스를 커피 애호가에게 제공하기 위한 아름답고 현실적인 랜딩 페이지를 생성해 줘. 목표 잠재 고객은 기술직에 종사하고 교육 수준이 높으며 가처분 소득이 있고 커피의 예술 및 과학에 열정적인 개방적인 중년층이야. 6개월 구독을 위한 최적화된 대화를 만들어줘.
갤러리에서 GPT‑5에 대한 더 많은 예시를 보려면 여기(새 창에서 열기)를 참조하세요.
GPT‑5는 특히 Cursor, Windsurf, GitHub Copilot, Codex CLI와 같은 에이전트 코딩 제품에서 뛰어난 협업 도구이기도 합니다. GPT‑5는 작동하는 동안 도구 호출 사이에 계획, 업데이트 및 요약을 출력할 수 있습니다. 이전 모델과 비교했을 때, GPT‑5는 사용자의 승인을 기다리거나 높은 복잡성에 겁먹지 않고도 야심찬 작업을 완료하는 데 더욱 적극적입니다.
복잡한 작업(이 경우, 레스토랑의 웹사이트를 만드는 작업)을 처리할 때 GPT‑5가 어떻게 보일 수 있는지에 대한 예는 다음과 같습니다.
사용자가 레스토랑을 위한 웹사이트를 요청한 후, GPT‑5는 간단한 계획을 공유하고 앱의 기본 구조를 만들고, 디펜던시를 설치하고, 사이트 콘텐츠를 생성하고, 빌드를 실행하여 오류를 종합하고, 작업을 취합하고, 잠재적인 다음 단계를 제안합니다. 이 비디오는 시청 시간 절약을 위해 3배속으로 재생됩니다. 웹사이트를 생성하기 위해 소요된 전체 시간은 약 3분이었습니다.
에이전트 코딩을 넘어, GPT‑5는 일반적으로 에이전트 작업에 더 뛰어납니다. GPT‑5는 지시 이행(o3‑mini로 평가된 대로, Scale MultiChallenge에서 69.6%) 및 도구 호출(τ2-bench 텔레콤에서 96.7%) 부문에서 새로운 기록을 세웠습니다. 향상된 도구 인텔리전스 덕분에 GPT‑5는 실제 작업을 완수하기 위해 작업을 보다 안정적으로 연결할 수 있습니다.
에이전트 작업을 위한 GPT‑5에 대한 초기 피드백
"GPT-5는 큰 발전입니다. 이 제품은 우리의 내부 벤치마크에 따르면 단일 모델로는 역대 최고의 성능을 달성했습니다. GPT-5는 단 한 줄의 코드도 조정하지 않고, 프롬프트를 맞춤화하지 않고도 다양한 에이전트 작업에서 탁월한 성과를 보였습니다. 새로운 서두 메시지와 도구 사용에 대한 보다 정확한 제어를 통해 에이전트의 안정성과 조종성이 크게 향상되었습니다."
GPT‑5는 이전에 출시된 모델들보다 더 안정적으로 지침을 준수합니다. COLLIE, Scale MultiChallenge, 그리고 OpenAI의 내부 지침 준수 평가에서 높은 점수를 달성했습니다.
COLLIE(새 창에서 열기)에서 모델은 다양한 제약 조건을 충족하는 텍스트를 작성해야 합니다. Scale MultiChallenge(새 창에서 열기)에서 모델은 이전 메시지에서 4가지 유형의 정보를 적절히 사용하기 위한 멀티 턴 대화에 대한 테스트를 거쳤습니다. o3‑mini를 채점기로 사용한 점수는 GPT‑4o보다 더 정확했습니다. 우리 내부 OpenAI API 지침 준수 평가에서 모델은 실제 개발자 피드백에서 얻은 다양한 지침을 준수해야 합니다. 추론 모델은 높은 이성 가동 노력으로 실행되었습니다.
우리는 개발자에게 중요한 방식으로 도구 호출을 개선하기 위해 열심히 노력했습니다. GPT‑5는 도구 지침을 따르는 데 더 뛰어나고, 도구 오류를 처리하는 데 더 뛰어나며, 많은 도구 호출을 순차적으로 또는 병렬로 사전에 수행하는 데 더 뛰어납니다. 지시가 있으면 GPT‑5는 장시간 에이전트 작업 중에도 도구 호출 전후에 서두 메시지를 출력하여 사용자에게 진행 상황을 업데이트할 수 있습니다.
2개월 전, Sierra.ai가 τ2-bench 텔레콤을 까다로운 도구 사용 벤치마크로 발표했는데, 이는 사용자가 변경할 수 있는 환경 상태와 상호 작용할 때 언어 모델 성능이 크게 떨어지는 방식을 강조한 것입니다. 해당 게시물(새 창에서 열기)에서는 49% 이상의 점수를 받은 모델이 없습니다. GPT‑5의 점수는 97%입니다.
τ2-bench(새 창에서 열기)에서 모델은 도구를 사용하여 고객 서비스 작업을 수행해야 하며, 여기에는 통신이 가능하고 세계 상태에서 작업을 수행할 수 있는 사용자가 있을 수 있습니다. 추론 모델은 높은 이성 가동 노력으로 실행되었습니다.
GPT‑5는 긴 컨텍스트 성능에서도 강력한 발전을 보여줍니다. 긴 컨텍스트 정보 검색을 측정하는 OpenAI-MRCR에서 GPT‑5는 o3와 GPT‑4.1보다 성능이 뛰어나며, 입력 길이가 길어질수록 그 차이가 상당히 커집니다.
OpenAI-MRCR(새 창에서 열기)(다중 라운드 공동 참조 해결)에서는 여러 개의 동일한 "바늘" 사용자 요청을 유사한 요청 및 응답의 긴 "건초더미"에 삽입하고, 모델은 i번째 바늘에 대한 응답을 재생성하도록 요청받습니다. 평균 일치율은 모델의 응답과 정확한 답변 간의 평균 스트링 일치율을 측정합니다. 256k 최대 입력 토큰의 포인트는 128k~256k 입력 토큰을 넘어서는 평균을 나타내며, 그 이상도 마찬가지입니다. 여기서 256k는 256 * 1,024 = 262,114 토큰을 나타냅니다. 추론 모델은 높은 이성 가동 노력으로 실행되었습니다.
또한 긴 컨텍스트 Q&A 평가를 위한 새로운 벤치마크인 BrowseComp Long Context(새 창에서 열기)를 오픈소스로 공개합니다. 이 벤치마크에서는 모델에 사용자 쿼리, 관련 검색 결과의 긴 목록을 제공하며 검색 결과를 기반으로 질문에 반드시 대답해야 합니다. BrowseComp Long Context는 현실적이고 까다롭고 신뢰할 수 있는 정확하고 정보에 근거한 진실된 답변을 제공하도록 설계되었습니다. 128K~256K 토큰의 입력에서 GPT‑5는 테스트 당시 89% 정확한 답변을 제공했습니다.
API에서 모든 GPT‑5 모델은 최대 272,000개의 입력 토큰을 수용하고 최대 128,000개의 이성 가동 및 출력 토큰을 방출하여 총 컨텍스트 길이는 400,000개 토큰입니다.
GPT‑5는 OpenAI의 이전 모델보다 더 신뢰할 수 있습니다. LongFact 및 FactScore 벤치마크의 프롬프트에서 GPT‑5는 o3보다 약 80% 적은 사실 오류를 범합니다. 따라서 정확성이 중요한 에이전트 사용 사례, 특히 코드, 데이터 및 의사 결정에 더 적합합니다.
점수가 높을수록 나쁜 결과를 나타냅니다. LongFact(새 창에서 열기) 및 FActScore(새 창에서 열기)는 주관식 사실 추구 질문으로 구성되어 있습니다. OpenAI는 이러한 벤치마크의 프롬프트에 대한 응답의 사실을 확인하기 위해 탐색하는 LLM 기반 채점기를 사용하고 사실과 다른 주장의 비율을 측정합니다. 구현과 점수 산정에 대한 자세한 내용은 시스템 카드에서 확인할 수 있습니다. 추론 모델은 높은 이성 가동 노력을 사용했습니다. 검색은 차단되었습니다.
일반적으로 GPT‑5는 자신의 한계를 더 잘 인식하고 예상치 못한 상황에 더 잘 대처할 수 있도록 학습되었습니다. 또한 GPT‑5가 건강 관련 질문에 대해 훨씬 더 정확한 답변을 제공하도록 학습시켰습니다. 자세한 내용은 OpenAI 리서치 블로그에서 확인하세요. 모든 언어 모델과 마찬가지로, 위험이 높을 때 GPT‑5의 작동을 확인하시는 것이 좋습니다.
개발자는 API의 reasoning_effort 매개변수를 통해 GPT‑5의 생각 시간을 제어할 수 있습니다. 이전 값(low, medium(기본값), high) 외에도 GPT‑5는 GPT‑5의 이성 가동을 최소화하고 신속하게 답변을 반환하는 minimal도 지원합니다.
품질을 극대화하려면 높은 reasoning_effort 값을 사용하고 속도를 극대화하려면 낮은 값을 사용하세요. 모든 작업이 추가적인 이성 가동으로부터 동일한 이점을 얻는 것은 아니므로, 관심 있는 사용 사례에 가장 적합한 방법을 찾기 위해 실험해 보는 것을 권장합니다.
예를 들어, low 이상의 이성 가동은 비교적 간단한 장문 컨텍스트 검색에는 거의 영향을 미치지 않지만, 시각적 추론 벤치마크인 CharXiv Reasoning(새 창에서 열기)에서는 꽤 많은 퍼센트 포인트를 추가합니다.
GPT‑5의 이성 가동 노력은 다양한 작업에서 다양한 이점을 제공합니다. CharXiv Reasoning의 경우, GPT‑5가 python 도구에 액세스할 수 있었습니다.
GPT‑5 답변의 기본 길이를 조절하기 위해 low, medium(기본값), high 값을 사용하는 새로운 API 매개변수 verbosity을 도입했습니다. 명시적 지침이 자세함 매개변수와 충돌하는 경우, 명시적 지침이 우선합니다. 예를 들어, "5개 단락으로 된 에세이를 써줘"라고 GPT‑5에 요청하는 경우, 모델은 자세한 내용에 관계없이 항상 5개 단락으로 응답해야 합니다(단, 단락 자체는 더 길거나 더 짧을 수 있습니다).
Verbosity=low
Verbosity=medium
Verbosity=high
지시가 있으면 GPT‑5는 도구 호출 전과 호출 사이에 사용자에게 표시되는 서두 메시지를 출력합니다. 숨겨진 이성 가동 메시지와 달리, 이러한 시각적 메시지를 통해 GPT‑5는 사용자와 계획과 진행 사항에 대해 소통할 수 있어, 최종 사용자가 접근 방식 및 도구 호출 의도를 파악하는 데 도움이 됩니다.
GPT‑5가 JSON 대신 일반 텍스트로 도구를 호출할 수 있게 해주는 새로운 도구 유형인 맞춤형 도구를 소개합니다. 맞춤형 도구 형식을 따르도록 GPT‑5에 제약을 적용하려면 개발자는 정규식 또는 완전히 명시적인 문맥 자유 문법(새 창에서 열기)을 제공할 수 있습니다.
예전에는 개발자가 정의한 도구에 대한 인터페이스는 웹 API와 개발자가 일반적으로 사용하는 공통 형식인 JSON으로 호출해야 했습니다. 하지만 유효한 JSON을 출력하려면 모델이 모든 따옴표, 백슬래시, 줄 바꿈 및 기타 제어 문자를 완벽하게 이스케이프해야 하기 때문입니다. 우리 모델은 JSON을 출력하도록 잘 학습되었지만, 수백 줄 분량의 코드나 5페이지 분량의 보고서와 같이 긴 입력의 경우 오류가 발생할 확률이 높아집니다. 맞춤형 도구를 사용하면 GPT‑5가 이스케이프가 필요한 모든 문자를 이스케이프하지 않고도 모델이 도구 입력을 일반 텍스트로 작성할 수 있습니다.
JSON 도구 대신 맞춤형 도구를 사용한 SWE-bench Verified에서 GPT‑5는 거의 동일한 점수를 달성했습니다.
GPT‑5는 안전 측면에서 기존 모델을 능가하며, 더 강력하고 유용하며 신뢰도가 높은 모델입니다. 특히 GPT‑5는 이전 모델에 비해 환각을 덜 일으키며, 사용자와 모델의 작동 및 기능에 대해 더 솔직하게 소통하고, 안전한 범위를 유지하면서 가능한 한 가장 유용한 답변을 제공합니다. 자세한 내용은 OpenAI 리서치 블로그에서 확인하세요.
GPT‑5는 현재 API 플랫폼 내에서 gpt-5, gpt-5-mini, gpt-5-nano 등의 세 가지 규모로 사용할 수 있습니다. 응답 API, 채팅 완성 API에서 사용할 수 있으며 Codex CLI에서는 기본값입니다. GPT‑5는 $1.25/1백만 입력 토큰, $10/1백만 출력 토큰으로 가격이 책정되어 있으며, GPT‑5 mini는 $0.25/1백만 입력 토큰, $2/1백만 출력 토큰, GPT‑5 nano는 $0.05/1백만 입력 토큰, $0.40/1백만 출력 토큰으로 가격이 책정되어 있습니다.
이러한 모델들은 맞춤형 도구와 마찬가지로 reasoning_effort 및 verbosity API를 지원합니다. 또한 병렬 도구 호출, 내장 도구(웹 검색, 파일 검색, 이미지 생성 등), 핵심 API 기능(스트리밍, 구조화된 출력값 등)과 프롬프트 캐시 및 Batch API와 같은 비용 절감 기능도 지원합니다.
ChatGPT에서 사용되는 GPT‑5의 비이성 가동 버전은 gpt-5-chat-latest처럼 API 내에서 사용할 수 있으며, $1.25/1백만 입력 토큰, $10/1백만 출력 토큰으로 가격이 책정되어 있습니다.
GPT‑5는 Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry 등의 Microsoft 플랫폼에도 도입될 예정입니다.
시작하려면 GPT‑5 문서(새 창에서 열기), 가격 세부 정보(새 창에서 열기), 프롬프트 가이드(새 창에서 열기)를 확인하세요.
인텔리전스
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] 이전 블로그 게시물에 보고된 숫자와 비교했을 때 보이는 약간의 차이는 해당 게시물이 이전 버전의 HLE에서 실행되었기 때문입니다.
멀티모달
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
코딩
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$11만 | US$7.5만 | US$4.9만 | US$8.6만 | US$6.6만 | US$3.4만 | US$3.1만 | US$9천 |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] OpenAI에서 실행할 수 없는 500개 문제 중 23개 문제를 제거했습니다. 제거된 23 작업의 전체 목록은 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', 'sphinx-doc__sphinx-9367'입니다.
지침 준수
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] 참고: MultiChallenge의 기본 채점기가 모델(GPT-4o) 응답에 대해 잘못 채점하는 경우가 잦다는 점을 확인했습니다. 채점기를 o3-mini와 같은 추론 모델로 바꾸는 것이 우리가 실험한 샘플에 대한 채점의 정확도를 크게 향상한다는 점을 발견했습니다.
호출 기능
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
Long Context
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
환각
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


