메인 콘텐츠로 건너뛰기
OpenAI

2026년 4월 23일

제품릴리스

GPT‑5.5 소개

실제 업무를 위한 새로운 차원의 인텔리전스

로딩 중...

2026년 4월 24일 업데이트: GPT‑5.5 및 GPT‑5.5 Pro가 이제 API에서 사용 가능합니다. 시스템 카드도 적용되는 추가 안전 장치를 설명하도록 업데이트되었습니다.


OpenAI가 지금까지 가장 스마트하고 직관적으로 사용할 수 있는 모델이자, 컴퓨터로 업무를 처리하는 새로운 방식으로 나아가는 다음 단계인 GPT‑5.5를 선보입니다.

GPT‑5.5는 사용자가 하려는 일을 더 빠르게 이해하고, 더 많은 작업을 스스로 수행할 수 있습니다. 이 모델은 코드 작성과 디버깅, 온라인 리서치, 데이터 분석, 문서와 스프레드시트 작성, 소프트웨어 조작, 작업이 완료될 때까지 여러 도구를 오가는 데 탁월한 성능을 발휘합니다. 모든 단계를 일일이 세심하게 관리하는 대신 복잡하고 여러 부분으로 이루어진 작업을 GPT‑5.5에게 맡기고 이 모델을 신뢰하여 스스로 계획하고, 도구를 사용하고, 작업을 점검하고, 모호함을 헤쳐 나가고, 계속 작업을 이어나가게 하세요.

이러한 이점은 특히 컨텍스트 전반에 걸친 추론과 시간 경과에 따른 작업 수행이 진전에 매우 중요한 영역인 에이전틱 코딩, 컴퓨터 활용, 지식 노동, 초기 과학 연구에서 두드러집니다. GPT‑5.5는 속도 저하 없이 이처럼 더욱 진보한 인텔리전스를 제공합니다. 일반적으로 더 크고 성능이 더 우수한 모델은 서비스 속도가 느린 경우가 많지만, GPT‑5.5는 실제 서비스 환경에서 GPT‑5.4와 동일한 토큰당 지연 시간을 유지하면서도 훨씬 더 높은 수준의 인텔리전스를 발휘합니다. 또한 동일한 Codex 작업을 완료하는 데 훨씬 적은 토큰을 사용하므로, 효율성뿐 아니라 성능도 더욱 뛰어납니다.

OpenAI가 지금까지 가장 강력한 수준의 안전 장치를 적용하여 오용을 줄이는 동시에 유익한 작업에 대한 액세스를 유지하도록 설계된 GPT‑5.5를 출시합니다. 당사는 출시 전에 모든 안전 및 준비성 프레임워크 전반에 걸쳐 이 모델을 평가하고 내외부 레드팀과 협력했으며, 고도화된 사이버 보안 및 생물학 기능에 대한 맞춤형 테스트를 추가하고 신뢰할 수 있는 200여 얼리 액세스 파트너로부터 실제 사용 사례에 관한 피드백을 수집했습니다.

오늘부터 ChatGPT와 Codex의 Plus, Pro, Business, Enterprise 사용자에게 GPT‑5.5가 점진적으로 제공되며, ChatGPT Pro, Business, Enterprise 사용자에게 GPT‑5.5 Pro가 점진적으로 제공됩니다. API 배포에는 서로 다른 안전 장치가 필요하며, 이를 대규모로 제공하기 위한 안전 및 보안 요구사항에 대해 파트너 및 고객과 긴밀히 협력하고 있습니다. 곧 API에 GPT‑5.5와 GPT‑5.5 Pro도 제공됩니다.

GPT‑5.5

GPT‑5.4 

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE(내부)

73.1%

68.5%

-

-

-

-

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

Toolathlon

55.6%

54.6%

-

-

-

48.8%

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

FrontierMath Tier 1-3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

CyberGym

81.8%

79.0%

-

-

73.1%

-

모델 기능

OpenAI는 에이전틱 AI를 위한 글로벌 인프라를 구축하고 있으며, 전 세계의 사람들과 기업이 AI로 업무를 수행할 수 있도록 하고 있습니다. 지난 1년간 AI는 소프트웨어 엔지니어링을 극적으로 가속화했습니다. 이제 이러한 변화는 Codex와 ChatGPT의 GPT‑5.5를 통해 과학 연구와 사람들이 컴퓨터로 수행하는 더욱 광범위한 작업으로 확장되고 있습니다.

이러한 여러 영역 전반에서 GPT‑5.5는 더 지능적일 뿐만 아니라 문제를 해결하는 방식도 더 효율적이며, 더 적은 토큰과 재시도로 더 높은 품질의 결과물을 내는 경우가 많습니다. Artificial Analysis의 Coding Index에서 GPT‑5.5는 경쟁 프런티어 코딩 모델 대비 절반 수준의 비용으로 최고 수준의 인텔리전스를 제공합니다.

인공지능 분석 인텔리전스 지표(새 창에서 열기)는 외부 기관이 수행한 10가지 평가인 AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom의 가중 평균입니다.

에이전틱 코딩

GPT‑5.5는 지금까지 당사가 개발한 가장 강력한 에이전틱 코딩 모델입니다. 계획, 반복, 도구 조율이 필요한 복잡한 명령줄 워크플로를 테스트하는 Terminal-Bench 2.0에서는 가장 높은 수준인 82.7%의 정확도를 달성했습니다. 또한 실제 GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 58.6%를 기록하며 이전 모델보다 더 많은 작업을 단일 패스를 통해 엔드투엔드 방식으로 해결했습니다. Expert-SWE에서는 예상 완료 시간이 20시간인 장기 코딩 작업에 대한 내부 프런티어 평가에서도 GPT‑5.5가 GPT‑5.4를 능가합니다.

세 가지 평가 모두에서 GPT‑5.5는 토큰을 더 적게 사용하면서도 GPT‑5.4보다 더 높은 점수를 얻었습니다.

이 모델의 코딩 역량은 특히 Codex에서 명확하게 드러나며, 구현과 리팩터링부터 디버깅, 테스트, 검증에 이르기까지 다양한 엔지니어링 작업을 수행할 수 있습니다. 초기 테스트 결과, GPT‑5.5는 대규모 시스템 전반에서 컨텍스트를 유지하고 모호한 장애 상황에서도 추론하며, 도구를 활용하여 가정을 검증하고 주변 코드베이스 전반에 변경 사항을 반영하는 등 실제 엔지니어링 작업에 중요한 동작이 더 뛰어난 것으로 나타났습니다.

렌더링된 궤적은 오리온자리, 달, 태양에 대한 NASA/JPL Horizons 벡터 데이터를 사용하며, 가독성을 위해 디스플레이 스케일링이 적용되었습니다.

프롬프트: [첨부된 이미지] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

초기 테스터들은 GPT‑5.5가 벤치마크를 초월하여 시스템의 전체적인 구조를 이해하는 역량이 더 뛰어나다고 전했습니다. 즉, 무엇이 왜 실패하는지, 수정이 어디에 적용되어야 하는지, 그리고 코드베이스의 다른 어떤 부분이 영향을 받는지를 더 잘 파악한다는 것입니다.

alt

"제가 사용해 본 코딩 모델 중 최초로 개념적 명료함이 확실한 모델입니다."

Every의 창립자 겸 CEO인 Dan Shipper는 GPT‑5.5가 "제가 사용해 본 코딩 모델 중 처음으로 개념적 명확성이 뛰어난 모델"이라고 설명했습니다.

앱을 출시한 후에는 출시 후 발생한 문제를 해결하기 위해 며칠 동안 디버깅을 한 후, 가장 뛰어난 엔지니어 중 한 명을 투입해 시스템 일부를 다시 작성하게 했습니다. GPT‑5.5를 테스트하기 위해 그는 사실상 시간을 되돌린 것처럼 접근했습니다. 즉, 모델이 문제가 있는 상태를 보고, 엔지니어가 최종적으로 선택한 것과 같은 방식의 재작성 결과를 만들어낼 수 있는지를 확인했습니다. GPT‑5.4는 그렇게 할 수 없었지만, GPT‑5.5는 가능했습니다.

alt

"진심으로 더 높은 지능을 발휘하며 일하고 있다는 느낌이고, 거의 경외심마저 듭니다."

MagicPath의 CEO인 Pietro Schirano는 GPT‑5.5가 수백 건의 프런트엔드 및 리팩터링 변경 사항이 포함된 브랜치를 상당한 변경이 이미 이루어진 메인 브랜치에 병합하면서 작업을 약 20분 만에 원샷으로 해결했을 때 비슷한 수준의 획기적인 변화를 목격했습니다.

모델을 테스트한 시니어 엔지니어들은 GPT‑5.5가 추론과 자율성 측면에서 GPT‑5.4와 Claude Opus 4.7보다 확연히 더 뛰어났으며, 문제를 사전에 포착하고 명시적인 프롬프트 없이도 테스트와 검토 필요성을 예측했다고 말했습니다. 한 사례에서는 한 엔지니어가 협업형 마크다운 편집기의 코멘트 시스템 재설계를 맡겼고, 이후 돌아와 보니 거의 완성된 12개 diff로 이루어진 스택이 쌓여 있었습니다. 또 다른 엔지니어들에 따르면 놀랄 만큼 적은 구현 수정만 필요했으며, GPT‑5.4보다 GPT‑5.5의 계획에 더 큰 확신을 느꼈다고 했습니다.

모델을 미리 사용해 본 NVIDIA의 한 엔지니어는 "GPT‑5.5에 대한 액세스를 잃는 것은 마치 팔다리 하나를 잃는 것과 같습니다."라고까지 말했습니다.

"GPT-5.5는 GPT-5.4보다 눈에 띄게 더 똑똑하고 끈기 있으며, 더 강력한 코딩 성능을 제공하고 더 신뢰도 높은 도구 사용을 보입니다. 또한 중간에 멈추지 않고 작업을 훨씬 더 오래 지속할 수 있으며, 이는 사용자가 Cursor에 맡기는 장시간 동안 실행되는 복잡한 작업에서 특히 중요합니다.
— Michael Truell, Cursor 공동 설립자 겸 CEO

전문 지식 기반 업무

코딩에 뛰어난 성능을 발휘하게 하는 GPT‑5.5의 강점은 컴퓨터를 이용한 일상적인 업무에도 강력한 성능을 발휘하게 합니다. 모델이 의도를 더 잘 이해할 수 있으므로 정보 검색, 중요한 내용 파악, 도구 활용, 결과 점검, 원시 자료를 유용한 결과물로 전환하는 등 지식 작업의 전체 과정을 더 자연스럽게 수행할 수 있습니다.

Codex에서 GPT‑5.5는 문서, 스프레드시트, 프레젠테이션 슬라이드 생성에 있어 GPT‑5.4보다 더 뛰어납니다. 알파 테스터들은 운영 리서치, 스프레드시트 모델링, 정리되지 않은 비즈니스 입력을 계획으로 전환하는 작업에서 이 모델이 이전 모델보다 더 뛰어난 성능을 보였다고 말했습니다. GPT‑5.5를 Codex의 컴퓨터 사용 능력과 함께 활용하면 모델이 화면에 보이는 내용을 보고, 클릭하고, 입력하고, 인터페이스를 탐색하며, 여러 도구를 정밀하게 오가는 등 실제로 사용자와 함께 컴퓨터를 사용할 수 있다는 느낌에 한층 더 가까워지게 됩니다.

OpenAI 팀은 이미 실제 워크플로에서 이러한 강점을 활용하고 있습니다. 현재 전사 인원의 85% 이상이 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 과학, 제품 관리 등 여러 기능 분야에서 매주 Codex를 활용하고 있습니다. 커뮤니케이션 팀은 Codex의 GPT‑5.5를 사용해 6개월치의 발언 요청 데이터를 분석하고 점수화 및 위험 프레임워크를 구축했으며, 자동화된 Slack 에이전트를 검증하여 저위험 요청은 자동으로 처리하고 고위험 요청은 계속해서 사람이 검토하도록 전달하게 했습니다. 재무팀은 Codex를 사용해 총 71,637페이지에 달하는 K-1 세금 양식 24,771개를 검토했으며, 개인정보를 제외하는 워크플로를 통해 전년도보다 2주 더 빠르게 작업을 완료할 수 있었습니다. 고투마켓 팀에서는 한 직원이 주간 비즈니스 보고서 생성 업무를 자동화하여 주당 5~10시간을 절감했습니다.

ChatGPT에서 GPT‑5.5 Thinking은 더 어려운 문제도 더 빠르게 해결할 수 있도록 지원하며, 더욱 스마트하고 간결한 답변으로 복잡한 업무를 더 효율적으로 처리할 수 있게 해줍니다. GPT‑5.5 Thinking은 특히 플러그인 사용 시 코딩, 리서치, 정보 종합 및 분석, 문서 작업이 많은 업무와 같은 전문적인 작업에서 탁월합니다.

GPT‑5.5 Pro에서 초기 테스터들은 ChatGPT가 수행할 수 있는 작업의 난이도와 품질이 크게 향상되었음을 확인했습니다. 지연 시간 또한 개선되어 이 모델을 까다로운 작업에도 훨씬 더 실용적으로 활용할 수 있게 되었습니다. 테스터들은 GPT‑5.4 Pro와 비교하면 GPT‑5.5 Pro의 응답이 훨씬 더 포괄적이고 구조가 잘 잡혀 있으며, 더 정확하고 관련성이 높고 유용하다고 평가했습니다. 이 모델은 특히 비즈니스, 법률, 교육, 데이터 과학 분야에서 뛰어난 성능을 보였습니다.

GPT‑5.5는 이러한 종류의 작업을 반영하는 여러 벤치마크에서 최고 수준의 성능을 기록했습니다. 44개 직군에 걸쳐 명확하게 정의된 지식 노동을 수행하는 에이전트의 능력을 평가하는 GDPval⁠에서 GPT‑5.5는 84.9%를 기록했습니다. 모델이 실제 컴퓨터 환경을 스스로 조작할 수 있는지를 평가하는 OSWorld-Verified에서는 78.7%를 기록했습니다. 또한 복잡한 고객 서비스 워크플로를 테스트하는 Tau2-bench Telecom에서는 프롬프트 튜닝 없이도 98.0%를 기록했습니다. GPT‑5.5는 다른 지식 노동 벤치마크에서도 강력한 성능을 보이며, FinanceAgent에서 60.0%, 내부 투자은행 모델링 작업에서 88.5%, OfficeQA Pro에서 54.1%를 기록했습니다.

Tau2-bench Telecom은 프롬프트 튜닝 없이(그리고 GPT‑4.1을 사용자 모델로 사용하여) 실행되었습니다. GPT‑5.5는 작업의 의도를 더 잘 이해하며, 이전 모델보다 토큰 효율성이 더 높습니다.

"GPT-5.5는 실행 중심의 작업에 필요한 지속적인 성능을 제공합니다. NVIDIA GB200 NVL72 시스템을 기반으로 구축 및 제공되는 이 모델은 우리 팀이 자연어 프롬프트로 엔드투엔드 기능을 출시할 수 있게 하고, 디버깅 시간을 며칠에서 몇 시간으로 단축하며, 복잡한 코드베이스에서 몇 주가 걸리던 실험을 하룻밤 사이의 진전으로 바꿔 줍니다. 이는 단순히 더 빠른 코딩을 넘어 사람들이 근본적으로 다른 속도로 일할 수 있도록 돕는 새로운 업무 방식입니다."
— Justin Boitano, NVIDIA 엔터프라이즈 AI 부문 부사장

과학적 리서치

GPT‑5.5는 어려운 질문에 답하는 것만으로는 충분하지 않은 과학 및 기술 리서치 워크플로에서도 향상된 성능을 보입니다. 연구자는 아이디어를 탐색하고 증거를 수집하며, 가정을 검증하고, 결과를 해석하고, 다음으로 무엇을 시도할지 결정해야 합니다. GPT‑5.5는 이 반복적인 과정을 계속 유지하는 데 있어 다른 모델보다 더 뛰어납니다.

특히 GPT‑5.5는 유전학 및 정량적 생물학에서의 다단계 과학 데이터 분석을 중점적으로 다루는 새로운 평가인 GeneBench(새 창에서 열기)에서 GPT‑5.4 대비 뚜렷한 향상을 보입니다. 이러한 문제는 모델이 최소한의 감독 지침만으로 잠재적으로 모호하거나 오류가 있는 데이터에 대해 추론하도록 요구하며, 숨겨진 교란 요인이나 품질 관리(QC) 실패와 같은 현실적인 장애물을 다루고, 현대적 통계 방법을 올바르게 구현하고 해석할 것을 요구합니다. 이러한 과제가 여러 날에 걸쳐 진행되는 과학 전문가를 위한 프로젝트에 해당한다는 점을 감안하면 이 모델의 성능은 실로 놀랍습니다.

마찬가지로, 실제 생물정보학 및 데이터 분석을 기반으로 설계된 벤치마크인 BixBench(새 창에서 열기)에서 GPT‑5.5는 점수가 공개된 모델 중 최고 수준의 성능을 달성했습니다. 이제 모델은 진정한 공동 과학자로서 생의학 연구의 최일선에서 발전을 유의미하게 가속할 만큼 강력한 과학적 역량을 갖추고 있습니다.

또 다른 사례에서는 맞춤형 실행 환경을 갖춘 GPT‑5.5의 내부 버전이 조합론의 핵심 대상 중 하나인 램지 수에 관한 새로운 증명(새 창에서 열기)을 발견하는 데 기여했습니다. 조합론은 그래프, 네트워크, 집합, 그리고 패턴과 같은 이산적인 대상들이 어떻게 서로 어우러지는지를 연구합니다. 램지 수는 대략 어떤 종류의 질서가 반드시 나타나도록 보장하려면 네트워크가 얼마나 커야 하는지를 묻는 개념입니다. 이 분야에서 이러한 결과는 드물며, 기술적으로 어려운 경우가 많습니다. 여기서 GPT‑5.5는 비대각 램지 수에 관한 오랫동안 알려졌던 점근적 사실을 증명했으며, 이는 이후 Lean에서 검증되었습니다. 이 결과는 GPT‑5.5가 코드나 설명뿐 아니라 핵심 연구 분야에서 놀랍고 유용한 수학적 논증에도 기여할 수 있음을 보여주는 구체적인 사례입니다.

초기 테스터들은 여러 차례 원고를 검토하고, 기술적 주장을 점검하며, 분석을 제안하고 코드·노트·PDF 자료를 바탕으로 작업하는 등 ChatGPT에서 GPT‑5.5 Pro를 원샷 답변 엔진이 아닌 연구 파트너처럼 활용했습니다. GPT‑5.5는 연구자가 질문에서 실험으로, 실험에서 결과로 나아가도록 돕는 데 더 뛰어난 성능을 보입니다.

잭슨 연구소 게놈 의학과의 면역학 교수이자 연구자인 Derya Unutmaz는 GPT‑5.5 Pro를 사용해 샘플 62개와 약 28,000개의 유전자로 이루어진 유전자 발현 데이터세트를 분석하고, 결과를 요약할 뿐 아니라 핵심 질문과 인사이트도 도출한 상세한 연구 보고서를 작성했습니다. Unutmaz 교수에 따르면, 이는 그의 연구팀이 몇 개월은 걸려야 완료할 수 있는 작업입니다.

폴란드 포즈난의 아담 미츠키에비치 대학교 수학과 조교수인 Bartosz Naskręcki는 Codex에서 GPT‑5.5를 사용해 단 하나의 프롬프트만으로 11분 만에 대수기하학 앱을 구축했으며, 이차곡면의 교선을 시각화하고 그 결과로 도출된 곡선을 바이에르슈트라스 모델로 변환했습니다.

그는 이후 앱을 더 안정적인 특이점 시각화와 향후 작업에서 재사용할 수 있는 정확한 계수로 확장했습니다. 그에게 있어 더 큰 변화는 이제 Codex가 이전에는 전용 도구가 필요했던 맞춤형 수학 시각화 및 컴퓨터 대수 워크플로 구현을 지원할 수 있게 되었다는 점입니다. 이러한 예시는 GPT‑5.5가 전문가의 의도를 실제로 작동하는 리서치 도구와 분석으로 구현하는 모습을 보여줍니다.

""

출처: Bartosz Naskręcki(새 창에서 열기)

프롬프트: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas

## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

"OpenAI의 새로운 GPT-5.5 모델이 자체 테스트 환경에서 방대한 생화학 데이터셋을 추론하여 인체 약물 반응을 예측한 뒤, 가장 어려운 신약 개발 평가에서 정확도를 크게 높이는 모습을 보는 것은 매우 고무적입니다. "OpenAI가 이런 성과를 계속 내놓는다면 연말까지 신약 개발의 기초가 바뀔 것입니다."
— Brandon White, Axiom Bio 공동 설립자 겸 CEO

차세대 추론 효율성

GPT‑5.4 수준의 지연 시간으로 GPT‑5.5를 서비스하려면 추론을 개별적으로 분리된 최적화의 집합이 아니라 통합된 시스템으로 재고해야 했습니다. GPT‑5.5는 NVIDIA GB200 및 GB300 NVL72 시스템을 기반으로 공동 설계되고 학습되었으며, 동일한 시스템에서 제공됩니다. Codex와 GPT‑5.5는 성능 목표를 달성하는 데 핵심적인 역할을 했습니다. Codex는 팀이 아이디어에서 벤치마크 가능한 구현까지 더 빠르게 나아갈 수 있도록 지원했으며, 접근 방식을 구상하고, 실험을 구성하며, 어떤 최적화에 더 깊이 투자할 가치가 있는지 파악하는 데 도움을 주었습니다. GPT‑5.5는 스택 자체의 핵심 개선 사항을 찾아 구현하는 데 기여했습니다. 간단히 말해, 이 모델은 모델에 제공되는 인프라를 개선하는 데 도움이 되었습니다.

그러한 개선 사항 중 하나는 로드 밸런싱 및 휴리스틱 파티셔닝이었습니다. GPT‑5.5 이전에는 컴퓨팅 코어 전반에 작업 부하를 고르게 분산하기 위해 가속기에서 요청을 고정된 수의 청크로 분할했으며, 이를 통해 큰 요청과 작은 요청이 동일한 GPU에서 실행될 수 있도록 했습니다. 하지만 미리 정해진 수의 고정 청크가 모든 트래픽 형태에 최적인 것은 아닙니다. GPU를 더 효율적으로 활용하기 위해 Codex는 작업을 최적으로 분할하고 균형 있게 배분할 수 있도록 몇 주치의 프로덕션 트래픽 패턴을 분석하고 맞춤형 휴리스틱 알고리즘을 작성했습니다. 그러한 노력은 토큰 생성 속도를 20% 이상 높이는 등 매우 큰 효과를 발휘했습니다.

모두의 안전을 위한 사이버 보안 강화

세상이 보안 취약점을 매우 잘 찾아내고 패치하는 모델에 대비할 수 있게 하는 것은 모두가 함께해야 하는 일이며, 이를 위해서는 사이버 방어의 새로운 시대를 위해 모델 액세스의 민주화와 반복적 배포를 바탕으로 생태계 전체가 복원력을 구축하기 위해 적극적으로 노력해야 합니다.

프런티어 모델은 사이버 보안 분야에서 점점 더 우수해지고 있습니다. 이러한 역량은 널리 확산될 것이며, 우리는 이를 사이버 방어를 가속화하고 생태계를 강화하는 데 활용될 수 있도록 하는 것이 앞으로 추구해야 할 최선의 방향이라고 믿습니다.

GPT‑5.5는 사이버 보안처럼 세계에서 가장 어려운 과제 중 일부를 해결할 수 있는 AI로 나아가는 점진적이지만 중요한 단계입니다. OpenAI는 12월에 GPT‑5.2를 출시함으로써 모델의 잠재적인 사이버 악용을 제한하기 위해 필요한 사이버 보안 보호 조치를 선제적으로 배포했습니다. 이제 GPT‑5.5를 통해 잠재적인 사이버 위험에 대한 더 엄격한 분류기를 배포하고 있는데, 시간이 지날수록 이를 조정해 나가는 과정에서 일부 사용자는 처음에 불편을 느낄 수 있습니다.

당사는 모델이 점진적으로 개선됨에 따라 지난 몇 년간 준비성 평가 프레임워크(새 창에서 열기)에서 사이버 보안을 하나의 범주로 식별해왔으며, 유의미한 사이버 보안 역량을 갖춘 모델을 책임감 있게 출시하기 위해 완화 조치를 반복적으로 개발하고 조정했습니다.

  • OpenAI는 이 수준의 사이버 보안 역량에 대해 업계 최고 수준의 보호 장치를 배포하고 있습니다. OpenAI는 지난해 처음으로 GPT‑5.2(새 창에서 열기)에 사이버 전용 안전 장치를 도입했으며, 이후 배포에서도 이를 계속 테스트하고, 개선하고, 발전시켜 왔습니다. GPT‑5.5에 대해서는 고위험 활동과 민감한 사이버 관련 요청에 관하여 더 엄격한 제어를 설계했으며, 반복적인 오남용에 대한 추가 보호 조치도 도입했습니다. 모델 안전, 인증된 사용, 허용되지 않는 사용 모니터링에 관한 투자 덕분에 광범위한 액세스가 가능해졌습니다. 몇 개월간 외부 전문가들과 협력하여 이러한 안전 장치의 강력한 효과를 개발하고, 테스트하며 반복해왔습니다. OpenAI는 GPT‑5.5를 통해 개발자가 코드를 손쉽게 보호할 수 있도록 하는 동시에, 악의적인 행위자에 의해 악용될 경우 피해를 초래할 가능성이 가장 큰 사이버 워크플로에는 더 강력한 제어를 적용하고 있습니다.
  • OpenAI는 모든 수준에서 사이버 방어를 가속화하기 위해 액세스를 확대하고 있습니다. OpenAI는 Trusted Access for Cyber를 통해 사이버 활용에 적합한 모델을 제공하며, 그 시작으로 Codex를 선보입니다. Codex는 출시 시점에 특정한 신뢰 신호(새 창에서 열기)를 충족하는 검증된 사용자를 위해 기능 제한이 완화된 GPT‑5.5의 고급 사이버 보안 기능에 대한 확대된 액세스를 포함합니다. 핵심 인프라 방어를 담당하는 조직은 GPT‑5.4‑Cyber와 같은 사이버 활용에 적합한 모델에 대한 액세스를 신청할 수 있으며, 이러한 모델을 내부 시스템 보호에 사용하려면 엄격한 보안 요구 사항을 충족해야 합니다. 이를 통해 검증된 방어 주체들이 정당한 보안 작업을 수행할 때 더 강력한 도구를 활용할 수 있도록 하고, 불필요한 제약을 줄여 중요한 방어 역량에 대한 액세스를 더욱 보편적으로 제공할 수 있습니다. 사용자는 검증된 방어 작업에 GPT‑5.5를 사용할 때 불필요한 응답 거절을 줄이기 위해 chatgpt.com/cyber(새 창에서 열기)에서 신뢰할 수 있는 액세스를 신청할 수 있습니다.
  • OpenAI는 공공을 위한 핵심 인프라 보호를 돕기 위해 정부 파트너와 협력하고 있습니다. 당사는 이러한 파트너와 함께 중요한 납세자 데이터를 보호하는 디지털 시스템부터 지역사회의 전력망과 상수도에 이르기까지 사람들에게 필요한 시스템을 책임지는 신뢰할 수 있는 공직자들의 방어 업무를 고급 AI가 어떻게 지원할 수 있을지 모색하고 있습니다.

OpenAI는 준비성 평가 프레임워크(새 창에서 열기)에 따라 GPT‑5.5의 생물학/화학 및 사이버 보안 역량을 '높음(High)' 수준으로 분류합니다. GPT‑5.5는 사이버 보안 역량 ‘심각(Critical)’ 수준에는 도달하지 않았지만, OpenAI의 평가와 테스트 결과 GPT‑5.4에 비해 사이버 보안 역량이 한 단계 향상된 것으로 나타났습니다.

또한 GPT‑5.5는 출시 전에 준비성 평가, 분야별 테스트, 고급 생물학 및 사이버 보안 역량에 대한 새로운 표적 평가, 외부 전문가와의 광범위한 테스트를 포함한 OpenAI의 모든 안전 및 거버넌스 프로세스를 거쳤습니다. 자세한 내용은 GPT‑5.5 시스템 카드(새 창에서 열기)에서 확인할 수 있습니다.

이 작업은 당사가 모델 역량이 발전함에 따라 필요하다고 믿는 AI 복원력에 대한 더 광범위한 접근 방식을 반영합니다. 당사는 시스템, 기관과 대중을 보호하는 데 AI를 활용하는 사람들이 강력한 AI를 사용할 수 있기를 바랍니다. 실현 가능한 경로는 신뢰 기반 액세스, 역량에 맞춰 강화되는 견고한 보호 장치, 그리고 심각한 오용을 탐지하고 대응할 수 있는 운영 역량입니다.

지원 범위 및 가격

오늘부터 ChatGPT와 Codex의 Plus, Pro, Business, Enterprise 사용자에게 GPT‑5.5가 점진적으로 제공되며, ChatGPT Pro, Business, Enterprise 사용자에게 GPT‑5.5 Pro가 점진적으로 제공됩니다. 곧 API에 GPT‑5.5와 GPT‑5.5 Pro도 제공됩니다.

ChatGPT Plus, Pro, Business, Enterprise 사용자는 GPT‑5.5를 사용할 수 있습니다. Pro, Business, Enterprise 사용자는 더 어려운 질문과 더 높은 정확도가 필요한 작업을 위해 설계된 GPT‑5.5 Pro를 이용할 수 있습니다.

Codex Plus, Pro, Business, Enterprise, Edu, Go 플랜 가입자는 GPT‑5.5를 사용할 수 있으며, 40만 컨텍스트 윈도우가 제공됩니다. Fast 모드에서도 GPT‑5.5를 사용할 수 있으며, 이 경우 토큰이 1.5배 더 빠르게 생성되며 비용은 2.5배입니다.

API 개발자는 곧 gpt-5.5를 Responses 및 Chat Completions API에서 사용할 수 있습니다. 가격은 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $30이며, 100만 컨텍스트 윈도우가 제공됩니다. Batch와 Flex 요금은 표준 API 요금의 절반 가격으로 제공되며 우선 처리 옵션은 표준 요금의 2.5배 가격으로 제공됩니다. 또한 더 높은 정확도를 위해 API에도 gpt-5.5-pro를 출시할 예정이며, 가격은 입력 토큰 100만 개당 $30, 출력 토큰 100만 개당 $180입니다. 자세한 내용은 가격 페이지에서 확인하세요.

GPT‑5.5는 GPT‑5.4보다 가격이 높지만, 더 지능적이며 토큰 효율성도 훨씬 더 높습니다. Codex에서는 대다수의 사용자에게 GPT‑5.5가 GPT‑5.4보다 더 적은 토큰으로 더 나은 결과를 제공하도록 사용 경험을 세심하게 조정했으며, 동시에 모든 구독 등급에서 넉넉한 사용량을 계속해서 제공합니다.

평가

코딩

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

SWE-Bench Pro(공개) *

58.6%

57.7%

-

-

64.3%

54.2%

Terminal-Bench 2.0

82.7%

75.1%

-

-

69.4%

68.5%

Expert-SWE(내부)

73.1%

68.5%

-

-

-

-

*이 평가에서는 암기된 것으로 보이는 증거(새 창에서 열기)가 관찰되었음을 연구소에서 밝혔습니다

전문가

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GDPval (wins or ties)

84.9%

83.0%

82.3%

82.0%

80.3%

67.3%

FinanceAgent v1.1

60.0%

56.0%

-

61.5%

64.4%

59.7%

투자은행 모델링 과제(내부)

88.5%

87.3%

88.6%

83.6%

-

-

OfficeQA Pro

54.1%

53.2%

-

-

43.6%

18.1%

컴퓨터 사용 및 비전 기능

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

OSWorld-Verified

78.7%

75.0%

-

-

78.0%

-

MMMU Pro(도구 미사용)

81.2%

81.2%

-

-

-

80.5%

MMMU Pro(도구 사용)

83.2%

82.1%

-

-

-

-

도구 사용

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

BrowseComp

84.4%

82.7%

90.1%

89.3%

79.3%

85.9%

MCP Atlas**

75.3%

70.6%

-

-

79.1%

78.2%

Toolathlon

55.6%

54.6%

-

-

-

48.8%

Tau2-bench Telecom***
(원본 프롬프트)

98.0%

92.8%

-

-

-

-

** MCP Atlas: 2026년 4월 최신 업데이트 이후 Scale AI의 결과. 
*** Tau2-bench Telecom: 원래 프롬프트, 즉 프롬프트 조정 없이 진행한 5.5 및 5.4의 결과. 프롬프트 조정을 통해 평가된 다른 실험실의 결과는 제외되었습니다.

학술

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

GeneBench

25.0%

19.0%

33.2%

25.6%

-

-

FrontierMath Tier 1-3

51.7%

47.6%

52.4%

50.0%

43.8%

36.9%

FrontierMath Tier 4

35.4%

27.1%

39.6%

38.0%

22.9%

16.7%

BixBench

80.5%

74.0%

-

-

-

-

GPQA Diamond

93.6%

92.8%

-

94.4%

94.2%

94.3%

Humanity's Last Exam(도구 없음)

41.4%

39.8%

43.1%

42.7%

46.9%

44.4%

Humanity's Last Exam(도구 사용)

52.2%

52.1%

57.2%

58.7%

54.7%

51.4%

사이버 보안

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Capture~the~Flag 과제 작업(내부)****

88.1%

83.7%

-

-

-

-

CyberGym

81.8%

79.0%

-

-

73.1%

-

**** 시스템 카드에 사용된 가장 어려운 CTF의 확장으로서, 더 많은 어려운 과제를 포함합니다.

긴 컨텍스트

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

Graphwalks BFS 256k f1

73.7%

62.5%

-

-

76.9%

-

Graphwalks BFS 1mil f1

45.4%

9.4%

-

-

41.2%(Opus 4.6)

-

Graphwalks parents 256k f1

90.1%

82.8%

-

-

93.6%

-

Graphwalks parents 1mil f1

58.5%

44.4%

-

-

72.0%(Opus 4.6)

-

OpenAI MRCR v2 8-needle 4K-8K

98.1%

97.3%

-

-

-

-

OpenAI MRCR v2 8-needle 8K-16K

93.0%

91.4%

-

-

-

-

OpenAI MRCR v2 8-needle 16K-32K

96.5%

97.2%

-

-

-

-

OpenAI MRCR v2 8-needle 32K-64K

90.0%

90.5%

-

-

-

-

OpenAI MRCR v2 8-needle 64K-128K

83.1%

86.0%

-

-

-

-

OpenAI MRCR v2 8-needle 128K-256K

87.5%

79.3%

-

-

59.2%

-

OpenAI MRCR v2 8-needle 256K-512K

81.5%

57.5%

-

-

-

-

OpenAI MRCR v2 8-needle 512K-1M

74.0%

36.6%

-

-

32.2%

-

추상적 추론

Eval

GPT‑5.5

GPT‑5.4

GPT‑5.5 Pro

GPT‑5.4 Pro

Claude Opus 4.7

Gemini 3.1 Pro

ARC-AGI-1 (Verified)

95.0%

93.7%

-

94.5%

93.5%

98.0%

ARC-AGI-2 (Verified)

85.0%

73.3%

-

83.3%

75.8%

77.1%

GPT 평가는 추론 수준을 xhigh로 설정한 상태에서 연구 환경에서 진행되었으며, 이로 인해 일부 경우에는 실제 ChatGPT 서비스 환경과 결과가 다소 다를 수 있습니다.

작성자

OpenAI