메인 콘텐츠로 건너뛰기
OpenAI

2025년 12월 11일

발표제품회사

GPT‑5.2를 통해 과학과 수학 발전시키기

GPT‑5.2는 지금까지 공개된 모델 가운데 수학과 과학 분야에서 가장 강력한 성능을 자랑하는 모델입니다.

로딩 중...

강력한 AI에 대한 우리의 희망 중 하나는 모든 사람의 이익을 위해 과학 연구를 가속화하여 연구자들이 더 많은 아이디어를 탐색하고, 더 빠르게 테스트하고, 발견을 영향력으로 전환할 수 있도록 돕는 것입니다. 

지난 1년 동안 우리는 수학, 물리학, 생물학, 컴퓨터 과학 분야의 과학자들과 긴밀히 협력하여 AI가 도움을 줄 수 있는 부분과 여전히 부족한 부분을 이해하기 위해 노력해 왔습니다. 지난달 우리는 GPT‑5가 연구자들을 도와 실제 과학 연구에 기여하기 시작한 사례들을 수학, 물리학, 생물학, 컴퓨터 과학, 천문학, 재료 과학 분야에서 수집해 정리한 논문을 발표했습니다. GPT‑5.2를 통해 우리는 이러한 성과가 더 일관되고 신뢰할 수 있게 되는 것을 보기 시작했습니다.

정밀도가 중요한 곳에서 더욱 강력한 성능

GPT‑5.2 Pro와 GPT‑5.2 Thinking은 과학 및 수학 작업을 위한 우리 모델 중 가장 강력한 모델입니다.

강력한 수학적 추론은 과학 및 기술 작업에서 신뢰성을 위한 기반입니다. 이 능력은 모델이 여러 단계의 논리를 따르고 수량의 일관성을 유지하며 시뮬레이션, 통계, 예측, 모델링 등 실제 분석에서 누적될 수 있는 미세한 오류를 피하도록 합니다. FrontierMath 같은 벤치마크에서의 향상은 단순한 특정 능력이 아니라 보다 강력한 일반 추론과 추상화 능력을 반영하며, 이는 코딩, 데이터 분석, 실험 설계 같은 과학적 작업 흐름에 직접적으로 이어집니다.

이러한 능력은 일반 지능(AGI)을 향한 발전과도 밀접하게 연결되어 있습니다. 추상화를 통해 안정적으로 추론하고 긴 사고 사슬에서 일관성을 유지하며 다양한 영역에 일반화할 수 있는 시스템은 AGI의 기초가 되는 특성을 보여줍니다. 이는 특정 작업에 한정된 요령이 아니라 과학, 공학, 실제 의사 결정 전반에 중요한 광범위하고 전이 가능한 추론 능력입니다.

OpenAI는 GPT‑5.2 Pro와 GPT‑5.2 Thinking이 과학자의 연구를 지원하고 가속화하는 데 있어 세계 최고 수준의 모델이라고 판단합니다. 석박사급 Google-proof Q&A 벤치마크인 GPQA Diamond에서는 GPT‑5.2 Pro가 93.2%를 기록했으며 GPT‑5.2 Thinking도 92.4%로 뒤를 이었습니다.

GPQA Diamond(새 창에서 열기)에서 모델은 물리학, 화학, 생물학에 대한 객관식 질문에 답변합니다. 어떤 툴도 활성화되지 않았고 추론 강도는 최대치로 설정되었습니다.

전문가 수준의 수학 문제를 평가하는 FrontierMath(1~3등급)에서도 GPT‑5.2 Thinking은 40.3%의 문제를 해결하며 새로운 최고 기록을 세웠습니다.

FrontierMath(새 창에서 열기)에서는 모델이 전문가 수준의 수학 문제를 해결합니다. Python 툴이 활성화되었고 추론 강도는 최대치로 설정되었습니다.

사례 연구

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(새 창에서 열기).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

향후 과제

이 결과는 특히 수학이나 이론 컴퓨터 과학처럼 공리적 이론 기반이 있는 분야에서 AI 시스템이 연구를 지원할 수 있는 유용한 방향을 시사합니다. 이러한 환경에서 첨단 모델은 증명 탐색, 가설 테스트, 인간이 많은 노력을 들여야만 발견할 수 있는 연결 관계 식별에 도움을 줄 수 있습니다.

동시에 이러한 시스템은 독립적인 연구자가 아닙니다. 전문가의 판단, 인증, 도메인 이해는 여전히 필수적입니다. 아무리 성능이 뛰어난 모델이라도 실수를 하거나 명시되지 않은 가정에 의존할 수 있습니다. 그러나 이러한 모델은 사람이 면밀히 검토하고 다듬을 만한 세부적이고 구조적인 논증을 제시할 수도 있습니다. 따라서 AI를 활용해 신뢰할 수 있는 진전을 이루려면 검증, 투명성, 협업이 확실히 포함된 작업 흐름이 필요합니다.

사례 연구 관점에서 볼 때, 이 결과는 새로운 연구 방식의 등장을 보여줍니다. GPT‑5.2 같은 모델은 수학적 추론을 지원하고 초기 탐색을 가속화하는 도구로 활용될 수 있지만, 정확성, 해석, 맥락에 대한 책임은 인간 연구자에게 남아 있습니다. 신중하게 사용된다면 이러한 시스템은 과학적 탐구에서 인간 판단의 핵심적 역할을 대체하지 않으면서 이론적 작업의 주요 부분을 효율화하는 데 기여할 수 있습니다.