メインコンテンツにスキップ
OpenAI

2025年12月11日

出版製品企業

GPT‑5.2 による科学と数学の前進

GPT‑5.2 は、数学と科学の分野におけるこれまでで最も強力なモデルです。

読み込んでいます...

私たちが高度な AI に期待していることのひとつは、科学研究を加速し、誰もが AI の恩恵を得られるようにすることです。研究者がより多くのアイデアを探求し、より迅速に検証し、発見を社会的な成果へとつなげられるよう支援します。

この1年、私たちは数学、物理学、生物学、コンピュータサイエンスの研究者と密接に協力し、AI が貢献できる領域と、まだ十分ではない領域を理解するために取り組んできました。先月、私たちは数学、物理学、生物学、コンピュータサイエンス、天文学、材料科学における初期のケーススタディをまとめた論文を公開しました。これらは GPT‑5 が研究者を支援し、すでに実際の科学研究に貢献し始めていることを示しています。GPT‑5.2 によって、こうした成果が、より一貫性と信頼性をもって現れ始めています。

精度が求められる場面でさらに強力なパフォーマンス

GPT‑5.2 Pro と GPT‑5.2Thinking は、科学・数学分野におけるこれまでで最も強力なモデルです。

強力な数学的推論は、科学技術分野における信頼性の基盤となります。これにより、モデルは複数のステップにわたる論理に従い、数量の整合性を維持し、シミュレーションや統計から予測やモデリングに至るまで、実際の分析で蓄積しがちな微妙な誤りを回避できるようになります。FrontierMath のようなベンチマークでの改善は、限定的なスキルの向上ではなく、より強力な一般的推論能力や抽象化能力を示しており、これらはコーディング、データ分析、実験設計といった科学的なワークフローに直接生かされます。

こうした能力は、汎用知能への進展とも密接に関係しています。抽象化を通じて確実に推論し、長い思考の連鎖にわたり整合性を維持し、領域をまたいで一般化できるシステムは、AGI の基盤となる特性を示しています。これは特定のタスクに依存した小手先のテクニックではなく、科学、工学、現実の意思決定など、多様な領域で重要となる広範で転移可能な推論能力です。

GPT‑5.2 Pro と GPT‑5.2 Thinking は、科学研究を支援し加速するための世界屈指のモデルであると私たちは考えています。大学院レベルの Google-proof Q&A ベンチマークである GPQA Diamond では、GPT‑5.2Pro が93.2%、GPT‑5.2 Thinking が92.4%を達成しました。

GPQA Diamond(新しいウィンドウで開く) では、モデルが物理、化学、生物に関する選択式問題に回答します。ツールは使用せず、推論の深さは最大に設定しました。

専門家レベルの数学能力を評価する FrontierMath(Tier 1〜3)では、GPT‑5.2 Thinking が40.3%の問題を解き、新たな最高スコアを達成しました。

FrontierMath(新しいウィンドウで開く) では、モデルが専門家レベルの数学問題を解きます。Python ツールを有効化し、推論の深さは最大に設定しました。

ケーススタディ

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(新しいウィンドウで開く).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

今後の取り組み

この結果は、AI システムが科学研究をどのように支援できるかについて有益な方向性を示しています。特に、数学や理論コンピュータサイエンスのように公理に基づく理論分野において顕著です。このような領域では、最先端モデルが証明の探索、仮説検証、人間では多大な労力を要する関係性の発見を支援できます。

とはいえ、これらのシステムは独立した研究者ではありません。専門家の判断、検証、そして領域知識は依然として不可欠です。高度なモデルであっても、誤りを犯したり、暗黙の前提に依存したりする可能性があります。しかし同時に、人間が精査し洗練させる価値のある、詳細で構造化された議論を生成することもできます。そのため、AI を用いて信頼性の高い進展を得るには、検証、透明性、協働を確実に組み込んだワークフローが欠かせません。

この結果は、ケーススタディとして見ると、新たな研究手法の姿を示しています。GPT‑5.2 のようなモデルは、数学的推論を支援し、初期段階の探索を加速するためのツールとして役立ちますが、正確性、解釈、文脈に対する最終的な責任は人間の研究者にあります。適切に運用すれば、このようなシステムは、科学的探究における人間の判断という中心的役割を損なうことなく、理論研究の重要な側面を効率化する助けとなり得ます。