2026年2月20日

私たちの First Proof の提出

First Proof についての私たちの証明の試みを共有します。これは、AIが分野に特化された問題に対し、検証可能な証明を作成できるかを試す数学のチャレンジです。

読み込んでいます...

私たちは、AI システムが正しく検証可能な証明の試行を生成できるかどうかをテストするために設計された研究レベルの数学チャレンジである First Proof⁠（新しいウィンドウで開く）の全10問の問題に対して、内部モデルを実行しました。短答式や競技数学とは異なり、これらの問題は専門分野においてエンドツーエンドの論証を構築する必要があり、専門家のレビューなしでは正確性を確立するのは困難です。First Proof の問題の著者はそれぞれの分野の第一線の専門家であり、少なくともいくつかの問題は、著者が解決策を見つけるまで何年も未解決のままでした。対象分野とかなり重複する学術部門であれば、おそらく1週間で多くの問題を解決できるでしょう。

私たちは、2026年2月14日土曜日午前12時（太平洋時間）に証明の試みを共有しました⁠（新しいウィンドウで開く）。専門家のフィードバックに基づき、モデルの証明試行のうち少なくとも5つ（問題4、5、6、9、10）は正解の可能性が高いと考えています。他のいくつかは引き続き審査中です。当初、問題2に対する私たちの試みはおそらく正しいだろうと考えていました。公式の First Proof のコメントとコミュニティによるさらなる分析に基づき、現在ではそれが誤りであると考えています。この取り組みに感謝申し上げます。今後もレビューを続けていくことを楽しみにしております。証明試行の全体はこちら⁠（新しいウィンドウで開く）でご覧いただけます。プレプリントには、10件すべての証明試行に加えて、プロセス中のモデルとの手動でのやり取りをシミュレートするためのプロンプトパターンと例を含む新たに追加された付録が含まれています。

私たちは、新しいフロンティア研究が次世代AIモデルの能力を評価するための最も重要な方法であると考えています。ベンチマークは有用ですが、研究における最も難しい部分を見落とすことがあります。それは、長い推論の連鎖を維持すること、適切な抽象化を選択すること、問題文の曖昧さに対処すること、そして専門家の精査に耐える議論を構築することです。First Proof のようなフロンティアの課題は、正確性の検証が容易ではなく、障害モードが有益な情報を提供する状況下で、これらの能力についてストレステストするのに役立ちます。

「現在、私たちは新しいモデルをトレーニングしており、その主な焦点は思考の厳密さを高めることにあります。目標は、モデルが何時間にもわたって継続的に思考し、結論に対して高い確信を持ち続けることです。First Proof の問題が発表された際、これは完璧なテストベッドになりそうだと感じたので、週末に試してみました。すでに2つの問題（#9と#10）を解決しました。学習が進むにつれて能力が向上し、最終的には、私たちの推定によると少なくともさらに3つを解決しました。私たちは、#6 を解決し、その2日後に#4も解決したときに特に嬉しく思いました。これらの問題は、私たちの多くにとって馴染みのある分野のものだったからです。モデルが日々目に見えて賢くなっていく様子を見るのは本当に素晴らしいことです。

– James R. Lee（OpenAI 研究者、推論）

私たちは、人間による限定的な監督のもとでモデルを実行しました。トレーニングに沿ってモデルのバージョンにプロンプトを行う際、以前の試行で効果的だと思われた戦略の再試行を提案することがありました。一部の試行では、専門家のフィードバックを受けた後、推論をより検証しやすくするために、モデルに対し証明の一部を拡張または明確化するよう求めました。また、検証、フォーマット、スタイルのために、このモデルと ChatGPT の間でやり取りができるようにしました。いくつかの問題においては、人間の判断で選ばれた試行の中から最良のものを提示します。今回のスプリントは短期間で、適切に管理された評価において望まれるほどには、私たちのプロセスは整然としていませんでした。今後の反復に向けて、より厳密な実験と評価の枠組みについて、First Proof の主催者と話し合うことを楽しみにしています。

この研究は、数学と科学におけるフロンティアのリーズニングモデルの先行成果に基づいています。2025年7月、私たちは国際数学オリンピックにおいて、汎用リーズニングモデルで金メダル級の成績⁠（新しいウィンドウで開く）（35/42点）を収めました。2025年11月、私たちは「GPT‑5 を用いた科学の加速に関する初期実験」を共有しました。これは、GPT‑5 が数学、物理学、生物学、その他の分野で研究者が具体的な進展を遂げるのを支援した一連のケーススタディと、私たちが観察した限界についてまとめたものです。そして最近、GPT‑5.2 がグルーオン振幅の公式の候補となる数式を提案し、それが内部モデルによって正式に証明され、著者によって検証もされた物理学の共同研究について報告しました。

私たちは、これらの試みに対する専門家のフィードバックを含め、研究グレードの推論を評価する方法についてコミュニティとより深く関わっていくこと、またこれらの新しい機能を将来の公開モデルで提供することを楽しみにしています。