LLM で論理的思考を学ぶ
OpenAI o1の導入を進めています。複雑な推論を行うために強化学習で訓練された新しい大規模言語モデル(LLM)です。o1は答える前に考えます。ユーザーに答える前に、内部で長い思考の連鎖を生み出すことができます。
OpenAI o1は、競争型のプログラミング問題(Codeforces)で89パーセンタイルにランクし、アメリカ数学オリンピック(AIME)の予選で米国の学生上位500人の中に入り、物理学、生物学、化学の問題のベンチマーク(GPQA)で人間の博士号レベルの精度を超えています。この新しいモデルを現在のモデルと同じように使いやすくするために必要な作業はまだ進行中ですが、このモデルの初期バージョンである「OpenAI o1‑preview」をChatGPTですぐに利用可能にし、信頼できるAPIユーザー(新しいウィンドウで開く)を対象にリリースする予定です。
当社の大規模強化学習アルゴリズムは、データ効率の高いトレーニングプロセスにて思考の連鎖を採用した生産的な思考方法をこのモデルに教えます。o1の性能は、強化学習(トレーニング時計算)と思考時間(テスト時計算)が長くなるほど一貫して向上することが明らかになりました。このアプローチを推進していく上での制約は、LLMプレトレーニングのそれとは大きく異なり、現在も検討中です。

o1の性能は、学習時計算とテスト時計算の両方で円滑に向上
GPT‑4oに対する推論の改良を明らかにするため、人間の試験とMLベンチマークの多様なセットで各モデルをテストしました。こうした推論を多用するタスクの大部分において、o1がGPT‑4oを大幅に上回ることを示します。特記がない限り、o1を最大テスト時計算設定で評価しました。







推論を多用する多くのベンチマークにおいて、o1は人間の専門家のパフォーマンスに匹敵しています。最近のフロンティアモデル1はMATH2とGSM8Kで非常に高い成績を収め、これらのベンチマークではモデルを有効に差別化できなくなっています。アメリカで最難関の高校数学試験として設計されたAIMEで数学のパフォーマンスを評価しました。2024年の AIME 試験では、GPT‑4o は平均12%(1.8/15)の正答に留まりました。o1 は、問題あたり1サンプルで74%(11.1/15)、64サンプルのコンセンサスで83%(12.5/15)、学習したスコアリング関数で1000サンプルを再順位付けすると93%(13.9/15)の平均値となりました。13.9というスコアは全米で上位500人の学生に入るもので、アメリカ数学オリンピックのカットオフ値を上回っています。
また、化学、物理学、生物学の専門知識を問う難解な知能ベンチマークであるGPQAダイアモンドでo1を評価しました。各モデルを人間と比較するため、GPQAダイアモンドの問題に答える博士号を持つ専門家を募集しました。o1が人間の専門家の成績を上回り、このベンチマークでそれを達成した最初のモデルとなりました。これらの結果は、o1が全ての面で博士よりも有能であることを示唆するものではありません。あくまで博士が解くと期待される一部の問題において同モデルがより熟練していることを示唆しています。他のいくつかのMLベンチマークでは、o1は最先端を上回りました。視覚認識機能を有効にした状態では、o1は、MMMUで78.2%のスコアを獲得し、人間の専門家に匹敵する初めてのモデルとなりました。また、MMLUの57個のサブカテゴリ中54個でGPT‑4oを上回りました。
人間が難しい質問に答える前にしばらく考えるのと同じように、o1は問題を解くときに思考の連鎖を使います。強化学習を通じて、o1は思考の連鎖を磨き、使用する戦略を洗練させることを学びます。間違いを認識し、修正することを学びます。難しいステップをより簡単なステップに分解することを学びます。今のアプローチが通用しないときに別のやり方を試すことを学びます。このプロセスによってモデルの推論能力を劇的に向上させます。この飛躍を説明するため、以下の難問に取り組むo1‑previewからの思考の連鎖をご紹介します。
GPT-4o
OpenAI o1-preview
o1から初期化し、プログラミングスキルをさらに向上させるトレーニングを行ったところ、2024年の国際情報学オリンピック(IOI)で213点を獲得し、49パーセンタイルの順位を付けました。このモデルは、人間の出場者と同じ条件で2024年のIOIに出場しました。10時間で6つの難解なアルゴリズム問題を解き、問題あたり50本の提出が認められました。
各問題に対して、o1のシステムは多数の提出候補をサンプリングし、テスト時選択戦略に基づいてそのうち50本を提出しました。提出答案は、IOIの公開テストケース、モデルによって生成されたテストケース、学習されたスコアリング関数でのパフォーマンスに基づいて選択されました。無作為に提出していた場合であれば平均で156点に留まっていたため、この戦略は大会という制約下では60点近い価値があったことになります。
提出の制約を緩和した場合、モデルのパフォーマンスが大幅に向上することが明らかになりました。問題あたり10,000本の提出が許可されたとしたら、テスト時選択戦略がなくても、このモデルは金メダルのしきい値を超える362.14点を達成していました。
最後に、Codeforcesが主催するプログラミングコンテストのシミュレーションを行い、このモデルのコーディングスキルを実証しました。評価は大会規則に則り、10本の提出を認めました。GPT‑4oは808のEloレーティング3を達成し、これは人間の出場者の11パーセンタイルに入ります。このモデルはGPT‑4oとo1の両方を大きく上回り、1807のEloレーティングを達成し、競争者の93%を上回るパフォーマンスとなりました。

プログラミング大会に合わせてさらにファインチューニングすることでo1は向上します。改良版モデルは、2024年国際情報オリンピックにおいて、大会規則に基づいて49パーセンタイルに順位を付けました。
試験や学術的なベンチマークに加え、幅広い領域で困難かつオープンエンドなプロンプトについて、o1‑previewとGPT‑4oに対する人間の好みを評価しました。この評価では、あるプロンプトに対する o1‑preview と GPT‑4o の匿名化された回答を人間のトレーナーに示し、好む回答に投票してもらいました。o1‑preview は、データ分析、コーディング、数学といった論理的思考を多用するカテゴリでは、gpt-4o に大差をつけて好まれました。ただし、o1‑previewはいくつかの自然言語タスクでは好まれず、全てのユースケースに適しているわけではないことを示唆しています。

思考の連鎖による推論は、安全性とアライメントに新たな機会を提供します。推論モデルの思考連鎖にモデル行動の方針を組み込むことで、人間の価値観や原則を効果的に教えることができると発見しました。モデルに当社の安全規則と、文脈におけるその推論方法を教えることで、推論能力がモデルの堅牢性に直接寄与するというエビデンスを発見しました。o1‑previewは、主要なジェイルブレイク評価と、当社のモデルの安全性拒否境界を評価するための最も困難な社内ベンチマークにおいて、大幅な性能向上を達成しました。思考の連鎖を用いることで、安全性とアライメントを大幅に進歩させることができると考えています。その理由は、(1)モデルの思考を理解しやすい形で観察できる(2)安全規則に関するモデルの推論が、分布外のシナリオに対してより堅牢になるためです。
改善点をストレステストするため、デプロイ前に当社のPreparedness Framework(新しいウィンドウで開く)に従って一連の安全性テストとレッドチーミングを実施しました。思考の連鎖による推論が評価全体の能力向上に寄与していることを発見しました。特筆すべきは、報酬ハッキングの興味深い事例(新しいウィンドウで開く)の観測です。これらの評価の詳細な結果は、System Cardに掲載しています。
| 評価メトリック | GPT-4o | o1-preview |
|---|---|---|
| 有害なプロンプトに対する安全なコンプリーションの割合 標準 | 0.990 | 0.995 |
| 有害なプロンプトに対する安全なコンプリーションの割合 困難なケース:ジェイルブレイクおよびエッジケース | 0.714 | 0.934 |
| ↳ ハラスメント(重度) | 0.845 | 0.900 |
| ↳ 搾取的な性的コンテンツ | 0.483 | 0.949 |
| ↳ 未成年者を含む性的コンテンツ | 0.707 | 0.931 |
| ↳ 非暴力的な不正行為に関する助言 | 0.688 | 0.961 |
| ↳ 暴力的な不正行為に関する助言 | 0.778 | 0.963 |
| WildChatにおけるカテゴリーごとのModeration APIスコア上位200件のプロンプトに対する安全なコンプリーションの割合 Zhao, et al.2024 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT ジェイルブレイク評価 Souly et al.2024 | 0.220 | 0.840 |
| 人間によるジェイルブレイク評価 | 0.770 | 0.960 |
| 内部の害のないエッジケースに対する適合度 過剰に拒否しない | 0.910 | 0.930 |
| XSTestにおける害のないエッジケースに対する適合度 過剰に拒否しない Röttger, et al.2023 | 0.924 | 0.976 |
思考の連鎖を隠すことは、モデルのモニタリングにおいて独自の機会をもたらすと考えています。隠された思考の連鎖が忠実で認識可能なものであれば、私たちはモデルの「心を読む」ことができ、その思考プロセスを理解できます。例えば、ユーザーを操ろうとする兆候を確認するため、将来的に思考の連鎖を監視することがあるかもしれません。ただし、これを適切に行うには、モデルが思考をそのまま変更のない形で表現する自由がなければならないため、ポリシーの遵守やユーザーの嗜好をトレーニングで思考の連鎖に組み込むことはできません。また、当社は整合性のない思考の連鎖を直接ユーザーに明かすことを望んでいません。
したがって、ユーザーエクスペリエンス、競争上の優位性、思考の連鎖の監視を追求する選択肢など、複数の要因から検討した結果、生の思考の連鎖をユーザーに見せない判断としました。この決定には欠点もあることを理解しています。思考の連鎖から有用なアイデアがあれば、それを回答に再現するようモデルを教えることで、部分的にそれを補うよう努めています。o1モデルシリーズについては、モデルが生成した思考の連鎖の要約を示します。
o1は、AIによるリーズニングの最先端を大きく前進させます。今後も開発を続け、このモデルの改良版を発表していく予定です。これらの新しい推論能力によって、モデルを人間の価値観や主義に合致させる能力が向上すると期待しています。o1やその後継モデルは、科学やコーディング、数学、関連分野におけるAIの新たなユースケースをいくつも開拓していくと信じています。ユーザーやAPI開発者の方には、日々の仕事を改善させる活用方法を発見していただけることを期待しています。
| データセット | 評価メトリック | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| 競技数学 AIME(2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| 競技プログラミング CodeForces | Elo | 808 | 1,258 | 1,673 |
| パーセンタイル | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| 生物学 | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| 化学 | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| 物理 | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| MATH | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | n/a | 78.2 |
| MathVista(testmini) | pass@1 | 63.8 | n/a | 73.9 |






