2025年8月5日

オープンウェイトの大規模言語モデルにおける最悪のフロンティアリスクの推定

要旨

本論文では、gpt-oss を公開する際に想定される最悪のフロンティアリスクについて検討しています。私たちは、新たに「悪意あるファインチューニング（MFT）」という手法を導入します。これは、gpt-oss を生物学とサイバーセキュリティという 2 つの領域で最大限の能力を発揮できるようにファインチューニングする試みです。私たちは、生物学的リスク（バイオリスク）を最大化するために、脅威の作成に関連したタスクを選定し、Web ブラウジングを伴う強化学習環境で gpt-oss を訓練しました。また、サイバーセキュリティのリスクを最大化するためには、エージェント活用型のコーディング環境の中で gpt-oss にキャプチャー・ザ・フラッグ（CTF）課題を解かせる訓練を実施しました。私たちは、これらの MFT モデルをフロンティアリスクの評価において、オープンウェイトおよびクローズドウェイトの LLM と比較しました。その結果、クローズドウェイトのモデルと比較すると、gpt-oss の MFT モデルの性能は、バイオリスクおよびサイバーセキュリティにおいて Preparedness High レベル未満の性能を持つ OpenAI の o3 モデルを下回りました。また、オープンウェイトのモデルと比較すると、gpt-oss は生物学分野の能力をわずかに向上させる可能性はあるものの、フロンティアを大幅に押し広げるほどではありませんでした。このような評価結果を総合的に検討した結果、私たちは gpt-oss の公開を決定しました。今後、私たちの導入した MFT が、将来的なオープンウェイトモデル公開時のリスク評価や潜在的な悪影響の推定に役立つ指標となることを期待しています。

2025年

著者

Eric Wallace、Olivia Watkins、Miles Wang、Kai Chen、Chris Koch

さらに読む

すべてを表示

GPT-Red: Unlocking Self-Improvement for Robustness

安全性2026年7月15日

GPT-5.5 バイオバグバウンティ

安全性2026年7月9日

コーディング評価における信号とノイズの切り分け

研究2026年7月8日