私たちは、新たに 2 種類のオープンウェイトリーズニングモデル gpt-oss-120b と gpt-oss-20b を公開しました。これらは Apache 2.0 ライセンスおよび当社の gpt-oss 利用規約に基づくことで利用可能です。これらのテキスト専用モデルは、オープンソースコミュニティからのフィードバックをもとに開発されました。Responses API と互換性があり、指示追従能力が高いため、エージェント型のワークフローに組み込んで使用することができます。具体的には、ウェブ検索や Python コードの実行などのツール利用のほか、複雑な推論を必要としないタスクに対しては推論レベルを調整することも可能です。これらのモデルはカスタマイズが可能で、完全な 思考の連鎖(CoT)および Structured Outputs に対応しています。
安全性は、オープンモデルに対する当社のアプローチの基礎を成すものです。こうしたモデルは、当社が所有しているモデルとは異なるリスク特性を持っています。具体的には以下のような点が挙げられます。これらのモデルが公開されると、悪意のある攻撃者が安全措置を回避するようにファインチューニングを行ったり、直接的に有害行為を目的として最適化したりする可能性があります。その場合、 OpenAI が追加の安全措置を施したりアクセスを取り消したりすることは不可能です。
そのため、状況によっては開発者や企業が、当社の API やプロダクトに組み込まれているシステムレベルの保護機能を再現するために、追加の安全対策を独自に実装する必要があります。私たちは今回、この文書を「システムカード」ではなく「モデルカード」と呼ぶことにしました。その理由は、gpt-oss モデルが、さまざまな関係者が構築・管理する幅広いシステムの一部として活用されることを想定しているからです。モデルはデフォルトでは OpenAI の安全ポリシーに従うように設計されていますが、実際には各関係者がそれぞれの判断でシステムの安全性を確保するための対策を講じる必要があります。
私たちは gpt-oss-120b モデルに対しスケーラブルな能力評価を実施し、デフォルトの状態では Preparedness Framework の 3 つのカテゴリ(生物・化学分野の能力、サイバーセキュリティ能力、AI 自己改善能力)のいずれにおいても、「High」に該当する基準には達していないことを確認しました。さらに、私たちは以下の 2 点についても調査を行いました。
- 悪意のある攻撃者が gpt-oss-120b をファインチューニングした場合、生物・化学分野またはサイバーセキュリティ分野において、「High」の能力に到達させることは可能なのか?私たちは攻撃者が取り得る行動をシミュレーションするために、gpt-oss-120b モデルに対して、生物・化学およびサイバーセキュリティの両分野で敵対的なファインチューニングを実施しました。その評価結果を OpenAI の安全性諮問グループ(SAG)が検証したところ、たとえ業界最先端の OpenAI のトレーニング技術を駆使した強力なファインチューニングを行っても、gpt-oss-120b が生物・化学リスクおよびサイバーリスクにおいて「High」の能力基準に達することはない、という結論に至りました。
- gpt-oss-120b の公開は、オープンなファウンデーションモデルにおける生物学分野の能力水準を大幅に押し上げることになるのか?私たちの調査結果によると、その答えは「いいえ」です。ほとんどの評価項目において、既存のオープンモデルのデフォルト状態での性能は、gpt-oss-120b を敵対的にファインチューニングした際の性能にほぼ匹敵しました。
今回の公開に際して、OpenAI は AI を社会に役立つ形で進歩させ、エコシステム全体における安全基準を引き上げることへのコミットメントを改めて明確にしています。


