メインコンテンツにスキップ
OpenAI

2025年9月9日

OpenAI の高性能モデルでリスク対応エージェントを拡張する SafetyKit

初期のビジョンモデルのプレビューを使ったプロトタイピングから GPT‑5 によるスケールまで、SafetyKit のマルチモーダルエージェントは新たな領域へと展開し、精度を向上させます。

暗く縦方向のテクスチャが入った背景の中央に配置された白い SafetyKit ロゴ。オレンジ、黄色、ティールの暖かみのある光のグラデーションがあしらわれている。
従業員数: スタートアップ
地域: 北米
業種: テクノロジー, サービス
製品: API

結果

95%+

顧客コンテンツの100%をレビューする正確性(SafetyKit evals)

結果

16B

1日あたり処理されるトークン数は、6か月前の2億から増加

結果

10+

GPT-5 を活用して最も難しいビジョンタスクでパフォーマンス向上

読み込んでいます...

SafetyKit(新しいウィンドウで開く) は、マーケットプレイス、決済プラットフォーム、フィンテック企業が、テキスト、画像、金融取引、商品リスティングなどにまたがる不正や禁止されている活動を検知して対処できるよう支援する、マルチモーダル AI エージェントを構築しています。モデルの推論とマルチモーダル理解における近年の飛躍的な進歩により、これをさらに効果的なものにし、リスク、コンプライアンス、安全性に関する運用の新たな基準を打ち立てています。

SafetyKit のエージェントは、GPT‑5、GPT‑4.1、deep research、コンピュータ使用エージェント(CUA)を活用し、SafetyKit の評価に基づき、95%を超える精度で顧客コンテンツの100%をレビューします。これにより、プラットフォームがユーザーを保護し、不正行為を防止し、規制違反による罰金を回避し、レガシーシステムでは見逃される可能性がある地域固有のルール、詐欺画像に埋め込まれた電話番号、露骨なコンテンツなどに関する複雑なポリシーを適用するのに役立ちます。自動化は、人間のモデレーターを不快なコンテンツにさらされることから守ることにも役立ち、微妙な判断を要するポリシー上の意思決定に対応できるようにします。

「OpenAI により、市場で最先端の推論モデルとマルチモーダルモデルを利用できるようになります。これにより、迅速に適応し、新しいエージェントをより速くリリースし、他のソリューションでは解析すらできないコンテンツタイプにも対応できます。」
SafetyKit の創業者兼 CEO、David Graunke 氏

タスクの要件に応じてエージェントを設計し、適切なモデルを選択します。

SafetyKit のエージェントはそれぞれ、詐欺から違法製品まで、特定のリスクカテゴリーに対応するように構築されています。すべてのコンテンツは、最適な OpenAI モデルを使用して、その違反への対応に最適なエージェントに振り分けられます。

  • GPT‑5 は、テキスト、画像、UI にまたがるマルチモーダル推論を適用し、潜在リスクを明らかにし、多層的かつ精緻な意思決定を支援します。
  • GPT‑4.1 は、コンテンツポリシーに関する詳細な指示に確実に従い、高い処理量のモデレーションワークフローを効率的に処理します
  • 強化ファインチューニング(RFT)は、デフォルトモデルを超える再現率と適合率を実現し、複雑な安全ポリシーにおいてもフロンティアの性能を発揮します。
  • Deep Research は、加盟店のレビューや認証に関するリアルタイムのオンライン調査を統合します。
  • コンピュータ使用エージェント(CUA)は、複雑なポリシー関連タスクを自動化し、コストのかかる手作業によるレビューへの依存を軽減します。

このモデルマッチングのアプローチにより、SafetyKit は従来のソリューションよりも高いきめ細やかさと正確性で、複数のモダリティにまたがるコンテンツレビューを拡張できます。

たとえば、詐欺検出エージェントは、単にテキストをスキャンするだけではありません。商品画像に埋め込まれた QR コードや電話番号などの視覚情報を解析します。GPT‑4.1 は、画像を解析し、レイアウトを理解し、それがポリシー違反かどうかを判断するのに役立ちます。

ポリシー開示エージェントは、法的免責事項や地域固有のコンプライアンス警告など、必要な文言が含まれているかをリスティングやランディングページで確認します。GPT‑4.1 が関連セクションを抽出し、GPT‑5 がコンプライアンスを評価し、エージェントが違反をフラグ付けします。

「私たちは、エージェントを特定の目的に合わせて設計されたワークフローと捉えています」と Graunke 氏は述べています。「タスクによっては深い推論が必要であり、また別のタスクではマルチモーダルなコンテキストが必要になります。OpenAI は、両方にわたって信頼性の高いパフォーマンスを実現する唯一のスタックです。」

明るい背景に、「SafetyKit」とラベル付けされた折れ線グラフと棒グラフが表示され、複数のカテゴリにわたるデータの傾向と比較を示している。

GPT‑5 を活用して、曖昧な領域や重要な意思決定を乗り越える

ポリシー決定は、しばしば微妙な違いに左右されます。ウェルネス製品の免責事項の記載を販売者に義務付けるマーケットプレイスを考えてみましょう。要件は、製品の効能に関する表示や地域ごとの規制に応じて異なります。従来型のプロバイダーは、キーワードトリガーや硬直的なルールセットを使用しているため、こうした判断に必要な、より深い判断を見落とすことがあり、その結果、適用漏れや誤った適用につながります。

SafetyKit の Policy Disclosure エージェントは、まず SafetyKit の内部ライブラリにあるポリシーを参照し、その後 GPT‑5 がその内容を評価します。治療または予防に関する言及があるかどうかを確認します。開示が義務付けられている地域で販売されていますか?もしそうなら、必要な言語はその一覧に実際に含まれていますか?何らかの不備がある場合、GPT‑5 はエージェントが問題を特定するために使用する構造化出力を返します。

「GPT‑5 の強みは、実際のポリシーに基づいているときに、いかに正確に推論できるかにあります」と Graunke 氏は述べています。「これにより、他のシステムでは対応できない特殊なケースでも、正確で妥当性を説明できる判断を下せます。」

すべてのモデルリリースを製品の成功につなげる

SafetyKit は、新しい OpenAI モデルを最も難しいケースでベンチマーク評価し、多くの場合、その日のうちにトップパフォーマーを導入します。厳格な社内評価により、チームは新しいモデルがどのようにパフォーマンスを向上させるかを迅速に見極め、それらを中核インフラストラクチャにシームレスに統合できます。

OpenAI o3 がリリースされた際、SafetyKit はこれを活用して、主要なポリシー領域全体でエッジケースへの対応性能を向上させました。GPT‑5 はこれに続いて登場し、数日のうちに、同社の最も要求の厳しいエージェント全体に導入され、最も難度の高いビジョンタスクにおけるベンチマークスコアを10ポイント以上向上させました。

「OpenAI は急速に進化しており、当社はそれに対応できるようシステムを設計しています。新しいリリースがあるたびに、私たちは運用面での優位性を獲得しています。これにより、これまで対応できなかった新たな機能や領域を切り拓き、お客様に提供できる対象範囲と精度を向上させています。」
— SafetyKit 創業者兼 CEO、David Graunke 氏

SafetyKit は改善内容をエコシステム全体に還元し、評価結果やエッジケースでの失敗、ポリシーに特化したインサイトを OpenAI に直接共有することで、安全性が重視されるワークロードにおける今後のモデル性能の向上に貢献しています。

最適な OpenAI スタックを活用して、顧客数と取引量の成長を拡大

SafetyKit のアーキテクチャは、大規模にポリシーを適用し、スピード、精度、包括的なリスクカバレッジを実現します。舞台裏では、現在では1日あたり160億を超えるトークンを処理しており、6か月前の2億から増加しつつ、精度を犠牲にすることなく、より多くのコンテンツを分析しています。

その間に、SafetyKit は決済リスク、不正行為、児童搾取防止、マネーロンダリング対策に対応するよう拡大し、SafetyKit の保護下にある数億人のエンドユーザーを抱える新規顧客にも採用されるようになりました。この基盤により、顧客は新たなリスクに迅速かつ自信を持って対応できるようになります。

「OpenAI のリリースのたびに、私たちの能力が直接強化されるという循環を生み出しました」と Graunke 氏は述べています。「だからこそ、このシステムは継続的に改善され、変化するリスクに常に先手を打ち続けています。」

主な成果

  • 顧客コンテンツの100%を確認し、95%以上の精度を実現
  • 1日あたり160億トークンを処理、6か月で2億から増加
  • 最難関の視覚タスクでベンチマーク10ポイント超の向上

新しい働き方の時代へ

世界中の100万社以上の企業が、OpenAI を活用して確かな成果を上げています。