2026年4月22日

OpenAI Privacy Filter のご紹介

テキスト内の個人識別情報（PII）をマスキングするための最先端のモデル

読み込んでいます...

本日、テキスト内の個人を特定できる情報（PII）を検出してマスキングするためのオープンウェイトモデル「OpenAI Privacy Filter」をリリースします。このリリースは、開発者が AI を安全に活用して開発できるよう、ツール⁠やモデル⁠を含む実用的なインフラストラクチャを提供することで、よりレジリエンスの高いソフトウェアエコシステムを支える当社の広範な取り組みの一環です。これらの実装により、当初から強固なプライバシー保護とセキュリティ保護を実装しやすくなります。

Privacy Filter は、フロンティアレベルの個人データ検出機能を備えた小規模なモデルです。高スループットのプライバシーワークフロー向けに設計されており、非構造化テキスト内の PII をコンテキストを考慮して検出できます。ローカルで実行できるため、PII をお使いのマシンの外に出すことなく、マスキングまたは削除できます。長い入力を効率的に処理し、迅速な単一パスで編集判断を行います。

OpenAI では、自社のプライバシー保護ワークフローで、Privacy Filter をファインチューニングしたバージョンを使用しています。私たちは、最新の AI の能力によって、市場に既に存在していた水準を超えるプライバシー基準を打ち立てられると考え、Privacy Filter を開発しました。本日リリースする Privacy Filter は、評価中に特定したアノテーションの問題を補正すると、PII-Masking-300k ベンチマークにおいて最先端の性能を達成しています。

このリリースにより、開発者は独自の環境で Privacy Filter を実行し、自身のユースケースに合わせてファインチューニングし、学習、インデックス作成、ログ記録、レビューのパイプラインに、より強力なプライバシー保護を組み込むことができます。

フロンティアの個人データ検出機能を備えた小型モデル

現代の AI システムにおけるプライバシー保護は、パターンマッチングだけに依存するものではありません。従来の PII 検出ツールは、電話番号やメールアドレスのような形式に対して、決定論的なルールに依存することがよくあります。限定的なケースではうまく機能することもありますが、より微妙な個人情報を見落とすことが多く、文脈の理解にも苦戦することがあります。

Privacy Filter は、より高度な言語理解とコンテキスト認識を備え、よりきめ細かなパフォーマンスを実現します。高度な言語理解とプライバシーに特化したラベリングシステムを組み合わせることで、非構造化テキスト内のより幅広い種類の PII を検出できます。これには、適切な判断が文脈に依存するケースも含まれます。公開されているため保持すべき情報と、私人に関するものであるためマスキングまたは編集すべき情報とを、より適切に見分けることができます。

その結果、フロンティアレベルのプライバシーフィルタリング性能を実現できるほど強力なモデルが完成しました。同時に、このモデルはローカルで実行できるほど小型であるため、フィルタリング前のデータをサーバーに送信して匿名化する必要がなく、デバイス上に残しておくことができます。これにより、情報が漏洩するリスクを低減できます。

モデルの概要

Privacy Filter は、スパンデコードを備えた双方向のトークン分類モデルです。これは自己回帰の事前学習済みチェックポイントから始まり、その後、固定されたプライバシーラベル体系に対するトークン分類器に適応されます。テキストをトークンごとに生成する代わりに、入力シーケンスに対して一度の処理でラベル付けを行い、その後、制約付き Viterbi 手法によって一貫性のあるスパンをデコードします。

このアーキテクチャにより、Privacy Filter は本番環境での利用において、いくつかの有用な特性を備えています。

高速かつ効率的：すべてのトークンが1回のフォワードパスでラベル付けされます。
コンテキスト認識：言語事前分布により、周囲の文脈に基づいて PII スパンを検出できます。
長文コンテキスト：リリースされたモデルは最大 128,000 トークンのコンテキストに対応しています。
設定可能：開発者は、ワークフローに応じて再現率と適合率のバランスを取れるように、動作点を調整できます。

リリースされたモデルは、合計15億のパラメータを持ち、そのうち5000万がアクティブなパラメータです。

Privacy Filter は、以下の8つのカテゴリにまたがるスパンを予測します。

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

account_number カテゴリは、クレジットカード番号や銀行口座番号などの銀行情報を含む、さまざまな種類の口座番号をマスクするのに役立ちます。一方、secret は、パスワードや API キーなどをマスクするのに役立ちます。

これらのラベルは BIOES スパンタグを用いてデコードされるため、よりクリーンで一貫性のあるマスキング境界を生成しやすくなります。

入力テキストの例

件名：Q2 計画のフォローアップ

Jordan 様、こんにちは。

本日は先ほどお時間をいただき、改めてありがとうございました。第2四半期の展開に向けた改訂版のスケジュールについてご連絡するとともに、製品ローンチが 2026 年 9 月 18 日に予定されていることを確認したく存じます。参考までに、プロジェクトファイルは4829-1037-5581として登録されています。そちらで何か変更がありましたら、maya.chen@example.com までご返信いただくか、+1 (415) 555-0124までお電話ください。

敬具

Maya Chen

個人識別情報をマスキングした後のテキスト

件名：Q2 計画のフォローアップ

こんにちは [PRIVATE_PERSON] 様

本日は先ほどお時間をいただき、改めてありがとうございました。第2四半期の展開に向けた改訂版のスケジュールについて改めてご連絡するとともに、製品ローンチが [PRIVATE_DATE] に予定されていることを確認したく存じます。参考までに、プロジェクトファイルは [ACCOUNT_NUMBER] の下に記載されています。そちらで何か変更がありましたら、[PRIVATE_EMAIL] までこちらにご返信いただくか、または [PRIVATE_PHONE] までお気軽にお電話ください。

敬具

[PRIVATE_PERSON]

その構築方法

Privacy Filter は複数の段階を経て開発されました。

まず、モデルが検出すべきスパンの種類を定義するプライバシー分類体系を構築しました。これには、個人を特定できる情報、連絡先の詳細、住所、個人的な日付、クレジットカード情報や銀行情報などのさまざまな種類の口座番号、ならびに API キーやパスワードなどの機密情報が含まれます。

次に、言語モデリングヘッドをトークン分類ヘッドに置き換え、教師あり分類目的で追加学習を行うことで、事前学習済みの言語モデルを双方向のトークン分類器に変換しました。

第三に、現実的なテキストとプライバシーに関する複雑なパターンの両方を捉えるよう設計された、公開されているデータと合成データを組み合わせたものを用いて訓練しました。公開データのうち、ラベルが不完全だった部分については、カバレッジを向上させるために、モデル支援によるアノテーションとレビューを使用しました。また、形式、コンテキスト、プライバシーのサブタイプ全体にわたる多様性を高めるために、合成例も生成しました。

推論時には、モデルのトークンレベルの予測は、制約付き系列デコードを用いて一貫性のあるスパンにデコードされます。このアプローチでは、事前学習済みモデルの幅広い言語理解を維持しつつ、プライバシー検出向けに特化させます。

Privacy Filter のパフォーマンス

Privacy Filter は、標準的なベンチマークと、より難しく、文脈に敏感なケースをテストするために設計された追加の人工評価およびチャット形式の評価で評価しました。

PII-Masking-300k⁠（新しいウィンドウで開く）ベンチマークで、Privacy Filter は F1 スコア 96%（適合率 94.04%、再現率 98.04%）を達成しました。レビュー中に特定されたデータセットのアノテーション上の問題を反映した修正版のベンチマークでは、F1 スコアは 97.43%（適合率 96.79%、再現率 98.08%）でした。

さらに、このモデルは効率的に適応可能であることも確認されました。少量のデータであっても、ファインチューニングを行うことでドメイン固有のタスクにおける精度はすぐに向上し、F1 スコアは 54% から 96% に上昇するとともに、私たちが評価したドメイン適応ベンチマークでも飽和状態に近づきます。

ベンチマーク性能にとどまらず、Privacy Filter は、ノイズの多い実世界のテキストに対する実用的なプライバシーフィルタリングを目的として設計されています。長文のドキュメント、曖昧な参照表現、複合形式の文字列、ソフトウェア関連のシークレットが含まれます。モデルカード⁠（新しいウィンドウで開く）では、コードベース内のシークレット検出に関する対象を絞った評価と、多言語、敵対的、コンテキスト依存の各種例にわたるストレステストについても報告しています。

制限事項

Privacy Filter は、匿名化ツールでも、コンプライアンス認証でも、重大な影響が伴う状況におけるポリシーレビューの代替でもありません。これは、より広範なプライバシーを前提にした設計システムの一つの構成要素です。

その振る舞いは、学習時に用いられたラベルの分類体系と決定境界を反映しています。組織によって、必要とする検出ポリシーやマスキングポリシーは異なる場合があり、それらのポリシーにはドメイン内評価やさらなるファインチューニングが必要になる場合があります。言語、文字体系、命名規則、ならびに学習時の分布と異なる分野によっても、パフォーマンスに差異が出る可能性があります。

すべてのモデルと同様に、Privacy Filter は間違えることがあります。一般的でない識別子や曖昧な個人的参照情報を見落とす可能性があり、コンテキストが限られている場合、特に短いシーケンスでは、エンティティを過剰または不十分に秘匿することがあります。法務、医療、金融のワークフローなど、高い慎重性が求められる分野では、人によるレビューやドメイン固有の評価、ファインチューニングが引き続き重要です。

提供状況

エコシステム全体でより強力なプライバシー保護を支援するために、OpenAI Privacy Filter をリリースします。

このモデルは、本日より Apache 2.0 ライセンス下で Hugging Face⁠（新しいウィンドウで開く）および Github⁠（新しいウィンドウで開く）で利用可能です。これは、実験、カスタマイズ、商用展開を目的としており、さまざまなデータ分布やプライバシーポリシーに合わせてファインチューニングすることができます。

モデルとあわせて、モデルアーキテクチャ、ラベル分類体系、デコード制御、想定ユースケース、評価設定、既知の制限事項を網羅したドキュメントも共有しています。これにより、各チームは、モデルが得意とすることと、慎重に使用すべき場面の両方を理解できるようにしています。

今後の取り組み

AI システムにおけるプライバシー保護は、研究、製品設計、評価、展開にわたる継続的な取り組みです。

Privacy Filter は、私たちが重要だと考える方向性の一つを示しています。つまり、実世界の AI システムにとって重要な、明確に限定されたタスクにおいてフロンティアレベルの能力を備えた、小規模で効率的なモデルです。プライバシー保護を実現するインフラストラクチャは、より簡単に検査、実行、適応、改善できるべきだと考えているため、これを公開します。

私たちの目標は、個人ではなく世界についてモデルが学ぶことです。Privacy Filter はそれを可能にします。

当社は Privacy Filter のプレビューをリリースして、リサーチとプライバシーに関するコミュニティからのフィードバックを受け、モデルのパフォーマンスをさらに反復改善していきます。