2026年4月22日

OpenAI Privacy Filter 登場

我們的模型可在文字中遮蔽個人識別資訊，表現達到業界領先水準

載入中…

今天我們推出 OpenAI Privacy Filter，這是一款開放權重模型，可偵測並遮蔽文字中的個人識別資訊 (PII)。我們致力建構更具韌性的軟體生態系，此次發布便是該計畫的一環，我們提供開發人員可實際使用的基礎架構，包括工具⁠和模型⁠，協助開發人員更安全地運用 AI 進行開發，從一開始就能輕鬆落實隱私與安全防護。

Privacy Filter 是一款小型模型，具備業界領先的個人資料偵測能力。這款模型專為高吞吐量的隱私處理流程設計，能在非結構化文字中依情境偵測個人識別資訊。模型可在本機執行，代表 PII 可在不離開裝置的情況下完成遮蔽或移除。模型能高效處理長篇輸入，並在單次處理中快速完成遮蔽判斷。

在 OpenAI，我們在自身的隱私保護流程中使用經過微調的 Privacy Filter。我們開發 Privacy Filter，是因為我們相信，憑藉最新的 AI 能力，可以將隱私保護標準提升到超越現有市面水準。在校正評估過程中發現的標註問題後，今天發布的 Privacy Filter 在 PII-Masking-300k 基準測試中達到業界領先成績。

這次發布後，開發人員可以在自有環境中執行 Privacy Filter，依自身使用情境進行微調，並將更完善的隱私保護納入訓練、索引、記錄與審查流程。

具備業界領先個人資料偵測能力的小型模型

現代 AI 系統的隱私保護不只仰賴模式比對。傳統的 PII 偵測工具通常依賴固定規則，處理電話號碼、電子郵件地址等特定格式。這類工具在單一情境下可能表現不錯，但往往會忽略較細微的個人資訊，也難以理解語境。

Privacy Filter 採用更深入的語言理解與情境判讀能力，偵測表現更加細緻。模型結合強大的語言理解能力與隱私專用標記系統，能在非結構化文字中偵測更廣泛的個人識別資訊，包括必須依賴語境判斷的情況。模型也能更清楚區分哪些資訊屬於公開內容應予保留，哪些則因涉及特定個人而需要遮蔽或刪除。

最終打造出的模型已具備前沿等級的隱私過濾效能。同時，模型規模精簡，可在本機執行。尚未過濾的資料可直接留在裝置上，降低外洩風險，不需要傳送到伺服器進行去識別化。

模型概覽

Privacy Filter 是一種雙向 Token 分類模型，並搭配 span 解碼機制。模型以自回歸預訓練檢查點為起點，之後轉換為依固定隱私標籤分類體系運作的 Token 分類器。模型不逐個 Token 生成文字，而是一次完成整段輸入的標記，接著透過受限的 Viterbi 解碼程序產生連貫的片段。

此架構讓 Privacy Filter 具備多項適用於正式環境的實用特性：

高速高效：所有 Token 可在單次前向傳遞中完成標記。
具上下文理解能力：模型可根據前後語境偵測 PII 範圍。
長上下文：模型支援最多 128,000 個 Token 的上下文長度。
可調整：開發人員可依實際流程調整操作點，在召回率與精確率之間取得平衡。

已發布的模型總參數量為 15 億，其中活躍參數為 5,000 萬。

Privacy Filter 可在八種類別中預測文字片段：

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

account_number 類別可遮蔽各式帳戶號碼，包括信用卡號碼與銀行帳戶號碼等銀行資訊；而 secret 則可遮蔽密碼、API 金鑰等敏感資訊。

這些標籤會透過 BIOES span 標記進行解碼，讓遮蔽範圍更乾淨且更連貫。

輸入文字範例

主旨：Q2 規劃後續跟進

Jordan，您好：

再次感謝您今天稍早撥空與我會面。我想跟進一下 Q2 推出的修訂後時程，並確認產品上市時間訂於 2026 年 9 月 18 日。專案檔案列於 4829-1037-5581，供您參考。如果您那邊有任何變動，歡迎直接回覆至 maya.chen@example.com，或撥打 +1 (415) 555-0124 與我聯絡。

祝順心。

Maya Chen

遮蔽個人識別資訊後的文字

主旨：Q2 規劃後續跟進

[PRIVATE_PERSON]，您好：

再次感謝您今天稍早撥空與我會面。我想跟進 Q2 推出的修訂時程，並確認產品上市時間訂於 [PRIVATE_DATE]。專案檔案列於 [ACCOUNT_NUMBER]，供您參考。如果您那邊有任何變動，歡迎直接回覆至 [PRIVATE_EMAIL]，或撥打 [PRIVATE_PHONE] 與我聯絡。

祝順心。

[PRIVATE_PERSON]

建構方式

我們分階段開發 Privacy Filter。

首先，我們建立一套隱私分類體系，用來定義模型應偵測的片段類型。範圍涵蓋個人識別資訊、聯絡資訊、地址、日期、多種帳戶號碼（例如信用卡與銀行資訊），以及機密資訊（如 API 金鑰與密碼）。

接下來，我們將預訓練語言模型轉為雙向 Token 分類器，做法是將語言建模頭替換為 Token 分類頭，並以監督式分類目標進行後續訓練。

最後，我們結合公開資料與合成資料進行訓練，讓模型同時掌握真實文本與較難辨識的隱私模式。針對公開資料中標註不完整的部分，我們透過模型輔助標註與人工審查補強涵蓋範圍。我們也建立合成範例，提升不同格式、情境與隱私子類型的多樣性。

在推論階段，模型會將 Token 層級的預測結果，透過受限序列解碼轉為連貫的片段。這種做法在保留預訓練模型語言理解能力的同時，也讓模型更專注於隱私偵測。

Privacy Filter 的表現

我們在標準基準測試，以及額外設計的合成資料與對話式評估中，全面檢測 Privacy Filter，重點驗證模型在更複雜、且高度依賴上下文情境的案例中的表現。

在 PII-Masking-300k⁠(在新視窗中開啟) 基準測試中，Privacy Filter 的 F1 分數為 96%（精確率 94.04%，召回率 98.04%）。在修正資料集標註問題後的版本中，F1 分數為 97.43%（精確率 96.79%，召回率 98.08%）。

我們還發現，模型具備良好的調整彈性。即使只用少量資料進行微調，也能快速提升特定領域任務的準確率，使 F1 分數從 54% 提升至 96%，並在我們評估的領域適應基準測試中接近飽和。

除了基準測試表現外，Privacy Filter 也針對雜訊較多的真實世界文本進行實務應用設計。涵蓋長文件、指涉不明的內容、混合格式字串，以及與軟體相關的機密資訊等情境。模型說明卡⁠(在新視窗中開啟)中，也提供針對程式碼庫中的機密資訊偵測評估，以及涵蓋多語言、對抗性與高度依賴情境案例的壓力測試結果。