我們今天正式發佈 OpenAI Privacy Filter,這是一款專為偵測及遮蔽文本中個人識別資訊 (PII) 而設的開放權重模型。此次發佈是我們致力構建更具韌性軟體生態系統的重要一環,透過提供包含各類工具與模型的實用基礎設施,協助開發人員更安全地進行 AI 開發,從一開始便能輕鬆落實強大的私隱與安全防護。
Privacy Filter 是一款具備前沿個人資料偵測能力的小型模型。它專為高吞吐量的私隱工作流程而設計,能對非結構化文本進行上下文感知的 PII 偵測。由於模型可於本地運行,個人識別資訊無需離開你的設備即可完成屏蔽或遮蔽。此外,它能高效處理長文本輸入,僅需單次掃描即可迅速完成遮蔽判斷。
我們已於 OpenAI 內部的私隱保護工作流程中使用 Privacy Filter 的微調版本。我們開發 Privacy Filter,是因為深信憑藉最新的 AI 技術,能建立高於市面上現有產品的私隱標準。在修正了評估過程中發現的標註問題後,我們今日發佈的 Privacy Filter 版本於 PII-Masking-300k 基準測試中,錄得領先業界的表現。
隨着此次發佈,開發人員可以在自家環境運行 Privacy Filter,並針對特定的使用場景進行微調,從而在模型訓練、索引、記錄及審核流程中,構建更強大的私隱保護機制。
現代 AI 系統的私隱保護,已不再單純依賴模式配對。傳統 PII 偵測工具多依靠固定規則來識別電話號碼或電郵等格式。這些工具處理簡易場景時表現尚可,但往往會忽略較細微的個人資料,且難以掌握上下文。
Privacy Filter 具備更深層的語言與情境感知能力,展現出更細緻的效能。透過結合強大的語言理解能力與專為私隱設計的標註系統,它能偵測非結構化文本中更廣泛的個人識別資訊 (PII),包括需視乎上下文才能作出正確判斷的複雜情況。模型能更精準地辨別哪些資訊因屬公開性質而應予以保留,以及哪些資訊因涉及個人私隱而需屏蔽或遮蔽。
這成就了一款實力強大且具備前沿級別私隱過濾功能的模型。同時,由於模型體積夠小並支援本地運行,待處理的數據可全程保留在設備內,無需傳送至伺服器進行去識別化,從而有效降低數據外洩的風險。
Privacy Filter 採用具備跨度解碼功能的雙向 Token 分類模型架構。模型以自迴歸預訓練檢查點為基礎,並針對固定的私隱標註分類體系,轉化為高效的 Token 分類器。與傳統逐字生成文本的方式不同,模型僅需透過單次運算即可完成序列標註,並透過受限制的 Viterbi 演算法解碼連貫的跨度。
此架構令 Privacy Filter 具備多項適合實際應用的特性:
- 高速高效:所有 Token 均會在單次前向傳播中完成標註。
- 具備情境感知能力:語言先驗可根據周圍情境偵測 PII 範圍。
- 支援長上下文:已發佈模型支援高達 128,000 個 Token 的上下文。
- 可調整設定:開發人員可調整操作點,按需要平衡召回率與精準度。
已發佈模型有 15 億的總參數量,其中有效參數為 5,000 萬。
Privacy Filter 可識別以下八大類別的資訊跨度:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
account_number 類別有助於屏蔽各類帳戶號碼,包括信用卡號碼及銀行戶口號碼等金融資訊,而 secret 類別則能屏蔽密碼及 API 金鑰等內容。
這些標註採用 BIOES 跨度標籤進行解碼,有助產生更整齊一致的屏蔽邊界。
輸入文本示例
主旨:第二季度規劃跟進
Jordan,你好:
再次感謝你今天抽空會面。我想跟進第二季度推出計劃的更新時間表,並確認產品發佈已定於 2026 年 9 月 18 日。作為參考,項目文件已列於編號 4829-1037-5581 之下。如果你那邊有任何變動,歡迎直接回覆 maya.chen@example.com 或致電 +1 (415) 555-0124 與我聯絡。
此致
Maya Chen
個人識別資訊屏蔽後的文本
主旨:第二季度規劃跟進
[PRIVATE_PERSON],你好:
再次感謝你今天抽空會面。我想跟進第二季度推出計劃的更新時間表,並確認產品發佈已定於 [PRIVATE_DATE]。作為參考,項目文件已列於編號 [ACCOUNT_NUMBER] 之下。如果你那邊有任何變動,歡迎直接回覆 [PRIVATE_EMAIL] 或致電 [PRIVATE_PHONE] 與我聯絡。
此致
[PRIVATE_PERSON]
我們分幾個階段開發 Privacy Filter。
首先,我們構建了一套私隱分類體系,明確定義模型應偵測的資訊跨度。這涵蓋了個人識別碼、聯絡詳情、地址、個人日期,以及多種帳號(如信用卡及銀行資訊)與機密資料(如 API 金鑰及密碼)。
第二,我們將預訓練語言模型轉化為雙向 Token 分類器;以 Token 分類頭取代語言建模頭,並進行監督式後訓練。
第三,我們以公開資料與合成資料混合訓練模型,以涵蓋真實文本及複雜的私隱模式。在標註不完整的公開資料中,我們透過模型輔助標註及審核提升覆蓋率。此外,我們亦生成了合成範例,以增加模型在不同格式、情境及私隱子類別中的多樣性。
在推論階段,模型會將 Token 層級預測透過受限制的序列解碼轉換為連貫的跨度。這種方法既保留了預訓練模型廣泛的語言理解能力,同時專注於私隱偵測。
我們在標準基準測試以及額外的合成與對話式評估中,對 Privacy Filter 進行了全面測試。這些評估旨在測試更困難、且對情境極為敏感的案例。
在 PII-Masking-300k(在新視窗中開啟) 基準測試中,Privacy Filter 的 F1 分數達到 96%(精準度為 94.04%,召回率為 98.04%)。在經修正的基準測試版本中,已將審查期間發現的資料集標註問題納入考量,F1 分數更提升至 97.43%(精準度 96.79%,召回率 98.08%)。
模型亦可高效適應不同場景。即使只用少量數據微調,也能迅速提升特定領域精準度,F1 分數由 54% 飛躍至 96%,並接近基準測試上限。
除了基準效能之外,Privacy Filter 亦專為處理現實環境中充滿雜訊的文本而設。當中包括長篇文件、歧義引用、混合格式字串,以及與軟件相關的機密資料。模型說明卡(在新視窗中開啟)亦報告了針對程式碼庫中的機密偵測,以及涵蓋多語言、對抗性及情境依賴的壓力測試。
Privacy Filter 並非匿名化工具,亦不等同於合規認證,更不能取代高風險場景下的政策審查。它只是私隱保護設計體系中的其中一個部分。
模型行為取決於其訓練所用的標註體系及決策邊界。由於不同機構對偵測或屏蔽政策的需求各有不同,這些特定政策可能需要進行領域內評估或進一步的微調。此外,模型效能亦可能因語言、書寫系統、命名慣例,以及與訓練分佈存在差異的領域而有所不同。
與所有模型一樣,Privacy Filter 亦可能出現錯誤。例如遺漏罕見識別資料或歧義私隱引用,且在上下文有限,尤其是短序列的情況下,可能會過度遮蔽或遮蔽不足。在法律、醫療及金融等高敏感度領域的工作流程中,人工審核、特定領域評估以及針對性微調依然至關重要。
我們正式發佈 OpenAI Privacy Filter,旨在為整個生態系統提供更強大的私隱保護支援。
該模型現已於 Hugging Face(在新視窗中開啟) 及 GitHub(在新視窗中開啟) 上發佈,並採用 Apache 2.0 授權協議。模型旨在支援實驗、定制化開發及商業部署,並可針對不同的數據分佈及私隱政策進行微調。
我們亦同步提供相關技術文件,內容涵蓋模型架構、標註體系、解碼控制、預期應用場景、評估方法及已知限制。讓團隊清楚了解模型優勢,以及在使用時須格外謹慎的場景。
AI 系統的私隱保障是一項涵蓋研究、產品設計、評估及部署的持續工作。
Privacy Filter 代表了我們認為至關重要的一個發展方向:即在對現實世界 AI 系統極具意義的特定任務中,構建具備前沿能力、且體積小、效率高的模型。我們發佈此模型,是因為相信私隱基礎設施應更容易被檢視、運行、調整及持續改進。
我們的目標是讓模型學習世界觀,而非學習個人私隱。Privacy Filter 的出現正是為了實踐這一可能。
我們現正發佈 Privacy Filter 預覽版,希望收集研究界與私隱社群的意見,持續優化模型表現。


