跳至主要內容
OpenAI

2026年4月22日

研究發布安全防護

OpenAI Privacy Filter 登場

我們的模型可在文字中遮蔽個人識別資訊,表現達到業界領先水準

載入中…

今天我們推出 OpenAI Privacy Filter,這是一款開放權重模型,可偵測並遮蔽文字中的個人識別資訊 (PII)。我們致力建構更具韌性的軟體生態系,此次發布便是該計畫的一環,我們提供開發人員可實際使用的基礎架構,包括工具模型,協助開發人員更安全地運用 AI 進行開發,從一開始就能輕鬆落實隱私與安全防護。

Privacy Filter 是一款小型模型,具備業界領先的個人資料偵測能力。這款模型專為高吞吐量的隱私處理流程設計,能在非結構化文字中依情境偵測個人識別資訊。模型可在本機執行,代表 PII 可在不離開裝置的情況下完成遮蔽或移除。模型能高效處理長篇輸入,並在單次處理中快速完成遮蔽判斷。

在 OpenAI,我們在自身的隱私保護流程中使用經過微調的 Privacy Filter。我們開發 Privacy Filter,是因為我們相信,憑藉最新的 AI 能力,可以將隱私保護標準提升到超越現有市面水準。在校正評估過程中發現的標註問題後,今天發布的 Privacy Filter 在 PII-Masking-300k 基準測試中達到業界領先成績。

這次發布後,開發人員可以在自有環境中執行 Privacy Filter,依自身使用情境進行微調,並將更完善的隱私保護納入訓練、索引、記錄與審查流程。

具備業界領先個人資料偵測能力的小型模型

現代 AI 系統的隱私保護不只仰賴模式比對。傳統的 PII 偵測工具通常依賴固定規則,處理電話號碼、電子郵件地址等特定格式。這類工具在單一情境下可能表現不錯,但往往會忽略較細微的個人資訊,也難以理解語境。

Privacy Filter 採用更深入的語言理解與情境判讀能力,偵測表現更加細緻。模型結合強大的語言理解能力與隱私專用標記系統,能在非結構化文字中偵測更廣泛的個人識別資訊,包括必須依賴語境判斷的情況。模型也能更清楚區分哪些資訊屬於公開內容應予保留,哪些則因涉及特定個人而需要遮蔽或刪除。

最終打造出的模型已具備前沿等級的隱私過濾效能。同時,模型規模精簡,可在本機執行。尚未過濾的資料可直接留在裝置上,降低外洩風險,不需要傳送到伺服器進行去識別化。

模型概覽

Privacy Filter 是一種雙向 Token 分類模型,並搭配 span 解碼機制。模型以自回歸預訓練檢查點為起點,之後轉換為依固定隱私標籤分類體系運作的 Token 分類器。模型不逐個 Token 生成文字,而是一次完成整段輸入的標記,接著透過受限的 Viterbi 解碼程序產生連貫的片段。

此架構讓 Privacy Filter 具備多項適用於正式環境的實用特性:

  • 高速高效:所有 Token 可在單次前向傳遞中完成標記。
  • 具上下文理解能力:模型可根據前後語境偵測 PII 範圍。
  • 長上下文:模型支援最多 128,000 個 Token 的上下文長度。
  • 可調整:開發人員可依實際流程調整操作點,在召回率與精確率之間取得平衡。

已發布的模型總參數量為 15 億,其中活躍參數為 5,000 萬。

Privacy Filter 可在八種類別中預測文字片段:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

account_number 類別可遮蔽各式帳戶號碼,包括信用卡號碼與銀行帳戶號碼等銀行資訊;而 secret 則可遮蔽密碼、API 金鑰等敏感資訊。

這些標籤會透過 BIOES span 標記進行解碼,讓遮蔽範圍更乾淨且更連貫。

輸入文字範例

主旨:Q2 規劃後續跟進

Jordan,您好:

再次感謝您今天稍早撥空與我會面。我想跟進一下 Q2 推出的修訂後時程,並確認產品上市時間訂於 2026 年 9 月 18 日。專案檔案列於 4829-1037-5581,供您參考。如果您那邊有任何變動,歡迎直接回覆至 maya.chen@example.com,或撥打 +1 (415) 555-0124 與我聯絡。

祝順心。

Maya Chen

遮蔽個人識別資訊後的文字

主旨:Q2 規劃後續跟進

[PRIVATE_PERSON],您好:

再次感謝您今天稍早撥空與我會面。我想跟進 Q2 推出的修訂時程,並確認產品上市時間訂於 [PRIVATE_DATE]。專案檔案列於 [ACCOUNT_NUMBER],供您參考。如果您那邊有任何變動,歡迎直接回覆至 [PRIVATE_EMAIL],或撥打 [PRIVATE_PHONE] 與我聯絡。

祝順心。

[PRIVATE_PERSON]

建構方式

我們分階段開發 Privacy Filter。

首先,我們建立一套隱私分類體系,用來定義模型應偵測的片段類型。範圍涵蓋個人識別資訊、聯絡資訊、地址、日期、多種帳戶號碼(例如信用卡與銀行資訊),以及機密資訊(如 API 金鑰與密碼)。

接下來,我們將預訓練語言模型轉為雙向 Token 分類器,做法是將語言建模頭替換為 Token 分類頭,並以監督式分類目標進行後續訓練。

最後,我們結合公開資料與合成資料進行訓練,讓模型同時掌握真實文本與較難辨識的隱私模式。針對公開資料中標註不完整的部分,我們透過模型輔助標註與人工審查補強涵蓋範圍。我們也建立合成範例,提升不同格式、情境與隱私子類型的多樣性。

在推論階段,模型會將 Token 層級的預測結果,透過受限序列解碼轉為連貫的片段。這種做法在保留預訓練模型語言理解能力的同時,也讓模型更專注於隱私偵測。

Privacy Filter 的表現

我們在標準基準測試,以及額外設計的合成資料與對話式評估中,全面檢測 Privacy Filter,重點驗證模型在更複雜、且高度依賴上下文情境的案例中的表現。

PII-Masking-300k(在新視窗中開啟) 基準測試中,Privacy Filter 的 F1 分數為 96%(精確率 94.04%,召回率 98.04%)。在修正資料集標註問題後的版本中,F1 分數為 97.43%(精確率 96.79%,召回率 98.08%)。

我們還發現,模型具備良好的調整彈性。即使只用少量資料進行微調,也能快速提升特定領域任務的準確率,使 F1 分數從 54% 提升至 96%,並在我們評估的領域適應基準測試中接近飽和。

除了基準測試表現外,Privacy Filter 也針對雜訊較多的真實世界文本進行實務應用設計。涵蓋長文件、指涉不明的內容、混合格式字串,以及與軟體相關的機密資訊等情境。模型說明卡(在新視窗中開啟)中,也提供針對程式碼庫中的機密資訊偵測評估,以及涵蓋多語言、對抗性與高度依賴情境案例的壓力測試結果。

限制說明

Privacy Filter 並非匿名化工具、法規遵循認證,也不能取代高風險情境中的政策審查。它只是整體隱私保護設計中的其中一環。

模型的行為會反映訓練時採用的標籤分類體系與決策邊界。不同組織可能會採用不同的偵測或遮蔽策略,這些策略通常需要進行領域內評估或進一步微調。模型表現也可能因語言、書寫系統、命名慣例,以及偏離訓練資料分布的領域而有所差異。

Privacy Filter 和所有模型一樣,都可能出現錯誤,例如可能漏掉不常見的識別碼或語意不明的個人指涉;在脈絡不足時,也可能對實體出現過度或不足的遮蔽,在較短的序列中尤為明顯。在法律、醫療與金融等高敏感度領域的工作流程中,仍需要人工審查,以及針對特定領域進行評估與微調。

適用情況

我們推出 OpenAI Privacy Filter,進一步強化整體生態系的隱私保護。

該模型現已採用 Apache 2.0 授權,並已在 Hugging Face(在新視窗中開啟)Github(在新視窗中開啟) 上開放。可用於實驗、自訂與商業部署,並可依不同資料分布與隱私權政策進行微調。

除了模型本身,我們也提供相關文件,說明模型架構、標籤分類體系、解碼控制、預期使用情境、評估方式與已知限制,協助團隊了解模型擅長之處,以及需要審慎使用的情境。

展望未來

AI 系統的隱私保護是一項持續進行的工作,涵蓋研究、產品設計、評估與部署。

Privacy Filter 體現我們認為相當重要的一個方向:針對現實世界 AI 系統中的關鍵任務,打造具備前沿能力的小型高效模型。我們釋出這個模型,是希望讓兼顧隱私保護的基礎設施更容易檢視、執行、調整與改進。

我們的目標是讓模型理解世界,而不是關於特定人士的資訊。Privacy Filter 有助於實現這一點。

我們推出 Privacy Filter 預覽版,希望能蒐集研究與隱私社群的回饋,持續提升模型表現。