跳至主要内容
OpenAI

2026年4月22日

研究发布安全防护

正式推出 OpenAI Privacy Filter

用于脱敏文本中个人身份信息 (PII) 的前沿模型

正在加载…

今天,我们正式发布 OpenAI Privacy Filter。这是一款用于检测和脱敏文本中个人身份信息 (PII) 的开放权重模型。此次发布体现了我们对构建更具韧性的软件生态系统的承诺。我们致力于为开发者提供实用的基础设施,帮助他们安全地利用 AI 进行构建,包括各种便于从源头实施强力隐私和安全保护的工具模型

OpenAI Privacy Filter 是一款具备前沿个人数据检测能力的小型模型。它专为高吞吐量的隐私处理工作流而设计,能够对非结构化文本中的 PII 进行上下文感知检测。该模型支持本地运行,这意味着 PII 可以在不离开你机器的情况下完成遮盖或脱敏处理。它能高效处理长文本输入,在单次扫描中即可快速做出脱敏决策。

在 OpenAI 内部,我们也在自己的隐私保护工作流中使用 OpenAI Privacy Filter 的微调版本。我们相信,凭借最新的 AI 能力,我们可以将隐私保护标准提升到超越市场现有水平的高度,因此我们开发了这一模型。经过对评估中发现的标注问题进行修正后,今天发布的版本在 PII-Masking-300k 基准测试中达到了顶尖 (state-of-the-art) 的性能水平。

随着该版本的发布,开发者可以在自己的环境中运行 OpenAI Privacy Filter,针对特定的用例进行微调,并在训练、索引、日志记录和审核流水线中构建更强大的隐私保护屏障。

具备前沿个人数据检测能力的小型模型

现代 AI 系统的隐私保护不能仅依靠模式匹配。传统的 PII 检测工具通常依赖针对电话号码、电子邮件地址等格式的确定性规则。这些工具在处理特定简单案例时表现尚可,但在识别更微妙的个人信息或处理复杂上下文时往往显得力不从心。

OpenAI Privacy Filter 内置了更深层的语言与上下文感知能力,能够提供更精细的表现。通过将强大的语言理解能力与专门的隐私标签系统相结合,它能检测非结构化文本中更广泛的 PII 类型,包括那些需要根据上下文做出判断的复杂情况。它能更精准地识别哪些内容属于公共信息(应予以保留),哪些内容涉及私人信息(应进行遮盖或脱敏)。

由此产生的是一个性能强劲、能够提供前沿级隐私过滤表现的模型。与此同时,该模型体积足够轻巧,支持在本地运行。这意味着待过滤的数据可以保留在设备上,无需发送至服务器进行去标识化处理,从而降低了泄露风险。

模型概览

OpenAI Privacy Filter 是一款采用片段解码 (span decoding) 的双向 Token 分类模型。它始于自回归预训练检查点,随后被调整为基于固定隐私标签分类体系的 Token 分类器。该模型并非逐个 Token 生成文本,而是在单次扫描中对输入序列进行标注,并结合受限维特比 (Viterbi) 算法解码出连贯的片段。

这种架构赋予了 OpenAI Privacy Filter 若干适用于生产环境的优良特性:

  • 快速高效:所有 Token 均在单次前向传播中完成标注。
  • 上下文感知:语言先验能力使其能够根据周围语境检测出 PII 片段。
  • 长上下文:发布的模型支持高达 128,000 个 Token 的上下文。
  • 可配置:开发者可以根据自己的工作流调整运行参数,从而平衡召回率 (recall) 和准确率 (precision)。

此次发布的模型总参数量为 15 亿,其中活跃参数量为 5000 万。

OpenAI Privacy Filter 可预测八个类别的片段:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

其中,account_number 类别有助于脱敏各种账号(包括信用卡号和银行账号等金融信息),而 secret 类别则有助于脱敏密码和 API 密钥等内容。

这些标签使用 BIOES 片段标记进行解码,有助于生成更整洁、更连贯的脱敏边界。

输入文本示例

Subject: Q2 Planning Follow-Up

Hi Jordan,

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for September 18, 2026. For reference, the project file is listed under 4829-1037-5581. If anything changes on your side, feel free to reply here at maya.chen@example.com or call me at +1 (415) 555-0124.

Best,

Maya Chen

脱敏个人标识符后的文本

Subject: Q2 Planning Follow-Up

Hi [PRIVATE_PERSON],

Thanks again for meeting earlier today. I wanted to follow up with the revised timeline for the Q2 rollout and confirm that the product launch is scheduled for [PRIVATE_DATE]. For reference, the project file is listed under [ACCOUNT_NUMBER]. If anything changes on your side, feel free to reply here at [PRIVATE_EMAIL] or call me at [PRIVATE_PHONE].

Best,

[PRIVATE_PERSON]

构建过程

我们分几个阶段开发 OpenAI Privacy Filter。

第一阶段,我们构建了一套隐私分类体系,明确了模型应当检测的片段类型。这涵盖了个人标识符、联系方式、地址、个人日期、多种不同类型的账号(如信用卡和银行信息),以及 API 密钥和密码等机密信息。

第二阶段,我们将预训练语言模型转换成了双向 Token 分类器。具体做法是将其原有的语言建模头 (head) 替换为 Token 分类头,并通过有监督分类目标进行后训练。

第三阶段,我们在公开数据集与合成数据的混合语料上进行训练,这些数据旨在捕捉真实文本及复杂的隐私模式。对于公开数据中标签不完整的部分,我们采用了模型辅助标注与人工审核的方式来提高覆盖率。同时,我们还生成了合成示例,以增加模型在不同格式、上下文及隐私子类型上的多样性。

在推理阶段,模型生成的 Token 级预测会通过受限序列解码 (constrained sequence decoding) 转化为连贯的片段。这种方法在保留预训练模型的广泛语言理解能力的同时,使其在隐私检测方面具备高度专业化的性能。

OpenAI Privacy Filter 性能表现

我们不仅在标准基准测试上评估了 OpenAI Privacy Filter,还针对更复杂、更依赖上下文的案例,通过额外的合成数据和对话式评估对其进行了测试。

PII-Masking-300k(在新窗口中打开) 基准测试中,OpenAI Privacy Filter 达到了 96% 的 F1 分数(准确率为 94.04%,召回率为 98.04%)。在针对评估中发现的标注问题进行修正后的基准测试版本中,其 F1 分数进一步提升至 97.43%(准确率为 96.79%,召回率为 98.08%)。

此外,我们发现该模型具备极高的适配效率。即使只用少量数据进行微调,也能迅速提高其在特定领域任务中的准确性。在我们评估的领域适配基准测试中,其 F1 分数从 54% 飙升至 96%,表现已接近上限。

除了基准测试表现外,OpenAI Privacy Filter 的设计初衷是处理真实世界中存在噪点的文本。这包括长文档、含义模糊的引用、混合格式字符串,以及与软件相关的机密信息 (secret)。模型卡(在新窗口中打开)中还报告了针对代码库机密检测的定向评估,以及跨多语言、对抗性示例和上下文依赖示例的压力测试。

功能局限

OpenAI Privacy Filter 并非匿名化工具,亦非合规认证,更不能在涉及重大决策的场景中替代政策审查。它仅是更广泛的“隐私融入设计”(privacy-by-design) 体系中的组成部分。

该模型的行为取决于其训练时所采用的标签分类体系及决策边界。不同的机构可能有不同的检测或脱敏政策,而这些政策可能需要进行领域内评估或进一步的微调。此外,在处理不同于训练分布的语言、文字、命名习惯及领域时,模型的表现也可能有所不同。

与所有模型一样,OpenAI Privacy Filter 也会出错。它可能会漏掉不常见的标识符或模糊的私人引用,并且在上下文有限(尤其是短序列)的情况下,可能会对实体进行过度脱敏或脱敏不足。在法律、医疗和金融工作流等高敏感领域,人工审核以及针对特定领域的评估与微调依然至关重要。

可用性

我们发布 OpenAI Privacy Filter,旨在支持整个生态系统构建更强大的隐私保护。

该模型自即日起在 Hugging Face(在新窗口中打开)Github(在新窗口中打开) 上通过 Apache 2.0 许可协议发布。它专为实验、定制及商业部署而设计,并可根据不同的数据分布和隐私政策进行微调。

除了模型本身,我们还分享了涵盖模型架构、标签分类体系、解码控制、预期用例、评估设置及已知局限性的配套文档,以便各团队能够清晰了解该模型的优势所在,以及哪些场景需要谨慎使用。

展望未来

AI 系统的隐私保护是一项横跨研究、产品设计、评估及部署的长期工作。

OpenAI Privacy Filter 展示了一个对我们而言至关重要的发展方向:为现实世界中的关键 AI 任务打造更小巧、更高效、同时具备先进能力的轻量级模型。我们之所以发布这款模型,是因为我们相信,隐私保护的基础设施应该更易于审查、部署、适配和持续改进。

我们的目标是让模型学习关于世界的知识,而非关于个体隐私。OpenAI Privacy Filter 正是实现这一目标的助力。

我们发布 OpenAI Privacy Filter 的预览版,旨在听取研究人员及隐私保护社区的反馈,并对模型性能进行迭代。