Pular para o conteúdo principal
OpenAI

Apresentando o Filtro de Privacidade da OpenAI

Nosso modelo de última geração para mascarar informações pessoalmente identificáveis (PII) em texto

Carregando…

Hoje estamos lançando o Filtro de Privacidade da OpenAI, um modelo de pesos abertos para detectar e ocultar informações pessoalmente identificáveis (PII) em texto. Este lançamento faz parte de nosso esforço mais amplo para apoiar um ecossistema de software mais resiliente, oferecendo aos desenvolvedores infraestrutura prática para criar com IA de forma segura, incluindo ferramentas e modelos que tornam mais fácil implementar proteções robustas de privacidade e segurança desde o início.

O Filtro de Privacidade é um modelo pequeno com capacidade de detecção de dados pessoais de nível de fronteira. Ele foi projetado para fluxos de trabalho de privacidade de alto throughput e consegue realizar detecção de PII sensível ao contexto em texto não estruturado. Ele pode rodar localmente, o que significa que dados PII podem ser mascarados ou ocultados sem sair da sua máquina. Ele processa entradas longas com eficiência, tomando decisões de ocultação em uma passada única e rápida.

Na OpenAI, usamos uma versão ajustada do Filtro de Privacidade em nossos próprios fluxos de trabalho que preservam a privacidade. Desenvolvemos o Filtro de Privacidade porque acreditamos que, com as capacidades mais recentes de IA, poderíamos elevar o padrão de privacidade além do que já existia no mercado. A versão do Filtro de Privacidade que estamos lançando hoje alcança desempenho de última geração no benchmark PII-Masking-300k, depois de corrigirmos problemas de anotação que identificamos durante a avaliação.

Com este lançamento, desenvolvedores podem executar o Filtro de Privacidade em seus próprios ambientes, fazer fine-tuning para seus casos de uso e incorporar proteções de privacidade mais robustas a pipelines de treinamento, indexação, logging e revisão.

Um modelo pequeno com capacidade de detecção de dados pessoais de nível de fronteira

A proteção de privacidade em sistemas modernos de IA depende de mais do que correspondência de padrões. Ferramentas tradicionais de detecção de PII muitas vezes dependem de regras determinísticas para formatos como números de telefone e endereços de e-mail. Elas podem funcionar bem em casos limitados, mas muitas vezes deixam passar informações pessoais mais sutis e têm dificuldade com o contexto.

O Filtro de Privacidade foi desenvolvido com uma compreensão mais profunda de linguagem e contexto, para um desempenho mais nuançado. Ao combinar forte compreensão de linguagem com um sistema de rotulagem específico de privacidade, ele consegue detectar uma gama mais ampla de PII em texto não estruturado, incluindo casos em que a decisão correta depende do contexto. Ele consegue distinguir melhor entre informações que devem ser preservadas por serem públicas e informações que devem ser mascaradas ou ocultadas por se referirem a um indivíduo particular.

O resultado é um modelo forte o suficiente para entregar desempenho de filtragem de privacidade de nível de fronteira. Ao mesmo tempo, o modelo é pequeno o suficiente para rodar localmente — o que significa que dados que ainda não foram filtrados podem permanecer no dispositivo, com menor risco de exposição, em vez de precisarem ser enviados a um servidor para desidentificação.

Visão geral do modelo

O Filtro de Privacidade é um modelo bidirecional de classificação de tokens com decodificação de spans. Ele começa a partir de um checkpoint pré-treinado autorregressivo e depois é adaptado para um classificador de tokens sobre uma taxonomia fixa de rótulos de privacidade. Em vez de gerar texto token a token, ele rotula uma sequência de entrada em uma única passada e, em seguida, decodifica spans coerentes com um procedimento de Viterbi restrito.

Essa arquitetura dá ao Filtro de Privacidade algumas propriedades úteis para uso em produção:

  • Rápido e eficiente: todos os tokens são rotulados em uma única forward pass.
  • Sensível ao contexto: o prior de linguagem permite que spans de PII sejam detectados com base no contexto ao redor.
  • Longo contexto: o modelo lançado oferece suporte a até 128.000 tokens de contexto.
  • Configurável: desenvolvedores podem ajustar pontos de operação para equilibrar recall e precisão dependendo do fluxo de trabalho.

O modelo lançado tem 1.5B parâmetros totais, com 50M parâmetros ativos.

O Filtro de Privacidade da OpenAI prevê spans em oito categorias:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

A categoria account_number ajuda a mascarar uma grande variedade de números de conta, incluindo informações bancárias como números de cartão de crédito e números de conta bancária, enquanto secret ajuda a mascarar itens como senhas e chaves de API.

Esses rótulos são decodificados com tags de spans BIOES, o que ajuda a produzir limites de mascaramento mais limpos e coerentes.

Exemplo de texto de entrada

Assunto: Acompanhamento do planejamento do T2

Olá Jordan,

Obrigado novamente por se reunir comigo hoje mais cedo. Queria fazer um acompanhamento com o cronograma revisado para o rollout do T2 e confirmar que o lançamento do produto está previsto para 18 de setembro de 2026. Para referência, o arquivo do projeto está listado no 4829-1037-5581. Se algo mudar do seu lado, fique à vontade para responder este e-mail em maya.chen@example.com ou me ligar em +1 (415) 555-0124.

Atenciosamente,

Maya Chen

Texto após o mascaramento de identificadores pessoais

Assunto: Acompanhamento do planejamento do T2

Olá [PRIVATE_PERSON],

Obrigado novamente por se reunir comigo hoje mais cedo. Queria fazer um acompanhamento com o cronograma revisado para o rollout do T2 e confirmar que o lançamento do produto está previsto para [PRIVATE_DATE]. Para referência, o arquivo do projeto está listado no [ACCOUNT_NUMBER]. Se algo mudar do seu lado, fique à vontade para responder este e-mail em [PRIVATE_EMAIL] ou me ligar em [PRIVATE_PHONE].

Atenciosamente,

[PRIVATE_PERSON]

Como construímos

Desenvolvemos o Filtro de Privacidade da OpenAI em várias etapas.

Primeiro, criamos uma taxonomia de privacidade que define os tipos de spans que o modelo deve detectar. Isso inclui identificadores pessoais, detalhes de contato, endereços, datas privadas, muitos tipos diferentes de números de conta, como informações de crédito e bancárias, e segredos como chaves de API e senhas.

Segundo, convertimos um modelo de linguagem pré-treinado em um classificador bidirecional de tokens, substituindo a cabeça de modelagem de linguagem por uma cabeça de classificação de tokens e fazendo pós-treinamento com um objetivo de classificação supervisionada.

Terceiro, treinamos em uma mistura de dados publicamente disponíveis e dados sintéticos, projetados para capturar tanto texto realista quanto padrões de privacidade difíceis. Em partes dos dados públicos em que os rótulos estavam incompletos, usamos anotação e revisão assistidas por modelo para melhorar a cobertura. Também geramos exemplos sintéticos para aumentar a diversidade entre formatos, contextos e subtipos de privacidade.

Em inferência, as previsões em nível de token do modelo são decodificadas em spans coerentes usando decodificação de sequência restrita. Essa abordagem preserva a ampla compreensão de linguagem do modelo pré-treinado, ao mesmo tempo em que o especializa para detecção de privacidade.

Como o Filtro de Privacidade da OpenAI se sai

Avaliamos o Filtro de Privacidade da OpenAI em benchmarks padrão e em avaliações adicionais sintéticas e em estilo de chat, criadas para testar casos mais difíceis e mais sensíveis ao contexto.

No benchmark PII-Masking-300k(abre em uma nova janela), o Filtro de Privacidade da OpenAI alcança um score F1 de 96% (94.04% de precisão e 98.04% de recall). Em uma versão corrigida do benchmark, que considera problemas de anotação do conjunto de dados identificados durante a revisão, o score F1 é de 97.43% (96.79% de precisão e 98.08% de recall).

Também constatamos que o modelo pode ser adaptado com eficiência. O fine-tuning, mesmo com uma pequena quantidade de dados, melhora rapidamente a acurácia em tarefas específicas de domínio, elevando o score F1 de 54% para 96% e se aproximando da saturação no benchmark de adaptação de domínio que avaliamos.

Além do desempenho em benchmarks, o Filtro de Privacidade da OpenAI foi projetado para filtragem de privacidade prática em texto ruidoso do mundo real. Isso inclui documentos longos, referências ambíguas, strings de formatos mistos e segredos relacionados a software. O model card (abre em uma nova janela)também relata avaliações direcionadas sobre detecção de segredos em bases de código e testes de estresse com exemplos multilíngues, adversariais e dependentes de contexto.

Limitações

O Filtro de Privacidade da OpenAI não é uma ferramenta de anonimização, uma certificação de conformidade nem um substituto para revisão de políticas em cenários de alto impacto. Ele é um componente em um sistema mais amplo de privacidade por design.

Seu comportamento reflete a taxonomia de rótulos e os limiares de decisão em que foi treinado. Diferentes organizações podem querer políticas diferentes de detecção ou mascaramento, e essas políticas podem exigir avaliação no domínio ou mais fine-tuning. O desempenho também pode variar entre idiomas, sistemas de escrita, convenções de nomenclatura e domínios que diferem da distribuição de treinamento.

Como qualquer modelo, o Filtro de Privacidade da OpenAI pode cometer erros. Ele pode deixar passar identificadores incomuns ou referências privadas ambíguas e pode mascarar demais ou de menos entidades quando o contexto é limitado, especialmente em sequências curtas. Em domínios de alta sensibilidade, como fluxos de trabalho jurídicos, de saúde e financeiros, revisão humana e avaliação e fine-tuning específicos de domínio continuam sendo importantes.

Disponibilidade

Estamos lançando o Filtro de Privacidade da OpenAI para apoiar proteções de privacidade mais robustas em todo o ecossistema.

O modelo já está disponível sob a licença Apache 2.0 no Hugging Face(abre em uma nova janela) e no GitHub(abre em uma nova janela). Ele é destinado a experimentação, personalização e implantação comercial e pode receber fine-tuning para diferentes distribuições de dados e políticas de privacidade.

Junto com o modelo, estamos compartilhando documentação que cobre a arquitetura do modelo, a taxonomia de rótulos, os controles de decodificação, os casos de uso pretendidos, a configuração de avaliação e as limitações conhecidas, para que as equipes entendam tanto o que o modelo faz bem quanto onde ele deve ser usado com cautela.

Olhando para o futuro

A proteção de privacidade para sistemas de IA é um esforço contínuo entre pesquisa, design de produto, avaliação e implantação.

O Filtro de Privacidade da OpenAI reflete uma direção que acreditamos ser importante: modelos pequenos e eficientes, com capacidade de nível de fronteira em tarefas estreitamente definidas que importam para sistemas de IA do mundo real. Estamos lançando porque achamos que a infraestrutura para preservação de privacidade deveria ser mais fácil de inspecionar, executar, adaptar e melhorar.

Nosso objetivo é que os modelos aprendam sobre o mundo, não sobre indivíduos privados. O Filtro de Privacidade da OpenAI ajuda a tornar isso possível.

Estamos lançando esta prévia do Filtro de Privacidade da OpenAI para receber feedback da comunidade de pesquisa e privacidade e iterar ainda mais no desempenho do modelo.