Apresentamos o Filtro de Privacidade da OpenAI
O nosso modelo de última geração para mascarar informação de identificação pessoal (PII) em texto
Hoje estamos a lançar o Filtro de Privacidade da OpenAI, um modelo de pesos abertos para detetar e ocultar informação de identificação pessoal (PII) em texto. Este lançamento faz parte do nosso esforço mais amplo para apoiar um ecossistema de software mais resiliente, proporcionando aos developers infraestrutura prática para desenvolver com IA em segurança, incluindo ferramentas e modelos que tornam mais fácil implementar, desde o início, proteções robustas de privacidade e segurança.
O Filtro de Privacidade é um modelo pequeno com capacidade de deteção de dados pessoais ao nível dos modelos de fronteira. Foi concebido para fluxos de trabalho de privacidade de elevado volume e consegue realizar deteção de PII com consciência de contexto em texto não estruturado. Pode ser executado localmente, o que significa que a PII pode ser mascarada ou ocultada sem sair do seu dispositivo. Processa entradas longas de forma eficiente, tomando decisões de ocultação numa única passagem rápida.
Na OpenAI, usamos uma versão ajustada do Filtro de Privacidade nos nossos próprios fluxos de trabalho de preservação da privacidade. Desenvolvemos o Filtro de Privacidade porque acreditamos que, com as mais recentes capacidades de IA, poderíamos elevar o padrão de privacidade para além do que já existia no mercado. A versão do Filtro de Privacidade que estamos a lançar hoje alcança desempenho de última geração no benchmark PII-Masking-300k, depois de corrigidos os problemas de anotação que identificámos durante a avaliação.
Com este lançamento, os developers podem executar o Filtro de Privacidade nos seus próprios ambientes, afiná-lo para os seus casos de uso e incorporar proteções de privacidade mais robustas em pipelines de treino, indexação, registo e revisão.
A proteção da privacidade em sistemas de IA modernos depende de mais do que correspondência de padrões. As ferramentas tradicionais de deteção de PII recorrem frequentemente a regras determinísticas para formatos como números de telefone e endereços de e-mail. Podem funcionar bem em casos limitados, mas muitas vezes falham informação pessoal mais subtil e têm dificuldade com o contexto.
O Filtro de Privacidade foi construído com uma compreensão mais profunda da linguagem e do contexto, para um desempenho mais subtil. Ao combinar uma forte compreensão da linguagem com um sistema de rotulagem específico de privacidade, consegue detetar uma gama mais ampla de PII em texto não estruturado, incluindo casos em que a decisão certa depende do contexto. Consegue distinguir melhor entre informação que deve ser preservada por ser pública e informação que deve ser mascarada ou ocultada por estar relacionada com um indivíduo privado.
O resultado é um modelo suficientemente robusto para oferecer desempenho de filtragem de privacidade ao nível de modelos de fronteira. Ao mesmo tempo, o modelo é suficientemente pequeno para ser executado localmente — o que significa que os dados ainda por filtrar podem permanecer no dispositivo, com menor risco de exposição, sem necessidade de serem enviados para um servidor para desidentificação.
O Filtro de Privacidade é um modelo bidirecional de classificação de tokens com descodificação de spans. Parte de um checkpoint pré-treinado autorregressivo e depois é adaptado para um classificador de tokens sobre uma taxonomia fixa de rótulos de privacidade. Em vez de gerar texto token a token, rotula uma sequência de entrada numa única passagem e depois descodifica spans coerentes com um procedimento de Viterbi restrito.
Esta arquitetura confere ao Filtro de Privacidade algumas características úteis para utilização em produção:
- Rápido e eficiente: todos os tokens são rotulados numa única passagem direta.
- Com consciência de contexto: o prior de linguagem permite que spans de PII sejam detetados com base no contexto envolvente.
- Contexto longo: o modelo disponibilizado suporta até 128 000 tokens de contexto.
- Configurável: os developers podem ajustar pontos de operação para equilibrar recall e precisão, consoante o seu fluxo de trabalho.
O modelo disponibilizado tem 1,5 mil milhões de parâmetros no total, com 50 milhões de parâmetros ativos.
O Filtro de Privacidade identifica spans em oito categorias:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
A categoria account_number ajuda a mascarar uma vasta gama de números de conta, incluindo informação bancária como números de cartão de crédito e números de conta bancária, enquanto secret ajuda a mascarar coisas como palavras-passe e chaves de API.
Estes rótulos são descodificados com tags de spans BIOES, o que ajuda a produzir limites de mascaramento mais limpos e mais coerentes.
Exemplo de texto de entrada
Assunto: Seguimento do planeamento do Q2
Olá, Jordan,
Agradeço novamente por se ter reunido hoje mais cedo. Queria dar seguimento ao cronograma revisto para o rollout do Q2 e confirmar que o lançamento do produto está agendado para 18 de setembro de 2026. Para referência, o ficheiro do projeto está registado sob 4829-1037-5581. Se algo mudar do seu lado, sinta-se à vontade para responder aqui para maya.chen@example.com ou ligar-me para +1 (415) 555-0124.
Cumprimentos,
Maya Chen
Texto após mascarar identificadores pessoais
Assunto: Seguimento do planeamento do Q2
Olá, [PRIVATE_PERSON],
Agradeço novamente por se ter reunido hoje mais cedo. Queria dar seguimento ao cronograma revisto para o rollout do Q2 e confirmar que o lançamento do produto está agendado para [PRIVATE_DATE]. Para referência, o ficheiro do projeto está registado sob [ACCOUNT_NUMBER]. Se algo mudar do seu lado, sinta-se à vontade para responder aqui para [PRIVATE_EMAIL] ou ligar-me para [PRIVATE_PHONE].
Cumprimentos,
[PRIVATE_PERSON]
Desenvolvemos o Filtro de Privacidade em várias fases.
Em primeiro lugar, criámos uma taxonomia de privacidade que define os tipos de spans que o modelo deve detetar. Isto inclui identificadores pessoais, detalhes de contacto, endereços, datas privadas, muitos tipos diferentes de números de conta, como informação de crédito e bancária, e segredos como chaves de API e palavras-passe.
Em segundo lugar, convertimos um modelo de linguagem pré-treinado num classificador bidirecional de tokens, substituindo a cabeça de modelação de linguagem por uma cabeça de classificação de tokens e pós-treinando-o com um objetivo de classificação supervisionada.
Em terceiro lugar, treinámos com uma mistura de dados publicamente disponíveis e sintéticos concebidos para captar tanto texto realista como padrões de privacidade difíceis. Em partes dos dados públicos em que os rótulos estavam incompletos, utilizámos anotação e revisão assistidas pelo modelo para melhorar a cobertura. Também gerámos exemplos sintéticos para aumentar a diversidade entre formatos, contextos e subtipos de privacidade.
No momento da inferência, as previsões do modelo ao nível do token são descodificadas em spans coerentes usando descodificação de sequência com restrições. Esta abordagem preserva a ampla compreensão da linguagem do modelo pré-treinado, ao mesmo tempo que o especializa para deteção de privacidade.
Avaliámos o Filtro de Privacidade em benchmarks padrão e em avaliações adicionais sintéticas e em estilo de chat, concebidas para testar casos mais difíceis e mais sensíveis ao contexto.
No benchmark PII-Masking-300k(abre numa nova janela), o Filtro de Privacidade atinge uma pontuação F1 de 96% (94,04% de precisão e 98,04% de recall). Numa versão corrigida do benchmark que tem em conta problemas de anotação do conjunto de dados identificados durante a revisão, a pontuação F1 é de 97,43% (96,79% de precisão e 98,08% de recall).
Também verificámos que o modelo pode ser adaptado de forma eficiente. A afinação, mesmo com uma pequena quantidade de dados, melhora rapidamente a precisão em tarefas específicas do domínio, aumentando a pontuação F1 de 54% para 96% e aproximando-se da saturação no benchmark de adaptação ao domínio que avaliámos.
Para além do desempenho em benchmarks, o Filtro de Privacidade foi concebido para filtragem de privacidade prática em texto ruidoso do mundo real. Isto inclui documentos longos, referências ambíguas, strings de formato misto e segredos relacionados com software. A ficha do modelo (abre numa nova janela)também apresenta avaliação direcionada da deteção de segredos em bases de código e testes de stress com exemplos multilingues, adversariais e dependentes do contexto.
O Filtro de Privacidade não é uma ferramenta de anonimização, uma certificação de conformidade, nem um substituto para revisão de políticas em contextos de alto risco. É um componente de um sistema mais amplo de privacidade desde a conceção.
O seu comportamento reflete a taxonomia de rótulos e os limites de decisão com que foi treinado. Organizações diferentes podem querer políticas diferentes de deteção ou mascaramento, e essas políticas podem exigir avaliação no domínio ou mais afinação. O desempenho também pode variar entre línguas, sistemas de escrita, convenções de nomes e domínios que diferem da distribuição de treino.
Como todos os modelos, o Filtro de Privacidade pode cometer erros. Pode não detetar identificadores pouco comuns ou referências privadas ambíguas e pode mascarar em excesso ou de menos entidades quando o contexto é limitado, especialmente em sequências curtas. Em domínios de alta sensibilidade, como fluxos de trabalho jurídicos, médicos e financeiros, a revisão humana e a avaliação e afinação específicas do domínio continuam a ser importantes.
Estamos a lançar o Filtro de Privacidade da OpenAI para apoiar proteções de privacidade mais robustas em todo o ecossistema.
O modelo está hoje disponível sob a licença Apache 2.0 no Hugging Face(abre numa nova janela) e no GitHub(abre numa nova janela). Destina-se a experimentação, personalização e implementação comercial, e pode ser afinado para diferentes distribuições de dados e políticas de privacidade.
Em conjunto com o modelo, estamos a partilhar documentação que abrange a arquitetura do modelo, a taxonomia de rótulos, os controlos de descodificação, os casos de uso previstos, a configuração da avaliação e limitações conhecidas, para que as equipas compreendam tanto o que o modelo faz bem como onde deve ser usado com cautela.
A proteção de privacidade em sistemas de IA é um esforço contínuo em investigação, design de produto, avaliação e implementação.
O Filtro de Privacidade reflete uma direção que consideramos importante: modelos pequenos e eficientes, com capacidade de fronteira em tarefas definidas de forma restrita que são importantes para sistemas de IA do mundo real. Estamos a lançá-lo porque achamos que a infraestrutura de preservação da privacidade deve ser mais fácil de inspecionar, executar, adaptar e melhorar.
O nosso objetivo é que os modelos aprendam sobre o mundo, não sobre indivíduos particulares. O Filtro de Privacidade ajuda a tornar isso possível.
Estamos a lançar esta prévia do Filtro de Privacidade para receber feedback da comunidade de investigação e privacidade e iterar ainda mais sobre o desempenho do modelo.


