Presentem OpenAI Privacy Filter
El nostre model d’última generació per emmascarar informació personal identificable (PII) en text
Avui publiquem OpenAI Privacy Filter, un model de pesos oberts per detectar i redactar informació personal identificable (PII) en text. Aquest llançament forma part del nostre esforç més ampli per donar suport a un ecosistema de programari més resilient, proporcionant als desenvolupadors una infraestructura pràctica per crear amb IA de manera segura, incloses eines i models que faciliten implementar proteccions sòlides de privacitat i seguretat des del principi.
Privacy Filter és un model petit amb capacitat d’avantguarda per detectar dades personals. Està dissenyat per a fluxos de treball de privacitat d’alt rendiment, i és capaç de detectar PII en text no estructurat tenint en compte el context. Pot executar-se localment, cosa que significa que la PII es pot emmascarar o redactar sense sortir de la vostra màquina. Processa entrades llargues de manera eficient i pren decisions de redacció en una sola passada ràpida.
A OpenAI, fem servir una versió ajustada de Privacy Filter en els nostres propis fluxos de treball que preserven la privacitat. Hem desenvolupat Privacy Filter perquè creiem que, amb les darreres capacitats d’IA, podíem elevar l’estàndard de privacitat més enllà del que ja hi havia al mercat. La versió de Privacy Filter que publiquem avui assoleix un rendiment d’última generació en el benchmark PII-Masking-300k, un cop corregits els problemes d’anotació que vam identificar durant l’avaluació.
Amb aquest llançament, els desenvolupadors poden executar Privacy Filter en els seus propis entorns, ajustar-lo fi als seus casos d’ús i incorporar proteccions de privacitat més sòlides als canals d’entrenament, indexació, registre i revisió.
La protecció de la privacitat en els sistemes d’IA moderns depèn de més coses que la coincidència de patrons. Les eines tradicionals de detecció de PII sovint es basen en regles deterministes per a formats com ara números de telèfon i adreces electròniques. Poden funcionar bé en casos concrets, però sovint passen per alt informació personal més subtil i tenen dificultats amb el context.
Privacy Filter s’ha creat amb una comprensió més profunda del llenguatge i del context per oferir un rendiment més matisat. En combinar una sòlida comprensió lingüística amb un sistema d’etiquetatge específic de privacitat, pot detectar una gamma més àmplia de PII en text no estructurat, inclosos els casos en què la decisió correcta depèn del context. Pot distingir millor entre la informació que s’ha de preservar perquè és pública i la informació que s’ha d’emmascarar o redactar perquè es refereix a una persona privada.
El resultat és un model prou potent per oferir un rendiment de filtratge de privacitat d’avantguarda. Alhora, el model és prou petit per executar-se localment, és a dir, les dades que encara no s’han filtrat poden romandre al dispositiu, amb menys risc d’exposició, en lloc d’haver-se d’enviar a un servidor per desidentificar-les.
Privacy Filter és un model bidireccional de classificació de segments amb descodificació de spans. Parteix d’un punt de control preentrenat autoregressiu i després s’adapta a un classificador de segments sobre una taxonomia fixa d’etiquetes de privacitat. En lloc de generar text segment a segment, etiqueta una seqüència d’entrada en una sola passada i després descodifica spans coherents amb un procediment Viterbi restringit.
Aquesta arquitectura dona a Privacy Filter algunes propietats útils per a l’ús en producció:
- Ràpid i eficient: tots els segments s’etiqueten en una sola passada cap endavant.
- Conscient del context: el prior lingüístic permet detectar spans de PII basant-se en el context circumdant.
- Context llarg: el model publicat admet fins a 128.000 segments de context.
- Configurable: els desenvolupadors poden ajustar els punts operatius per equilibrar exhaustivitat i precisió segons el seu flux de treball.
El model publicat té 1,5B paràmetres totals, amb 50M paràmetres actius.
Privacy Filter prediu spans en vuit categories:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
La categoria account_number ajuda a emmascarar una gran varietat de números de compte, inclosa informació bancària com ara números de targeta de crèdit i números de compte bancari, mentre que secret ajuda a emmascarar elements com contrasenyes i claus d’API.
Aquestes etiquetes es descodifiquen amb etiquetes de span BIOES, cosa que ajuda a produir límits d’emmascarament més nets i coherents.
Text d’entrada d’exemple
Assumpte: Seguiment de la planificació del T2
Hola Jordan,
Gràcies de nou per reunir-te amb mi avui abans. Volia fer seguiment del calendari revisat per al desplegament del T2 i confirmar que el llançament del producte està previst per al 18 de setembre de 2026. Com a referència, el fitxer del projecte figura amb el número 4829-1037-5581. Si canvia res per la teva banda, no dubtis a respondre aquí a maya.chen@example.com o trucar-me al +1 (415) 555-0124.
Salutacions,
Maya Chen
Text després d’emmascarar els identificadors personals
Assumpte: Seguiment de la planificació del T2
Hola [PRIVATE_PERSON],
Gràcies de nou per reunir-te amb mi avui abans. Volia fer seguiment del calendari revisat per al desplegament del T2 i confirmar que el llançament del producte està previst per al [PRIVATE_DATE]. Com a referència, el fitxer del projecte figura amb el número [ACCOUNT_NUMBER]. Si canvia res per la teva banda, no dubtis a respondre aquí a [PRIVATE_EMAIL] o trucar-me al [PRIVATE_PHONE].
Salutacions,
[PRIVATE_PERSON]
Hem desenvolupat Privacy Filter en diverses etapes.
Primer, vam crear una taxonomia de privacitat que defineix els tipus de spans que el model hauria de detectar. Això inclou identificadors personals, dades de contacte, adreces, dates privades, molts tipus diferents de números de compte, com ara informació de crèdit i bancària, i secrets com claus d’API i contrasenyes.
Segon, vam convertir un model de modelització del llenguatge preentrenat en un classificador bidireccional de segments substituint el cap de modelització del llenguatge per un cap de classificació de segments i fent-ne un postentrenament amb un objectiu de classificació supervisada.
Tercer, vam entrenar amb una barreja de dades públiques disponibles i dades sintètiques dissenyades per capturar tant text realista com patrons de privacitat difícils. En parts de les dades públiques on les etiquetes eren incompletes, vam fer servir anotació i revisió assistides per model per millorar-ne la cobertura. També vam generar exemples sintètics per augmentar la diversitat de formats, contextos i subtipus de privacitat.
En el moment de la inferència, les prediccions a nivell de segment del model es descodifiquen en spans coherents mitjançant descodificació de seqüència restringida. Aquest enfocament preserva l’àmplia comprensió del llenguatge del model preentrenat alhora que l’especialitza per a la detecció de privacitat.
Vam avaluar Privacy Filter amb benchmarks estàndard i amb avaluacions addicionals sintètiques i d’estil xat dissenyades per provar casos més difícils i més sensibles al context.
En el benchmark PII-Masking-300k(s'obre en una finestra nova), Privacy Filter assoleix una puntuació F1 del 96% (94,04% de precisió i 98,04% d’exhaustivitat). En una versió corregida del benchmark que té en compte els problemes d’anotació del conjunt de dades identificats durant la revisió, la puntuació F1 és del 97,43% (96,79% de precisió i 98,08% d’exhaustivitat).
També vam constatar que el model es pot adaptar de manera eficient. L’ajust fi fins i tot amb una petita quantitat de dades millora ràpidament la precisió en tasques específiques de domini, fent augmentar la puntuació F1 del 54% al 96%, i s’acosta a la saturació en el benchmark d’adaptació de domini que vam avaluar.
Més enllà del rendiment en benchmarks, Privacy Filter està dissenyat per a un filtratge de privacitat pràctic en text sorollós del món real. Això inclou documents llargs, referències ambigües, cadenes de format mixt i secrets relacionats amb el programari. La fitxa del model (s'obre en una finestra nova)també inclou una avaluació específica de la detecció de secrets en bases de codi i proves d’estrès amb exemples multilingües, adversaris i dependents del context.
Privacy Filter no és una eina d’anonimització, ni una certificació de compliment, ni un substitut de la revisió de polítiques en entorns d’alt risc. És un component d’un sistema més ampli de privacitat des del disseny.
El seu comportament reflecteix la taxonomia d’etiquetes i els límits de decisió amb què es va entrenar. Diferents organitzacions poden voler polítiques diferents de detecció o emmascarament, i aquestes polítiques poden requerir avaluació dins del domini o més ajust fi. El rendiment també pot variar segons llengües, escriptures, convencions de noms i dominis diferents de la distribució d’entrenament.
Com tots els models, Privacy Filter pot cometre errors. Pot passar per alt identificadors poc habituals o referències privades ambigües, i pot redactar de més o de menys entitats quan el context és limitat, especialment en seqüències curtes. En dominis d’alta sensibilitat, com ara fluxos de treball legals, mèdics i financers, la revisió humana i l’avaluació i l’ajust fi específics del domini continuen sent importants.
Publiquem OpenAI Privacy Filter per donar suport a proteccions de privacitat més sòlides a tot l’ecosistema.
El model està disponible des d’avui sota la llicència Apache 2.0 a Hugging Face(s'obre en una finestra nova) i Github(s'obre en una finestra nova). Està pensat per a experimentació, personalització i desplegament comercial, i es pot ajustar fi per a diferents distribucions de dades i polítiques de privacitat.
Juntament amb el model, compartim documentació que cobreix l’arquitectura del model, la taxonomia d’etiquetes, els controls de descodificació, els casos d’ús previstos, la configuració d’avaluació i les limitacions conegudes, perquè els equips puguin entendre tant allò que el model fa bé com on s’ha d’utilitzar amb cura.
La protecció de la privacitat per als sistemes d’IA és un esforç continu en recerca, disseny de producte, avaluació i desplegament.
Privacy Filter reflecteix una direcció que creiem important: models petits i eficients amb capacitat d’avantguarda en tasques definides de manera acotada que són importants per als sistemes d’IA del món real. El publiquem perquè pensem que la infraestructura que preserva la privacitat hauria de ser més fàcil d’inspeccionar, executar, adaptar i millorar.
El nostre objectiu és que els models aprenguin sobre el món, no sobre persones privades. Privacy Filter ajuda a fer-ho possible.
Publiquem aquesta versió preliminar de Privacy Filter per rebre comentaris de la comunitat de recerca i de privacitat i continuar iterant sobre el rendiment del model.


