Gå til hovedindhold
OpenAI

Vi præsenterer OpenAI Privacy Filter

Vores banebrydende model til maskering af personligt identificerbare oplysninger (PII) i tekst

Indlæser ...

I dag lancerer vi OpenAI Privacy Filter, en åben vægtmodel til at identificere og sløre personligt identificerbare oplysninger (PII) i tekst. Denne lancering er en del af vores bredere indsats for at understøtte et mere robust softwareøkosystem ved at give udviklere praktisk infrastruktur til at bygge med AI på en sikker måde, herunder værktøjer og modeller, som gør stærk beskyttelse af privatliv og sikkerhed lettere at implementere fra starten.

Privacy Filter er en lille model med banebrydende kapacitet til at registrere persondata. Det er udviklet til privatlivsbeskyttelsesworkflows med høj kapacitet og kan udføre kontekstbaseret registrering af personoplysninger i ustruktureret tekst. Det kan køre lokalt, hvilket betyder, at personoplysninger kan sløres eller redigeres, uden at de forlader din computer. Det behandler lange indtastninger effektivt og træffer beslutninger om redigering hurtigt i én arbejdsgang.

Hos OpenAI bruger vi en finjusteret version af Privacy Filter i vores egne arbejdsgange, der beskytter privatlivets fred. Vi udviklede Privacy Filter, fordi vi mente, at vi med de nyeste AI-kapaciteter kunne hæve standarden for privatliv ud over det, der allerede var på markedet. Den version af Privacy Filter, som vi udgiver i dag, opnår banebrydende ydeevne på PII-Masking-300k-benchmarken, når vi korrigerer for de annoteringsproblemer, vi identificerede under evalueringen.

Med denne udgivelse kan udviklere køre Privacy Filter i deres egne miljøer, tilpasse det til deres egne anvendelsesscenarier og indbygge stærkere beskyttelse af privatlivets fred i deres trænings-, indekserings-, lognings- og gennemgangsprocesser.

En lille model med banebrydende kapacitet til at opdage personoplysninger

Privatlivsbeskyttelse i moderne AI-systemer afhænger af mere end blot mønstergenkendelse. Traditionelle PII-detekteringsværktøjer er ofte baseret på deterministiske regler for formater som telefonnumre og e-mailadresser. De kan fungere godt i snævre tilfælde, men de overser ofte mere subtil personfølsom information og har svært ved at håndtere konteksten.

Privacy Filter er udviklet med en dybere forståelse af sprog og kontekst for at levere en mere nuanceret ydeevne. Ved at kombinere en stærk sprogforståelse med et mærkningssystem, der er specifikt rettet mod beskyttelse af personoplysninger, kan systemet identificere en bredere vifte af personoplysninger i ustruktureret tekst, herunder i tilfælde hvor den rigtige beslutning afhænger af konteksten. Det kan bedre skelne mellem oplysninger, der bør bevares, fordi de er offentlige, og oplysninger, der bør sløres eller redigeres, fordi de vedrører en privatperson.

Resultatet er en model, der er stærk nok til at levere ydeevne inden for banebrydende privatlivsfiltrering. Samtidig er modellen lille nok til at kunne køres lokalt – hvilket betyder, at data, som endnu ikke er blevet filtreret, kan forblive på enheden med mindre risiko for eksponering, i stedet for at skulle sendes til en server med henblik på afidentificering. 

Modeloversigt

Privacy Filter er en tovejs token-klassificeringsmodel med span-afkodning. Den starter fra et autoregressivt forhåndstrænet checkpoint og tilpasses derefter til en token-klassifikator over en fast taksonomi af privatlivsmærkater. I stedet for at generere tekst token for token mærker den en indgangssekvens i ét gennemløb og afkoder derefter sammenhængende sekvenser ved hjælp af en begrænset Viterbi-procedure.

Denne arkitektur giver Privacy Filter nogle nyttige egenskaber til brug i produktion:

  • Hurtig og effektiv: alle tokens mærkes i én enkelt fremadrettet gennemgang.
  • Kontekstbevidst: den forudgående sprogmodel gør det muligt at identificere PII-segmenter baseret på den omgivende kontekst.
  • Lang kontekst: den frigivne model understøtter op til 128.000 tokens.
  • Kan konfigureres: udviklere kan justere parametre for at balancere mellem genkaldelse og præcision afhængigt af deres arbejdsgang.

Den frigivne model har i alt 1,5 mia. parametre, hvoraf 50 mio. er aktive.

Privacy Filter forudsiger områder på tværs af otte kategorier:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Kategorien account_number hjælper med at maskere en lang række kontonumre, herunder bankoplysninger som kreditkortnumre og bankkontonumre, mens secret hjælper med at maskere ting som adgangskoder og API-nøgler.

Disse mærker afkodes ved hjælp af BIOES-span-tags, hvilket bidrager til at skabe klarere og mere sammenhængende afgrænsninger.

Eksempel på inputtekst

Emne: Opfølgning på planlægning for 2. kvartal

Hej Jordan

Endnu en gang tak for mødet tidligere i dag. Jeg ville følge op med den reviderede tidsplan for Q2-udrulningen og bekræfte, at produktlanceringen er planlagt til den 18. september 2026. Til reference er projektfilen angivet under 4829-1037-5581. Hvis der sker ændringer hos dig, er du velkommen til at svare her på maya.chen@example.com eller ringe til mig på +1 (415) 555-0124.

Med venlig hilsen

Maya Chen

Tekst efter fjernelse af personlige identifikatorer

Emne: Opfølgning på planlægning for 2. kvartal

Hej [PRIVATE_PERSON]

Endnu en gang tak for mødet tidligere i dag. Jeg vil gerne følge op på den opdaterede tidsplan for lanceringen i 2. kvartal og bekræfte, at produktlanceringen er planlagt til [PRIVATE_DATE]. Til orientering er projektfilen angivet under [ACCOUNT_NUMBER]. Hvis der sker ændringer hos dig, er du velkommen til at svare her på [PRIVATE_EMAIL] eller ringe til mig på [PRIVATE_PHONE].

Med venlig hilsen

[PRIVATE_PERSON]

Sådan byggede vi det

Vi udviklede Privacy Filter i flere faser.

Først udarbejdede vi en taksonomi for privatlivsbeskyttelse, der definerer de typer af spænd, som modellen skal registrere. Dette inkluderer personlige identifikatorer, kontaktoplysninger, adresser, private datoer, mange forskellige typer kontonumre såsom kreditkort- og bankoplysninger samt hemmeligheder som API-nøgler og adgangskoder.

Dernæst omdannede vi en trænet sprogmodel til en tovejs-tokenklassifikator ved at erstatte sprogmodelleringsmodulet med et tokenklassifikationsmodul og efterfølgende træne modellen med et overvåget klassifikationsmål. 

Endelig trænede vi på en blanding af offentligt tilgængelige og syntetiske data, der var designet til at fange både realistisk tekst og komplekse privatlivsmønstre. I dele af de offentlige data, hvor mærkningerne var ufuldstændige, anvendte vi modelassisteret annotering og gennemgang for at forbedre dækningen. Vi genererede også syntetiske eksempler for at øge variationen på tværs af formater, kontekster og privatlivsundertyper.

Ved inferens afkodes modellens forudsigelser på tokenniveau til sammenhængende sekvenser ved hjælp af afkodning af begrænsede sekvenser. Denne tilgang bevarer den brede sprogforståelse i den prætrænede model, samtidig med at den specialiseres til at opdage privatlivsrelateret indhold.

Sådan fungerer Privacy Filter

Vi evaluerede Privacy Filter på standardbenchmarks samt på yderligere syntetiske og chatbaserede evalueringer, der er designet til at teste mere komplekse og kontekstafhængige tilfælde.

På benchmarken PII-Masking-300k(åbner i et nyt vindue) opnår Privacy Filter en F1-score på 96 % (94,04 % præcision og 98,04 % genkaldelse). På en korrigeret version af benchmarken, der tager højde for problemer med annotering af datasættet, som blev identificeret under gennemgangen, er F1-scoren 97,43 % (96,79 % præcision og 98,08 % genkaldelse).

Vi fandt også, at modellen kan tilpasses effektivt. Selv finjustering af en lille mængde data forbedrer hurtigt nøjagtigheden ved domænespecifikke opgaver, idet F1-scoren stiger fra 54 % til 96 % og nærmer sig mætning i den benchmark for domænetilpasning, vi har vurderet.

Ud over at levere benchmark-resultater er Privacy Filter udviklet til at sikre effektiv beskyttelse af privatlivet i støjfyldt, virkelighedsnær tekst. Det omfatter lange dokumenter, tvetydige referencer, strenge i blandede formater og software-relaterede hemmeligheder. Modelkortet (åbner i et nyt vindue)indeholder desuden en målrettet evaluering af detektering af hemmeligheder i kodebaser samt stresstests på tværs af flersprogede, modstridende og kontekstafhængige eksempler.

Begrænsninger

Privacy Filter er ikke et anonymiseringsværktøj, en compliance-certificering eller en erstatning for politikgennemgang i situationer med høj risiko. Det er én komponent i et bredere privacy-by-design-system.

Dens adfærd afspejler den taksonomi og de beslutningsgrænser, den er blevet trænet på. Forskellige organisationer kan ønske forskellige politikker for registrering eller maskering, og disse politikker kan kræve evaluering inden for domænet eller yderligere finjustering. Ydeevnen kan også variere på tværs af sprog, skriftsystemer, navngivningskonventioner og domæner, der afviger fra træningsdistributionen.

Ligesom alle modeller kan Privacy Filter begå fejl. Den kan overse usædvanlige identifikatorer eller tvetydige private henvisninger, og den kan over- eller underredigere elementer, når konteksten er begrænset, især i korte sekvenser. I følsomme domæner såsom juridiske, medicinske og finansielle arbejdsgange er menneskelig gennemgang samt domænespecifik evaluering og finjustering fortsat vigtige.

Tilgængelighed

Vi lancerer OpenAI Privacy Filter for at understøtte stærkere beskyttelse af privatliv på tværs af økosystemet.

Modellen er tilgængelig i dag under Apache 2.0-licensen på Hugging Face(åbner i et nyt vindue) og Github(åbner i et nyt vindue). Den er beregnet til eksperimentering, tilpasning og kommerciel implementering, og den kan finjusteres til forskellige datafordelinger og privatlivspolitikker.

Sammen med modellen deler vi dokumentation, der dækker modelarkitekturen, taksonomien for mærkninger, indstillinger for afkodning, anbefalede anvendelsesscenarier, evalueringsopsætning og kendte begrænsninger, så teams kan få et overblik over, hvad modellen er god til, og hvor den bør anvendes med forsigtighed.

Fremadrettet

Beskyttelse af privatliv i AI-systemer er en løbende indsats på tværs af forskning, produktdesign, evaluering og implementering.

Privacy Filter afspejler en retning, som vi anser for vigtig: små, effektive modeller med banebrydende kapacitet inden for snævert afgrænsede opgaver, der har betydning for AI-systemer i den virkelige verden. Vi udgiver det, fordi vi mener, at infrastruktur, der beskytter privatlivets fred, bør være nemmere at inspicere, køre, tilpasse og forbedre.

Vores mål er, at modellerne skal lære om verden, ikke om enkeltpersoner. Privacy Filter hjælper med at gøre det muligt.

Vi udgiver denne forhåndsvisning af Privacy Filter for at indhente feedback fra forsknings- og privatlivsmiljøet og dermed kunne forbedre modellens ydeevne yderligere.

Skrevet af

OpenAI