I dag lanserer vi OpenAIs personvernfilter: en modell med åpne vekter som oppdager og redigerer personopplysninger i tekst. Denne utgivelsen er en del av arbeidet vårt for mer robust programvareøkosystem, der utviklere får praktisk infrastruktur for sikker KI-utvikling, inkludert verktøy og modeller som gjør det enklere å implementere solide personvern- og sikkerhetstiltak helt fra starten av.
Personvernfilteret er en liten modell med avansert funksjonalitet for gjenkjenning av personopplysninger. Den er utviklet for arbeidsflyter med høy gjennomstrømning og personopplysninger, og den kan utføre kontekstbasert gjenkjenning av personopplysninger i ustrukturert tekst. Den kan kjøres lokalt, hvilket betyr at personopplysninger kan skjules eller redigeres uten at de forlater datamaskinen. Den behandler effektivt lange inndata og tar raskt beslutninger om redigering i én enkelt gjennomgang.
For å ivareta personvernet, bruker OpenAI selv en finjustert versjon av personvernfilteret i egne arbeidsflyter. Vi har utviklet personvernfilteret fordi vi mener at vi, ved hjelp av de nyeste KI-funksjonene, kan heve personvernstandarden til et nivå som går langt utover det som allerede finnes på markedet. Versjonen vi lanserer i dag, oppnår topp ytelse i referansetesten PII-Masking-300k, når det korrigeres for anmerkningsproblemene vi oppdaget under evalueringen.
Dette personvernfilteret kan utviklere kjøre i egne miljøer, tilpasse til egne bruksområder, og de kan bruke det for å bygge inn sterkere personvernbeskyttelse i opplærings-, indekserings-, loggførings- og gjennomgangsprosesser.
Personvern i moderne KI-systemer avhenger av mer enn kun mønstergjenkjenning. Tradisjonelle verktøy for identifisering av personopplysninger, baserer seg ofte på faste formatregler for telefonnumre og e-postadresser. De kan fungere bra i enkle tilfeller, men de overser ofte mer subtile personopplysninger og har problemer med å tolke sammenhengen.
OpenAIs personvernfilter er utviklet med en bredere forståelse for språk og kontekst for å levere mer nyanserte resultater. Ved å kombinere god språkforståelse med et personvernspesifikt merkingssystem, kan systemet oppdage et bredere spekter personopplysninger i ustrukturert tekst, inkludert tilfeller der riktig avgjørelse avhenger av kontekst. Den kan bedre skille mellom opplysninger som bør bevares fordi de er offentlige og opplysninger som bør skjules eller redigeres bort fordi de gjelder en privatperson.
Resultatet er en modell som er kraftig nok til å levere ytelse innen personvernfiltrering på toppnivå. Samtidig er modellen liten nok til å kunne kjøres lokalt, noe som betyr at data som ennå ikke er filtrert, kan forbli på enheten, med mindre det er risiko for eksponering, i stedet for å måtte sendes til en server for anonymisering.
Personvernfilteret er en toveismodell for token-klassifisering med segmentbasert dekoding. Den tar utgangspunkt i et forhåndstrent autoregressivt sjekkpunkt og tilpasses deretter til en token-klassifikator basert på en fast taksonomi av personvernmerker. I stedet for å generere tekst token for token, merker den en inndataseanse i én omgang og dekoder deretter sammenhengende segmenter ved hjelp av en begrenset Viterbi-prosedyre.
Denne arkitekturen gir personvernfilteret noen nyttige egenskaper for bruk i produksjonsmiljøer:
- Raskt og effektivt: Alle tokenene merkes i én enkelt gjennomgang.
- Kontekstbevisst: Med språk-prior oppdages segmenter i personopplysninger, basert på omkringliggende kontekst.
- Lang kontekst: Modellen støtter opptil 128 000 tokener med kontekst.
- Kan konfigureres: Utviklere kan justere driftspunktene for å finne den rette balansen mellom gjenkallingsgrad og presisjon, avhengig av arbeidsflyt.
Modellen har totalt 1,5 milliarder parametre, hvorav 50 millioner er aktive parametre.
Personvernfilteret gir prognoser i åtte kategorier:
privat_personprivat_adresseprivat_e-postprivat_telefonprivat_urlprivat_datokontonummerhemmelig
Kategorien account_number bidrar til å skjule en lang rekke kontonumre, inkludert bankopplysninger som kredittkortnumre og bankkontonumre, mens«hemmelig» bidrar til å skjule ting som passord og API-nøkler.
Disse etikettene avkodes med BIOES-segmenttagger, hvilket bidrar til å skape renere og mer sammenhengende maskeringsgrenser.
Eksempel på inndatatekst
Emne: Oppfølging av planleggingen for 2. kvartal
Hei, Martin!
Takk igjen for møtet tidligere i dag. Jeg ønsket å følge opp med den reviderte tidsplanen for utrullingen i 2. kvartal og bekrefte at produktlanseringen er planlagt til den 18. september 2026. Til orientering er prosjektfilen oppført under 4829-1037-5581. Skulle noe endre seg for deg, kan du svare til hanna.hansen@eksempel.no eller ringe meg på +47 49491149.
Vennlig hilsen
Hanna Hansen
Tekst etter at personopplysninger er skjult
Emne: Oppfølging av planleggingen for 2. kvartal
Hei, [PRIVATE_PERSON]!
Takk igjen for møtet tidligere i dag. Jeg vil følge opp med den reviderte tidsplanen for lanseringen i 2. kvartal og bekrefte at produktlanseringen er planlagt til den [PRIVATE_DATE]. Til orientering er prosjektfilen oppført under [ACCOUNT_NUMBER]. Skulle noe endre seg for deg, kan du svare til [PRIVATE_EMAIL] eller ringe meg på [PRIVATE_PHONE].
Vennlig hilsen
[PRIVATE_PERSON]
Vi utviklet personvernfilteret i flere etapper.
Først utviklet vi en personvernstaksonomi som definerer hvilke segmenter modellen skal oppdage. Dette omfatter personlige identifikatorer, kontaktopplysninger, adresser, personopplysninger, mange ulike typer kontonumre, for eksempel kreditt- og bankopplysninger, samt hemmelige opplysninger som API-nøkler og passord.
Deretter omgjorde vi en forhåndstrent språkmodell til en toveis token-klassifikator ved å erstatte språkmodelleringsdelen med en token-klassifiseringsdel og deretter trene den videre med et overvåket klassifiseringsmål.
Så trente vi på en blanding av offentlig tilgjengelige og syntetiske data, utformet for å fange opp både realistisk tekst og komplekse personvernmønstre. I deler av det offentlige datasettet der merkingene var ufullstendige, benyttet vi modellstøttet merking og gjennomgang for å forbedre dekningen. Vi genererte også syntetiske eksempler for å øke mangfoldet på tvers av formater, sammenhenger og underkategorier av personvern.
Ved inferens blir modellens prediksjoner på token-nivå dekodet til sammenhengende sekvenser ved hjelp av begrenset sekvensdekoding. Denne tilnærmingen bevarer den forhåndstrente modellens brede språkforståelse, samtidig som den tilpasses spesielt for å oppdage brudd på personvernet.
Vi evaluerte personvernfilteret ved hjelp av standard referansetester samt ytterligere syntetiske tester og tester i chat-format, som er utformet for å teste mer krevende og kontekstavhengige scenarier.
I testen PII-Masking-300k(åpnes i et nytt vindu) får personvernfilteret en F1-score på 96 % (94,04 % presisjon og 98,04 % tilbakekalling). I en korrigert versjon av referansetesten, som tar hensyn til problemer med merking av datasettet som ble avdekket under gjennomgangen, er F1-verdien 97,43 % (96,79 % presisjon og 98,08 % tilbakekalling).
Vi fant også ut at modellen kan tilpasses på en effektiv måte. Finjustering basert på selv en liten mengde data forbedrer raskt nøyaktigheten ved domenespesifikke oppgaver, noe som øker F1-verdien fra 54 % til 96 % og nærmer seg metning på referansetesten for domeneadaptasjon som vi evaluerte.
Personvernfilteret er også utviklet for praktisk personvernfiltrering i støyende, realistisk tekst. Dette omfatter lange dokumenter, tvetydige referanser, strenger med blandede formater og programvarerelaterte hemmeligheter. Modellkortet (åpnes i et nytt vindu)beskriver også målrettet evaluering av evnen til å oppdage hemmeligheter i kodebaser, samt stresstester i flerspråklige, fiendtlige og kontekstavhengige eksempler.
Personvernfilteret er ikke et anonymiseringsverktøy, en samsvarssertifisering eller en erstatning for gjennomgang av retningslinjer i situasjoner med høy risiko. Det er en del av et bredere system for innebygd personvern.
Atferden gjenspeiler den taksonomien og de beslutningsgrensene den ble trent på. Ulike organisasjoner kan ha behov for ulike retningslinjer for gjenkjenning eller maskering, og disse retningslinjene kan kreve evaluering innenfor domenet eller ytterligere finjustering. Ytelsen kan også variere mellom språk, skriftsystemer, navnekonvensjoner og domener som skiller seg fra treningsdatasettet.
Som alle modeller kan personvernfilteret gjøre feil. Det kan overse uvanlige identifikatorer eller tvetydige private referanser, og det kan redigere enheter for mye eller for lite når konteksten er begrenset, særlig i korte sekvenser. I områder som krever høy sikkerhet, som for eksempel juridiske, medisinske og finansielle arbeidsflyter, er menneskelig gjennomgang samt fagspesifikk evaluering og finjustering fortsatt viktig.
Vi lanserer OpenAIs personvernfilter for å bidra til bedre personvern i hele økosystemet.
Modellen er tilgjengelig i dag under Apache 2.0-lisensen på Hugging Face(åpnes i et nytt vindu) og Github(åpnes i et nytt vindu). Den er beregnet på eksperimentering, tilpasning og kommersiell bruk, og kan finjusteres for ulike datadistribusjoner og personvernregler.
I tillegg til personvernmodellen deler vi dokumentasjon som omhandler modellarkitekturen, etikettklassifiseringen, innstillinger for avkoding, anbefalte bruksområder, evalueringsoppsett og kjente begrensninger, slik at alle kan få en forståelse av både hva modellen er god på og hvor den bør brukes med forsiktighet.
Personvernbeskyttelse for KI-systemer er et kontinuerlig arbeid som omfatter forskning, produktutvikling, evaluering og implementering.
Personvernfilteret representerer en retning vi mener er viktig: små, effektive modeller med banebrytende evner innenfor avgrensede oppgaver som er av praktisk betydning for KI-systemer. Vi lanserer dette fordi vi mener at infrastruktur som ivaretar personvernet bør være enklere å kontrollere, drifte, tilpasse og forbedre.
Målet vårt er at modellene skal lære om verden, ikke om enkeltpersoner. OpenAIs personvernfilter bidrar til å gjøre dette mulig.
Vi lanserer denne forhåndsvisningen av personvernfilteret for å få tilbakemeldinger fra forsknings- og personvernmiljøet og videreutvikle modellens ytelse.


