Overslaan naar hoofdinhoud
OpenAI

Maak kennis met OpenAI Privacyfilter

Ons geavanceerde model voor het maskeren van persoonlijk identificeerbare informatie (PII) in tekst

Bezig met laden...

Vandaag brengen we OpenAI Privacy Filter uit: een open-weight model dat persoonlijk identificeerbare informatie (PII) in tekst detecteert en redigeert. Deze release maakt deel uit van onze bredere inspanning om een veerkrachtiger software-ecosysteem te ondersteunen door ontwikkelaars praktische infrastructuur te bieden om veilig met AI te bouwen, waaronder tools en modellen waarmee sterke privacy- en beveiligingsmaatregelen vanaf het begin eenvoudiger zijn te implementeren.

Privacy Filter is een klein model met geavanceerde mogelijkheden voor het detecteren van persoonsgegevens. Het is ontworpen voor privacyworkflows met hoge doorvoer en kan contextbewuste detectie van PII in ongestructureerde tekst uitvoeren. Het kan lokaal worden uitgevoerd, wat betekent dat PII kan worden gemaskeerd of geredigeerd zonder uw machine te verlaten. Het verwerkt lange invoer efficiënt en neemt in één snelle verwerking beslissingen over redactie.

Bij OpenAI gebruiken we een op maat afgestemde versie van Privacy Filter in onze eigen workflows om privacy te beschermen. We hebben Privacy Filter ontwikkeld omdat we denken dat de nieuwste AI-mogelijkheden de lat voor privacy hoger kunnen leggen dan wat al op de markt beschikbaar is. De versie van Privacy Filter die we vandaag uitbrengen, behaalt state-of-the-art prestaties op de PII-Masking-300k-benchmark, wanneer rekening wordt gehouden met annotatieproblemen die we tijdens de evaluatie hebben vastgesteld.

Met deze release kunnen ontwikkelaars Privacy Filter in hun eigen omgevingen uitvoeren, het verfijnen voor hun eigen gebruiksscenario's en sterkere privacybescherming inbouwen in pijplijnen voor training, indexering, logging en beoordeling.

Een klein model met grensverleggende detectiecapaciteit voor persoonsgegevens

Privacybescherming in moderne AI-systemen hangt af van meer dan patroonherkenning. Traditionele PII-detectietools zijn vaak afhankelijk van deterministische regels voor indelingen zoals telefoonnummers en e-mailadressen. Ze kunnen goed werken voor specifieke gevallen, maar missen vaak subtielere persoonlijke informatie en hebben moeite met context.

Privacy Filter is ontwikkeld met een dieper taal- en contextbewustzijn voor genuanceerdere prestaties. Door sterk taalbegrip te combineren met een privacyspecifiek labelsysteem kan het een breder scala aan PII in ongestructureerde tekst detecteren, ook in gevallen waarin de juiste beslissing afhangt van de context. Het kan beter onderscheid maken tussen informatie die behouden moet blijven omdat deze openbaar is, en informatie die gemaskeerd of geredigeerd moet worden omdat deze betrekking heeft op een privépersoon.

Het resultaat is een model dat sterk genoeg is om grensverleggende prestaties op het gebied van privacyfiltering te leveren. Tegelijkertijd is het model klein genoeg om lokaal te worden uitgevoerd, wat betekent dat gegevens die nog moeten worden gefilterd op het apparaat kunnen blijven, met minder risico op blootstelling, in plaats van naar een server te moeten worden verzonden voor de-identificatie. 

Modeloverzicht

Privacy Filter is een bidirectioneel tokenclassificatiemodel met segmentdecodering. Het begint vanuit een autoregressief vooraf getraind checkpoint en wordt vervolgens aangepast tot een token-classificator voor een vaste taxonomie van privacylabels. In plaats van tekst token voor token te genereren, labelt het een invoersequentie in één keer en decodeert het vervolgens coherente segmenten met een beperkte Viterbi-procedure.

Deze architectuur geeft Privacy Filter enkele nuttige eigenschappen voor gebruik in productie:

  • Snel en efficiënt: alle tokens worden in één enkele forward pass gelabeld.
  • Contextbewust: de taalprior maakt het mogelijk om PII-segmenten te detecteren op basis van de omringende context.
  • Lange context: het uitgebrachte model ondersteunt tot 128.000 tokens context.
  • Configureerbaar: ontwikkelaars kunnen werkingspunten afstemmen om, afhankelijk van hun workflow, een afweging te maken tussen recall en precisie.

Het vrijgegeven model heeft 1,5 miljard totale parameters, waarvan 50 miljoen actieve parameters.

Privacy Filter voorspelt tekstsegmenten in acht categorieën:

  • privé_persoon
  • privé_adres
  • privé_e-mail
  • privé_telefoon
  • privé_url
  • privé_datum
  • rekening_nummer
  • geheim

De categorie account_number helpt een breed scala aan rekeningnummers te maskeren, waaronder bankgegevens zoals creditcardnummers en bankrekeningnummers, terwijl secret helpt zaken zoals wachtwoorden en API-sleutels te maskeren.

Deze labels worden gedecodeerd met BIOES span tags, wat helpt om strakkere en meer coherente maskergrenzen te produceren.

Voorbeeld van invoertekst

Onderwerp: vervolg op de planning voor het tweede kwartaal

Hallo Jordan,

Nogmaals bedankt dat je eerder vandaag tijd hebt vrijgemaakt. Ik wilde terugkomen op de bijgewerkte tijdlijn voor de uitrol in het 2e kwartaal en bevestigen dat de productlancering gepland staat voor 18 september 2026. Ter referentie staat het projectbestand vermeld onder 4829-1037-5581. Als er iets verandert aan jouw kant, stuur me dan een antwoord via maya.chen@example.com of bel me op +1 (415) 555-0124.

Groeten,

Maya Chen

Tekst na het maskeren van persoonlijke identificatiegegevens

Onderwerp: vervolg op de planning voor het tweede kwartaal

Hallo [PRIVATE_PERSON],

Nogmaals bedankt dat je eerder vandaag tijd hebt vrijgemaakt. Ik wilde terugkomen op de bijgewerkte tijdlijn voor de uitrol in het 2e kwartaal en bevestigen dat de productlancering gepland staat voor [PRIVATE_DATE]. Ter referentie staat het projectbestand vermeld onder [ACCOUNT_NUMBER]. Als er iets verandert aan jouw kant, stuur me dan een antwoord via [PRIVATE_EMAIL] of bel me op [PRIVATE_PHONE].

Groeten,

[PRIVATE_PERSON]

Hoe we het hebben gebouwd

We hebben Privacy Filter in verschillende fasen ontwikkeld.

Eerst hebben we een privacytaxonomie ontwikkeld waarin de typen segmenten worden gedefinieerd die het model moet detecteren. Dit omvat persoonlijke identificatiegegevens, contactgegevens, adressen, privédata, veel verschillende soorten rekeningnummers zoals creditcard- en bankgegevens, en geheimen zoals API-sleutels en wachtwoorden.

Ten tweede hebben we een voorgetraind taalmodel omgezet in een bidirectionele tokenclassificator door de kop voor taalmodellering te vervangen door een kop voor tokenclassificatie en het vervolgens verder te trainen met een gesuperviseerde classificatiedoelstelling. 

Ten derde hebben we getraind op een mix van openbaar beschikbare en synthetische gegevens, die bedoeld is om zowel realistische tekst als complexe privacypatronen te omvatten. In delen van de openbare gegevens waar labels onvolledig waren, hebben we door het model ondersteunde annotatie en beoordeling gebruikt om de dekking te verbeteren. We hebben ook synthetische voorbeelden gegenereerd om de diversiteit in formats, contexten en privacysubtypes te vergroten.

Bij inferentie worden de voorspellingen van het model op tokenniveau via constrained sequence decoding omgezet in samenhangende tekstfragmenten. Deze aanpak behoudt het brede taalbegrip van het voorgetrainde model en stemt het af op het detecteren van privacygevoelige informatie.

Prestaties van Privacy Filter

We hebben Privacy Filter geëvalueerd op standaardbenchmarks en op aanvullende synthetische evaluaties en evaluaties in chatstijl die zijn ontworpen om moeilijkere, contextgevoeligere gevallen te testen.

Op de PII-Masking-300k(opent in een nieuw venster)-benchmark behaalt Privacy Filter een F1-score van 96% (94,04% precisie en 98,04% recall). In een gecorrigeerde versie van de benchmark die rekening houdt met annotatieproblemen in de dataset die tijdens de review zijn vastgesteld, is de F1-score 97,43% (96,79% precisie en 98,08% recall).

We hebben ook ontdekt dat het model efficiënt kan worden aangepast. Fijnafstemming op zelfs een kleine hoeveelheid gegevens verbetert de nauwkeurigheid bij domeinspecifieke taken snel, verhoogt de F1-score van 54% naar 96% en benadert de verzadiging op de benchmark voor domeinaanpassing die we hebben geëvalueerd.

Naast benchmarkprestaties is Privacy Filter ontworpen voor praktische privacyfiltering in rommelige tekst uit de praktijk. Dat omvat lange documenten, dubbelzinnige verwijzingen, tekenreeksen in gemengde indelingen en softwaregerelateerde geheimen. De modelkaart (opent in een nieuw venster)bevat ook gerichte evaluaties van de detectie van geheimen in codebases en stresstests met meertalige, vijandige en contextafhankelijke voorbeelden.

Beperkingen

Privacy Filter is geen anonimiseringshulpmiddel, geen nalevingscertificering en geen vervanging voor beleidsbeoordeling in kritieke situaties. Het is een onderdeel van een breder privacy-by-design-systeem.

Het gedrag ervan weerspiegelt de labeltaxonomie en beslissingsgrenzen waarop het is getraind. Verschillende organisaties kunnen verschillend detectie- of maskeringsbeleid willen, en dat beleid kan evaluatie binnen het domein of verdere verfijning vereisen. De prestaties kunnen ook variëren tussen talen, schriftsystemen, naamgevingsconventies en domeinen die afwijken van de trainingsdistributie.

Zoals alle modellen kan Privacy Filter fouten maken. Het kan ongebruikelijke identificatoren of dubbelzinnige privéverwijzingen missen, en het kan entiteiten te veel of te weinig anonimiseren wanneer er beperkte context is, vooral in korte reeksen. In zeer gevoelige domeinen, zoals juridische, medische en financiële workflows, blijven menselijke beoordeling en domeinspecifieke evaluatie en verfijning belangrijk.

Beschikbaarheid

We brengen OpenAI Privacy Filter uit om sterkere privacybescherming in het hele ecosysteem te ondersteunen.

Het model is vandaag beschikbaar onder de Apache 2.0-licentie op Hugging Face(opent in een nieuw venster) en Github(opent in een nieuw venster). Het is bedoeld voor experimenten, aanpassing en commerciële implementatie, en het kan worden verfijnd voor verschillende gegevensdistributies en privacybeleid.

Naast het model delen we documentatie over de modelarchitectuur, labeltaxonomie, decodinginstellingen, beoogde gebruiksscenario's, evaluatieopzet en bekende beperkingen, zodat teams zowel kunnen begrijpen waar het model goed in is als waar het met de nodige voorzichtigheid moet worden gebruikt.

Vooruitzicht

Privacybescherming voor AI-systemen is een voortdurende inspanning op het gebied van onderzoek, productontwerp, evaluatie en implementatie.

Privacy Filter weerspiegelt één richting die volgens ons belangrijk is: kleine, efficiënte modellen met grensverleggende capaciteiten bij nauw afgebakende taken die ertoe doen voor AI-systemen in de praktijk. We brengen dit uit omdat we denken dat privacybeschermende infrastructuur eenvoudiger te inspecteren, uit te voeren, aan te passen en te verbeteren zou moeten zijn.

Ons doel is dat modellen over de wereld leren, niet over privépersonen. Privacy Filter helpt dat mogelijk te maken.

We brengen deze preview van Privacy Filter uit om feedback te krijgen van de onderzoeks- en privacycommunity en om de modelprestaties verder iteratief te verbeteren.