Idag lanserar vi OpenAI Privacy Filter, en modell med öppen vikt som används för att identifiera och redigera personligt identifierbar information (PII) i text. Den här versionen är en del av vår bredare satsning på att stödja ett mer motståndskraftigt programvaruekosystem genom att förse utvecklare med praktisk infrastruktur för att bygga med AI på ett säkert sätt, inklusive verktyg och modeller som gör det enklare att implementera starka integritets- och säkerhetsskydd från början.
Privacy Filter är en liten modell med banbrytande kapacitet för detektering av personuppgifter. Den är utformad för integritetsarbetsflöden med hög kapacitet och kan utföra kontextmedveten identifiering av personligt identifierbar information i ostrukturerad text. Det kan köras lokalt, vilket innebär att personligt identifierbar information kan maskeras eller avidentifieras utan att lämna din enhet. Den bearbetar långa indata effektivt och fattar beslut om maskering i en enda snabb genomgång.
På OpenAI använder vi en finjusterad version av Privacy Filter i våra egna integritetsbevarande arbetsflöden. Vi utvecklade Privacy Filter eftersom vi tror att vi med de senaste AI-funktionerna kunde höja standarden för integritet utöver det som redan fanns på marknaden. Den version av Privacy Filter som vi släpper i dag uppnår toppmodern prestanda på riktmärket PII-Masking-300k, när man korrigerar för de annoteringsproblem som vi identifierade under utvärderingen.
Med den här lanseringen kan utvecklare köra Privacy Filter i sina egna miljöer, finjustera det för sina egna användningsfall och bygga in starkare integritetsskydd i tränings-, indexerings-, loggnings- och granskningsprocesser.
Integritetsskydd i moderna AI-system bygger på mer än bara mönstermatchning. Traditionella verktyg för PII-identifiering förlitar sig ofta på deterministiska regler för format som telefonnummer och e-postadresser. De kan fungera bra för snäva användningsfall, men de missar ofta mer subtil personlig information och har svårt att förstå sammanhang.
Sekretessfilter är utvecklat med djupare språk- och kontextförståelse för mer nyanserad prestanda. Genom att kombinera god språkförståelse med ett integritetsspecifikt märkningssystem kan den identifiera ett bredare spektrum av PII i ostrukturerad text, inklusive fall där rätt beslut beror på sammanhanget. Den kan bättre skilja mellan information som bör bevaras eftersom den är offentlig, och information som bör maskeras eller sekretessbeläggas eftersom den rör en privatperson.
Resultatet blir en modell som är tillräckligt stark för att leverera banbrytande prestanda när det gäller integritetsfiltrering. Samtidigt är modellen tillräckligt liten för att kunna köras lokalt – vilket innebär att data som ännu inte har filtrerats kan stanna på enheten, med mindre risk för exponering, i stället för att behöva skickas till en server för avidentifiering.
Privacy Filter är en dubbelriktad tokenklassificeringsmodell med avkodning av textsegment. Den utgår från en förtränad autoregressiv checkpoint och anpassas sedan till en tokenklassificerare baserad på en fast taxonomi av sekretessetiketter. I stället för att generera text token för token etiketterar den en inmatningssekvens i ett enda steg och avkodar därefter sammanhängande spann med hjälp av en begränsad Viterbi-procedur.
Den här arkitekturen ger Privacy Filter några användbara egenskaper för användning i produktion:
- Snabbt och effektivt: Alla token märks i en enda framåtpassering.
- Kontextmedveten: Språkliga förkunskaper möjliggör identifiering av PII-segment baserat på omgivande kontext.
- Lång kontext: Den lanserade modellen stöder upp till 128 000 token i kontext.
- Konfigurerbar: Utvecklare kan justera inställningspunkter för att balansera recall och precision beroende på sitt arbetsflöde.
Den lanserade modellen har totalt 1,5 miljarder parametrar, varav 50 miljoner är aktiva.
Sekretessfiltret förutsäger textsegment i åtta kategorier:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
Kategorin account_number hjälper till att maskera en mängd olika kontonummer, inklusive bankinformation som kreditkortsnummer och bankkontonummer, medan secret hjälper till att maskera sådant som lösenord och API-nycklar.
Dessa etiketter avkodas med BIOES-segmenttaggar, vilket hjälper till att skapa renare och mer sammanhängande maskeringsgränser.
Exempel på inmatningstext
Ämne: Uppföljning av Q2-planering
Hej Jordan!
Tack igen för att du träffade mig tidigare idag. Jag ville återkomma med den reviderade tidsplanen för utrullningen under Q2 och bekräfta att produktlanseringen är planerad till den 18 september 2026. Som referens finns projektfilen listad under 4829-1037-5581. Om något förändras från er sida får du gärna svara här på maya.chen@example.com eller ringa mig på +1 (415) 555-0124.
Vänliga hälsningar
Maya Chen
Text efter maskering av personidentifierande uppgifter
Ämne: Uppföljning av Q2-planering
Hej [PRIVATE_PERSON]!
Tack igen för att du träffade mig tidigare idag. Jag ville återkomma med den reviderade tidsplanen för utrullningen under Q2 och bekräfta att produktlanseringen är planerad till [PRIVATE_DATE]. Som referens finns projektfilen listad under [ACCOUNT_NUMBER]. Om något förändras från er sida får du gärna svara här på [PRIVATE_EMAIL] eller ringa mig på [PRIVATE_PHONE].
Vänliga hälsningar
[PRIVATE_PERSON]
Vi utvecklade Privacy Filter i flera steg.
Först skapade vi en taxonomi för integritet som definierar vilka typer av textsegment modellen ska identifiera. Detta omfattar personliga identifieringsuppgifter, kontaktuppgifter, adresser, privata datum, många olika typer av kontonummer, såsom kredit- och bankinformation, samt hemliga värden såsom API-nycklar och lösenord.
För det andra konverterade vi en förtränad språkmodell till en dubbelriktad tokenklassificerare genom att ersätta språkmodelleringshuvudet med ett tokenklassificeringshuvud och efterträna modellen med ett övervakat klassificeringsmål.
För det tredje tränade vi på en kombination av offentligt tillgängliga och syntetiska data, utformade för att fånga både realistisk text och komplexa integritetsmönster. I delar av de offentliga data där etiketterna var ofullständiga använde vi modellstödd annotering och granskning för att förbättra täckningen. Vi genererade också syntetiska exempel för att öka variationen mellan format, sammanhang och underkategorier inom integritet.
Vid inferens omvandlas modellens tokenbaserade prediktioner till sammanhängande textsegment med hjälp av begränsad sekvensavkodning. Det här tillvägagångssättet bevarar den breda språkförståelsen hos den förtränade modellen samtidigt som den specialiseras för integritetsdetektering.
Vi utvärderade Privacy Filter på standardriktmärken och på ytterligare syntetiska utvärderingar och utvärderingar i chattstil som utformats för att testa svårare fall som är mer kontextkänsliga.
På PII-Masking-300k(öppnas i ett nytt fönster)-riktmärket uppnår Privacy Filter ett F1-värde på 96 % (94,04 % precision och 98,04 % recall). I en korrigerad version av riktmärket som tar hänsyn till problem med annotering i datamängden som identifierades under granskningen är F1-poängen 97,43 % (96,79 % precision och 98,08 % recall).
Vi fann också att modellen kan anpassas effektivt. Finjustering på även en liten mängd data förbättrar snabbt noggrannheten för domänspecifika uppgifter, ökar F1-poängen från 54 % till 96 % och närmar sig mättnad på det riktmärke för domänanpassning som vi utvärderade.
Utöver riktmärkesprestanda är Privacy Filter utformat för praktisk integritetsfiltrering i text med brus från verkliga miljöer. Detta inkluderar långa dokument, tvetydiga referenser, strängar i blandade format och programvarurelaterade hemligheter. Modellkortet (öppnas i ett nytt fönster)rapporterar också riktade utvärderingar av detektering av hemligheter i kodbaser och stresstester på flerspråkiga, motstridiga och kontextberoende exempel.
Privacy Filter är inte ett anonymiseringsverktyg, en efterlevnadscertifiering eller en ersättning för policygranskning i sammanhang där insatserna är höga. Det är en komponent i ett bredare system för integritetsskydd inbyggt i designen.
Dess beteende återspeglar etikettaxonomin och de beslutsgränser som den tränades på. Olika organisationer kan ha olika policyer för identifiering eller maskering, och dessa policyer kan kräva domänspecifik utvärdering eller ytterligare finjustering. Prestandan kan också variera mellan språk, skriftsystem, namngivningskonventioner och domäner som skiljer sig från träningsdata.
Precis som alla modeller kan Privacy Filter göra misstag. Den kan missa ovanliga identifierare eller tvetydiga privata referenser, och den kan maskera enheter för mycket eller för lite när kontexten är begränsad, särskilt i korta sekvenser. I mycket känsliga områden, såsom juridiska, medicinska och finansiella arbetsflöden, är mänsklig granskning samt domänspecifik utvärdering och finjustering fortfarande viktiga.
Vi lanserar OpenAI Privacy Filter för att stödja ett starkare integritetsskydd i hela ekosystemet.
Modellen är tillgänglig idag under Apache 2.0-licensen på Hugging Face(öppnas i ett nytt fönster) och Github(öppnas i ett nytt fönster). Den är avsedd för experimenterande, anpassning och kommersiell driftsättning, och kan finjusteras för olika datadistributioner och Integritetspolicy.
Parallellt med modellen delar vi dokumentation som omfattar modellarkitektur, etikettaxonomi, avkodningskontroller, avsedda användningsfall, utvärderingsupplägg och kända begränsningar, så att team kan förstå både vad modellen gör bra och var den bör användas med försiktighet.
Skydd av integritet för AI-system är en pågående insats inom forskning, produktdesign, utvärdering och implementering.
Privacy Filter återspeglar en riktning som vi anser är viktig: små, effektiva modeller med banbrytande kapacitet inom snävt definierade uppgifter som är viktiga för AI-system i verkliga tillämpningar. Vi släpper den eftersom vi anser att integritetsskyddande infrastruktur bör vara enklare att granska, köra, anpassa och förbättra.
Vårt mål är att modeller ska lära sig om världen, inte om enskilda individer. Privacy Filter hjälper till att göra det möjligt.
Vi släpper denna förhandsgranskning av Privacy Filter för att få feedback från forsknings- och integritetscommunityt och fortsätta att förbättra modellens prestanda.


