Predstavljamo OpenAI filter privatnosti
Naš vrhunski model za maskiranje ličnih identifikacijskih podataka (PII) u tekstu
Danas objavljujemo OpenAI Privacy Filter, model s otvorenim težinama za otkrivanje i redigovanje lično identifikacionih informacija (PII) u tekstu. Ova objava dio je našeg šireg napora da podržimo otporniji softverski ekosistem pružanjem programerima praktične infrastrukture za sigurnu izgradnju uz AI, uključujući alate i modele koji od samog početka olakšavaju implementaciju snažnih mjera zaštite privatnosti i sigurnosti.
Privacy Filter je mali model sa graničnom mogućnošću otkrivanja ličnih podataka. Dizajniran je za radne tokove privatnosti visokog protok, i može vršiti otkrivanje PII svjesno konteksta u nestrukturiranom tekstu. Može raditi lokalno, što znači da se PII može maskirati ili redigovati bez napuštanja vašeg računara. Efikasno obrađuje duge unose, donoseći odluke o redigovanju u jednom brzom prolazu.
U OpenAI-ju koristimo fino podešenu verziju Privacy Filtera u našim radnim procesima koji štite privatnost. Razvili smo Privacy Filter jer vjerujemo da smo, uz najnovije mogućnosti umjetne inteligencije, mogli podići standard privatnosti iznad onoga što je već bilo dostupno na tržištu. Verzija Privacy Filtera koju danas objavljujemo postiže vrhunske performanse na benchmarku PII-Masking-300k, kada se koriguje za probleme s anotacijom koje smo identificirali tokom evaluacije.
S ovim izdanjem, programeri mogu koristiti Privacy Filter u svojim okruženjima, prilagoditi ga svojim potrebama i ugraditi jaču zaštitu privatnosti u procese treniranja, indeksiranja, evidentiranja i pregleda.
Zaštita privatnosti u modernim AI sistemima zavisi od više od pukog prepoznavanja obrazaca. Tradicionalni alati za otkrivanje PII često se oslanjaju na deterministička pravila za formate kao što su brojevi telefona i adrese e-pošte. Mogu dobro funkcionirati za uske slučajeve, ali često propuste suptilnije lične informacije i imaju poteškoća s kontekstom.
Filter privatnosti napravljen je s boljim razumijevanjem jezika i konteksta za preciznije performanse. Kombinovanjem boljeg razumijevanja jezika sa sistemom označavanja specifičnim za privatnost, može prepoznati širi spektar PII u nestrukturiranom tekstu, uključujući slučajeve gdje ispravna odluka zavisi od konteksta. Može bolje razlikovati informacije koje treba sačuvati jer su javne, od onih koje treba maskirati ili redigovati jer se odnose na privatnu osobu.
Rezultat je model dovoljno snažan da pruži performanse filtriranja privatnosti na najvišem nivou. Istovremeno, model je dovoljno mali da se može pokretati lokalno—što znači da podaci koji još nisu filtrirani mogu ostati na uređaju, uz manji rizik od izlaganja, umjesto da se šalju na server radi deidentifikacije.
Privacy Filter je bidirekcionalni model za klasifikaciju tokena sa dekodiranjem raspona. Počinje od autoregresivno pretrenirane kontrolne tačke, a zatim se prilagođava u klasifikator tokena nad fiksnom taksonomijom oznaka privatnosti. Umjesto generisanja teksta token po token, označava ulazni niz u jednom prolazu, a zatim dekodira koherentne segmente ograničenim Viterbijevim postupkom.
Ova arhitektura daje Privacy Filteru nekoliko korisnih svojstava za upotrebu u produkciji:
- Brzo i efikasno: svi tokeni se označavaju tokom jednog prolaza unaprijed.
- Kontekstualno svjestan: jezički model omogućava otkrivanje PII raspona na osnovu okolnog konteksta.
- Dugi kontekst: objavljeni model podržava do 128.000 tokena konteksta.
- Podesivo: programeri mogu prilagoditi radne tačke kako bi uskladili prisjećanje i preciznost u skladu sa svojim tokom rada.
Objavljeni model ima ukupno 1,5 milijardi parametara, od čega je 50 miliona aktivnih parametara.
Privacy Filter predviđa opsege u osam kategorija:
privatna_osobaprivatna_adresaprivatni_emailprivatni_telefonprivate_urlprivatni_datumbroj računaTajna
Kategorija account_number pomaže maskirati širok spektar brojeva računa, uključujući bankarske podatke poput brojeva kreditnih kartica i bankovnih računa, dok secret pomaže maskirati lozinke i API ključeve.
Ove oznake se dekodiraju pomoću BIOES span oznaka, što pomaže u stvaranju jasnijih i koherentnijih granica maskiranja.
Primjer unosa teksta
Predmet: Praćenje planiranja za drugi kvartal
Zdravo Jordan,
Još jednom hvala što ste se ranije danas sastali. Želio sam se javiti s revidiranim vremenskim okvirom za uvođenje u Q2 i potvrditi da je lansiranje proizvoda zakazano za 18.09.2026. Za referencu, datoteka projekta navedena je pod brojem 4829-1037-5581. Ako se bilo šta promijeni s vaše strane, slobodno odgovorite ovdje na maya.chen@example.com ili me nazovite na +387 (33) 555-012.
Sve najbolje,
Maya Chen
Tekst nakon maskiranja ličnih identifikatora
Predmet: Praćenje planiranja za drugi kvartal
Zdravo [PRIVATE_PERSON],
Još jednom hvala što ste se ranije danas sastali. Želio sam se nadovezati s revidiranim vremenskim okvirom za uvođenje u drugom kvartalu i potvrditi da je lansiranje proizvoda zakazano za [PRIVATE_DATE]. Za referencu, datoteka projekta navedena je pod [ACCOUNT_NUMBER]. Ako se bilo šta promijeni s vaše strane, slobodno odgovorite ovdje na [PRIVATE_EMAIL] ili me pozovite na [PRIVATE_PHONE].
Najbolji,
[PRIVATE_PERSON]
Razvili smo filter privatnosti u nekoliko faza.
Prvo smo izgradili taksonomiju privatnosti koja definiše vrste raspona koje model treba detektovati. To uključuje lične identifikatore, kontakt podatke, adrese, privatne datume, mnogo različitih vrsta brojeva računa, kao što su podaci o kreditnim karticama i bankovni podaci, te tajne informacije kao što su API ključevi i lozinke.
Drugo, prethodno istrenirani jezički model smo pretvorili u dvosmjerni klasifikator tokena tako što smo zamijenili izlazni sloj za jezičko modeliranje slojem za klasifikaciju tokena i dodatno ga trenirali uz nadzirani klasifikacijski cilj.
Treće, obučavali smo model koristeći mješavinu javno dostupnih i sintetičkih podataka, osmišljenih da obuhvate realističan tekst i složene obrasce privatnosti. U dijelovima javnih podataka gdje su oznake bile nepotpune, koristili smo model za pomoć pri anotaciji i pregledu kako bismo poboljšali obuhvat. Također smo generirali sintetičke primjere kako bismo povećali raznolikost formata, konteksta i podvrsta privatnosti.
Tokom inferencije, predviđanja modela na nivou tokena dekodiraju se u koherentne raspone pomoću ograničenog dekodiranja sekvenci. Ovaj pristup čuva široko jezičko razumijevanje prethodno obučenog modela, dok ga specijalizuje za otkrivanje privatnosti.
Procijenili smo Privacy Filter na standardnim mjerilima i dodatnim sintetičkim i chat evaluacijama, osmišljenim za testiranje težih i kontekstualno osjetljivijih slučajeva.
Na mjerilu PII-Masking-300k(otvara se u novom prozoru), Privacy Filter ostvaruje F1 rezultat od 96% (94,04% preciznost i 98,04% odziv). Na ispravljenoj verziji mjerila, koja uzima u obzir probleme s anotacijama skupa podataka identificirane tokom revizije, F1 rezultat iznosi 97,43% (96,79% preciznost i 98,08% odziv).
Takođe smo otkrili da se model može efikasno prilagoditi. Fino podešavanje čak i na maloj količini podataka brzo poboljšava tačnost na zadacima specifičnim za određenu domenu, povećavajući F1 rezultat sa 54% na 96%, i približava se zasićenju na referentnom testu za prilagodbu domeni koji smo evaluirali.
Pored performansi na benchmarkovima, Privacy Filter je osmišljen za praktično filtriranje privatnosti u šumovitom tekstu iz stvarnog svijeta. To uključuje duge dokumente, dvosmislene reference, stringove mješovitog formata i tajne povezane sa softverom. Kartica modela (otvara se u novom prozoru)također izvještava o ciljanoj evaluaciji otkrivanja tajni u kodnim bazama i stres-testovima kroz višejezične, protivničke i od konteksta zavisne primjere.
Privacy Filter nije alat za anonimizaciju, certifikat usklađenosti niti zamjena za pregled politika u rizičnim situacijama. To je jedna od komponenti u širem sistemu dizajnirane privatnosti.
Njegovo ponašanje odražava taksonomiju oznaka i granice odlučivanja na kojima je treniran. Različite organizacije mogu preferirati različite politike otkrivanja ili maskiranja, a te politike mogu zahtijevati evaluaciju unutar domene ili dodatno fino podešavanje. Performanse također mogu varirati među jezicima, pismima, konvencijama imenovanja i domenama koje se razlikuju od distribucije za obuku.
Kao i svi modeli, Privacy Filter može praviti greške. Može propustiti neuobičajene identifikatore ili dvosmislene privatne reference, a može i pretjerano ili nedovoljno redigovati entitete kada je kontekst ograničen, posebno u kratkim sekvencama. U visoko osjetljivim domenama kao što su pravni, medicinski i finansijski tokovi rada, ljudska provjera te evaluacija specifična za domenu i fino podešavanje ostaju važni.
Objavljujemo OpenAI filter privatnosti kako bismo podržali jaču zaštitu privatnosti u cijelom ekosistemu.
Model je od danas dostupan pod Apache 2.0 licencom na Hugging Face(otvara se u novom prozoru) i Github(otvara se u novom prozoru). Namijenjen je za eksperimentisanje, prilagođavanje i komercijalnu primjenu, a može se fino podesiti za različite distribucije podataka i pravila privatnosti.
Uz model dijelimo dokumentaciju koja obuhvata arhitekturu modela, taksonomiju oznaka, kontrole dekodiranja, predviđene slučajeve upotrebe, postavke evaluacije i poznata ograničenja, kako bi timovi mogli razumjeti u čemu je model uspješan i gdje ga treba koristiti s oprezom.
Zaštita privatnosti u AI sistemima predstavlja kontinuiran napor u istraživanju, dizajnu proizvoda, evaluaciji i implementaciji.
Privacy Filter odražava jedan pravac za koji vjerujemo da je važan: mali, efikasni modeli s graničnim sposobnostima u usko definisanim zadacima koji su važni za stvarne AI sisteme. Objavljujemo ga jer smatramo da bi infrastruktura koja čuva privatnost trebala biti lakša za pregled, pokretanje, prilagođavanje i unapređivanje.
Naš cilj je da modeli uče o svijetu, a ne o privatnim osobama. Privacy Filter pomaže da se to ostvari.
Objavljujemo ovaj pregled funkcije Privacy Filter kako bismo dobili povratne informacije od istraživačke i privatne zajednice te dodatno poboljšali performanse modela.


