Przedstawiamy OpenAI Privacy Filter
Nasz najnowocześniejszy model do maskowania informacji zawartych w tekście umożliwiających identyfikację osób (PII)
Dzisiaj udostępniamy OpenAI Privacy Filter – model z otwartymi wagami do wykrywania i redagowania danych osobowych zawartych w tekście umożliwiających identyfikację osoby (PII). To wydanie jest częścią naszych szerszych działań na rzecz wspierania bardziej odpornego ekosystemu oprogramowania poprzez zapewnienie deweloperom praktycznej infrastruktury do bezpiecznego tworzenia rozwiązań z wykorzystaniem AI, w tym narzędzi i modeli, które ułatwiają wdrażanie silnych zabezpieczeń w zakresie prywatności i bezpieczeństwa.
Privacy Filter to niewielki model pionierski potrafiący wykrywać dane osobowe. Został zaprojektowany z myślą o procesach ochrony prywatności o wysokiej przepustowości i umożliwia wykrywanie danych PII z uwzględnieniem kontekstu w tekście nieustrukturyzowanym. Może działać lokalnie, co oznacza, że informacje PII mogą być maskowane lub redagowane na Twoim urządzeniu. Sprawnie przetwarza długie dane wejściowe, podejmując decyzje o redagowaniu w ramach jednego, szybkiego przebiegu.
W OpenAI korzystamy z dostosowanej wersji Privacy Filter w naszych procesach roboczych chroniących prywatność. Stworzyliśmy Privacy Filter, ponieważ wierzymy, że dzięki najnowszym możliwościom AI możemy podnieść standard ochrony prywatności ponad poziom rozwiązań dostępnych na rynku. Wersja Privacy Filter, którą udostępniamy dzisiaj, osiąga najlepsze wyniki w teście porównawczym PII-Masking-300k, po uwzględnieniu problemów z adnotacjami, które zauważyliśmy podczas oceny.
Z tej wersji Privacy Filter można korzystać we własnych środowiskach, precyzyjnie dostosowywać ją do własnych przypadków użycia oraz wdrażać skuteczniejsze mechanizmy ochrony prywatności dzięki procesom trenowania, indeksowania, rejestrowania i przeglądu.
Ochrona prywatności w nowoczesnych systemach AI nie polega tylko na dopasowywaniu wzorców. Tradycyjne narzędzia do wykrywania danych osobowych często opierają się na regułach deterministycznych dla formatów, takich jak numery telefonów i adresy e-mail. Mogą one sprawdzać się dobrze w szczególnych przypadkach, ale często też pomijają bardziej subtelne informacje osobiste i mają trudności z uwzględnianiem kontekstu.
Privacy Filter został opracowany z myślą o głębszym rozumieniu języka oraz kontekstu i działa w bardziej wyrafinowany sposób. Rozwiązanie to łączy zaawansowane rozumienie języka z systemem etykietowania ukierunkowanym na ochronę prywatności, może wykrywać szerszy zakres danych PII w tekście nieustrukturyzowanym, w tym przypadki, w których podjęcie właściwej decyzji zależy od kontekstu. Potrafi lepiej rozróżniać informacje, które powinny zostać zachowane, ponieważ są publiczne, od informacji, które powinny zostać zamaskowane lub ukryte, ponieważ dotyczą osoby prywatnej.
Dzięki temu nasz model jest wystarczająco skuteczny, aby zapewniać pionierską wydajność filtrowania pod kątem prywatności. Jednocześnie jest on na tyle mały, że nie wymaga przesyłania danych na serwer i można go uruchamiać lokalnie – dlatego też dane, które nie zostały jeszcze przefiltrowane, mogą pozostać na urządzeniu, co zmniejsza ryzyko ich ujawnienia.
Privacy Filter to dwukierunkowy model klasyfikacji tokenów z dekodowaniem zakresów. Jego obsługę zaczyna się od autoregresyjnego punktu kontrolnego po treningu wstępnym, a następnie następuje dostosowywanie do klasyfikatora tokenów w ramach ustalonej taksonomii etykiet prywatności. Zamiast generowania tekstu token po tokenie oznacza on sekwencję wejściową w jednym przebiegu, a następnie dekoduje spójne zakresy za pomocą ograniczonej procedury Viterbiego.
Ta architektura zapewnia Privacy Filter kilka użytecznych cech do zastosowań produkcyjnych:
- Szybki i wydajny: wszystkie tokeny są oznaczane w jednym przebiegu.
- Uwzględnianie kontekstu: priorytet językowy umożliwia wykrywanie fragmentów PII na podstawie otaczającego kontekstu.
- Długi kontekst: udostępniony model obsługuje do 128 000 tokenów kontekstu.
- Konfigurowanie: programiści mogą dostosowywać opcje, aby osiągnąć kompromis między czułością a precyzją w zależności od procesu pracy.
Udostępniony model ma łącznie 1,5 mld parametrów, z czego 50 mln to parametry aktywne.
Filtr prywatności przewiduje zakresy w ośmiu kategoriach:
private_personprivate_addressprivate_emailprivate_phoneprivate_urlprivate_dateaccount_numbersecret
Kategoria account_number pomaga maskować wiele różnych numerów kont, w tym dane bankowe, takie jak numery kart kredytowych i numery rachunków bankowych, natomiast secret pomaga maskować takie elementy jak hasła i klucze API.
Te etykiety są dekodowane za pomocą tagów rozpiętości BIOES, co pomaga uzyskać czystsze i bardziej spójne granice maskowania.
Przykładowy tekst wejściowy
Temat: Podsumowanie planowania na 2. kwartał
Cześć Jordan,
Jeszcze raz dziękuję za dzisiejsze spotkanie. Przekazuję zaktualizowany harmonogram wdrożenia w 2. kwartale i potwierdzam, że premiera produktu jest zaplanowana na 18 września 2026 r. Plik projektu jest opatrzony numerem 4829-1037-5581. Jeśli nastąpiły jakieś zmiany z Twojej strony, odpowiedz na adres maya.chen@example.com lub zadzwoń do mnie pod numer +1 (415) 555-0124.
Pozdrawiam,
Maya Chen
Tekst po ukryciu danych identyfikacyjnych
Temat: Podsumowanie planowania na 2. kwartał
Cześć [PRIVATE_PERSON],
Jeszcze raz dziękuję za dzisiejsze spotkanie. Przekazuję zaktualizowany harmonogram wdrożenia w 2. kwartale i potwierdzam, że premiera produktu jest zaplanowana na [PRIVATE_DATE]. Plik projektu jest opatrzony numerem [ACCOUNT_NUMBER]. Jeśli nastąpiły jakieś zmiany z Twojej strony, odpowiedz na adres [PRIVATE_EMAIL] lub zadzwoń do mnie pod numer [PRIVATE_PHONE].
Pozdrawiam,
[PRIVATE_PERSON]
Privacy Filter opracowaliśmy w kilku etapach.
Najpierw stworzyliśmy klasyfikację prywatności, która definiuje typy fragmentów, które model powinien wykrywać. Obejmuje to identyfikatory osobowe, dane kontaktowe, adresy, prywatne daty, wiele różnych rodzajów numerów kont, takich jak informacje o kartach kredytowych i dane bankowe, a także tajne dane, takie jak klucze API i hasła.
Po drugie, przekształciliśmy wstępnie wytrenowany model językowy w dwukierunkowy klasyfikator tokenów, zastępując głowicę modelowania językowego głowicą klasyfikacji tokenów i poddając go dalszemu trenowaniu z użyciem nadzorowanego celu klasyfikacyjnego.
Po trzecie, trenowaliśmy na danych publicznie dostępnych i syntetycznych, które obejmowały realistyczne teksty oraz trudne wzorce związane z prywatnością. W danych publicznych, w których etykiety były niekompletne, wykorzystaliśmy wspomagane przez model funkcje adnotacji i weryfikacji, aby zwiększyć kompletność. Wygenerowaliśmy również syntetyczne przykłady, aby zwiększyć różnorodność w zakresie formatów, kontekstów i podtypów prywatności.
Na etapie inferencji predykcje modelu na poziomie tokenów są dekodowane do spójnych segmentów za pomocą dekodowania sekwencji z ograniczeniami. To podejście pozwala zachować szerokie rozumienie języka przez wstępnie wytrenowany model, jednocześnie specjalizując go do wykrywania fraz związanych z prywatnością.
Oceniliśmy Privacy Filter z użyciem standardowych testów oraz dodatkowych syntetycznych ocen i ocenach w stylu czatu, zaprojektowanych do testowania trudniejszych przypadków, bardziej wrażliwych na kontekst.
W teście porównawczym PII-Masking-300k(otwiera nowe okno) Privacy Filter osiąga wynik F1 na poziomie 96% (94,04% precyzji i 98,04% czułości). W poprawionej wersji testu porównawczego, która uwzględnia problemy z adnotacjami w zbiorze danych zidentyfikowane podczas przeglądu, wynik F1 wynosi 97.43% (96.79% precyzji i 98.08% czułości).
Zauważyliśmy również, że model można precyzyjnie dostosować. Konfiguracja precyzyjna nawet na niewielkiej ilości danych szybko poprawia dokładność w zadaniach specyficznych dla danej dziedziny, zwiększając wynik F1 z 54% do 96%, i zbliża się do nasycenia w benchmarku adaptacji do domeny, który ocenialiśmy.
Poza wynikami w testach porównawczych Privacy Filter został zaprojektowany z myślą o praktycznym filtrowaniu pod kątem prywatności w zaszumionym tekście pochodzącym z rzeczywistych zastosowań. Są to długie dokumenty, niejednoznaczne odwołania, ciągi w mieszanych formatach oraz klucze tajne oprogramowania. Karta modelu (otwiera nowe okno)zawiera również ukierunkowaną ocenę wykrywania kluczy tajnych w bazach kodu oraz testy warunków skrajnych na przykładach wielojęzycznych, adwersarialnych i zależnych od kontekstu.
Privacy Filter nie jest narzędziem do anonimizacji, certyfikatem zgodności ani substytutem przeglądu zasad w sytuacjach wysokiego ryzyka. Jest to jeden z elementów szerszego systemu ochrony prywatności wdrażanej już na etapie projektowania.
Jego zachowanie odzwierciedla taksonomię etykiet i granice decyzyjne, na których został wytrenowany. Różne organizacje mogą potrzebować różnych zasad dotyczących wykrywania lub maskowania, a zasady te mogą wymagać oceny w danej dziedzinie lub dalszej konfiguracji precyzyjnej. Wydajność może być inna w zależności od języków, systemów pisma, konwencji nazewnictwa i dziedzin, które różnią się od rozkładu danych treningowych.
Jak wszystkie modele, Privacy Filter może popełniać błędy. Może nie wykrywać nietypowych identyfikatorów lub niejednoznacznych odwołań do danych prywatnych, a także maskować jednostki w zbyt dużym lub zbyt małym stopniu, gdy kontekst jest zbyt ubogi, zwłaszcza w krótkich sekwencjach. W kontekstach o wysokiej wrażliwości, takich jak procesy prawne, medyczne i finansowe, weryfikacja przez człowieka oraz ocena dostosowana dla danej dziedziny i dostrajanie nadal mają istotne znaczenie.
Privacy Filter wprowadzamy, aby zapewnić lepszą ochronę prywatności w całym ekosystemie.
Model jest już dziś dostępny na licencji Apache 2.0 w serwisach Hugging Face(otwiera nowe okno) i Github(otwiera nowe okno). Jest on przeznaczony do eksperymentowania, dostosowywania i wdrożeń komercyjnych, a także może być precyzyjnie dostrajany do różnych rozkładów danych i zasad prywatności.
Wraz z modelem udostępniamy dokumentację obejmującą jego architekturę, taksonomię etykiet, mechanizmy sterowania dekodowaniem, zamierzone przypadki użycia, konfigurację ewaluacji oraz znane ograniczenia, aby zespoły mogły zrozumieć zarówno to, w czym model sprawdza się dobrze, jak i to, gdzie należy go stosować ostrożnie.
Ochrona prywatności w systemach AI to proces obejmujący badania, projektowanie produktów, ocenę i wdrażanie.
Privacy Filter powstał na bazie jednej z potrzeb, którą uważamy za istotną: niezbędne są małe, wydajne modele o pionierskich możliwościach realizujące wąsko zdefiniowane zadania, które są istotne w kontekście rzeczywistych systemów AI. Udostępniamy go, ponieważ uważamy, że infrastruktura chroniąca prywatność powinna być łatwiejsza do sprawdzania, uruchamiania, dostosowywania i ulepszania.
Naszym celem jest, aby modele poznawały świat, a nie dane osób prywatnych. Privacy Filter pomaga zrealizować to założenie.
Przekazujemy w Wasze ręce tę wersję Privacy Filter, aby uzyskać opinie od społeczności zajmującej się analizą i ochroną prywatności, które to dane pomogą dalej poprawiać wydajność modelu.


