Představujeme OpenAI Privacy Filter
Náš špičkový model pro maskování osobních identifikačních údajů (PII) v textu
Dnes vydáváme OpenAI Privacy Filter, model s otevřenými váhami pro detekci a redakci osobně identifikovatelných informací (PII) v textu. Tato verze je součástí našeho širšího úsilí o podporu odolnějšího softwarového ekosystému tím, že vývojářům poskytujeme praktickou infrastrukturu pro bezpečné vytváření aplikací s využitím umělé inteligence, včetně nástrojů a modelů , které usnadňují implementaci silné ochrany soukromí a zabezpečení od samého začátku.
Privacy Filter je malý model se špičkovými schopnostmi detekce osobních údajů. Je navržen pro vysoce výkonné pracovní postupy ochrany soukromí a je schopen provádět kontextovou detekci PII v nestrukturovaném textu. Může běžet lokálně, což znamená, že osobní údaje lze maskovat nebo redigovat, aniž byste museli opustit svůj počítač. Efektivně zpracovává dlouhé vstupy a rozhodování o redakci provádí rychle a v jednom kroku.
V OpenAI používáme v našich vlastních pracovních postupech zachovávajících soukromí vyladěnou verzi Privacy Filter. Vyvinuli jsme Privacy Filter, protože věříme, že s nejnovějšími funkcemi umělé inteligence bychom mohli zvýšit standard soukromí nad rámec toho, co je již na trhu. Verze Privacy Filter, kterou dnes vydáváme, dosahuje v benchmarku PII-Masking-300k špičkového výkonu, a to po opravě problémů s anotacemi, které jsme zjistili během hodnocení.
Díky této verzi mohou vývojáři spouštět filtr soukromí ve vlastním prostředí, doladit ho pro vlastní použití a zabudovat silnější ochranu soukromí do trénovacích, indexovacích, protokolovacích a kontrolních procesů.
Ochrana soukromí v moderních systémech AI závisí na více než jen porovnávání vzorů. Tradiční nástroje pro detekci osobních údajů často spoléhají na deterministická pravidla pro formáty, jako jsou telefonní čísla a e-mailové adresy. Mohou dobře fungovat v úzce vymezených případech, ale často přehlížejí subtilnější osobní údaje a mají potíže s kontextem.
Privacy Filter je postaven pro preciznější výkon na hlubším povědomí o jazyce a kontextu. Kombinací důkladného porozumění jazyku se systémem označování zaměřeným na ochranu soukromí dokáže detekovat širší škálu osobních údajů v nestrukturovaném textu, včetně případů, kdy správné rozhodnutí závisí na kontextu. Dokáže lépe rozlišovat mezi informacemi, které mají být zachovány, protože jsou veřejné, a informacemi, které mají být maskovány nebo redigovány, protože se týkají soukromé osoby.
Výsledkem je model, který je dostatečně silný na to, aby dokázal filtrovat osobní údaje na špičkové úrovni. Zároveň je model dostatečně malý na to, aby se dal spustit lokálně – což znamená, že data, která dosud nebyla filtrována, mohou zůstat v zařízení s menším rizikem odhalení, místo aby byla odesílána na server za účelem anonymizace.
Filtr soukromí je obousměrný model klasifikace tokenů s dekódováním rozsahu. Začíná z autoregresního předtrénovaného kontrolního bodu a poté se adaptuje na klasifikátora tokenů nad pevně danou taxonomií štítků soukromí. Místo generování textu označuje token po tokenu vstupní sekvenci v jednom průchodu a poté dekóduje koherentní rozsahy pomocí omezené Viterbiho algoritmu.
Tato architektura dává nástroji Privacy Filter několik užitečných vlastností pro produkční nasazení:
- Rychlý a efektivní: všechny tokeny jsou označeny během jediného průchodu dopředu.
- Vnímání kontextu: jazykový model umožňuje detekci rozsahů osobních údajů na základě okolního kontextu.
- Dlouhý kontext: vydaný model podporuje až kontext se 128 000 tokenů.
- Konfigurovatelný: vývojáři mohou upravovat provozní body a vyvažovat míru zachycení a přesnost podle svého pracovního postupu.
Vydaný model má celkem 1,5 miliardy parametrů, z toho 50 milionů aktivních parametrů.
Filtr soukromí předpovídá pokrytí osmi kategorií:
soukromá osobasoukromá adresasoukromý e-mailsoukromý_telefonsoukromá adresa URLsoukromé_datumčíslo účtutajemství
Kategorie číslo účtu pomáhá maskovat širokou škálu čísel účtů, včetně bankovních údajů, jako jsou čísla platebních karet a čísla bankovních účtů, zatímco kategorie tajemství pomáhá maskovat například hesla a API klíče.
Tyto popisky se dekódují pomocí značek rozsahu BIOES, což pomáhá vytvářet čistší a konzistentnější hranice maskování.
Příklad vstupního textu
Předmět: Následné kroky k plánování za 2. čtvrtletí
Ahoj Jordane,
Ještě jednou díky za dnešní setkání. rád bych navázal s upraveným harmonogramem zavedení ve 2. čtvrtletí a potvrdil, že uvedení produktu na trh je naplánováno na 18. září 2026. Pro informaci, soubor projektu je veden pod číslem 4829-1037-5581. Kdyby se u tebe cokoli změnilo, klidně napiš na maya.chen@example.com nebo mi zavolej na +1 415 555 0124.
S pozdravem
Maya Chen
Text po zamaskování osobních identifikátorů
Předmět: Následné kroky k plánování za 2. čtvrtletí
Ahoj [PRIVATE_PERSON],
Ještě jednou díky za dnešní setkání. Chtěli jsem navázat s upraveným harmonogramem zavedení ve 2. čtvrtletí a potvrdit, že uvedení produktu na trh je naplánováno na [PRIVATE_DATE]. Pro informaci, soubor projektu je uveden pod číslem [ACCOUNT_NUMBER]. Pokud se u vás cokoli změní, klidně odpovězte na tento e-mail [PRIVATE_EMAIL] nebo mi zavolejte na [PRIVATE_PHONE].
S pozdravem
[PRIVATE_PERSON]
Privacy Filter jsme vyvíjeli v několika fázích.
Nejprve jsme vytvořili taxonomii ochrany soukromí, která určuje typy rozsahů, které má model detekovat. Patří sem osobní identifikátory, kontaktní údaje, adresy, soukromá data, mnoho různých druhů čísel účtů, jako jsou kreditní a bankovní informace, a tajné informace, jako jsou klíče API a hesla.
Za druhé jsme převedli předtrénovaný jazykový model na obousměrný klasifikátor tokenů nahrazením hlavičky modelování jazyka hlavičkou klasifikace tokenů a jejím následným trénováním pomocí cíle kontrolované klasifikace.
Za třetí, trénovali jsme na kombinaci veřejně dostupných a syntetických dat, která byla navržena tak, aby zachytila jak realistický text, tak i složité vzorce ochrany osobních údajů. V částech veřejných dat, kde popisky nebyly úplné, jsme ke zlepšení pokrytí použili anotaci s asistencí modelu a kontrolu. Také jsme vytvořili syntetické příklady pro zvýšení rozmanitosti v rámci různých formátů, kontextů a dílčích typů ochrany soukromí.
Během inference jsou predikce modelu na úrovni tokenů dekódovány do souvislých úseků pomocí omezeného sekvenčního dekódování. Tento přístup zachovává široké jazykové porozumění předtrénovaného modelu, zatímco jej specializuje na detekci narušení soukromí.
Hodnotili jsme Privacy Filter dle standardních srovnávacích testů a dle dodatečných syntetických hodnocení a hodnocení ve stylu chatu navržených k testování obtížnějších případů citlivějších na kontext.
V benchmarku PII-Masking-300k(otevře se v novém okně) dosahuje Privacy Filter skóre F1 96 % (94,04 % přesnost a 98,04 % úplnost). U opravené verze benchmarku, která zohledňuje problémy s anotacemi datové sady identifikované během kontroly, je skóre F1 97,43 % (96,79 % přesnost a 98,08 % úplnost).
Zjistili jsme také, že model lze efektivně upravovat. Dolaďování i na malém množství dat rychle zvyšuje přesnost u úloh specifických pro danou oblast, zvyšuje skóre F1 z 54 % na 96 % a blíží se saturaci na benchmarku adaptace na danou oblast, který jsme vyhodnocovali.
Nad rámec benchmarkového výkonu je Privacy Filter navržen pro praktické filtrování soukromí v textu z reálného světa, který je plný nepřesností. Sem patří dlouhé dokumenty, nejednoznačné odkazy, řetězce se smíšeným formátováním a tajné údaje související se softwarem. Karta modelu (otevře se v novém okně)také uvádí cílené hodnocení detekce tajných údajů v kódových bázích a zátěžové testy napříč vícejazyčnými, nepříznivými a na kontextu závislými příklady.
Privacy Filter není nástrojem pro anonymizaci, certifikací souladu ani náhradou za kontrolu zásad v prostředích s vysokým rizikem. Je to jedna součást širšího systému ochrany soukromí podle zásad návrhu.
Jeho chování odráží taxonomii popisků a hranice rozhodování, na kterých byl trénován. Různé organizace mohou vyžadovat různé zásady detekce nebo maskování a tyto zásady mohou vyžadovat vyhodnocení v dané doméně nebo další doladění. Výkon se může také lišit v rámci různých jazyků, písem, konvencí pro pojmenování a domén, které se liší od tréninkového rozložení.
Jako všechny modely může i Privacy Filter dělat chyby. Může přehlédnout neobvyklé identifikátory nebo nejednoznačné soukromé odkazy a v případě omezeného kontextu může skrýt příliš mnoho nebo naopak příliš málo subjeltů, zejména v krátkých sekvencích. Ve vysoce citlivých oblastech, jako jsou právní, lékařské a finanční postupy, je i nadále důležitá lidská kontrola, hodnocení a jemné doladění specifické pro danou oblast.
Uvádíme OpenAI Privacy Filter, který posiluje ochranu soukromí v rámci různých ekosystémů.
Model je ode dneška k dispozici pod licencí Apache 2.0 na Hugging Face(otevře se v novém okně) a Github(otevře se v novém okně). Je určen k experimentování, přizpůsobení a komerčnímu nasazení a lze jej doladit pro různé distribuce dat a zásady ochrany soukromí.
Spolu s modelem sdílíme také dokumentaci zahrnující architekturu modelu, taxonomii štítků, nastavení dekódování, zamýšlené případy použití, způsob vyhodnocení a známá omezení, aby týmy rozuměly tomu, co model umí dobře i kde by měl být používán obezřetně.
Ochrana soukromí systémů umělé inteligence je průběžným úsilím v oblasti výzkumu, návrhu produktů, hodnocení a nasazení.
Privacy Filter představuje jeden ze směrů, které považujeme za důležité: malé, efektivní modely s průkopnickými schopnostmi v úzce vymezených úlohách, které jsou důležité pro reálné systémy AI. Zveřejňujeme tyto skutečnosti, protože si myslíme, že infrastruktura chránící soukromí by měla být snazší kontrolovat, provozovat, přizpůsobovat a zlepšovat.
Naším cílem je, aby se modely učily o světě, ne o soukromých osobách. Privacy Filter nám v tom pomáhá.
Tuto předběžnou verzi Privacy Filter zveřejňujeme proto, abychom získali zpětnou vazbu od výzkumné komunity i komunity zaměřené na ochranu soukromí a mohli dál vylepšovat výkon modelu.


