Sari la conținutul principal
OpenAI

Prezentăm Filtrul de confidențialitate OpenAI

Modelul nostru de ultimă generație pentru mascarea datelor de identificare cu caracter personal (PII) din text

Se încarcă…

Astăzi lansăm Filtrul de confidențialitate OpenAI, un model cu pondere publică pentru detectarea și ascunderea datelor de identificare cu caracter personal (PII) din text, cu o acuratețe de ultimă generație. Această lansare face parte din efortul nostru mai amplu de a sprijini un ecosistem informatic mai rezilient prin punerea la dispoziția dezvoltatorilor a unei infrastructuri practice pentru dezvoltarea cu inteligență artificială în condiții de siguranță, inclusiv instrumente și modele care facilitează implementarea încă de la început a unor măsuri de protecție solide privind confidențialitatea și securitatea.

Filtrul de confidențialitate este un model mic cu capacitate de detectare de vârf a datelor cu caracter personal. Este conceput pentru fluxuri de lucru de confidențialitate cu randament ridicat și poate detecta informațiile personale în funcție de context în text nestructurat. Poate rula local, ceea ce înseamnă că informațiile pot fi mascate sau ascunse fără a părăsi dispozitivul. Procesează eficient datele de intrare de mari dimensiuni, luând decizii legate de ascunderea informațiilor într-o singură etapă rapidă.

La OpenAI, folosim o versiune optimizată a Filtrului de confidențialitate în propriile noastre fluxuri de lucru care păstrează confidențialitatea. Am dezvoltat Filtrul de confidențialitate deoarece credem că, datorită celor mai recente capacități ale inteligenței artificiale, am putea ridica standardul de confidențialitate dincolo de ceea ce exista deja pe piață. Versiunea Filtrului de confidențialitate pe care o lansăm astăzi atinge performanțe de ultimă generație în cadrul testului de performanță PII-Masking-300k, după ce s-au remediat problemele legate de adnotări pe care le-am identificat în timpul evaluării.

Odată cu această versiune, dezvoltatorii pot rula Filtrul de confidențialitate în propriile medii, îl pot adapta la propriile scenarii de utilizare și pot integra măsuri mai solide de protecție a confidențialității în fluxurile de lucru de antrenare, indexare, înregistrare și revizuire.

Un model mic cu capacitate de vârf de detectare a datelor cu caracter personal

Protecția confidențialității în sistemele moderne de inteligență artificială nu se rezumă doar la recunoașterea tiparelor. Instrumentele tradiționale de detectare a datelor de identificare cu caracter personal se bazează adesea pe reguli deterministe pentru formate precum numerele de telefon și adresele de poștă electronică. Acestea pot funcționa bine în cazuri specifice, dar adesea nu reușesc să identifice informațiile personale mai subtile și au dificultăți în interpretarea contextului.

Filtrul de confidențialitate este construit cu o înțelegere mai profundă a limbajului și a contextului, pentru o performanță mai nuanțată. Prin combinarea unei înțelegeri solide a limbajului cu un sistem de etichetare specific confidențialității, poate detecta o gamă mai largă de date de identificare cu caracter personal în text nestructurat, inclusiv cazuri în care decizia corectă depinde de context. Poate face o distincție mai clară între informațiile care trebuie păstrate deoarece sunt publice și cele care trebuie ascunse sau cenzurate deoarece se referă la o persoană fizică.

Rezultatul este un model suficient de puternic pentru a oferi o performanță de filtrare a confidențialității de nivel de vârf. În același timp, modelul este suficient de mic pentru a fi rulat local, ceea ce înseamnă că datele care încă nu au fost filtrate pot rămâne pe dispozitiv, cu un risc mai redus de expunere, în loc să fie trimise către un server pentru anonimizare. 

Prezentare generală a modelului

Filtrul de confidențialitate este un model bidirecțional de clasificare a tokenurilor, cu decodare pe intervale. Procesul pornește de la un punct de control autoregresiv preantrenat și este apoi adaptat pentru a deveni un clasificator de tokenuri pe baza unei taxonomii fixe de etichete de confidențialitate. În loc să genereze text token cu token, etichetează o secvență de intrare dintr-o singură trecere și apoi decodează segmente coerente folosind o procedură Viterbi constrânsă.

Această arhitectură oferă Filtrului de confidențialitate câteva caracteristici utile pentru utilizarea în producție:

  • Rapid și eficient toate tokenurile sunt etichetate într-o singură trecere.
  • Sensibil la context: modelul lingvistic anterior permite detectarea secvențelor de informații personale pe baza contextului înconjurător.
  • Context lung: modelul lansat acceptă până la 128.000 de tokenuri de context.
  • Configurabil: dezvoltatorii pot ajusta punctele de operare pentru a echilibra preluarea și precizia, în funcție de fluxul lor de lucru.

Modelul lansat are un total de 1,5 miliarde de parametri, cu 50 de milioane de parametri activi.

Filtrul de confidențialitate prezice segmente din opt categorii:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Categoria account_number ajută la mascarea unei mari varietăți de numere de cont, inclusiv informații bancare, precum numere de card de credit și numere de cont bancar, în timp ce secret ajută la mascarea unor elemente precum parole și chei API.

Aceste etichete sunt decodificate cu etichete de segment BIOES, ceea ce ajută la obținerea unor limite de mascare mai ordonate și mai coerente.

Exemplu de text introdus

Subiect: Continuare privind planificarea pentru T2

Salut, Andrei,

Îți mulțumim din nou pentru întâlnirea de mai devreme de astăzi. Am vrut să revin cu calendarul revizuit pentru implementarea din T2 și să confirm că lansarea produsului este programată pentru 18 septembrie 2026. Pentru referință, fișierul proiectului este listat sub 4829-1037-5581. Dacă se schimbă ceva din partea ta, nu ezita să-mi răspunzi aici la maia.ban@example.com sau să mă suni la +1 (415) 555-0124.

Toate cele bune,

Maia Ban

Text după mascarea identificatorilor personali

Subiect: Continuare privind planificarea pentru T2

Salut, [PRIVATE_PERSON],

Îți mulțumim din nou pentru întâlnirea de mai devreme de astăzi. Am vrut să revin cu calendarul revizuit pentru implementarea din T2 și să confirm că lansarea produsului este programată pentru [PRIVATE_DATE]. Pentru referință, fișierul proiectului este listat sub [ACCOUNT_NUMBER]. Dacă se schimbă ceva din partea ta, nu ezita să răspunzi aici la [PRIVATE_EMAIL] sau să mă suni la [PRIVATE_PHONE].

Toate cele bune,

[PRIVATE_PERSON]

Cum a fost construit

Am dezvoltat Filtrul de confidențialitate în mai multe etape.

Mai întâi, am construit o taxonomie a confidențialității care definește tipurile de segmente pe care modelul ar trebui să le detecteze. Aceasta include identificatori personali, date de contact, adrese, date private, numeroase tipuri diferite de numere de cont, cum ar fi informații despre carduri de credit și informații bancare, precum și secrete, cum ar fi chei API și parole.

În al doilea rând, am transformat un model lingvistic preantrenat într-un clasificator bidirecțional de token, înlocuind capul de modelare lingvistică cu un cap de clasificare a tokenurilor și antrenându-l ulterior cu un obiectiv de clasificare supravegheată. 

În al treilea rând, am efectuat antrenarea pe baza unui amestec de date disponibile public și sintetice, conceput pentru a surprinde atât text realist, cât și tipare dificile legate de confidențialitate. În părțile din datele publice în care etichetele erau incomplete, am folosit adnotare și revizuire asistate de model pentru a îmbunătăți acoperirea. Am generat și exemple sintetice pentru a crește diversitatea la nivelul formatelor, contextelor și subtipurilor de confidențialitate.

În etapa de inferență, predicțiile la nivel de token ale modelului sunt decodificate în segmente coerente folosind decodarea constrânsă a secvenței. Această abordare păstrează capacitatea de înțelegere generală a limbajului modelului preantrenat, specializându-l în același timp pentru detectarea încălcărilor confidențialității.

Cum funcționează Filtrul de confidențialitate

Am evaluat Filtrul de confidențialitate pe baza unor teste de performanță standard și pe evaluări suplimentare sintetice și de tip conversație, concepute pentru a testa cazuri mai dificile și mai sensibile la context.

Pe testul de performanță PII-Masking-300k(se deschide într-o fereastră nouă), Filtrul de confidențialitate obține un scor F1 de 96% (94,04% precizie și 98,04% recuperare). Într-o versiune corectată a testului de performanță, care ține cont de problemele de adnotare din setul de date identificate în timpul revizuirii, scorul F1 este de 97,43% (96,79% precizie și 98,08% recuperare).

De asemenea, am constatat că modelul poate fi adaptat eficient. Optimizarea chiar și pe un volum redus de date îmbunătățește rapid precizia în cazul sarcinilor specifice domeniului, crescând scorul F1 de la 54% la 96% și apropiindu-se de saturație în cadrul testului de performanță pentru adaptarea la domeniu pe care l-am evaluat.

Dincolo de performanța în testele de performanță, Filtrul de confidențialitate este conceput pentru filtrarea practică a informațiilor sensibile în texte zgomotoase din lumea reală. Acestea includ documente lungi, referințe ambigue, șiruri în formate mixte și secrete legate de programe informatice. Fișa de model(se deschide într-o fereastră nouă) raportează, de asemenea, evaluări specifice privind detectarea secretelor în baze de cod și teste de rezistență pe exemple multilingve, adversariale și dependente de context.

Limitări

Filtrul de confidențialitate nu este un instrument de anonimizare, o certificare de conformitate sau un substitut pentru revizuirea politicilor în contexte cu miză mare. Este o componentă a unui sistem mai amplu de protecție a confidențialității încă din faza de proiectare.

Comportamentul acestuia reflectă taxonomia etichetelor și limitele de decizie pe baza cărora a fost antrenat. Diferite organizații pot avea nevoie de politici diferite de detectare sau de mascare, iar aceste politici pot necesita o evaluare în cadrul domeniului sau o ajustare suplimentară. Performanța poate varia, de asemenea, în funcție de limbi, sisteme de scriere, convenții de denumire și domenii care diferă de distribuția de antrenare.

Ca toate modelele, Filtrul de confidențialitate poate face greșeli. Poate omite identificatori neobișnuiți sau referințe private ambigue și poate masca excesiv sau insuficient entitățile atunci când contextul este limitat, mai ales în secvențele scurte. În domenii cu sensibilitate ridicată, cum ar fi fluxurile de lucru juridice, medicale și financiare, revizuirea umană, precum și evaluarea specifică la nivel de domeniu și adaptarea rămân importante.

Disponibilitate

Lansăm Filtrul de confidențialitate OpenAI pentru a implementa măsuri de protecție mai bune ale confidențialității în tot ecosistemul.

Modelul este disponibil începând de azi sub licența Apache 2.0 pe Hugging Face(se deschide într-o fereastră nouă) și pe GitHub(se deschide într-o fereastră nouă). Este destinat experimentării, personalizării și implementării comerciale, iar apoi poate fi adaptat pentru distribuții de date diferite și politici de confidențialitate diferite.

Pe lângă model, punem la dispoziție documentația care acoperă arhitectura modelului, taxonomia etichetelor, controalele de decodificare, exemplele de utilizare, modul de evaluare și limitările cunoscute, astfel încât echipele să înțeleagă atât punctele forte ale modelului, cât și situațiile în care acesta trebuie utilizat cu prudență.

Privind în viitor

Protejarea confidențialității în cadrul sistemelor de inteligență artificială reprezintă un efort continuu în domeniile cercetării, proiectării produselor, evaluării și implementării.

Filtrul de confidențialitate reflectă o direcție pe care o considerăm importantă: modele mici și eficiente, cu performanțe de vârf în sarcini strict definite, care sunt relevante pentru sistemele de inteligență artificială din lumea reală. Îl lansăm deoarece considerăm că infrastructura care protejează confidențialitatea ar trebui să fie mai ușor de inspectat, rulat, adaptat și îmbunătățit.

Scopul nostru este ca modelele să învețe despre lume, nu despre indivizi privați. Filtrul de confidențialitate contribuie la realizarea acestui obiectiv.

Lansăm această versiune preliminară a Filtrului de confidențialitate pentru a primi opinii și sugestii de la comunitatea de cercetare și confidențialitate și pentru a continua să îmbunătățim performanța modelului.