Aqbeż għall-kontenut prinċipali
OpenAI

22 ta’ April 2026

RiċerkaRilaxxSigurtà

Introduzzjoni ta’ OpenAI Privacy Filter

Il-mudell tagħna tal-ogħla livell biex jaħbi informazzjoni personali identifikabbli (PII) fit-test

Qed jillowdja…

Illum qed noħorġu OpenAI Privacy Filter, mudell open-weight biex jidentifika u jirredaġi informazzjoni personali identifikabbli (PII) fit-test. Dan ir-rilaxx huwa parti mill-isforz usa’ tagħna biex nappoġġjaw ekosistema tas-software aktar reżiljenti billi nipprovdu lill-iżviluppaturi infrastruttura prattika biex jibnu bl-AI b’mod sigur, inklużi għodod u mudelli li jagħmlu protezzjonijiet qawwija tal-privatezza u s-sigurtà aktar faċli biex jiġu implimentati mill-bidu.

Privacy Filter huwa mudell żgħir b’kapaċità fruntiera għad-detezzjoni ta’ data personali. Huwa mfassal għal flussi tax-xogħol tal-privatezza b’throughput għoli, u kapaċi jwettaq detezzjoni tal-PII konxja tal-kuntest f’test mhux strutturat. Jista’ jopera lokalment, li jfisser li l-PII tista’ tiġi moħbija jew irredatta mingħajr ma titlaq mill-apparat tiegħek. Jipproċessa inputs twal b’mod effiċjenti, u jieħu deċiżjonijiet ta’ redazzjoni f’pass wieħed u veloċi.

F’OpenAI, nużaw verżjoni rfinata ta’ Privacy Filter fil-flussi tax-xogħol tagħna stess li jippreservaw il-privatezza. Żviluppajna Privacy Filter għax nemmnu li bl-aħħar kapaċitajiet tal-AI, nistgħu ngħollu l-istandard tal-privatezza lil hinn minn dak li kien diġà fis-suq. Il-verżjoni ta’ Privacy Filter li qed noħorġu llum tilħaq prestazzjoni tal-ogħla livell fuq il-benchmark PII-Masking-300k, meta kkoreġuta għall-kwistjonijiet ta’ annotazzjoni li identifikajna waqt l-evalwazzjoni.

B’dan ir-rilaxx, l-iżviluppaturi jistgħu jħaddmu Privacy Filter fl-ambjenti tagħhom stess, jirfinawh għall-każijiet ta’ użu tagħhom stess, u jibnu protezzjonijiet tal-privatezza aktar b’saħħithom f’pipelines ta’ taħriġ, indiċjar, logging, u reviżjoni.

Mudell żgħir b’kapaċità fruntiera għad-detezzjoni ta’ data personali

Il-protezzjoni tal-privatezza f’sistemi moderni tal-AI tiddependi fuq aktar minn tqabbil ta’ mudelli. Għodod tradizzjonali tad-detezzjoni tal-PII spiss jiddependu fuq regoli deterministiċi għal formati bħal numri tat-telefon u indirizzi tal-email. Jistgħu jaħdmu tajjeb għal każijiet limitati, iżda ħafna drabi jitilfu informazzjoni personali aktar sottili u jiffaċċjaw diffikultà bil-kuntest.

Privacy Filter huwa mibni b’għarfien aktar profond tal-lingwa u tal-kuntest għal prestazzjoni aktar sfumata. Billi jgħaqqad fehim qawwi tal-lingwa ma’ sistema ta’ ttikkettar speċifika għall-privatezza, jista’ jidentifika firxa usa’ ta’ PII f’test mhux strutturat, inklużi każijiet fejn id-deċiżjoni t-tajba tiddependi fuq il-kuntest. Jista’ jiddistingwi aħjar bejn informazzjoni li għandha tinżamm għax hija pubblika, u informazzjoni li għandha tiġi moħbija jew irredatta għax tirrelata ma’ individwu privat.

Ir-riżultat huwa mudell li huwa b’saħħtu biżżejjed biex jagħti prestazzjoni ta’ filtrazzjoni tal-privatezza fil-livell fruntiera. Fl-istess ħin, il-mudell huwa żgħir biżżejjed biex jitħaddem lokalment–li jfisser li data li għadha ma ġietx iffiltrata tista’ tibqa’ fuq l-apparat, b’inqas riskju ta’ esponiment, minflok ma jkollha tintbagħat lil server għat-tneħħija tal-identità. 

Ħarsa ġenerali lejn il-mudell

Privacy Filter huwa mudell bidirezzjonali ta’ klassifikazzjoni ta’ token b’dekodifikazzjoni ta’ span. Jibda minn checkpoint awtoregressiv imħarreġ minn qabel u mbagħad jiġi adattat f’klassifikatur ta’ token fuq tassonomija fissa ta’ labels tal-privatezza. Minflok jiġġenera test token b’token, jittikketta sekwenza ta’ input f’pass wieħed u mbagħad jiddekodifika spans koerenti bi proċedura Viterbi ristretta.

Din l-arkitettura tagħti lil Privacy Filter xi proprjetajiet utli għall-użu fil-produzzjoni:

  • Veloċi u effiċjenti: it-tokens kollha jiġu ttikkettati f’pass wieħed ’il quddiem.
  • Konxju tal-kuntest: il-prijorità tal-lingwa tippermetti li spans ta’ PII jiġu identifikati abbażi tal-kuntest ta’ madwarhom.
  • Kuntest twil: il-mudell rilaxxat jappoġġja sa 128,000 token ta’ kuntest.
  • Konfigurabbli: l-iżviluppaturi jistgħu jaġġustaw il-punti operattivi biex jibbilanċjaw recall u precision skont il-fluss tax-xogħol tagħhom.

Il-mudell rilaxxat għandu 1.5B parametri totali b’50M parametri attivi.

Privacy Filter ibassar spans f’tmien kategoriji:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Il-kategorija account_number tgħin taħbi varjetà wiesgħa ta’ numri ta’ kont, inkluża informazzjoni bankarja bħal numri tal-karti tal-kreditu u numri ta’ kont bankarju, filwaqt li secret jgħin jaħbi affarijiet bħal passwords u API keys.

Dawn il-labels jiġu dekodifikati b’tags ta’ span BIOES, li jgħin biex jipproduċi limiti ta’ masking aktar nodfa u aktar koerenti.

Eżempju ta’ test ta’ input

Suġġett: Segwitu tal-Ippjanar tal-Q2

Hi Jordan,

Grazzi mill-ġdid talli ltqajna aktar kmieni llum. Ridt insegwi bit-timeline riveduta għat-tnedija tal-Q2 u nikkonferma li t-tnedija tal-prodott hija skedata għat-18 ta’ Settembru 2026. Bħala referenza, il-fajl tal-proġett huwa elenkat taħt 4829-1037-5581. Jekk jinbidel xi ħaġa min-naħa tiegħek, tħossokx skomdu twieġeb hawn fuq maya.chen@example.com jew ċemplili fuq +1 (415) 555-0124.

Tislijiet,

Maya Chen

Test wara l-maskar tal-identifikaturi personali

Suġġett: Segwitu tal-Ippjanar tal-Q2

Hi [PRIVATE_PERSON],

Grazzi mill-ġdid talli ltqajna aktar kmieni llum. Ridt insegwi bit-timeline riveduta għat-tnedija tal-Q2 u nikkonferma li t-tnedija tal-prodott hija skedata għal [PRIVATE_DATE]. Bħala referenza, il-fajl tal-proġett huwa elenkat taħt [ACCOUNT_NUMBER]. Jekk jinbidel xi ħaġa min-naħa tiegħek, tħossokx skomdu twieġeb hawn fuq [PRIVATE_EMAIL] jew ċemplili fuq [PRIVATE_PHONE].

Tislijiet,

[PRIVATE_PERSON]

Kif bnejnieh

Żviluppajna Privacy Filter f’diversi stadji.

L-ewwel, bnejna tassonomija tal-privatezza li tiddefinixxi t-tipi ta’ spans li l-mudell għandu jidentifika. Dan jinkludi identifikaturi personali, dettalji ta’ kuntatt, indirizzi, dati privati, ħafna tipi differenti ta’ numri ta’ kont bħal informazzjoni ta’ kreditu u bankarja, u sigrieti bħal API keys u passwords.

It-tieni, ikkonvertejna mudell tal-lingwa mħarreġ minn qabel f’klassifikatur bidirezzjonali ta’ token billi ssostitwejna l-head tal-immudellar tal-lingwa b’head ta’ klassifikazzjoni ta’ token u għamilnilu post-training b’objettiv ta’ klassifikazzjoni sorveljata. 

It-tielet, ħarriġna fuq taħlita ta’ data pubblikament disponibbli u sintetika mfassla biex taqbad kemm test realistiku kif ukoll mudelli diffiċli tal-privatezza. F’partijiet mid-data pubblika fejn il-labels kienu inkompleti, użajna annotazzjoni assistita mill-mudell u reviżjoni biex intejbu l-kopertura. Ġġenerajna wkoll eżempji sintetiċi biex inżidu d-diversità fil-formati, kuntesti, u sottotipi tal-privatezza.

Fil-ħin tal-inference, it-tbassir fil-livell tat-token tal-mudell jiġi dekodifikat fi spans koerenti bl-użu ta’ dekodifikazzjoni ristretta tas-sekwenza. Dan l-approċċ iżomm il-fehim wiesa’ tal-lingwa tal-mudell imħarreġ minn qabel filwaqt li jispeċjalizzah għad-detezzjoni tal-privatezza.

Kif jaħdem Privacy Filter

Evalwajna lil Privacy Filter fuq benchmarks standard u fuq evalwazzjonijiet sintetiċi addizzjonali u stil ta’ chat maħsuba biex jittestjaw każijiet aktar diffiċli u aktar sensittivi għall-kuntest.

Fuq il-benchmark PII-Masking-300k(jinfetaħ f’tieqa ġdida), Privacy Filter jilħaq punteġġ F1 ta’ 96% (94.04% precision u 98.04% recall). Fuq verżjoni kkoreġuta tal-benchmark li tqis problemi ta’ annotazzjoni fid-dataset identifikati waqt ir-reviżjoni, il-punteġġ F1 huwa 97.43% (96.79% precision u 98.08% recall).

Sibna wkoll li l-mudell jista’ jiġi adattat b’mod effiċjenti. Il-fine-tuning anke fuq ammont żgħir ta’ data jtejjeb malajr l-eżattezza fuq kompiti speċifiċi għad-dominju, u jżid il-punteġġ F1 minn 54% għal 96% u joqrob lejn is-saturazzjoni fuq il-benchmark ta’ adattament għad-dominju li evalwajna.

Minbarra l-prestazzjoni fuq benchmarks, Privacy Filter huwa mfassal għal filtrazzjoni prattika tal-privatezza f’test storbjuż tad-dinja reali. Dan jinkludi dokumenti twal, referenzi ambigwi, strings b’format imħallat, u sigrieti relatati mas-software. Is-skeda -mudell (jinfetaħ f’tieqa ġdida)tirrapporta wkoll evalwazzjoni mmirata fuq id-detezzjoni ta’ sigrieti f’codebases u stress tests fuq eżempji multilingwi, avversarji, u dipendenti fuq il-kuntest.

Limitazzjonijiet

Privacy Filter mhuwiex għodda ta’ anonimizzazzjoni, ċertifikazzjoni ta’ konformità, jew sostitut għal reviżjoni tal-politika f’ambjenti ta’ importanza għolja. Huwa komponent wieħed f’sistema usa’ ta’ privatezza by design.

L-imġiba tiegħu tirrifletti t-tassonomija tal-labels u l-konfini tad-deċiżjoni li fuqhom tħarreġ. Organizzazzjonijiet differenti jistgħu jkunu jridu politiki differenti ta’ detezzjoni jew masking, u dawk il-politiki jistgħu jeħtieġu evalwazzjoni fid-dominju jew fine-tuning ulterjuri. Il-prestazzjoni tista’ wkoll tvarja bejn lingwi, skripts, konvenzjonijiet ta’ ismijiet, u oqsma li huma differenti mid-distribuzzjoni tat-taħriġ.

Bħall-mudelli kollha, Privacy Filter jista’ jagħmel żbalji. Jista’ jitlef identifikaturi mhux komuni jew referenzi privati ambigwi, u jista’ jirredaġi żżejjed jew inqas milli suppost entitajiet meta l-kuntest ikun limitat, speċjalment f’sekwenzi qosra. F’oqsma b’sensittività għolja bħal flussi tax-xogħol legali, mediċi, u finanzjarji, ir-reviżjoni umana u l-evalwazzjoni u l-fine-tuning speċifiċi għad-dominju jibqgħu importanti.

Disponibbiltà

Qed noħorġu OpenAI Privacy Filter biex nappoġġjaw protezzjonijiet tal-privatezza aktar b’saħħithom fl-ekosistema kollha.

Il-mudell huwa disponibbli llum taħt il-liċenzja Apache 2.0 fuq Hugging Face(jinfetaħ f’tieqa ġdida) u Github(jinfetaħ f’tieqa ġdida). Huwa maħsub għall-esperimentazzjoni, il-kustomizzazzjoni, u d-deployment kummerċjali, u jista’ jiġi rfinat għal distribuzzjonijiet differenti tad-data u politiki tal-privatezza.

Flimkien mal-mudell, qed naqsmu dokumentazzjoni li tkopri l-arkitettura tal-mudell, it-tassonomija tal-labels, il-kontrolli tad-dekodifikazzjoni, il-każijiet ta’ użu maħsuba, l-istruttura tal-evalwazzjoni, u l-limitazzjonijiet magħrufa, sabiex it-timijiet ikunu jistgħu jifhmu kemm x’jagħmel tajjeb il-mudell kif ukoll fejn għandu jintuża b’attenzjoni.

Ħarsa ’l quddiem

Il-protezzjoni tal-privatezza għas-sistemi tal-AI hija sforz kontinwu fir-riċerka, id-disinn tal-prodott, l-evalwazzjoni, u d-deployment.

Privacy Filter jirrifletti direzzjoni waħda li nemmnu li hija importanti: mudelli żgħar u effiċjenti b’kapaċità fruntiera f’kompiti definiti b’mod strett li huma importanti għal sistemi tal-AI fid-dinja reali. Qed noħorġuh għax naħsbu li l-infrastruttura li tippreserva l-privatezza għandha tkun aktar faċli biex tiġi spezzjonata, imħaddma, adattata, u mtejba.

L-għan tagħna huwa li l-mudelli jitgħallmu dwar id-dinja, mhux dwar individwi privati. Privacy Filter jgħin biex dan ikun possibbli.

Qed noħorġu din il-preview ta’ Privacy Filter biex nirċievu feedback mill-komunità tar-riċerka u tal-privatezza u nkomplu nittejbu l-prestazzjoni tal-mudell.