U bood nuxurka ugu muhiimsan
OpenAI

Soo bandhigista OpenAI Privacy Filter

Noocayaga heerkii ugu sarreeyay ee qariya macluumaadka lagu aqoonsan karo qofka (PII) ee qoraalka

Soo kacaya…

Maanta waxaan sii deynaynaa OpenAI Privacy Filter, oo ah nooc miisaan-furan oo lagu ogaado laguna asturo macluumaadka lagu aqoonsan karo qofka (PII) ee qoraalka. Sii deyntani waa qayb ka mid ah dadaalkeenna ballaaran ee lagu taageerayo nidaam software oo adkaysi badan annagoo siinayna horumariyeyaasha kaabayaal wax ku ool ah oo ay si ammaan ah ugu dhisaan AI, oo ay ku jiraan qalab iyo noocyo ka dhigaya ilaalinno xooggan oo asturnaanta iyo amniga ah kuwo fudud in laga hirgeliyo bilowga hore.

Privacy Filter waa nooc yar oo leh awood lagu ogaado xogta shakhsiga ee ugu casriyeysan. Waxaa loo naqshadeeyay socod-hawlaha asturnaanta ee shaqada badan, wuxuuna awood u leeyahay inuu si macnaha ku xiran u ogaado PII ku jira qoraal aan habaysnayn. Wuxuu ku shaqayn karaa gudaha qalabka, taas oo ka dhigan in PII la qarin karo ama la asturi karo iyadoo uusan ka bixin mashiinkaaga. Wuxuu si hufan u farsameeyaa gelinno dhaadheer, isagoo go'aannada asturidda ku gaadhaya hal mar oo degdeg ah.

OpenAI gudaheeda, waxaan ku isticmaalnaa nooc si gaar ah loo hagaajiyay oo ah Privacy Filter socod-hawlaheenna ilaaliya asturnaanta. Waxaan samaynay Privacy Filter sababtoo ah waxaan aaminsanahay in awoodaha AI ee ugu dambeeyay aan kor ugu qaadi karno heerka asturnaanta kana sii gudbi karno wixii hore suuqa uga jiray. Nooca Privacy Filter ee aan maanta sii deynayno waxa uu gaadhayaa waxqabad heerkii ugu sarreeyay ee cabbirka PII-Masking-300k, marka la saxo arrimaha calaamadeynta ee aan aqoonsannay intii lagu jiray qiimeynta.

Sii deyntan awgeed, horumariyeyaashu waxay ku ordi karaan Privacy Filter deegaannadooda gaarka ah, si gaar ah ayey ugu hagaajin karaan kiisaskooda adeegsiga, waxayna ku dhisi karaan ilaalinno asturnaan oo ka xooggan dhuumaha tababarka, indexing-ka, diiwaangelinta, iyo dib-u-eegista.

Nooc yar oo leh awood lagu ogaado xogta shakhsiga ee ugu casriyeysan

Ilaalinta asturnaanta ee nidaamyada AI ee casriga ahi waxay ku tiirsan tahay wax ka badan iswaafajinta qaabab. Qalabka dhaqameed ee ogaanshaha PII badanaa waxay ku tiirsan yihiin xeerar go'an oo qaabab ah sida lambarada telefoonka iyo cinwaannada iimaylka. Waxay si fiican ugu shaqayn karaan xaalado kooban, balse badanaa way seegaan macluumaad shakhsiyeed oo ka sii daahsoon waxayna ku dhibtoodaan macnaha.

Privacy Filter waxaa lagu dhisay wacyi luuqadeed iyo mid macne oo qoto dheer si loo helo waxqabad sii xeel dheer. Isagoo isku daraya faham luuqadeed oo xooggan iyo nidaam calaamadeyn gaar u ah asturnaanta, wuxuu ogaan karaa noocyo badan oo PII ah oo ku jira qoraal aan habaysnayn, oo ay ku jiraan xaalado go'aanka saxda ahi ku xiran yahay macnaha. Wuxuu si ka fiican u kala saari karaa xogta ay tahay in la ilaaliyo maadaama ay dadweyne tahay, iyo xogta ay tahay in la qariyo ama la asturo maadaama ay la xiriirto qof gaar ah.

Natiijadu waa nooc ku filan xoog oo keeni kara waxqabad sifayn asturnaan oo heer ugu casriyeysan ah. Isla markaasna, noocku waa yar yahay oo ku filan in gudaha qalabka lagu ordo–taas oo ka dhigan in xogta aan weli la sifayn ay ku sii jiri karto qalabka, iyadoo khatarta soo-gaadhistu ka yar tahay, halkii loogu diri lahaa server si aqoonsiga looga saaro. 

Dulmar nooca

Privacy Filter waa nooc kala-soocid token oo laba jiho ah oo leh span decoding. Wuxuu ka bilaabmaa meel-kayd autoregressive ah oo hore loo tababaray ka dibna waxaa loo waafajiyaa kala-soociye token oo ku shaqeeya taxanaha go'an ee calaamadaha asturnaanta. Halkii uu qoraal token token u soo saari lahaa, wuxuu hal mar ku calaamadeeyaa taxanaha gelinta ka dibna wuxuu furfuraa spans isku xidhan isagoo adeegsanaya hab Viterbi oo xaddidan.

Qaab-dhismeedkani wuxuu Privacy Filter siinayaa dhowr sifo oo waxtar u leh isticmaalka wax-soo-saarka:

  • Dheereeya oo hufan: dhammaan token-yada waxaa lagu calaamadeeyaa hal mar oo hore loo mariyo.
  • Ka warqaba macnaha: mudnaanta luuqaddu waxay u suurtogelisaa spans-ka PII in lagu ogaado iyadoo lagu salaynayo macnaha ku hareeraysan.
  • Macne-dheer: nooca la sii daayay wuxuu taageeraa ilaa 128,000 token oo macne ah.
  • La habayn karo: horumariyeyaashu waxay hagaajin karaan dhibcaha shaqada si ay isu dhaafsadaan recall iyo precision iyadoo ku xiran socod-hawshooda.

Nooca la sii daayay wuxuu leeyahay 1.5B guud ahaan parameters iyo 50M parameters firfircoon.

Privacy Filter wuxuu saadaaliyaa spans ku baahsan siddeed qaybood:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Qaybta account_number waxay ka caawisaa qarin noocyo badan oo lambarro xisaabeed ah, oo ay ku jiraan xog bangi sida lambarada kaadhka deynta iyo lambarada akoonnada bangiga, halka secret ay ka caawiso qarin waxyaabo sida furaha sirta ah iyo furayaasha API-ga.

Calaamadahan waxaa lagu furfuraa tags-ka BIOES span, taas oo ka caawisa soo saarista xuduudo qarin oo nadiifsan oo isku xidhan.

Tusaalaha qoraalka gelinta

Mawduuc: Dabagalka Qorshaynta Q2

Salaan Jordan,

Waad ku mahadsan tahay mar kale kulankii hore ee maanta. Waxaan rabay inaan dabagalo jadwalka wakhtiga ee dib loo eegay ee hirgelinta Q2 oo aan xaqiijiyo in daahfurka badeecadda loo qorsheeyay Sebteembar 18, 2026. Tixraac ahaan, faylka mashruuca waxa uu ku qoran yahay 4829-1037-5581. Haddii wax dhinacaaga iska beddelaan, si xor ah halkan uga soo jawaab maya.chen@example.com ama iga soo wac +1 (415) 555-0124.

Mahadsanid,

Maya Chen

Qoraal ka dib qarin aqoonsiyada shakhsiyeed

Mawduuc: Dabagalka Qorshaynta Q2

Salaan [PRIVATE_PERSON],

Waad ku mahadsan tahay mar kale kulankii hore ee maanta. Waxaan rabay inaan dabagalo jadwalka wakhtiga ee dib loo eegay ee hirgelinta Q2 oo aan xaqiijiyo in daahfurka badeecadda loo qorsheeyay [PRIVATE_DATE]. Tixraac ahaan, faylka mashruuca waxa uu ku qoran yahay [ACCOUNT_NUMBER]. Haddii wax dhinacaaga iska beddelaan, si xor ah halkan uga soo jawaab [PRIVATE_EMAIL] ama iga soo wac [PRIVATE_PHONE].

Mahadsanid,

[PRIVATE_PERSON]

Sida aan u dhisnay

Waxaan Privacy Filter ku horumarinay dhowr marxaladood.

Marka hore, waxaan dhisnay taxonomy asturnaan oo qeexaysa noocyada spans-ka ee noocku ay tahay inuu ogaado. Tani waxay ka kooban tahay aqoonsiyo shakhsiyeed, faahfaahinta xiriirka, cinwaanno, taariikho gaar ah, noocyo badan oo kala duwan oo lambarro akoon ah sida macluumaadka deynta iyo bangiyada, iyo siraha sida furayaasha API-ga iyo ereyada sirta ah.

Marka labaad, waxaan nooc luuqadeed oo hore loo tababaray u beddelnay kala-soociye token oo laba jiho ah annagoo ku beddelnay madaxii qaabeynta luuqadda madax kala-soocid token ah oo aan dib ugu tababarnay yool kala-soocid la kormeero. 

Marka saddexaad, waxaan ku tababarnay isku-dar xog si guud loo heli karo iyo xog macmal ah oo loogu talagalay inay qabato qoraal dhab ah iyo qaabab asturnaan oo adag. Qaybo ka mid ah xogta dadweynaha halka ay calaamaduhu ka dhammaystirnayn, waxaan adeegsanay calaamadeyn iyo dib-u-eegis uu noocku caawiyay si loo hagaajiyo daboolidda. Waxaan sidoo kale soo saarnay tusaalooyin macmal ah si loo kordhiyo kala duwanaanta qaababka, macnayaasha, iyo noocyada-hoosaadka asturnaanta.

Waqtiga inference-ka, saadaasha heerka token ee noocka waxaa loo furfuraa spans isku xidhan iyadoo la adeegsanayo sequence decoding xaddidan. Habkani wuxuu ilaaliyaa fahamka luuqadeed ee ballaaran ee noocka hore loo tababaray isagoo si gaar ah ugu takhasusinaya ogaanshaha asturnaanta.

Sida Privacy Filter u shaqeyso

Waxaan ku qiimeynay Privacy Filter cabbirro caadi ah iyo qiimeynno dheeraad ah oo macmal iyo qaab sheeko-wadaag ah oo loogu talagalay in lagu tijaabiyo xaalado adag oo xasaasi u ah macnaha.

Cabbirka PII-Masking-300k(ku furmaa daaqad cusub), Privacy Filter wuxuu gaadhayaa dhibco F1 ah oo ah 96% (94.04% precision iyo 98.04% recall). Nooc la saxay oo cabbirka ah oo xisaabta ku daraya arrimaha calaamadeynta xog-ururinta ee la aqoonsaday intii dib-u-eegistu socotay, dhibcaha F1 waa 97.43% (96.79% precision iyo 98.08% recall).

Waxaan sidoo kale ogaanay in noocka si hufan loo waafajin karo. Fine-tuning xataa xog yar ayaa si dhaqso ah u hagaajisa saxnaanta hawlaha gaar u ah domain-ka, iyadoo kordhinaysa dhibcaha F1 laga bilaabo 54% ilaa 96% kuna dhowaanaysa saturation cabbirka domain-adaption ee aan qiimeynay.

Marka laga soo tago waxqabadka cabbirrada, Privacy Filter waxaa loo naqshadeeyay sifayn asturnaan oo wax ku ool ah oo loogu talagalay qoraal buuq badan oo dunida dhabta ah. Taas waxaa ka mid ah dukumiintiyo dhaadheer, tixraacyo madmadow leh, xarfo qaab isku dhafan ah, iyo siraha la xiriira software-ka. kaadhka nooca (ku furmaa daaqad cusub)wuxuu sidoo kale soo tebiyey qiimeyn bartilmaameed ah oo ku saabsan ogaanshaha siraha gudaha codebases iyo stress tests ku baahsan tusaalooyin luuqado badan leh, kuwa iska caabin leh, iyo kuwo ku xiran macnaha.

Xaddidaadaha

Privacy Filter ma aha qalab anonymization ah, shahaado u hoggaansanaan, ama beddelka dib-u-eegista siyaasadda ee xaaladaha khatarta sare leh. Waa hal qayb oo ku jirta nidaam ballaaran oo privacy-by-design ah.

Dhaqankiisu wuxuu ka tarjumayaa taxonomy-ga calaamadaha iyo xuduudaha go'aanka ee lagu tababaray. Ururro kala duwan ayaa laga yaabaa inay rabaan siyaasado kala duwan oo ogaansho ama qarin ah, siyaasadahaasna waxay u baahan karaan qiimeyn gudaha domain-ka ah ama fine-tuning dheeraad ah. Waxqabadku sidoo kale wuu kala duwanaan karaa luuqadaha, qoraallada, hababka magac bixinta, iyo domain-yada ka duwan qaybinta tababarka.

Sida nooc kasta, Privacy Filter wuu khaldami karaa. Wuxuu seegi karaa aqoonsiyo aan caadi ahayn ama tixraacyo gaar ah oo madmadow leh, wuxuuna si xad dhaaf ah ama si ka yar intii loo baahnaa u asturi karaa entities marka macnuhu kooban yahay, gaar ahaan taxanayaal gaagaaban. Domain-yada xasaasiyadda sare leh sida socod-hawlaha sharci, caafimaad, iyo maaliyadeed, dib-u-eegista bini'aadamka iyo qiimeyn iyo fine-tuning gaar u ah domain-ka weli waa muhiim.

Helitaanka

Waxaan sii deynaynaa OpenAI Privacy Filter si loo taageero ilaalinno asturnaan oo ka xooggan guud ahaan nidaamka.

Noocka waxa maanta lagu heli karaa shatiga Apache 2.0 ee Hugging Face(ku furmaa daaqad cusub) iyo Github(ku furmaa daaqad cusub). Waxaa loogu talagalay tijaabo, habayn, iyo hirgelin ganacsi, waxaana si gaar ah loogu hagaajin karaa qaybinta xogta kala duwan iyo siyaasadaha asturnaanta.

Noocka la socda, waxaan wadaagaynaa dukumiintiyo daboolaya qaab-dhismeedka noocka, taxonomy-ga calaamadaha, xakamaynta decoding-ka, kiisaska adeegsiga loogu talagalay, habaynta qiimeynta, iyo xaddidaadaha la yaqaan, si kooxuhu u fahmaan labadaba waxa noocku si fiican u qabto iyo halka ay tahay in si taxaddar leh loogu isticmaalo.

Horay u eegid

Ilaalinta asturnaanta ee nidaamyada AI waa dadaal socda oo ku baahsan cilmi-baaris, naqshadaynta badeecadda, qiimeyn, iyo hirgelin.

Privacy Filter wuxuu ka tarjumayaa hal jiho oo aan aaminsanahay inay muhiim tahay: noocyo yaryar oo hufan oo leh awood ugu casriyeysan hawlo si cidhiidhi ah loo qeexay oo muhiim u ah nidaamyada AI ee dunida dhabta ah. Waxaan u sii deynaynaa sababtoo ah waxaan u malaynaynaa in kaabayaasha ilaaliya asturnaantu ay tahay inay fududaato in la baaro, la ordo, la waafajiyo, lana hagaajiyo.

Hadafkeennu waa in noocyadu wax ka bartaan dunida, ee aysan wax ka baran shakhsiyaad gaar ah. Privacy Filter waxay ka caawisaa in taas suuragal laga dhigo.

Waxaan sii deynaynaa horudhacan Privacy Filter si aan uga helno jawaab-celin bulshada cilmi-baarista iyo asturnaanta oo aan sii wadno hagaajinta waxqabadka noocka.