Léim go dtí an príomhábhar
OpenAI

OpenAI Privacy Filter á thabhairt isteach

Ár samhail den scoth chun faisnéis inaitheanta phearsanta (PII) i dtéacs a mhascadh

Ag lódáil…

Inniu táimid ag scaoileadh OpenAI Privacy Filter, samhail meáchain oscailte chun faisnéis inaitheanta phearsanta (PII) i dtéacs a bhrath agus a cheilt. Tá an scaoileadh seo mar chuid dár n-iarracht níos leithne chun éiceachóras bogearraí níos athléimní a thacú trí bhonneagar praiticiúil a chur ar fáil d’fhorbróirí chun tógáil le IS go sábháilte, lena n-áirítear uirlisí agus samhlacha a fhágann go bhfuil cosaintí láidre príobháideachais agus slándála níos fusa a chur i bhfeidhm ón tús.

Is samhail bheag é Privacy Filter le cumas teorainn i mbrath sonraí pearsanta. Tá sé deartha le haghaidh sreafaí oibre príobháideachais ard-tréchuir, agus tá sé in ann PII a bhrath i dtéacs neamhstruchtúrtha ar bhealach atá feasach ar chomhthéacs. Is féidir é a rith go háitiúil, rud a chiallaíonn gur féidir PII a mhascadh nó a cheilt gan do mheaisín a fhágáil. Próiseálann sé ionchuir fhada go héifeachtúil, ag déanamh cinntí ceiltithe go tapa in aon phas amháin.

Ag OpenAI, bainimid úsáid as leagan mionchoigeartaithe de Privacy Filter inár sreafaí oibre féin a chaomhnaíonn príobháideachas. D’fhorbraíomar Privacy Filter mar go gcreidimid go bhféadfaimis, leis na cumais IS is déanaí, an caighdeán príobháideachais a ardú níos faide ná an méid a bhí ar fáil sa mhargadh cheana. Baineann an leagan de Privacy Filter atá á scaoileadh againn inniu feidhmíocht den scoth amach ar thagarmharc PII-Masking-300k, nuair a cheartaítear é do shaincheisteanna anótála a d’aithníomar le linn na meastóireachta.

Leis an scaoileadh seo, is féidir le forbróirí Privacy Filter a rith ina dtimpeallachtaí féin, é a mhionchoigeartú dá gcásanna úsáide féin, agus cosaintí príobháideachais níos láidre a thógáil isteach i bpíblínte oiliúna, innéacsaithe, logála agus athbhreithnithe.

Samhail bheag le cumas teorainn i mbrath sonraí pearsanta

Braitheann cosaint príobháideachais i gcórais IS nua-aimseartha ar níos mó ná meaitseáil patrún. Is minic a bhraitheann uirlisí traidisiúnta braite PII ar rialacha cinntitheacha d’fhormáidí amhail uimhreacha gutháin agus seoltaí ríomhphoist. Féadfaidh siad oibriú go maith i gcásanna cúnga, ach is minic a chailleann siad faisnéis phearsanta níos caolchúisí agus bíonn siad ag streachailt leis an gcomhthéacs.

Tá Privacy Filter tógtha le feasacht níos doimhne ar theanga agus ar chomhthéacs chun feidhmíocht níos nuansaithe a bhaint amach. Trí thuiscint láidir teanga a chomhcheangal le córas lipéadaithe atá sonrach don phríobháideachas, is féidir leis raon níos leithne PII a bhrath i dtéacs neamhstruchtúrtha, lena n-áirítear cásanna ina mbraitheann an cinneadh ceart ar an gcomhthéacs. Is fearr is féidir leis idirdhealú a dhéanamh idir faisnéis ba chóir a chaomhnú toisc go bhfuil sí poiblí, agus faisnéis ba chóir a mhascadh nó a cheilt toisc go mbaineann sí le duine príobháideach.

Is é an toradh ná samhail atá láidir go leor chun feidhmíocht scagtha príobháideachais ar leibhéal teorainn a sholáthar. Ag an am céanna, tá an tsamhail beag go leor le rith go háitiúil—rud a chiallaíonn gur féidir sonraí nach bhfuil scagtha fós fanacht ar an ngléas, le níos lú riosca nochta, seachas iad a sheoladh chuig freastalaí chun dí-aitheantas a bhaint astu. 

Forbhreathnú ar an tsamhail

Is samhail aicmithe téacschomharthaí déthreoch í Privacy Filter le díchódú réise. Tosaíonn sí ó sheicphointe réamhoilte uathaischéimnitheach agus ansin déantar í a oiriúnú ina haicmitheoir téacschomharthaí thar thacsanomaíocht sheasta de lipéid phríobháideachais. In ionad téacs a ghiniúint téacschomhartha de réir téacschomhartha, lipéadaíonn sí seicheamh ionchuir in aon phas amháin agus ansin díchódaíonn sí réisí comhleanúnacha le nós imeachta srianta Viterbi.

Tugann an ailtireacht seo cúpla airí úsáideacha do Privacy Filter lena úsáid i dtáirgeadh:

  • Tapa agus éifeachtúil: lipéadaítear gach téacschomhartha in aon phas ar aghaidh amháin.
  • Feasach ar chomhthéacs: cumasaíonn an réamhchlaonadh teanga réisí PII a bhrath bunaithe ar an gcomhthéacs mórthimpeall.
  • Comhthéacs fada: tacaíonn an tsamhail scaoilte le suas le 128,000 téacschomhartha comhthéacs.
  • Inchumraithe: is féidir le forbróirí pointí oibriúcháin a thiúnadh chun cothromaíocht a dhéanamh idir aisghairm agus beachtas ag brath ar a sreabhadh oibre.

Tá 1.5B paraiméadar san iomlán ag an tsamhail scaoilte agus 50M paraiméadar gníomhach.

Tuarann Privacy Filter réisí thar ocht gcatagóir:

  • private_person
  • private_address
  • private_email
  • private_phone
  • private_url
  • private_date
  • account_number
  • secret

Cabhraíonn an chatagóir account_number le réimse leathan uimhreacha cuntais a mhascadh, lena n-áirítear eolas baincéireachta amhail uimhreacha cártaí creidmheasa agus uimhreacha cuntas bainc, agus cabhraíonn secret le rudaí ar nós pasfhocal agus eochracha API a mhascadh.

Díchódaítear na lipéid seo le clibeanna réise BIOES, rud a chabhraíonn teorainneacha masctha níos glaine agus níos comhleanúnaí a tháirgeadh.

Sampla téacs ionchuir

Ábhar: Leanúint suas ar phleanáil R2

Dia duit Jordan,

Go raibh maith agat arís as bualadh linn níos luaithe inniu. Theastaigh uaim leanúint suas leis an amlíne leasaithe do chur i bhfeidhm R2 agus a dheimhniú go bhfuil seoladh an táirge sceidealta don 18 Meán Fómhair 2026. Mar thagairt, tá comhad an tionscadail liostaithe faoi 4829-1037-5581. Má athraíonn aon rud ar do thaobhsa, bíodh leisce ort freagra a thabhairt anseo ag maya.chen@example.com nó glaoch orm ag +1 (415) 555-0124.

Le dea-mhéin,

Maya Chen

Téacs tar éis aitheantóirí pearsanta a mhascadh

Ábhar: Leanúint suas ar phleanáil R2

Dia duit [PRIVATE_PERSON],

Go raibh maith agat arís as bualadh linn níos luaithe inniu. Theastaigh uaim leanúint suas leis an amlíne leasaithe do chur i bhfeidhm R2 agus a dheimhniú go bhfuil seoladh an táirge sceidealta do [PRIVATE_DATE]. Mar thagairt, tá comhad an tionscadail liostaithe faoi [ACCOUNT_NUMBER]. Má athraíonn aon rud ar do thaobhsa, bíodh leisce ort freagra a thabhairt anseo ag [PRIVATE_EMAIL] nó glaoch orm ag [PRIVATE_PHONE].

Le dea-mhéin,

[PRIVATE_PERSON]

Mar a thógamar é

D’fhorbraíomar Privacy Filter i roinnt céimeanna.

Ar dtús, thógamar tacsanomaíocht phríobháideachais a shainíonn na cineálacha réise ba cheart don tsamhail a bhrath. Áirítear leis seo aitheantóirí pearsanta, sonraí teagmhála, seoltaí, dátaí príobháideacha, go leor cineálacha éagsúla uimhreacha cuntais amhail faisnéis chreidmheasa agus bhaincéireachta, agus rúin amhail eochracha API agus pasfhocail.

Ar an dara dul síos, rinneamar samhail réamhoilte samhaltú teanga a thiontú ina haicmitheoir téacschomharthaí déthreoch trí cheann aicmithe téacschomharthaí a chur in ionad an chinn samhaltú teanga agus é a iar-oiliúint le cuspóir aicmithe faoi mhaoirseacht. 

Ar an tríú dul síos, rinneamar oiliúint ar mheascán de shonraí poiblí agus sonraí sintéiseacha a dearadh chun téacs réalaíoch agus patrúin phríobháideachais dheacra araon a ghabháil. I gcodanna den sonraí poiblí ina raibh lipéid neamhiomlán, d’úsáideamar anótáil agus athbhreithniú le cúnamh samhla chun an clúdach a fheabhsú. Ghin muid samplaí sintéiseacha freisin chun éagsúlacht a mhéadú thar fhormáidí, comhthéacsanna agus fochineálacha príobháideachais.

Ag am tátail, déantar réisí comhleanúnacha a dhíchódú ó thuar leibhéal téacschomhartha na samhla trí úsáid a bhaint as díchódú seichimh srianta. Caomhnaíonn an cur chuige seo an tuiscint leathan teanga atá ag an tsamhail réamhoilte agus í á speisialú le haghaidh braite príobháideachais.

Mar a fheidhmíonn Privacy Filter

Rinneamar meastóireacht ar Privacy Filter ar thagarmharcanna caighdeánacha agus ar mheastóireachtaí breise sintéiseacha agus i stíl comhrá a dearadh chun cásanna níos deacra agus níos íogaire don chomhthéacs a thástáil.

Ar an tagarmharc PII-Masking-300k(osclaíonn i bhfuinneog nua), baineann Privacy Filter scór F1 de 96% amach (94.04% beachtas agus 98.04% aisghairm). Ar leagan ceartaithe den tagarmharc a thugann cuntas ar shaincheisteanna anótála sa tacar sonraí a aithníodh le linn athbhreithnithe, is é an scór F1 ná 97.43% (96.79% beachtas agus 98.08% aisghairm).

Fuaireamar amach freisin gur féidir an tsamhail a oiriúnú go héifeachtúil. Feabhsaíonn mionchoigeartú ar mhéid beag sonraí fiú cruinneas go tapa ar thascanna atá sainiúil don fhearann, ag ardú an scóir F1 ó 54% go 96%, agus druidíonn sé le sáithiú ar an tagarmharc oiriúnaithe fearainn a ndearnamar meastóireacht air.

Taobh amuigh de fheidhmíocht tagarmhairc, tá Privacy Filter deartha do scagadh príobháideachais praiticiúil i dtéacs torannach fíorshaoil. Áirítear leis sin cáipéisí fada, tagairtí débhríocha, teaghráin mheasctha formáide, agus rúin a bhaineann le bogearraí. Tuairiscítear sa chárta samhail (osclaíonn i bhfuinneog nua)meastóireacht spriocdhírithe freisin ar bhrath rún i mbunachair chóid agus ar thástálacha struis thar shamplaí ilteangacha, naimhdeacha agus spleácha ar chomhthéacs.

Teorainneacha

Ní uirlis anaithnidithe, deimhniú comhlíonta, ná ionad athbhreithnithe beartais i suíomhanna ardgheallta é Privacy Filter. Is comhpháirt amháin é i gcóras níos leithne príobháideachais de réir dearaidh.

Léiríonn a iompar an tacsanomaíocht lipéad agus na teorainneacha cinnteoireachta ar ar cuireadh oiliúint air. D’fhéadfadh eagraíochtaí éagsúla beartais éagsúla braite nó masctha a bheith uathu, agus d’fhéadfadh go n-éileodh na beartais sin meastóireacht laistigh den fhearann nó mionchoigeartú breise. Féadfaidh feidhmíocht a bheith éagsúil freisin thar theangacha, scripteanna, coinbhinsiúin ainmniúcháin agus fearainn atá difriúil ón dáileadh oiliúna.

Cosúil le gach samhail, is féidir le Privacy Filter botúin a dhéanamh. Is féidir leis aitheantóirí neamhchoitianta nó tagairtí príobháideacha débhríocha a chailleadh, agus féadfaidh sé eintitis a ró-cheilt nó a thearc-cheilt nuair atá comhthéacs teoranta, go háirithe i seichimh ghearra. I bhfearainn ardíogaireachta amhail sreafaí oibre dlí, míochaine agus airgeadais, tá athbhreithniú daonna agus meastóireacht agus mionchoigeartú sainiúil don fhearann fós tábhachtach.

Infhaighteacht

Táimid ag scaoileadh OpenAI Privacy Filter chun tacú le cosaintí príobháideachais níos láidre ar fud an éiceachórais.

Tá an tsamhail ar fáil inniu faoi cheadúnas Apache 2.0 ar Hugging Face(osclaíonn i bhfuinneog nua) agus Github(osclaíonn i bhfuinneog nua). Tá sí beartaithe le haghaidh turgnamh, saincheapadh agus imscaradh tráchtála, agus is féidir í a mhionchoigeartú do dháiltí sonraí agus do bheartais phríobháideachais éagsúla.

In éineacht leis an tsamhail, táimid ag roinnt doiciméadachta a chlúdaíonn ailtireacht na samhla, tacsanomaíocht lipéad, rialuithe díchódaithe, cásanna úsáide beartaithe, socrú meastóireachta agus teorainneacha aitheanta, ionas gur féidir le foirne tuiscint a fháil ar an méid a dhéanann an tsamhail go maith agus ar na háiteanna ar cheart í a úsáid go cúramach.

Ag féachaint romhainn

Is iarracht leanúnach é cosaint príobháideachais do chórais IS thar thaighde, dearadh táirgí, meastóireacht agus imscaradh.

Léiríonn Privacy Filter treo amháin a chreidimid atá tábhachtach: samhlacha beaga éifeachtúla le cumas teorainn i dtascanna atá sainmhínithe go cúng agus atá tábhachtach do chórais IS an fhíorshaoil. Táimid á scaoileadh mar go gceapaimid gur cheart bonneagar a chaomhnaíonn príobháideachas a bheith níos fusa a iniúchadh, a rith, a oiriúnú agus a fheabhsú.

Is é ár sprioc go bhfoghlaimeodh samhlacha faoin domhan, ní faoi dhaoine príobháideacha. Cabhraíonn Privacy Filter leis sin a dhéanamh indéanta.

Táimid ag scaoileadh an réamhamhairc seo de Privacy Filter chun aiseolas a fháil ón bpobal taighde agus príobháideachais agus chun leanúint d’atriall ar fheidhmíocht na samhla.