22 Aprili 2026

Tunawaletea Kichujio cha Faragha cha OpenAI

Muundo wetu wa hali ya juu wa kuficha taarifa zinazoweza kumtambulisha mtu binafsi (PII) katika maandishi

Inapakia…

Leo tunazindua OpenAI Privacy Filter, muundo wenye uwezo uliotolewa hadharani wa kutambua na kuficha taarifa zinazoweza kumtambulisha mtu binafsi (PII) katika maandishi. Toleo hili ni sehemu ya juhudi zetu pana za kusaidia mfumo wa ikolojia wa programu ulio imara zaidi kwa kuwapa wasanidi programu miundombinu ya vitendo ya kujenga kwa kutumia AI kwa usalama, ikijumuisha zana⁠ na muundo⁠ inayorahisisha kutekeleza ulinzi thabiti wa faragha na usalama tangu mwanzo.

Kichujio cha Faragha ni muundo mdogo wenye uwezo wa kugundua data binafsi wa mpaka. Imeundwa kwa michakato ya faragha yenye utendaji wa juu, na inaweza kugundua PII kwa kuzingatia muktadha katika maandishi yasiyo na muundo. Inaweza kuendeshwa ndani ya kifaa chako, ikimaanisha kuwa PII inaweza kufichwa au kuondolewa bila kutoka kwenye kifaa chako. Huchakata ingizo refu kwa ufanisi, na kufanya maamuzi ya kufuta au kuhariri kwa haraka katika mzunguko mmoja.

Katika OpenAI, tunatumia toleo lililorekebishwa kwa uangalifu la Kichujio cha Faragha katika mitiririko yetu ya kazi inayohifadhi faragha. Tulitengeneza Kichujio cha Faragha kwa sababu tunaamini kwamba kwa uwezo wa hivi punde wa AI, tunaweza kuinua kiwango cha faragha zaidi ya kile kilichokuwa tayari sokoni. Toleo la Kichujio cha Faragha tunalotoa leo linafikia utendaji wa kisasa zaidi kwenye kigezo cha PII-Masking-300k, linaporekebishwa kwa matatizo ya uwekaji lebo tuliyobaini wakati wa tathmini.

Kwa toleo hili, wasanidi programu wanaweza kuendesha Kichujio cha Faragha katika mazingira yao wenyewe, kuirekebisha kulingana na kesi zao za matumizi, na kujenga ulinzi thabiti zaidi wa faragha katika mifumo ya mafunzo, uwekaji faharasa, uwekaji kumbukumbu, na ukaguzi.

Muundo mdogo wenye uwezo wa mpaka wa kugundua data binafsi

Ulinzi wa faragha katika mifumo ya kisasa ya AI unategemea zaidi ya ulinganifu wa mifumo. Zana za kiasili za kugundua PII mara nyingi hutegemea kanuni za kimaamuzi za miundo kama vile nambari za simu na anwani za barua pepe. Zinaweza kufanya kazi vizuri katika hali finyu, lakini mara nyingi hukosa taarifa za kibinafsi zilizo nyeti zaidi na hupata changamoto kuelewa muktadha.

Kichujio cha Faragha kimeundwa kwa uelewa wa kina zaidi wa lugha na muktadha ili kutoa utendaji wenye uchanganuzi wa hali ya juu zaidi. Kwa kuchanganya uelewa thabiti wa lugha na mfumo wa uwekaji lebo mahususi kwa faragha, inaweza kugundua aina pana zaidi za PII katika maandishi yasiyo na muundo, ikiwemo hali ambapo uamuzi sahihi hutegemea muktadha. Inaweza kutofautisha vyema zaidi kati ya taarifa zinazopaswa kuhifadhiwa kwa sababu ni za umma, na taarifa zinazopaswa kufichwa au kuhaririwa kwa sababu zinahusiana na mtu binafsi.

Matokeo yake ni muundo ulio imara vya kutosha kutoa utendaji wa uchujaji wa faragha wa kiwango cha mpaka. Wakati huo huo, muundo ni mdogo vya kutosha kuendeshwa kieneo—ikimaanisha data ambayo bado haijachujwa inaweza kubaki kwenye kifaa, ikiwa na hatari ndogo ya kufichuliwa, badala ya kuhitaji kutumwa kwenye seva ili kuondoa viashiria vya utambulisho.

Muhtasari wa muundo

Kichujio cha Faragha ni muundo wa uainishaji wa tokeni wa pande mbili wenye usimbuaji wa span. Huanzia kwenye checkpoint ya mafunzo ya awali ya autoregressive na kisha hubadilishwa ili kuwa kiainishaji cha tokeni juu ya taksonomia isiyobadilika ya lebo za faragha. Badala ya kuzalisha maandishi tokeni baada ya tokeni, huiwekea lebo mfuatano wa ingizo kwa mkupuo mmoja kisha hutatua sehemu zenye mshikamano kwa kutumia utaratibu wa Viterbi wenye vizuizi.

Usanifu huu unatoa Kichujio cha Fargaha sifa kadhaa muhimu kwa matumizi ya uzalishaji:

Haraka na yenye ufanisi: tokeni zote zinawekewa lebo katika hatua moja ya mbele.
Ufahamu wa muktadha: lugha ya awali huwezesha vipande vya PII kutambuliwa kwa kuzingatia muktadha unaozunguka.
Muktadha mrefu: muundo uliotolewa unaauni hadi tokeni 128,000 za muktadha.
Inaweza kusanidiwa: Wasanidi programu wanaweza kurekebisha pointi za uendeshaji ili kusawazisha ukumbukaji na usahihi kulingana na mtiririko rasmi wa kazi zao.

Muundo uliotolewa una jumla ya vigezo bilioni 1.5 na vigezo amilifu milioni 50.

Kichujio cha Faragha hutabiri katika makundi nane:

mtu_binafsi
anwani ya_kibinafsi
barua_pepe_binafsi
simu_ya_kibinafsi
kiungo_binafsi
private_date
akaunti_nambari
siri

Kategoria ya account_number husaidia kuficha aina mbalimbali za nambari za akaunti, ikijumuisha taarifa za benki kama vile nambari za kadi ya mkopo na nambari za akaunti za benki, huku secret ikisaidia kuficha taarifa kama manenosiri na funguo za API.

Lebo hizi husimbuliwa kwa tagi za span za BIOES, jambo ambalo husaidia kutoa mipaka ya kufunika iliyo safi zaidi na yenye mshikamano zaidi.

Mfano wa maandishi ya ingizo

Somo: Ufuatiliaji wa Mipango ya Q2

Shikamoo Jordan,

Asante tena kwa kukutana mapema leo. Nilitaka kufuatilia ratiba iliyorekebishwa ya utekelezaji wa Q2 na kuthibitisha kwamba uzinduzi wa bidhaa umepangwa kufanyika Septemba 18, 2026. Kwa marejeleo, faili ya mradi imeorodheshwa chini ya 4829-1037-5581. Ikiwa chochote kitabadilika upande wako, tafadhali jisikie huru kujibu hapa kwa maya.chen@example.com au unipigie simu kwa +1 (415) 555-0124.

Bora,

Maya Chen

Maandishi baada ya kuficha vitambulishi vya kibinafsi

Somo: Ufuatiliaji wa Mipango ya Q2

Hujambo [PRIVATE_PERSON],

Asante tena kwa kukutana mapema leo. Nilitaka kufuatilia ratiba ya muda iliyorekebishwa ya uzinduzi wa Q2 na kuthibitisha kwamba uzinduzi wa bidhaa umepangwa kufanyika tarehe [PRIVATE_DATE]. Kwa marejeleo, faili ya mradi imeorodheshwa chini ya [ACCOUNT_NUMBER]. Ikiwa chochote kitabadilika kwa upande wako, jisikie huru kujibu hapa kwenye [PRIVATE_EMAIL] au nipigie simu kwa [PRIVATE_PHONE].

Bora,

[PRIVATE_PERSON]

Jinsi tulivyokiunda

Tulitengeneza Kichujio cha Faragha katika hatua kadhaa.

Kwanza, tuliunda orodha ya aina za faragha inayofafanua aina za vipande vya maandishi ambavyo muundo unapaswa kutambua. Hii inajumuisha vitambulishi vya kibinafsi, maelezo ya mawasiliano, anwani, tarehe za kibinafsi, aina nyingi tofauti za nambari za akaunti kama vile taarifa za kadi ya mkopo na benki, na siri kama vile vitufe vya API na manenosiri.

Pili, tulibadilisha muundo wa lugha uliofunzwa awali kuwa kiainishaji cha tokeni cha pande mbili kwa kubadilisha kichwa cha kufunza miundo na kichwa cha uainishaji wa tokeni, kisha tukakifundisha tena kwa lengo la uainishaji linalosimamiwa.

Tatu, tulifunza kwa kutumia mchanganyiko wa data inayopatikana hadharani na data sintetiki ulioundwa ili kunasa maandishi halisi pamoja na mifumo migumu ya faragha. Katika sehemu za data ya umma ambapo lebo hazikuwa kamili, tulitumia uanuzi uliosaidiwa na muundo na ukaguzi ili kuboresha ufunikaji. Pia tulizalisha mifano ya sintetiki ili kuongeza utofauti katika miundo, miktadha, na aina ndogo za faragha.

Wakati wa ufasiri, utabiri wa kiwango cha tokeni wa muundo husimbuliwa kuwa vipande vyenye mshikamano kwa kutumia usimbuaji wa mfuatano wenye vizuizi. Mbinu hii huhifadhi uelewa mpana wa lugha wa muundo uliofunzwa awali huku ikiubobeza kwa utambuzi wa faragha.

Jinsi Kichujio cha Faragha kinavyofanya kazi

Tulitathmini Kichujio cha Faragha kwenye viwango vya kawaida na tathmini za ziada za sintetiki na za mazungumzo zilizoundwa kupima hali ngumu zaidi na zinazotegemea muktadha.

Kwenye PII-Masking-300k⁠(fungua katika dirisha jipya) kipimo, Kichujio cha Faragha kinapata alama ya F1 ya 96% (94.04% usahihi na 98.04% urejeshaji). Katika toleo lililorekebishwa la kipimo kinachozingatia masuala ya ufafanuzi wa seti ya data yaliyotambuliwa wakati wa ukaguzi, alama ya F1 ni 97.43% (96.79% usahihi na 98.08% urejeshaji).

Pia tuligundua kuwa muundo unaweza kubadilishwa kwa ufanisi. Kurekebisha kwa kutumia hata kiasi kidogo cha data huboresha haraka usahihi katika shughuli mahususi za kikoa, na kuongeza alama ya F1 kutoka 54% hadi 96%, na hukaribia kiwango cha juu kwenye kipimo cha kulinganisha cha urekebishaji wa kikoa tulichotathmini.

Zaidi ya utendaji wa vigezo, Kichujio cha Faragha kimeundwa kwa ajili ya uchujaji wa faragha wa vitendo katika maandishi yenye kelele ya ulimwengu halisi. Hiyo inajumuisha hati ndefu, marejeleo yasiyoeleweka, mifuatano ya miundo mchanganyiko, na siri zinazohusiana na programu. Kadi ya muundo ⁠(fungua katika dirisha jipya)pia inaripoti tathmini lengwa kuhusu ugunduzi wa siri katika misimbo na majaribio ya mkazo katika mifano ya lugha nyingi, ya kiadui, na inayotegemea muktadha.

Mapungufu

Kichujio cha Faragha si zana ya kuficha utambulisho, uthibitisho wa utiifu, wala mbadala wa mapitio ya sera katika mazingira ya hatari kubwa. Ni sehemu moja katika mfumo mpana zaidi wa faragha kwa muundo.

Tabia yake inaonyesha taksonomia ya lebo na mipaka ya maamuzi iliyotumiwa kuifunza. Mashirika tofauti yanaweza kutaka sera tofauti za utambuzi au ufichaji, na sera hizo huenda zikahitaji tathmini ya ndani ya kikoa au kurekebisha zaidi. Utendaji unaweza pia kutofautiana katika lugha, mifumo ya uandishi, kanuni za utoaji majina, na nyanja ambazo zinatofautiana na usambazaji wa mafunzo.

Kama muundo wote, Kichujio cha Faragha kinaweza kufanya makosa. Inaweza kukosa vitambulishi visivyo vya kawaida au marejeleo ya faragha yenye utata, na inaweza kuficha vipengele kupita kiasi au kwa kiwango cha chini wakati muktadha ni mdogo, hasa katika mifululizo mifupi. Katika nyanja zenye unyeti wa hali ya juu kama vile michakato ya kisheria, matibabu, na kifedha, uhakiki wa kibinadamu pamoja na tathmini maalum ya kikoa na uboreshaji unasalia kuwa muhimu.

Upatikanaji

Tunazindua Kichujio cha Faragha cha OpenAI ili kuimarisha ulinzi wa faragha katika mfumo mzima wa ikolojia.

Muundo unapatikana kuanzia leo chini ya leseni ya Apache 2.0 kwenye Hugging Face⁠(fungua katika dirisha jipya) na Github⁠(fungua katika dirisha jipya). Imekusudiwa kwa majaribio, ubinafsishaji, na utekelezaji wa kibiashara, na inaweza kurekebishwa kwa usambazaji tofauti wa data na sera ya faragha.

Pamoja na muundo, tunashiriki nyaraka zinazoelezea usanifu wa muundo, taksonomia ya lebo, vidhibiti vya usimbuaji, matumizi yaliyokusudiwa, mpangilio wa tathmini, na mapungufu yanayojulikana, ili timu ziweze kuelewa vizuri yale ambayo muundo unafanya vyema na maeneo ambayo unapaswa kutumiwa kwa uangalifu.

Kuangalia mbele

Ulinzi wa faragha kwa mifumo ya AI ni juhudi inayoendelea katika utafiti, usanifu wa bidhaa, tathmini na uanzishaji (deployment).

Kichujio cha Faragha kinaonyesha mwelekeo mmoja tunaoamini ni muhimu: miundo midogo na yenye ufanisi, yenye uwezo wa mpaka katika kazi zilizobainishwa kwa ukaribu ambazo ni muhimu kwa mifumo ya AI ya ulimwengu halisi. Tunaitoa kwa sababu tunafikiri miundombinu inayohifadhi faragha inapaswa kuwa rahisi zaidi kukagua, kuendesha, kurekebisha, na kuboresha.

Lengo letu ni muundo kujifunza kuhusu ulimwengu, si kuhusu watu binafsi. Kichujio cha Faragha husaidia kufanya hilo liwezekane.

Tunatoa toleo la awali la Kichujio cha fargaha ili kupokea maoni kutoka kwa jumuiya ya utafiti na faragha na kuboresha zaidi utendaji wa muundo.