22 એપ્રિલ, 2026

OpenAI Privacy Filter નું પરિચય

ટેક્સ્ટમાં વ્યક્તિગત રીતે ઓળખી શકાય તેવી માહિતી (PII) ઢાંકવા માટેનું અમારું અત્યાધુનિક મોડલ

લોડિંગ…

આજે અમે OpenAI Privacy Filter રજૂ કરી રહ્યા છીએ, જે ટેક્સ્ટમાં વ્યક્તિગત રીતે ઓળખી શકાય તેવી માહિતી (PII) શોધવા અને ઢાંકી દેવા માટેનું ઓપન-વેઇટ મોડલ છે. આ રિલીઝ ડેવલપરોને AI સાથે સલામત રીતે નિર્માણ કરવા માટે વ્યવહારુ ઇન્ફ્રાસ્ટ્રક્ચર આપી વધુ મજબૂત સોફ્ટવેર ઇકોસિસ્ટમને સમર્થન આપવા માટેના અમારા વ્યાપક પ્રયત્નનો ભાગ છે, જેમાં શરૂઆતથી જ મજબૂત ગોપનીયતા અને સુરક્ષા સુરક્ષાઓ અમલમાં મૂકવા સરળ બનાવતા ટૂલ્સ⁠ અને મોડલ્સ⁠ શામેલ છે.

Privacy Filter વ્યક્તિગત ડેટા શોધવાની અત્યાધુનિક ક્ષમતા ધરાવતું નાનું મોડલ છે. તે ઉચ્ચ-થ્રૂપુટ ગોપનીયતા વર્કફ્લો માટે ડિઝાઇન કરવામાં આવ્યું છે અને અસંરચિત ટેક્સ્ટમાં PII ની સંદર્ભ-સચેત શોધ કરી શકે છે. તે સ્થાનિક રીતે ચાલી શકે છે, એટલે PII તમારી મશીન છોડ્યા વિના ઢાંકી અથવા રેડેક્ટ કરી શકાય છે. તે લાંબા ઇનપુટ્સને કાર્યક્ષમ રીતે પ્રક્રિયા કરે છે અને ઝડપી, એક જ પાસમાં રેડેક્શનના નિર્ણયો લે છે.

OpenAI માં, અમે અમારા પોતાના ગોપનીયતા-સંરક્ષક વર્કફ્લોમાં Privacy Filter નું ફાઇન-ટ્યુન કરેલું સંસ્કરણ વાપરીએ છીએ. અમે Privacy Filter વિકસાવ્યું કારણ કે અમારો વિશ્વાસ હતો કે નવીનતમ AI ક્ષમતાઓ સાથે અમે બજારમાં પહેલેથી ઉપલબ્ધ માપદંડ કરતાં ગોપનીયતા માટે વધુ ઊંચો ધોરણ સ્થાપી શકીએ. આજે અમે જે Privacy Filter નું સંસ્કરણ રજૂ કરી રહ્યા છીએ તે મૂલ્યાંકન દરમિયાન ઓળખેલી એનોટેશન સમસ્યાઓને સુધાર્યા પછી PII-Masking-300k બેન્ચમાર્ક પર અત્યાધુનિક પ્રદર્શન હાંસલ કરે છે.

આ રિલીઝ સાથે, ડેવલપર પોતાની પરિસ્થિતિઓમાં Privacy Filter ચલાવી શકે છે, તેને પોતાના ઉપયોગ-કેસ માટે ફાઇન ટ્યુન કરી શકે છે, અને ટ્રેનિંગ, ઇન્ડેક્સિંગ, લોગિંગ અને સમીક્ષા પાઇપલાઇનમાં વધુ મજબૂત ગોપનીયતા સુરક્ષાઓ બનાવી શકે છે.

વ્યક્તિગત ડેટા શોધવાની અત્યાધુનિક ક્ષમતા ધરાવતું નાનું મોડલ

આધુનિક AI સિસ્ટમોમાં ગોપનીયતા સુરક્ષા માત્ર પેટર્ન મેચિંગ પર આધાર રાખતી નથી. પરંપરાગત PII શોધ સાધનો ઘણીવાર ફોન નંબર અને ઇમેઇલ સરનામા જેવા ફોર્મેટ્સ માટે નિશ્ચિત નિયમો પર આધાર રાખે છે. તે સીમિત કિસ્સાઓમાં સારી રીતે કામ કરી શકે છે, પરંતુ વધુ સૂક્ષ્મ વ્યક્તિગત માહિતી ચૂકી જાય છે અને સંદર્ભ સાથે સંઘર્ષ કરે છે.

Privacy Filter વધુ સૂક્ષ્મ પ્રદર્શન માટે ઊંડા ભાષા અને સંદર્ભ જ્ઞાન સાથે બનાવાયું છે. મજબૂત ભાષા સમજણને ગોપનીયતા-વિશિષ્ટ લેબલિંગ સિસ્ટમ સાથે જોડીને, તે અસંરચિત ટેક્સ્ટમાં PII ની વધુ વ્યાપક શ્રેણી શોધી શકે છે, જેમાં એવા કિસ્સાઓ પણ સામેલ છે જ્યાં યોગ્ય નિર્ણય સંદર્ભ પર આધારિત હોય છે. તે જાહેર હોવાથી જાળવી રાખવાની માહિતી અને ખાનગી વ્યક્તિ સાથે સંબંધિત હોવાથી ઢાંકવાની અથવા રેડેક્ટ કરવાની માહિતી વચ્ચે વધુ સારી રીતે ભેદ કરી શકે છે.

પરિણામે એવું મોડલ મળે છે જે અત્યાધુનિક-સ્તરની ગોપનીયતા ફિલ્ટરિંગ કાર્યક્ષમતા આપવા માટે પૂરતું મજબૂત છે. સાથે જ, મોડલ એટલું નાનું છે કે તે સ્થાનિક રીતે ચલાવી શકાય છે, એટલે હજી ફિલ્ટર ન કરાયેલ ડેટા સર્વરને ડિ-આઇડેન્ટિફિકેશન માટે મોકલવાની જરૂર પડવાને બદલે ઓછા એક્સપોઝર જોખમ સાથે ઉપકરણ પર રહી શકે છે.

મોડલ અવલોકન

Privacy Filter span decoding ધરાવતું bidirectional ટોકન-વર્ગીકરણ મોડલ છે. તે autoregressive pretrained checkpoint થી શરૂ થાય છે અને પછી ગોપનીયતા લેબલ્સની નિશ્ચિત વર્ગીકરણ પદ્ધતિ પર ટોકન ક્લાસિફાયર તરીકે અનુકૂલિત થાય છે. ટોકન પ્રમાણે ટેક્સ્ટ જનરેટ કરવા બદલે, તે એક જ પાસમાં ઇનપુટ સિક્વન્સને લેબલ કરે છે અને પછી constrained Viterbi પ્રક્રિયા સાથે સુસંગત spans ડિકોડ કરે છે.

આ આર્કિટેક્ચર Privacy Filter ને ઉત્પાદન ઉપયોગ માટે કેટલીક ઉપયોગી વિશેષતાઓ આપે છે.

ઝડપી અને કાર્યક્ષમ: બધા ટોકનને એક જ forward pass માં લેબલ કરવામાં આવે છે.
સંદર્ભ-સચેત: ભાષાકીય prior આસપાસના સંદર્ભના આધારે PII spans શોધવામાં મદદ કરે છે.
લાંબો-સંદર્ભ: રિલીઝ કરાયેલ મોડલ 128,000 ટોકન સુધીના સંદર્ભને સમર્થન આપે છે.
રૂપરેખાંકિત કરી શકાય તેવું: ડેવલપર તેમના વર્કફ્લો મુજબ recall અને precision વચ્ચે સંતુલન માટે operating points ટ્યુન કરી શકે છે.

રિલીઝ કરાયેલા મોડલમાં કુલ 1.5B parameters છે જેમાં 50M active parameters છે.

Privacy Filter આઠ કેટેગરીમાં spans ની આગાહી કરે છે.

private_person
private_address
private_email
private_phone
private_url
private_date
account_number
secret

account_number કેટેગરી બેંકિંગ માહિતી જેવી કે ક્રેડિટ કાર્ડ નંબર અને બેંક એકાઉન્ટ નંબર્સ સહિત વિવિધ પ્રકારના એકાઉન્ટ નંબર્સ ઢાંકવામાં મદદ કરે છે, જ્યારે secret પાસવર્ડ અને API keys જેવી બાબતો ઢાંકવામાં મદદ કરે છે.

આ લેબલ્સ BIOES span tags સાથે ડિકોડ થાય છે, જે વધુ સ્વચ્છ અને સુસંગત masking boundaries બનાવવામાં મદદ કરે છે.

ઉદાહરણ ઇનપુટ લખાણ

વિષય: Q2 આયોજન અનુસરણ

હાય Jordan,

આજે પહેલા મળવા બદલ ફરીથી આભાર. હું Q2 રોલઆઉટ માટેની સુધારેલી સમયરેખા વિશે અનુસરણ કરવા માંગતો હતો અને ખાતરી કરવી હતી કે ઉત્પાદન લોન્ચ September 18, 2026 માટે નક્કી છે. સંદર્ભ માટે, પ્રોજેક્ટ ફાઇલ 4829-1037-5581 હેઠળ સૂચિબદ્ધ છે. તમારી તરફથી કંઈ બદલાય તો અહીં maya.chen@example.com પર જવાબ આપો અથવા મને +1 (415) 555-0124 પર કૉલ કરો.

શુભેચ્છાઓ,

Maya Chen

વ્યક્તિગત ઓળખચિહ્નો ઢાંક્યા પછીનો લખાણ

વિષય: Q2 આયોજન અનુસરણ

હાય [PRIVATE_PERSON],

આજે પહેલા મળવા બદલ ફરીથી આભાર. હું Q2 રોલઆઉટ માટેની સુધારેલી સમયરેખા વિશે અનુસરણ કરવા માંગતો હતો અને ખાતરી કરવી હતી કે ઉત્પાદન લોન્ચ [PRIVATE_DATE] માટે નક્કી છે. સંદર્ભ માટે, પ્રોજેક્ટ ફાઇલ [ACCOUNT_NUMBER] હેઠળ સૂચિબદ્ધ છે. તમારી તરફથી કંઈ બદલાય તો અહીં [PRIVATE_EMAIL] પર જવાબ આપો અથવા મને [PRIVATE_PHONE] પર કૉલ કરો.

શુભેચ્છાઓ,

[PRIVATE_PERSON]

અમે તેને કેવી રીતે બનાવ્યું

અમે Privacy Filter ને અનેક તબક્કામાં વિકસાવ્યું.

સૌપ્રથમ, અમે ગોપનીયતા વર્ગીકરણ પદ્ધતિ બનાવી જે મોડલે શોધવાના spans ના પ્રકારો વ્યાખ્યાયિત કરે છે. તેમાં વ્યક્તિગત ઓળખચિહ્નો, સંપર્ક વિગતો, સરનામા, ખાનગી તારીખો, ક્રેડિટ અને બેંકિંગ માહિતી જેવા અનેક પ્રકારના એકાઉન્ટ નંબર્સ, અને API keys અને પાસવર્ડ્સ જેવા રહસ્યોનો સમાવેશ થાય છે.

બીજું, અમે pretrained લેન્ગ્વેજ મોડેલિંગ મોડલને ટોકન-વર્ગીકરણ head થી language modeling head ને બદલી અને supervised classification objective સાથે post-training કરીને bidirectional ટોકન ક્લાસિફાયર માં રૂપાંતરિત કર્યું.

ત્રીજું, અમે જાહેરમાં ઉપલબ્ધ અને synthetic ડેટાના મિશ્રણ પર તાલીમ આપી, જે વાસ્તવિક ટેક્સ્ટ અને કઠિન ગોપનીયતા પેટર્ન બંને આવરી લેવા માટે બનાવાયું હતું. જાહેર ડેટાના એવા ભાગોમાં જ્યાં લેબલ્સ અધૂરા હતા, અમે આવરણ સુધારવા માટે મોડલ-સહાયિત annotation અને સમીક્ષા નો ઉપયોગ કર્યો. અમે formats, contexts અને privacy subtypes માં વિવિધતા વધારવા માટે synthetic ઉદાહરણો પણ બનાવ્યા.

Inference સમયે, મોડલની ટોકન-સ્તરની આગાહીઓને constrained sequence decoding નો ઉપયોગ કરીને સુસંગત spans માં ડિકોડ કરવામાં આવે છે. આ અભિગમ pretrained મોડલની વ્યાપક ભાષા સમજણને જાળવી રાખે છે અને તેને ગોપનીયતા શોધ માટે વિશેષ બનાવે છે.

Privacy Filter કેવી કામગીરી કરે છે

અમે Privacy Filter નું મૂલ્યાંકન માનક benchmarks પર અને વધુ મુશ્કેલ, વધુ સંદર્ભ-સંવેદનશીલ કિસ્સાઓ ચકાસવા માટે રચાયેલ વધારાના synthetic અને chat-style મૂલ્યાંકનો પર કર્યું.

PII-Masking-300k⁠(નવી વિન્ડોમાં ખૂલે છે) benchmark પર, Privacy Filter 96% નો F1 સ્કોર હાંસલ કરે છે (94.04% precision અને 98.04% recall). benchmark ના સુધારેલા સંસ્કરણ પર, જે સમીક્ષા દરમિયાન ઓળખાયેલી dataset annotation સમસ્યાઓને ધ્યાનમાં લે છે, F1 સ્કોર 97.43% છે (96.79% precision અને 98.08% recall).

અમે એ પણ જોયું કે મોડલને કાર્યક્ષમ રીતે અનુકૂલિત કરી શકાય છે. ઓછી માત્રામાં ડેટા પર પણ fine-tuning domain-specific કાર્યોમાં ઝડપથી ચોકસાઈ સુધારે છે, F1 સ્કોર 54% થી 96% સુધી વધારી આપે છે અને અમે મૂલ્યાંકન કરેલા domain-adaption benchmark પર saturation ની નજીક પહોંચે છે.

benchmark પ્રદર્શનથી આગળ, Privacy Filter અવાજયુક્ત, વાસ્તવિક દુનિયાના ટેક્સ્ટમાં વ્યવહારુ ગોપનીયતા ફિલ્ટરિંગ માટે ડિઝાઇન કરવામાં આવ્યું છે. તેમાં લાંબા દસ્તાવેજો, અસ્પષ્ટ સંદર્ભો, mixed-format strings અને સોફ્ટવેર સંબંધિત રહસ્યો શામેલ છે. મોડલ કાર્ડ ⁠(નવી વિન્ડોમાં ખૂલે છે)કોડબેઝમાં secret detection માટેનું targeted evaluation અને બહુભાષી, adversarial અને context-dependent ઉદાહરણોમાં stress tests પણ દર્શાવે છે.

મર્યાદાઓ

Privacy Filter અનામીકરણ સાધન, અનુપાલન પ્રમાણપત્ર અથવા ઉચ્ચ-જોખમી પરિસ્થિતિઓમાં નીતિ સમીક્ષાનો વિકલ્પ નથી. તે વિશાળ privacy-by-design સિસ્ટમનો એક ઘટક છે.

તેનું વર્તન તેને તાલીમ અપાયેલી લેબલ વર્ગીકરણ પદ્ધતિ અને નિર્ણય સીમાઓને પ્રતિબિંબિત કરે છે. અલગ સંસ્થાઓને અલગ શોધ અથવા masking નીતિઓ જોઈએ હોઈ શકે છે, અને તેવી નીતિઓ માટે in-domain evaluation અથવા વધુ fine-tuning જરૂરી હોઈ શકે છે. ભાષાઓ, લિપિઓ, નામકરણ પરંપરાઓ અને તાલીમ વિતરણથી અલગ ડોમેન્સમાં કાર્યક્ષમતા બદલાઈ શકે છે.

બધા મોડલ્સની જેમ, Privacy Filter ભૂલો કરી શકે છે. તે અસામાન્ય ઓળખચિહ્નો અથવા અસ્પષ્ટ ખાનગી સંદર્ભો ચૂકી શકે છે, અને ખાસ કરીને ટૂંકી સિક્વન્સમાં સંદર્ભ મર્યાદિત હોય ત્યારે એન્ટિટીઝને વધુ અથવા ઓછી રેડેક્ટ કરી શકે છે. કાનૂની, તબીબી અને નાણાકીય વર્કફ્લો જેવા ઊંચી સંવેદનશીલતાવાળા ક્ષેત્રોમાં માનવીય સમીક્ષા અને ડોમેન-વિશિષ્ટ મૂલ્યાંકન અને fine-tuning હજી પણ મહત્વપૂર્ણ છે.

ઉપલબ્ધતા

અમે ઇકોસિસ્ટમમાં વધુ મજબૂત ગોપનીયતા સુરક્ષાઓને સમર્થન આપવા OpenAI Privacy Filter રિલીઝ કરી રહ્યા છીએ.

મોડલ આજે Apache 2.0 લાયસન્સ હેઠળ Hugging Face⁠(નવી વિન્ડોમાં ખૂલે છે) અને Github⁠(નવી વિન્ડોમાં ખૂલે છે) પર ઉપલબ્ધ છે. તે પ્રયોગ, કસ્ટમાઇઝેશન અને વ્યાપારી ડિપ્લોયમેન્ટ માટે છે, અને તેને વિવિધ ડેટા વિતરણો અને ગોપનીયતા નીતિઓ માટે fine-tune કરી શકાય છે.

મોડલ સાથે, અમે મોડલ આર્કિટેક્ચર, લેબલ વર્ગીકરણ પદ્ધતિ, decoding controls, ઇચ્છિત ઉપયોગ-કેસ, evaluation setup અને જાણીતી મર્યાદાઓ આવરી લેતી દસ્તાવેજીકરણ પણ શેર કરી રહ્યા છીએ, જેથી ટીમો સમજી શકે કે મોડલ કઈ બાબતો સારી રીતે કરે છે અને ક્યાં તેનો સાવધાનીથી ઉપયોગ કરવો જોઈએ.

આગળ જોતા

AI સિસ્ટમો માટે ગોપનીયતા સુરક્ષા સંશોધન, ઉત્પાદન ડિઝાઇન, મૂલ્યાંકન અને ડિપ્લોયમેન્ટમાં સતત ચાલતો પ્રયત્ન છે.

Privacy Filter એ એક એવી દિશા દર્શાવે છે જેને અમે મહત્વપૂર્ણ માનીએ છીએ: વાસ્તવિક દુનિયાની AI સિસ્ટમો માટે મહત્વ ધરાવતા સીમિત રીતે વ્યાખ્યાયિત કાર્યોમાં અત્યાધુનિક ક્ષમતા ધરાવતા નાના, કાર્યક્ષમ મોડલ્સ. અમે તેને રિલીઝ કરી રહ્યા છીએ કારણ કે અમને લાગે છે કે ગોપનીયતા-સંરક્ષક ઇન્ફ્રાસ્ટ્રક્ચરનું નિરીક્ષણ, સંચાલન, અનુકૂલન અને સુધારણા વધુ સરળ હોવી જોઈએ.

અમારો હેતુ એ છે કે મોડલ્સ વિશ્વ વિશે શીખે, ખાનગી વ્યક્તિઓ વિશે નહીં. Privacy Filter તે શક્ય બનાવવામાં મદદ કરે છે.

અમે Privacy Filter નું આ પૂર્વાવલોકન સંશોધન અને ગોપનીયતા સમુદાયમાંથી પ્રતિસાદ મેળવવા અને મોડલની કાર્યક્ષમતા પર વધુ સુધારા કરવા માટે રિલીઝ કરી રહ્યા છીએ.

લેખક

OpenAI

વાંચતા રહો

બધું જુઓ

GPT-5.6: અત્યાધુનિક ઇન્ટેલિજન્સ, જે તમારી મહત્ત્વાકાંક્ષા સાથે વિસ્તરિત થાય છે

પ્રોડક્ટ9 જુલાઈ, 2026

કોડિંગ મૂલ્યાંકનમાં ઉપયોગી માહિતીને બિનજરૂરી માહિતીથી અલગ કરવી

સંશોધન8 જુલાઈ, 2026

GPT-Live નો પરિચય

પ્રોડક્ટ8 જુલાઈ, 2026