இன்று, உரையில் தனிநபரை அடையாளம் காணக்கூடிய தகவல்களை (PII) கண்டறிந்து மறைப்பதற்கான ஓபன் வேயிட் மாடல்கள் OpenAI Privacy Filter-ஐ நாங்கள் வெளியிடுகிறோம். இந்த வெளியீடு, டெவலப்பர்களுக்கு AI-யை பாதுகாப்பாக உருவாக்குவதற்கான நடைமுறை அடிக்கட்டமைப்பை வழங்குவதன் மூலம், மேலும் மீள்தன்மை கொண்ட மென்பொருள் சூழலமைப்பை ஆதரிக்கும் எங்கள் பரந்த முயற்சியின் ஒரு பகுதியாகும்; இதில் ஆரம்பத்திலிருந்தே வலுவான தனியுரிமை மற்றும் பாதுகாப்பு பாதுகாப்புகளை செயல்படுத்த எளிதாக்கும் கருவிகள் மற்றும் மாடல்கள் அடங்கும்.
Privacy Filter என்பது அதிநவீன தனிப்பட்ட தரவு கண்டறிதல் திறன் கொண்ட சிறிய மாடல் ஆகும். இது உயர்-த்ரூபுட் தனியுரிமை பணிப்பாய்வுகளுக்காக வடிவமைக்கப்பட்டுள்ளது, மேலும் கட்டமைப்பற்ற உரையில் PII-ஐ சூழல் விழிப்புணர்வுடன் கண்டறிய முடியும். இது உள்ளூரில் இயங்க முடியும், இதன் பொருள் உங்கள் கணினியை விட்டு வெளியேறாமல் PII மறைக்கப்படலாம் அல்லது நீக்கப்படலாம். இது நீண்ட உள்ளீடுகளைத் திறமையாகச் செயலாக்கி, ஒரே முறையில் விரைவாகத் திருத்த முடிவுகளை எடுக்கிறது.
OpenAI-இல், எங்கள் தனியுரிமையைப் பாதுகாக்கும் பணிப்பாய்வுகளில் Privacy Filter-இன் நுணுக்கமாக ஒழுங்கமைக்கப்பட்ட பதிப்பைப் பயன்படுத்துகிறோம். சமீபத்திய AI திறன்களின் மூலம், சந்தையில் ஏற்கனவே இருந்தவற்றை விட மேலான தனியுரிமை தரநிலையை உருவாக்க முடியும் என்று நாங்கள் நம்பியதால் Privacy Filter-ஐ உருவாக்கினோம். இன்று நாங்கள் வெளியிடும் Privacy Filter பதிப்பு, மதிப்பீட்டின் போது நாங்கள் கண்டறிந்த குறிச்சொல் பிரச்சினைகளைச் சரிசெய்தபின், PII-Masking-300k பெஞ்ச்மார்க்கில் அதிநவீன செயல்திறனை அடைகிறது.
இந்த வெளியீட்டின் மூலம், டெவலப்பர்கள் Privacy Filter-ஐ தங்கள் சொந்த சூழல்களில் இயக்கலாம், அதை தங்கள் சொந்த பயன்பாட்டு நிகழ்வுகளுக்கேற்ப நன்றாகச் சரிசெய்யலாம், மேலும் பயிற்சி, அட்டவணைப்படுத்தல், பதிவேற்றம் மற்றும் மதிப்பாய்வு வரிசைகளில் வலுவான தனியுரிமைப் பாதுகாப்புகளை உருவாக்கலாம்.
நவீன AI அமைப்புகளில் தனியுரிமை பாதுகாப்பு என்பது வெறும் வடிவப் பொருத்தத்தை விட அதிகமானவற்றைச் சார்ந்துள்ளது. பாரம்பரிய PII கண்டறிதல் கருவிகள் பெரும்பாலும் தொலைபேசி எண்கள் மற்றும் மின்னஞ்சல் முகவரிகள் போன்ற வடிவங்களுக்கான தீர்மானமான விதிகளை நம்பியிருக்கின்றன. அவை குறுகிய பயன்பாட்டு நிகழ்வுகளுக்கு நன்றாகச் செயல்படக்கூடும், ஆனால் மேலும் நுட்பமான தனிப்பட்ட தகவல்களை அவை அடிக்கடி தவறவிடுகின்றன மற்றும் சூழலைப் புரிந்துகொள்வதிலும் சிரமப்படுகின்றன.
தனியுரிமை வடிகட்டி மேலும் நுணுக்கமான செயல்திறனுக்காக மேம்பட்ட மொழி மற்றும் சூழல் விழிப்புணர்வுடன் உருவாக்கப்பட்டுள்ளது. வலுவான மொழிப் புரிதலையும் தனியுரிமை-சார்ந்த லேபிளிங் அமைப்பையும் இணைப்பதன் மூலம், கட்டமைக்கப்படாத உரையில் உள்ள PII-யின் விரிவான வரம்பைக் கண்டறிய இது முடியும்; இதில், சரியான முடிவு சூழலைப் பொறுத்திருக்கும் நிகழ்வுகளும் அடங்கும். பொதுவானது என்பதால் பாதுகாக்கப்பட வேண்டிய தகவலையும், ஒரு தனிநபருடன் தொடர்புடையது என்பதால் மறைக்கப்படவோ அல்லது நீக்கப்படவோ வேண்டிய தகவலையும் இது மேலும் சிறப்பாக வேறுபடுத்திக் கண்டறிய முடியும்.
இதன் விளைவாக, அதிநவீன தனியுரிமை வடிகட்டல் செயல்திறனை வழங்கும் அளவுக்கு வலுவான ஒரு மாடல் உருவாகியுள்ளது. அதே நேரத்தில், இந்த மாடல் உள்ளூரில் இயக்கப்படக்கூடிய அளவுக்கு சிறியதாகவும் உள்ளது—அதாவது, இன்னும் வடிகட்டப்படாத தரவு, அடையாளநீக்கத்திற்காக சர்வருக்கு அனுப்பப்பட வேண்டியதற்குப் பதிலாக, வெளிப்படும் ஆபத்து குறைவாக சாதனத்திலேயே இருக்க முடியும்.
Privacy Filter என்பது ஸ்பேன் டிகோடிங்குடன் கூடிய இருதிசை டோக்கன்-வகைப்பாட்டு மாடல் ஆகும். இது, தானாகப் பயிற்சி பெற்ற ஒரு சரிபார்ப்புப் புள்ளியிலிருந்து தொடங்கி, பின்னர் தனியுரிமை அடையாளங்களின் ஒரு நிலையான வகைப்பாட்டின் மீது டோக்கன் வகைப்படுத்தியாக மாற்றியமைக்கப்படுகிறது. உரையை டோக்கன் டோக்கனாக உருவாக்குவதற்குப் பதிலாக, இது ஒரே முறையில் ஒரு உள்ளீட்டு தொடருக்கு லேபிள் இடுகிறது; பின்னர் கட்டுப்படுத்தப்பட்ட Viterbi செயல்முறையின் மூலம் ஒத்திசைவான பகுதிகளை டிகோடு செய்கிறது.
இந்த கட்டமைப்பு Privacy Filter-க்கு உற்பத்திப் பயன்பாட்டில் சில முக்கியமான பண்புகளை வழங்குகிறது:
- வேகமான மற்றும் திறமையான: அனைத்து டோக்கன்களும் ஒரே ஒரு forward pass இல் லேபிளிடப்படுகின்றன.
- சூழல் விழிப்புணர்வுடன்: மொழி முன்கூறு, சுற்றியுள்ள சூழலின் அடிப்படையில் PII span களை கண்டறிய உதவுகிறது.
- நீண்ட சூழல்: வெளியிடப்பட்ட மாடல் 128,000 டோக்கன் வரை சூழலை ஆதரிக்கிறது.
- மாற்றியமைக்கக்கூடியது: டெவலப்பர்கள் தங்கள் பணிப்பாய்வுக்கு ஏற்ப, மீட்டெடுப்பு மற்றும் துல்லியத்தன்மைக்கு இடையே சமநிலையை ஏற்படுத்திக்கொள்ளும் வகையில் இயக்கப் புள்ளிகளைச் சரிசெய்யலாம்.
வெளியிடப்பட்ட மாடலில் 1.5 பில்லியன் மொத்த அளவுருக்களும், 50 மில்லியன் செயலில் உள்ள அளவுருக்களும் உள்ளன.
Privacy Filter எட்டு வகைகளில் உள்ள பரப்புகளை கணிக்கிறது:
தனிப்பட்ட_நபர்தனிப்பட்ட_முகவரிதனிப்பட்ட மின்னஞ்சல்தனிப்பட்ட தொலைபேசிprivate_urlprivate_dateகணக்கு_எண்இரகசியம்
account_number வகை கிரெடிட் கார்டு எண்கள் மற்றும் வங்கி கணக்கு எண்கள் போன்ற வங்கி தகவல்களை மறைக்க உதவுகிறது, secret வகை கடவுச்சொற்கள் மற்றும் API கீக்கள் போன்றவற்றை மறைக்க உதவுகிறது.
இந்த லேபிள்கள் BIOES குறிச்சொற்களுடன் குறியீட்டுப் பிரிக்கப்படுகின்றன. இது மேலும் சுத்தமான மற்றும் ஒத்திசைவான மறைப்பு எல்லைகளை உருவாக்க உதவுகிறது.
எடுத்துக்காட்டு உரை
பொருள்: Q2 திட்டமிடல் தொடர்ச்சி
வணக்கம் ஜோர்டான்,
இன்று முன்னதாக சந்தித்ததற்கு மீண்டும் நன்றி. Q2 ரோல்அவுட்டிற்கான திருத்தப்பட்ட காலக்கட்டம் குறித்து தொடர்ச்சியாக எழுதுகிறேன்; தயாரிப்பு வெளியீடு 18.09.2026 அன்று திட்டமிடப்பட்டுள்ளது என்பதை உறுதிப்படுத்துகிறேன். குறிப்புக்காக, திட்டக் கோப்பு 4829-1037-5581 என்ற எண்ணின் கீழ் பட்டியலிடப்பட்டுள்ளது. உங்கள் தரப்பில் ஏதேனும் மாற்றம் இருந்தால், maya.chen@example.com இல் இங்கே தயங்காமல் பதிலளிக்கலாம் அல்லது +1 (415) 555-0124 என்ற எண்ணில் என்னை அழைக்கலாம்.
சிறந்தது,
Maya Chen
தனிப்பட்ட அடையாளங்களை மறைத்த பிறகான உரை
பொருள்: Q2 திட்டமிடல் தொடர்ச்சி
வணக்கம் [PRIVATE_PERSON],
இன்று முன்னதாக சந்தித்ததற்கு மீண்டும் நன்றி. Q2 வெளியீட்டிற்கான திருத்தப்பட்ட காலக்கட்டத்தைப் பகிர விரும்பினேன், மேலும் தயாரிப்பு அறிமுகம் [PRIVATE_DATE] அன்று திட்டமிடப்பட்டுள்ளது என்பதை உறுதிப்படுத்துகிறேன். குறிப்புக்காக, திட்டக் கோப்பு [ACCOUNT_NUMBER] இன் கீழ் பட்டியலிடப்பட்டுள்ளது. உங்கள் தரப்பில் ஏதேனும் மாற்றம் ஏற்பட்டால், [PRIVATE_EMAIL] என்ற முகவரியில் பதிலளிக்கவும் அல்லது [PRIVATE_PHONE] என்ற எண்ணில் அழைக்கவும்.
சிறந்தது,
[PRIVATE_PERSON]
Privacy Filter-ஐ பல கட்டங்களாக உருவாக்கினோம்.
முதலில், மாடல் கண்டறிய வேண்டிய ஸ்பான்களின் வகைகளை வரையறுக்கும் ஒரு தனியுரிமை வகைப்பாட்டை நாங்கள் உருவாக்கினோம். இதில் தனிப்பட்ட அடையாளத் தகவல்கள், தொடர்பு விவரங்கள், முகவரிகள், தனிப்பட்ட தேதிகள், கிரெடிட் மற்றும் வங்கி தகவல்கள் போன்ற பல்வேறு வகையான கணக்கு எண்கள், மேலும் API விசைகள் மற்றும் கடவுச்சொற்கள் போன்ற இரகசியங்கள் அடங்கும்.
இரண்டாவதாக, முன்பயிற்சி செய்யப்பட்ட மாடலை, லாங்க்வேஜ் மாடலிங் தலைப்பை டோக்கன் வகைப்படுத்தல் தலைப்பால் மாற்றி, மேற்பார்வையுடன் வகைப்படுத்தும் நோக்கத்திற்காக பிந்தைய பயிற்சியுடன் ஒரு இருதிசை டோக்கன் வகைப்படுத்தியாக மாற்றினோம்.
மூன்றாவதாக, யதார்த்தமான உரையையும் சிக்கலான தனியுரிமை வடிவங்களையும் உள்ளடக்கும் வகையில் வடிவமைக்கப்பட்ட, பொதுவாகக் கிடைக்கும் மற்றும் செயற்கையாக உருவாக்கப்பட்ட தரவுகளின் கலவையை கொண்டு நாங்கள் பயிற்சியளித்தோம். பொதுத் தரவின் சில பகுதிகளில் லேபல்கள் முழுமையற்றிருந்த இடங்களில், கவரேஜை மேம்படுத்த நாங்கள் மாடல்-உதவிய குறிப்பேற்றம் மற்றும் மதிப்பாய்வை பயன்படுத்தினோம். வடிவங்கள், சூழல்கள் மற்றும் தனியுரிமை துணைவகைகள் முழுவதும் பல்வகைமையை அதிகரிக்க, செயற்கையாக உருவாக்கப்பட்ட உதாரணங்களையும் நாங்கள் உருவாக்கினோம்.
அனுமான நேரத்தில், மாடலின் டோக்கன்-நிலை கணிப்புகள் கட்டுப்படுத்தப்பட்ட வரிசை டிகோடிங்கைப் பயன்படுத்தி ஒத்திசைவான பகுதிகளாக டிகோடு செய்யப்படுகின்றன. இந்த அணுகுமுறை, முன்பயிற்சி பெற்ற மாடலின் பரந்த மொழிப் புரிதலைப் பாதுகாத்து, அதை தனியுரிமை கண்டறிதலுக்காக சிறப்பாக அமைக்கிறது.
நிலையான அளவுகோல்களிலும், மேலும் மிகவும் கடினமான, சூழலுக்கு அதிக உணர்திறன் கொண்ட நிகழ்வுகளைச் சோதிப்பதற்காக வடிவமைக்கப்பட்ட கூடுதல் செயற்கை மற்றும் அரட்டை-பாணி மதிப்பீடுகளிலும் Privacy Filter ஐ நாங்கள் மதிப்பிட்டோம்.
PII-Masking-300k(புதிய சாளரத்தில் திறக்கும்) அளவுகோலில், Privacy Filter 96% என்ற F1 மதிப்பெண்ணை பெற்றுள்ளது (94.04% துல்லியம் மற்றும் 98.04% மீள்கூட்டல்). மதிப்பாய்வின் போது கண்டறியப்பட்ட தரவுத்தொகுப்பு குறிச்சொல் பிரச்சினைகளை கணக்கில் கொள்ளும் அளவுகோலின் சரிசெய்யப்பட்ட பதிப்பில், F1 மதிப்பெண் 97.43% ஆகும் (96.79% துல்லியம் மற்றும் 98.08% மீள்கூட்டல்).
மேலும், மாடல் திறம்பட மாற்றியமைக்கப்பட முடியும் என்பதை நாங்கள் கண்டறிந்தோம். சிறிய அளவிலான தரவில்கூட நுண் இசைவு செய்வது, குறிப்பிட்ட துறை சார்ந்த பணிகளில் துல்லியத்தை விரைவாக மேம்படுத்துகிறது; இதனால் F1 மதிப்பெண் 54% இலிருந்து 96% ஆக உயர்கிறது, மேலும் நாங்கள் மதிப்பீடு செய்த துறைத் தழுவல் தரஅளவுகோலில் நிறைவு நிலையை அணைகிறது.
அளவுகோல் செயல்திறனைத் தாண்டி, Privacy Filter என்பது இரைச்சலான, நிஜ உலக உரையில் நடைமுறை தனியுரிமை வடிகட்டலுக்காக வடிவமைக்கப்பட்டுள்ளது. அதில் நீண்ட ஆவணங்கள், தெளிவற்ற குறிப்புகள், கலப்பு-வடிவ சரங்கள், மற்றும் மென்பொருள் தொடர்பான ரகசியங்கள் ஆகியவை அடங்கும். மாடல் கார்ட் (புதிய சாளரத்தில் திறக்கும்)குறியீட்டுத் தளங்களில் ரகசியக் கண்டறிதல் குறித்த இலக்குவைத்த மதிப்பீட்டையும், பன்மொழி, எதிர்மறை மற்றும் சூழல் சார்ந்த எடுத்துக்காட்டுகளிலான அழுத்தச் சோதனைகளையும் அறிக்கையிடுகிறது.
Privacy Filter என்பது அடையாளத்தை மறைக்கும் கருவியோ, இணக்கச் சான்றிதழோ, அல்லது முக்கியத்துவம் வாய்ந்த சூழல்களில் கொள்கை மறுஆய்வுக்கு மாற்றானதோ அல்ல. இது ஒரு பரந்த வடிவமைப்பு மூலம் தனியுரிமை அமைப்பின் ஒரு கூறாகும்.
அதன் நடத்தை, அதற்கு பயிற்சி அளிக்கப்பட்ட குறிச்சொல் வகைபிரித்தல் மற்றும் தீர்மான எல்லைகளை பிரதிபலிக்கிறது. வெவ்வேறு நிறுவனங்கள் வெவ்வேறு கண்டறிதல் அல்லது மறைத்தல் கொள்கைகளை விரும்பக்கூடும், மேலும் அந்தக் கொள்கைகளுக்கு குறிப்பிட்ட துறை சார்ந்த மதிப்பீடு அல்லது மேலும் நுணுக்கமாகச் செம்மைப்படுத்துதல் தேவைப்படக்கூடும். பயிற்சித் தரவுப் பகிர்விலிருந்து மாறுபடும் மொழிகள், எழுத்துமுறைகள், பெயரிடும் மரபுகள் மற்றும் துறைகளைப் பொறுத்தும் செயல்திறன் மாறுபடக்கூடும்.
அனைத்து மாடல்களைப் போல, Privacy Filter தவறுகள் செய்யக்கூடும். அரிதாகப் பயன்படுத்தப்படும் அடையாளங்காட்டிகள் அல்லது தெளிவற்ற தனிப்பட்ட குறிப்புகளை இது தவறவிடக்கூடும்; மேலும், சூழல் குறைவாக இருக்கும்போது, குறிப்பாக குறுகிய தொடர்களில், உருப்படிகளை அளவுக்கு அதிகமாகவோ அல்லது குறைவாகவோ மறைக்கலாம். சட்ட, மருத்துவ மற்றும் நிதி பணிப்பாய்வுகள் போன்ற அதிக உணர்திறன் கொண்ட துறைகளில், மனித மதிப்பாய்வும் துறைசார் மதிப்பீடும் நுணுக்கச் சரிசெய்தலும் தொடர்ந்து முக்கியமானவையாக உள்ளன.
சூழலமைப்பு முழுவதும் வலுவான தனியுரிமைப் பாதுகாப்புகளை ஆதரிக்க OpenAI தனியுரிமை வடிகட்டியை நாங்கள் வெளியிடுகிறோம்.
இந்த மாடல் இன்று Apache 2.0 உரிமத்தின் கீழ் Hugging Face(புதிய சாளரத்தில் திறக்கும்) மற்றும் Github(புதிய சாளரத்தில் திறக்கும்) இல் கிடைக்கிறது. இது பரிசோதனை, தனிப்பயனாக்கம், மற்றும் வணிகப் பயன்பாட்டிற்கான நிறுவலுக்காக வடிவமைக்கப்பட்டுள்ளது, மேலும் இது வெவ்வேறு தரவு விநியோகங்கள் மற்றும் பிரைவசி பாலிசிகளுக்காக நுணுக்கமாக இசைவாக்கப்படலாம்.
மாடலுடன் சேர்ந்து, மாடல் கட்டமைப்பு, லேபல் வகைப்பாடு, டிகோடிங் கட்டுப்பாடுகள், நோக்கமிடப்பட்ட பயன்பாடுகள், மதிப்பீட்டு அமைப்பு மற்றும் அறியப்பட்ட வரம்புகள் ஆகியவற்றை உள்ளடக்கிய ஆவணங்களை நாங்கள் பகிர்கிறோம். இதனால், மாடல் எதில் சிறப்பாக செயல்படுகிறது என்பதையும், எங்கு அதை கவனமாக பயன்படுத்த வேண்டும் என்பதையும் குழுக்கள் தெளிவாக புரிந்துகொள்ள முடியும்.
AI அமைப்புகளுக்கு தனியுரிமை பாதுகாப்பு என்பது ஆராய்ச்சி, தயாரிப்பு வடிவமைப்பு, மதிப்பீடு மற்றும் செயல்படுத்தல் ஆகிய துறைகளில் தொடர்ச்சியான முயற்சியாகும்.
Privacy Filter என்பது, நிஜ உலக AI அமைப்புகளுக்கு முக்கியமான, குறுகிய வகையில் வரையறுக்கப்பட்ட பணிகளில் அதிநவீன திறன் கொண்ட சிறிய, திறன்மிக்க மாடல்கள் என்ற நாங்கள் முக்கியமானதாக நம்பும் ஒரு திசையை பிரதிபலிக்கிறது. தனியுரிமையைப் பாதுகாக்கும் உள்கட்டமைப்பை ஆய்வு, இயக்கம், மாற்றம் மற்றும் மேம்பாடு ஆகியவற்றை எளிதாகச் செய்ய முடியும் என்பதால், இதை வெளியிடுகிறோம்.
எங்கள் நோக்கம் மாடல்கள் உலகத்தைப் பற்றி கற்றுக்கொள்வதே, தனிப்பட்ட நபர்களைப் பற்றி அல்ல. Privacy Filter அதைச் சாத்தியமாக்க உதவுகிறது.
ஆராய்ச்சி மற்றும் தனியுரிமை சமூகத்திடமிருந்து கருத்துக்களைப் பெறுவதற்கும், மாடலின் செயல்திறனை மேலும் மேம்படுத்துவதற்கும் தனியுரிமை வடிகட்டியின் (Privacy Filter) இந்த முன்னோட்டத்தை நாங்கள் வெளியிடுகிறோம்.


