முக்கிய உள்ளடக்கத்திற்கு செல்க
OpenAI

OpenAI Privacy Filter-ஐ அறிமுகப்படுத்துகிறோம்

உரையில் தனிப்பட்ட அடையாளத் தகவல்களை (PII) மறைப்பதற்கான எங்களின் அதிநவீன மாடல்

ஏற்றுகிறது…

இன்று, உரையில் தனிநபரை அடையாளம் காணக்கூடிய தகவல்களை (PII) கண்டறிந்து மறைப்பதற்கான ஓபன் வேயிட் மாடல்கள் OpenAI Privacy Filter-ஐ நாங்கள் வெளியிடுகிறோம். இந்த வெளியீடு, டெவலப்பர்களுக்கு AI-யை பாதுகாப்பாக உருவாக்குவதற்கான நடைமுறை அடிக்கட்டமைப்பை வழங்குவதன் மூலம், மேலும் மீள்தன்மை கொண்ட மென்பொருள் சூழலமைப்பை ஆதரிக்கும் எங்கள் பரந்த முயற்சியின் ஒரு பகுதியாகும்; இதில் ஆரம்பத்திலிருந்தே வலுவான தனியுரிமை மற்றும் பாதுகாப்பு பாதுகாப்புகளை செயல்படுத்த எளிதாக்கும் கருவிகள் மற்றும் மாடல்கள் அடங்கும்.

Privacy Filter என்பது அதிநவீன தனிப்பட்ட தரவு கண்டறிதல் திறன் கொண்ட சிறிய மாடல் ஆகும். இது உயர்-த்ரூபுட் தனியுரிமை பணிப்பாய்வுகளுக்காக வடிவமைக்கப்பட்டுள்ளது, மேலும் கட்டமைப்பற்ற உரையில் PII-ஐ சூழல் விழிப்புணர்வுடன் கண்டறிய முடியும். இது உள்ளூரில் இயங்க முடியும், இதன் பொருள் உங்கள் கணினியை விட்டு வெளியேறாமல் PII மறைக்கப்படலாம் அல்லது நீக்கப்படலாம். இது நீண்ட உள்ளீடுகளைத் திறமையாகச் செயலாக்கி, ஒரே முறையில் விரைவாகத் திருத்த முடிவுகளை எடுக்கிறது.

OpenAI-இல், எங்கள் தனியுரிமையைப் பாதுகாக்கும் பணிப்பாய்வுகளில் Privacy Filter-இன் நுணுக்கமாக ஒழுங்கமைக்கப்பட்ட பதிப்பைப் பயன்படுத்துகிறோம். சமீபத்திய AI திறன்களின் மூலம், சந்தையில் ஏற்கனவே இருந்தவற்றை விட மேலான தனியுரிமை தரநிலையை உருவாக்க முடியும் என்று நாங்கள் நம்பியதால் Privacy Filter-ஐ உருவாக்கினோம். இன்று நாங்கள் வெளியிடும் Privacy Filter பதிப்பு, மதிப்பீட்டின் போது நாங்கள் கண்டறிந்த குறிச்சொல் பிரச்சினைகளைச் சரிசெய்தபின், PII-Masking-300k பெஞ்ச்மார்க்கில் அதிநவீன செயல்திறனை அடைகிறது.

இந்த வெளியீட்டின் மூலம், டெவலப்பர்கள் Privacy Filter-ஐ தங்கள் சொந்த சூழல்களில் இயக்கலாம், அதை தங்கள் சொந்த பயன்பாட்டு நிகழ்வுகளுக்கேற்ப நன்றாகச் சரிசெய்யலாம், மேலும் பயிற்சி, அட்டவணைப்படுத்தல், பதிவேற்றம் மற்றும் மதிப்பாய்வு வரிசைகளில் வலுவான தனியுரிமைப் பாதுகாப்புகளை உருவாக்கலாம்.

அதிநவீன தனிப்பட்ட தரவைக் கண்டறியும் திறன் கொண்ட சிறிய மாடல்

நவீன AI அமைப்புகளில் தனியுரிமை பாதுகாப்பு என்பது வெறும் வடிவப் பொருத்தத்தை விட அதிகமானவற்றைச் சார்ந்துள்ளது. பாரம்பரிய PII கண்டறிதல் கருவிகள் பெரும்பாலும் தொலைபேசி எண்கள் மற்றும் மின்னஞ்சல் முகவரிகள் போன்ற வடிவங்களுக்கான தீர்மானமான விதிகளை நம்பியிருக்கின்றன. அவை குறுகிய பயன்பாட்டு நிகழ்வுகளுக்கு நன்றாகச் செயல்படக்கூடும், ஆனால் மேலும் நுட்பமான தனிப்பட்ட தகவல்களை அவை அடிக்கடி தவறவிடுகின்றன மற்றும் சூழலைப் புரிந்துகொள்வதிலும் சிரமப்படுகின்றன.

தனியுரிமை வடிகட்டி மேலும் நுணுக்கமான செயல்திறனுக்காக மேம்பட்ட மொழி மற்றும் சூழல் விழிப்புணர்வுடன் உருவாக்கப்பட்டுள்ளது. வலுவான மொழிப் புரிதலையும் தனியுரிமை-சார்ந்த லேபிளிங் அமைப்பையும் இணைப்பதன் மூலம், கட்டமைக்கப்படாத உரையில் உள்ள PII-யின் விரிவான வரம்பைக் கண்டறிய இது முடியும்; இதில், சரியான முடிவு சூழலைப் பொறுத்திருக்கும் நிகழ்வுகளும் அடங்கும். பொதுவானது என்பதால் பாதுகாக்கப்பட வேண்டிய தகவலையும், ஒரு தனிநபருடன் தொடர்புடையது என்பதால் மறைக்கப்படவோ அல்லது நீக்கப்படவோ வேண்டிய தகவலையும் இது மேலும் சிறப்பாக வேறுபடுத்திக் கண்டறிய முடியும்.

இதன் விளைவாக, அதிநவீன தனியுரிமை வடிகட்டல் செயல்திறனை வழங்கும் அளவுக்கு வலுவான ஒரு மாடல் உருவாகியுள்ளது. அதே நேரத்தில், இந்த மாடல் உள்ளூரில் இயக்கப்படக்கூடிய அளவுக்கு சிறியதாகவும் உள்ளது—அதாவது, இன்னும் வடிகட்டப்படாத தரவு, அடையாளநீக்கத்திற்காக சர்வருக்கு அனுப்பப்பட வேண்டியதற்குப் பதிலாக, வெளிப்படும் ஆபத்து குறைவாக சாதனத்திலேயே இருக்க முடியும். 

மாடல் மேலோட்டம்

Privacy Filter என்பது ஸ்பேன் டிகோடிங்குடன் கூடிய இருதிசை டோக்கன்-வகைப்பாட்டு மாடல் ஆகும். இது, தானாகப் பயிற்சி பெற்ற ஒரு சரிபார்ப்புப் புள்ளியிலிருந்து தொடங்கி, பின்னர் தனியுரிமை அடையாளங்களின் ஒரு நிலையான வகைப்பாட்டின் மீது டோக்கன் வகைப்படுத்தியாக மாற்றியமைக்கப்படுகிறது. உரையை டோக்கன் டோக்கனாக உருவாக்குவதற்குப் பதிலாக, இது ஒரே முறையில் ஒரு உள்ளீட்டு தொடருக்கு லேபிள் இடுகிறது; பின்னர் கட்டுப்படுத்தப்பட்ட Viterbi செயல்முறையின் மூலம் ஒத்திசைவான பகுதிகளை டிகோடு செய்கிறது.

இந்த கட்டமைப்பு Privacy Filter-க்கு உற்பத்திப் பயன்பாட்டில் சில முக்கியமான பண்புகளை வழங்குகிறது:

  • வேகமான மற்றும் திறமையான: அனைத்து டோக்கன்களும் ஒரே ஒரு forward pass இல் லேபிளிடப்படுகின்றன.
  • சூழல் விழிப்புணர்வுடன்: மொழி முன்கூறு, சுற்றியுள்ள சூழலின் அடிப்படையில் PII span களை கண்டறிய உதவுகிறது.
  • நீண்ட சூழல்: வெளியிடப்பட்ட மாடல் 128,000 டோக்கன் வரை சூழலை ஆதரிக்கிறது.
  • மாற்றியமைக்கக்கூடியது: டெவலப்பர்கள் தங்கள் பணிப்பாய்வுக்கு ஏற்ப, மீட்டெடுப்பு மற்றும் துல்லியத்தன்மைக்கு இடையே சமநிலையை ஏற்படுத்திக்கொள்ளும் வகையில் இயக்கப் புள்ளிகளைச் சரிசெய்யலாம்.

வெளியிடப்பட்ட மாடலில் 1.5 பில்லியன் மொத்த அளவுருக்களும், 50 மில்லியன் செயலில் உள்ள அளவுருக்களும் உள்ளன.

Privacy Filter எட்டு வகைகளில் உள்ள பரப்புகளை கணிக்கிறது:

  • தனிப்பட்ட_நபர்
  • தனிப்பட்ட_முகவரி
  • தனிப்பட்ட மின்னஞ்சல்
  • தனிப்பட்ட தொலைபேசி
  • private_url
  • private_date
  • கணக்கு_எண்
  • இரகசியம்

account_number வகை கிரெடிட் கார்டு எண்கள் மற்றும் வங்கி கணக்கு எண்கள் போன்ற வங்கி தகவல்களை மறைக்க உதவுகிறது, secret வகை கடவுச்சொற்கள் மற்றும் API கீக்கள் போன்றவற்றை மறைக்க உதவுகிறது.

இந்த லேபிள்கள் BIOES குறிச்சொற்களுடன் குறியீட்டுப் பிரிக்கப்படுகின்றன. இது மேலும் சுத்தமான மற்றும் ஒத்திசைவான மறைப்பு எல்லைகளை உருவாக்க உதவுகிறது.

எடுத்துக்காட்டு உரை

பொருள்: Q2 திட்டமிடல் தொடர்ச்சி

வணக்கம் ஜோர்டான்,

இன்று முன்னதாக சந்தித்ததற்கு மீண்டும் நன்றி. Q2 ரோல்அவுட்டிற்கான திருத்தப்பட்ட காலக்கட்டம் குறித்து தொடர்ச்சியாக எழுதுகிறேன்; தயாரிப்பு வெளியீடு 18.09.2026 அன்று திட்டமிடப்பட்டுள்ளது என்பதை உறுதிப்படுத்துகிறேன். குறிப்புக்காக, திட்டக் கோப்பு 4829-1037-5581 என்ற எண்ணின் கீழ் பட்டியலிடப்பட்டுள்ளது. உங்கள் தரப்பில் ஏதேனும் மாற்றம் இருந்தால், maya.chen@example.com இல் இங்கே தயங்காமல் பதிலளிக்கலாம் அல்லது +1 (415) 555-0124 என்ற எண்ணில் என்னை அழைக்கலாம்.

சிறந்தது,

Maya Chen

தனிப்பட்ட அடையாளங்களை மறைத்த பிறகான உரை

பொருள்: Q2 திட்டமிடல் தொடர்ச்சி

வணக்கம் [PRIVATE_PERSON],

இன்று முன்னதாக சந்தித்ததற்கு மீண்டும் நன்றி. Q2 வெளியீட்டிற்கான திருத்தப்பட்ட காலக்கட்டத்தைப் பகிர விரும்பினேன், மேலும் தயாரிப்பு அறிமுகம் [PRIVATE_DATE] அன்று திட்டமிடப்பட்டுள்ளது என்பதை உறுதிப்படுத்துகிறேன். குறிப்புக்காக, திட்டக் கோப்பு [ACCOUNT_NUMBER] இன் கீழ் பட்டியலிடப்பட்டுள்ளது. உங்கள் தரப்பில் ஏதேனும் மாற்றம் ஏற்பட்டால், [PRIVATE_EMAIL] என்ற முகவரியில் பதிலளிக்கவும் அல்லது [PRIVATE_PHONE] என்ற எண்ணில் அழைக்கவும்.

சிறந்தது,

[PRIVATE_PERSON]

நாங்கள் அதை எவ்வாறு உருவாக்கினோம்

Privacy Filter-ஐ பல கட்டங்களாக உருவாக்கினோம்.

முதலில், மாடல் கண்டறிய வேண்டிய ஸ்பான்களின் வகைகளை வரையறுக்கும் ஒரு தனியுரிமை வகைப்பாட்டை நாங்கள் உருவாக்கினோம். இதில் தனிப்பட்ட அடையாளத் தகவல்கள், தொடர்பு விவரங்கள், முகவரிகள், தனிப்பட்ட தேதிகள், கிரெடிட் மற்றும் வங்கி தகவல்கள் போன்ற பல்வேறு வகையான கணக்கு எண்கள், மேலும் API விசைகள் மற்றும் கடவுச்சொற்கள் போன்ற இரகசியங்கள் அடங்கும்.

இரண்டாவதாக, முன்பயிற்சி செய்யப்பட்ட மாடலை, லாங்க்வேஜ் மாடலிங் தலைப்பை டோக்கன் வகைப்படுத்தல் தலைப்பால் மாற்றி, மேற்பார்வையுடன் வகைப்படுத்தும் நோக்கத்திற்காக பிந்தைய பயிற்சியுடன் ஒரு இருதிசை டோக்கன் வகைப்படுத்தியாக மாற்றினோம். 

மூன்றாவதாக, யதார்த்தமான உரையையும் சிக்கலான தனியுரிமை வடிவங்களையும் உள்ளடக்கும் வகையில் வடிவமைக்கப்பட்ட, பொதுவாகக் கிடைக்கும் மற்றும் செயற்கையாக உருவாக்கப்பட்ட தரவுகளின் கலவையை கொண்டு நாங்கள் பயிற்சியளித்தோம். பொதுத் தரவின் சில பகுதிகளில் லேபல்கள் முழுமையற்றிருந்த இடங்களில், கவரேஜை மேம்படுத்த நாங்கள் மாடல்-உதவிய குறிப்பேற்றம் மற்றும் மதிப்பாய்வை பயன்படுத்தினோம். வடிவங்கள், சூழல்கள் மற்றும் தனியுரிமை துணைவகைகள் முழுவதும் பல்வகைமையை அதிகரிக்க, செயற்கையாக உருவாக்கப்பட்ட உதாரணங்களையும் நாங்கள் உருவாக்கினோம்.

அனுமான நேரத்தில், மாடலின் டோக்கன்-நிலை கணிப்புகள் கட்டுப்படுத்தப்பட்ட வரிசை டிகோடிங்கைப் பயன்படுத்தி ஒத்திசைவான பகுதிகளாக டிகோடு செய்யப்படுகின்றன. இந்த அணுகுமுறை, முன்பயிற்சி பெற்ற மாடலின் பரந்த மொழிப் புரிதலைப் பாதுகாத்து, அதை தனியுரிமை கண்டறிதலுக்காக சிறப்பாக அமைக்கிறது.

Privacy Filter எவ்வாறு செயல்படும்

நிலையான அளவுகோல்களிலும், மேலும் மிகவும் கடினமான, சூழலுக்கு அதிக உணர்திறன் கொண்ட நிகழ்வுகளைச் சோதிப்பதற்காக வடிவமைக்கப்பட்ட கூடுதல் செயற்கை மற்றும் அரட்டை-பாணி மதிப்பீடுகளிலும் Privacy Filter ஐ நாங்கள் மதிப்பிட்டோம்.

PII-Masking-300k(புதிய சாளரத்தில் திறக்கும்) அளவுகோலில், Privacy Filter 96% என்ற F1 மதிப்பெண்ணை பெற்றுள்ளது (94.04% துல்லியம் மற்றும் 98.04% மீள்கூட்டல்). மதிப்பாய்வின் போது கண்டறியப்பட்ட தரவுத்தொகுப்பு குறிச்சொல் பிரச்சினைகளை கணக்கில் கொள்ளும் அளவுகோலின் சரிசெய்யப்பட்ட பதிப்பில், F1 மதிப்பெண் 97.43% ஆகும் (96.79% துல்லியம் மற்றும் 98.08% மீள்கூட்டல்).

மேலும், மாடல் திறம்பட மாற்றியமைக்கப்பட முடியும் என்பதை நாங்கள் கண்டறிந்தோம். சிறிய அளவிலான தரவில்கூட நுண் இசைவு செய்வது, குறிப்பிட்ட துறை சார்ந்த பணிகளில் துல்லியத்தை விரைவாக மேம்படுத்துகிறது; இதனால் F1 மதிப்பெண் 54% இலிருந்து 96% ஆக உயர்கிறது, மேலும் நாங்கள் மதிப்பீடு செய்த துறைத் தழுவல் தரஅளவுகோலில் நிறைவு நிலையை அணைகிறது.

அளவுகோல் செயல்திறனைத் தாண்டி, Privacy Filter என்பது இரைச்சலான, நிஜ உலக உரையில் நடைமுறை தனியுரிமை வடிகட்டலுக்காக வடிவமைக்கப்பட்டுள்ளது. அதில் நீண்ட ஆவணங்கள், தெளிவற்ற குறிப்புகள், கலப்பு-வடிவ சரங்கள், மற்றும் மென்பொருள் தொடர்பான ரகசியங்கள் ஆகியவை அடங்கும். மாடல் கார்ட் (புதிய சாளரத்தில் திறக்கும்)குறியீட்டுத் தளங்களில் ரகசியக் கண்டறிதல் குறித்த இலக்குவைத்த மதிப்பீட்டையும், பன்மொழி, எதிர்மறை மற்றும் சூழல் சார்ந்த எடுத்துக்காட்டுகளிலான அழுத்தச் சோதனைகளையும் அறிக்கையிடுகிறது.

வரம்புகள்

Privacy Filter என்பது அடையாளத்தை மறைக்கும் கருவியோ, இணக்கச் சான்றிதழோ, அல்லது முக்கியத்துவம் வாய்ந்த சூழல்களில் கொள்கை மறுஆய்வுக்கு மாற்றானதோ அல்ல. இது ஒரு பரந்த வடிவமைப்பு மூலம் தனியுரிமை அமைப்பின் ஒரு கூறாகும்.

அதன் நடத்தை, அதற்கு பயிற்சி அளிக்கப்பட்ட குறிச்சொல் வகைபிரித்தல் மற்றும் தீர்மான எல்லைகளை பிரதிபலிக்கிறது. வெவ்வேறு நிறுவனங்கள் வெவ்வேறு கண்டறிதல் அல்லது மறைத்தல் கொள்கைகளை விரும்பக்கூடும், மேலும் அந்தக் கொள்கைகளுக்கு குறிப்பிட்ட துறை சார்ந்த மதிப்பீடு அல்லது மேலும் நுணுக்கமாகச் செம்மைப்படுத்துதல் தேவைப்படக்கூடும். பயிற்சித் தரவுப் பகிர்விலிருந்து மாறுபடும் மொழிகள், எழுத்துமுறைகள், பெயரிடும் மரபுகள் மற்றும் துறைகளைப் பொறுத்தும் செயல்திறன் மாறுபடக்கூடும்.

அனைத்து மாடல்களைப் போல, Privacy Filter தவறுகள் செய்யக்கூடும். அரிதாகப் பயன்படுத்தப்படும் அடையாளங்காட்டிகள் அல்லது தெளிவற்ற தனிப்பட்ட குறிப்புகளை இது தவறவிடக்கூடும்; மேலும், சூழல் குறைவாக இருக்கும்போது, குறிப்பாக குறுகிய தொடர்களில், உருப்படிகளை அளவுக்கு அதிகமாகவோ அல்லது குறைவாகவோ மறைக்கலாம். சட்ட, மருத்துவ மற்றும் நிதி பணிப்பாய்வுகள் போன்ற அதிக உணர்திறன் கொண்ட துறைகளில், மனித மதிப்பாய்வும் துறைசார் மதிப்பீடும் நுணுக்கச் சரிசெய்தலும் தொடர்ந்து முக்கியமானவையாக உள்ளன.

கிடைக்கும் தன்மை

சூழலமைப்பு முழுவதும் வலுவான தனியுரிமைப் பாதுகாப்புகளை ஆதரிக்க OpenAI தனியுரிமை வடிகட்டியை நாங்கள் வெளியிடுகிறோம்.

இந்த மாடல் இன்று Apache 2.0 உரிமத்தின் கீழ் Hugging Face(புதிய சாளரத்தில் திறக்கும்) மற்றும் Github(புதிய சாளரத்தில் திறக்கும்) இல் கிடைக்கிறது. இது பரிசோதனை, தனிப்பயனாக்கம், மற்றும் வணிகப் பயன்பாட்டிற்கான நிறுவலுக்காக வடிவமைக்கப்பட்டுள்ளது, மேலும் இது வெவ்வேறு தரவு விநியோகங்கள் மற்றும் பிரைவசி பாலிசிகளுக்காக நுணுக்கமாக இசைவாக்கப்படலாம்.

மாடலுடன் சேர்ந்து, மாடல் கட்டமைப்பு, லேபல் வகைப்பாடு, டிகோடிங் கட்டுப்பாடுகள், நோக்கமிடப்பட்ட பயன்பாடுகள், மதிப்பீட்டு அமைப்பு மற்றும் அறியப்பட்ட வரம்புகள் ஆகியவற்றை உள்ளடக்கிய ஆவணங்களை நாங்கள் பகிர்கிறோம். இதனால், மாடல் எதில் சிறப்பாக செயல்படுகிறது என்பதையும், எங்கு அதை கவனமாக பயன்படுத்த வேண்டும் என்பதையும் குழுக்கள் தெளிவாக புரிந்துகொள்ள முடியும்.

எதிர்கால நோக்கு

AI அமைப்புகளுக்கு தனியுரிமை பாதுகாப்பு என்பது ஆராய்ச்சி, தயாரிப்பு வடிவமைப்பு, மதிப்பீடு மற்றும் செயல்படுத்தல் ஆகிய துறைகளில் தொடர்ச்சியான முயற்சியாகும்.

Privacy Filter என்பது, நிஜ உலக AI அமைப்புகளுக்கு முக்கியமான, குறுகிய வகையில் வரையறுக்கப்பட்ட பணிகளில் அதிநவீன திறன் கொண்ட சிறிய, திறன்மிக்க மாடல்கள் என்ற நாங்கள் முக்கியமானதாக நம்பும் ஒரு திசையை பிரதிபலிக்கிறது. தனியுரிமையைப் பாதுகாக்கும் உள்கட்டமைப்பை ஆய்வு, இயக்கம், மாற்றம் மற்றும் மேம்பாடு ஆகியவற்றை எளிதாகச் செய்ய முடியும் என்பதால், இதை வெளியிடுகிறோம்.

எங்கள் நோக்கம் மாடல்கள் உலகத்தைப் பற்றி கற்றுக்கொள்வதே, தனிப்பட்ட நபர்களைப் பற்றி அல்ல. Privacy Filter அதைச் சாத்தியமாக்க உதவுகிறது.

ஆராய்ச்சி மற்றும் தனியுரிமை சமூகத்திடமிருந்து கருத்துக்களைப் பெறுவதற்கும், மாடலின் செயல்திறனை மேலும் மேம்படுத்துவதற்கும் தனியுரிமை வடிகட்டியின் (Privacy Filter) இந்த முன்னோட்டத்தை நாங்கள் வெளியிடுகிறோம்.